Thursday, July 23, 2015

Algorithms for DNA Sequencing 001

ExSan++
                                                        Thu Jul 23 09:53:12 2015
    exsan.plusplus@gmail.com   https://twitter.com/#!/ExSan_com
    JOB:  basic_dna_5312

    Data File:  c:\exsan\exsan_data\DNA_FA_0001.txt

    1st_line TAAACAAGCAGTAGTAATTCCTGCTTTATCAAGATAATTTTTCGACTCATCAGAAATATCCGAAAGTGTTAACTTCTGCGTCATGGAAGCGATAAAACTC

    size strand 100

    total strands 1000

    last_line B@DFEFFFGEGGGFGHHHGGFGFGFIHGEGEHGHHGHGGEHBHF@HCIHEHEGHGGGCFGGBHHIHHGHFHHFGDJJDGIFHGKHGGFG>GHDFIFGEED

    size strand 100

    Basis
    WORKSHEET A[10, 10] CHAR
         A  B  C  D  E  F  G  H  I  J
         >------------------------------<
      1: T  A  A  A  C  A  A  G  C  A
      2: G  T  A  G  T  A  A  T  T  C
      3: C  T  G  C  T  T  T  A  T  C
      4: A  A  G  A  T  A  A  T  T  T
      5: T  T  C  G  A  C  T  C  A  T
      6: C  A  G  A  A  A  T  A  T  C
      7: C  G  A  A  A  G  T  G  T  T
      8: A  A  C  T  T  C  T  G  C  G
      9: T  C  A  T  G  G  A  A  G  C
     10: G  A  T  A  A  A  A  C  T  C
         <------------------------------>

    WORKSHEET B[10, 10] CHAR
         A  B  C  D  E  F  G  H  I  J
         >------------------------------<
      1: A  A  C  A  A  G  C  A  G  T
      2: A  G  T  A  A  T  T  C  C  T
      3: G  C  T  T  T  A  T  C  A  A
      4: G  A  T  A  A  T  T  T  T  T
      5: C  G  A  C  T  C  A  T  C  A
      6: G  A  A  A  T  A  T  A  C  G
      7: A  A  A  G  T  G  T  T  A  A
      8: C  T  T  C  T  G  C  G  T  C
      9: A  T  G  G  A  C  A  C  G  A
     10: A  A  A  A  A  C  T  C  C  C
         <------------------------------>

    WORKSHEET 999[10, 10]
         A  B  C  D  E  F  G  H  I  J
         >------------------------------<
      1: G  C  G  G  C  G  C  A  A  C
      2: C  T  G  T  G  A  C  G  A  C
      3: A  A  A  T  C  T  G  C  T  C
      4: A  A  A  T  T  T  A  T  G  C
      5: G  C  G  C  T  T  C  G  A  T
      6: A  A  A  A  A  T  G  A  T  T
      7: G  G  C  G  T  A  T  C  C  A
      8: A  C  C  T  G  C  A  G  A  G
      9: T  T  T  T  A  T  C  G  C  T
     10: T  C  C  A  T  G  A  C  G  C
         <------------------------------>

    WORKSHEET 1000[10, 10]
         A  B  C  D  E  F  G  H  I  J
         >------------------------------<
      1: C  G  A  G  C  T  G  C  G  C
      2: A  A  G  G  A  T  A  G  G  T
      3: C  G  A  A  T  T  T  T  C  T
      4: C  A  T  T  T  T  C  C  G  C
      5: C  A  G  C  A  G  T  C  C  A
      6: C  T  T  C  G  A  T  T  T  A
      7: A  T  T  C  G  T  A  A  A  C
      8: A  A  G  C  A  G  T  A  G  T
      9: A  A  T  T  C  C  T  G  C  T
     10: T  T  A  T  C  A  A  G  A  T
         <------------------------------>

    Qualities
    WORKSHEET A[10, 10] PIX
          A   B   C   D   E   F   G   H   I   J
         >------------------------------<
      1: 33  31  35  37  36  37  37  37  38  36
      2: 38  38  38  39  36  39  38  39  38  39
      3: 38  38  38  38  39  40  37  38  37  40
      4: 37  39  40  34  37  38  39  38  39  38
      5: 41  38  39  37  38  39  38  40  39  36
      6: 39  38  38  39  41  38  37  36  37  39
      7: 38  39  36  38  38  39  39  38  39  40
      8: 37  38  37  38  35  40  37  38  38  37
      9: 38  38  38  37  39  38  38  38  39  38
     10: 38  38  32  38  40  37  38  38  34  38
         <------------------------------>

    WORKSHEET B[10, 10] PIX
          A   B   C   D   E   F   G   H   I   J
         >------------------------------<
      1: 28  31  31  34  36  33  37  31  33  38
      2: 33  38  21  38  37  16  36  27  15  19
      3: 34  18  36  22  36  13  24  38  28  39
      4: 27  39  25  39  39  26  39  33  39  26
      5: 38  21  24  37  22  11  22  35  38   7
      6:  7  36  38  23  32  23  11  12  20  12
      7: 23  11  30  11  11  11  32  36  29  34
      8: 11  33  30  11  11  11  21  19   3  32
      9: 34   6  10   6  28   6  10  19   6  18
     10:  9  19  10  36  18  17  17   9   6   7
         <------------------------------>

    WORKSHEET 999[10, 10]
          A   B   C   D   E   F   G   H   I   J
         >------------------------------<
      1: 14  31  35  34  31  33  37  35  38  33
      2: 38  31  38  21  36  29  32  33  38  39
      3: 38  37  37  38  35  40  38  38  37  37
      4: 36  39  37  35  39  38  11  37  33  36
      5: 38  34  36  35  31  39  38  37  39  36
      6: 32  36  35  39  38  38  22  33  37  32
      7: 23  22  30  38  22  30  37  36  35  37
      8: 39  29  35  38  21  40  33  38  38  37
      9: 19  34  38  29  34  38  38  36  35  35
     10: 38  38  38  17  18  24  30  34  26  31
         <------------------------------>

    WORKSHEET 1000[10, 10]
          A   B   C   D   E   F   G   H   I   J
         >------------------------------<
      1: 33  31  35  37  36  37  37  37  38  36
      2: 38  38  38  37  38  39  39  39  38  38
      3: 37  38  37  38  37  40  39  38  36  38
      4: 36  39  38  39  39  38  39  38  38  36
      5: 39  33  39  37  31  39  34  40  39  36
      6: 39  36  38  39  38  38  38  34  37  38
      7: 38  33  39  39  40  39  39  38  39  37
      8: 39  39  37  38  35  41  41  35  38  40
      9: 37  39  38  42  39  38  38  37  38  29
     10: 38  39  35  37  40  37  38  36  36  35
         <------------------------------>

    Total counter =  100000
    n_A =  28426 n_C =  21890 n_G =  19147 n_T =  30531 n_N =  6   total:  100000 ***n_GC =  41037

    %  A:  28.43   C:  21.89   G:  19.15   T:  30.53   N:  0.006

    check-sum->  1

    Qualities min =  0   max =  43   range:  43

    delta_Q:  43

    Histogram of Qualities( 0  <-->  43 ):

    0.046%    0 - 4 :

    0.552%    4 - 8 :

    1.472%   8 - 12 : *

    1.487%  12 - 17 : *

    1.861%  17 - 21 : *

    2.231%  21 - 25 : **

    9.051%  25 - 30 : *********

    63.4%   30 - 34 : ***************************************************************

    19.83%  34 - 38 : *******************

    0.07%   38 - 43 :

    Sequencing by Synthesis
    DNA Polymerase    basic_dna_5312   Elapsed Time: * 0.837 sec  
 
 
    EXIT FROM EXSAN                                  

    A    B    O   U   T           E x S a n
   
    ExSan is essentially a spreadsheet tool built on a novel data structure,
    fully coded in C++11 conceived using Object Oriented Technology,
    console based and capable of handling large matrices, for instance in
    Image Processing tasks, Text Mining.
    It is used for a variety of applications including Pattern Recognition,
    Artificial Intelligence, Financial Derivatives Pricing , Digital Forensics
    Expertise: Audio, Image & Video  and more general Numerical Computing.
    From the downloadable file extract executable EXSAN to your desktop.
    The very first time ExSan is executed it creates a default input/output
    directory  c:\exsan
    All data files included must be extracted to c:\exsan\exsan_data
    The program you are executing uses ExSan as programming tool
    Address your request/comments/un-expected results/flaws/errors to:

    exsan.plusplus@gmail.com include corresponding c:\exsan\exsan_out(txt) + comment.

    This file records the ExSan session.