

 # Revision de Python
 En esta notebook vamos a repasar algunos conceptos basicos de Python
 con algunos ejercicios.

 Más adelante trabajaremos con algunas librerias de comunes de Python.



 ## Ejercicios de Python



### Contar nucleótidos

Dada una cadena de ADN, cuenta cuántas veces aparece cada nucleótido (A, T, C, G).


In [26]:
# 5 A, 4 T, 3 C, 2 G
seq = "AAAAATTTTCCCGG"

In [27]:
def count_nucleotides_1(seq):
    """Count the number of each nucleotide in a sequence."""
    n_a = 0
    n_c = 0
    n_g = 0
    n_t = 0
    for nucleotide in seq:
        if nucleotide == "A":
            n_a += 1
        elif nucleotide == "C":
            n_c += 1
        elif nucleotide == "G":
            n_g += 1
        elif nucleotide == "T":
            n_t += 1
    return n_a, n_c, n_g, n_t

assert count_nucleotides_1(seq) == (5, 3, 2, 4)

In [28]:
def count_nucleotides_2(seq):
    """Count the number of each nucleotide in a sequence."""
    counts = {}
    for nucleotide in seq:
        if nucleotide in counts:
            counts[nucleotide] += 1
        else:
            counts[nucleotide] = 1
    return counts.get("A", 0), counts.get("C", 0), counts.get("G", 0), counts.get("T", 0)

assert count_nucleotides_2(seq) == (5, 3, 2, 4)

In [4]:
from collections import defaultdict

def count_nucleotides_3(seq):
    """Count the number of each nucleotide in a sequence."""
    counts = defaultdict(int)
    for nucleotide in seq:
        counts[nucleotide] += 1
    return counts.get("A", 0), counts.get("C", 0), counts.get("G", 0), counts.get("T", 0)

assert count_nucleotides_3(seq) == (5, 3, 2, 4)

In [None]:
from collections import Counter

def count_nucleotides_4(seq):
    """Count the number of each nucleotide in a sequence."""
    counts = Counter(seq)
    return counts.get("A", 0), counts.get("C", 0), counts.get("G", 0), counts.get("T", 0)

assert count_nucleotides_4(seq) == (5, 3, 2, 4)


### Transcripción de ADN a ARN

Convierte una cadena de ADN en ARN reemplazando todas las T por U.



In [None]:

def trancript_1(adn: str) -> str:
    """Convert a DNA sequence to an RNA sequence."""
    new_seq = []
    for nucleotide in adn:
        if nucleotide == "T":
            new_seq.append("U")
        else:
            new_seq.append(nucleotide)
    return "".join(new_seq)

assert trancript_1("ATCGTACG") == "AUCGUACG"

In [9]:
def trancript_2(adn: str) -> str:
    """Convert a DNA sequence to an RNA sequence."""
    return "".join(["U" if nucleotide == "T" else nucleotide for nucleotide in adn])
assert trancript_2("ATCGTACG") == "AUCGUACG"

In [10]:
def trancript_3(adn: str) -> str:
    """Convert a DNA sequence to an RNA sequence."""
    return adn.replace("T", "U")
assert trancript_3("ATCGTACG") == "AUCGUACG"


### Secuencia reversa complementaria

Devuelve la cadena reversa complementaria de una secuencia de ADN.


In [13]:

def reverse_complement_1(seq: str) -> str:
    """Return the reverse complement of a DNA sequence."""
    new_seq = []
    for nucleotide in seq:
        if nucleotide == "A":
            new_seq.append("T")
        elif nucleotide == "T":
            new_seq.append("A")
        elif nucleotide == "C":
            new_seq.append("G")
        elif nucleotide == "G":
            new_seq.append("C")
    return "".join(reversed(new_seq))

assert reverse_complement_1("AAATTTCCCGGG") == "CCCGGGAAATTT"

In [14]:

def reverse_complement_2(seq: str) -> str:
    """Return the reverse complement of a DNA sequence."""
    complement = {"A": "T", "T": "A", "C": "G", "G": "C"}
    return "".join(complement[nucleotide] for nucleotide in reversed(seq))

assert reverse_complement_2("AAATTTCCCGGG") == "CCCGGGAAATTT"



### GC content

Calcula el porcentaje de contenido GC de una secuencia de ADN.


In [None]:
def gc_content(seq: str) -> float:
    """Return the GC content of a DNA sequence."""
    n_gc = 0
    for nucleotide in seq:
        if nucleotide == "G" or nucleotide == "C":
            n_gc += 1
    return n_gc / len(seq)


### Palíndromos en ADN

Verifica si una cadena de ADN es palindrómica (igual a su reversa complementaria).



In [15]:

def is_palindrome(seq1:str) -> bool:
    """Check if two sequences are palindromes of each other."""
    return seq1 == reverse_complement_2(seq1)

assert is_palindrome("AAACCCGGGTTT") == True


### Traducción de ADN a proteína

Dada una cadena de ADN y la tabla de codones, tradúcela en su secuencia de aminoácidos.


In [17]:
codon_table = {
    # Alanine
    "GCT": "A", "GCC": "A", "GCA": "A", "GCG": "A",
    # Isoleucine
    "ATT": "I", "ATC": "I", "ATA": "I",
    # Arginine
    "CGT": "R", "CGC": "R", "CGA": "R", "CGG": "R", "AGA": "R", "AGG": "R",
    # Leucine
    "CTT": "L", "CTC": "L", "CTA": "L", "CTG": "L", "TTA": "L", "TTG": "L",
    # Asparagine
    "AAT": "N", "AAC": "N",
    # Lysine
    "AAA": "K", "AAG": "K",
    # Aspartic Acid
    "GAT": "D", "GAC": "D",
    # Methionine
    "ATG": "M",
    # Phenylalanine
    "TTT": "F", "TTC": "F",
    # Cysteine
    "TGT": "C", "TGC": "C",
    # Proline
    "CCT": "P", "CCC": "P", "CCA": "P", "CCG": "P",
    # Glutamine
    "CAA": "Q", "CAG": "Q",
    # Serine
    "TCT": "S", "TCC": "S", "TCA": "S", "TCG": "S", "AGT": "S", "AGC": "S",
    # Glutamic Acid
    "GAA": "E", "GAG": "E",
    # Threonine
    "ACT": "T", "ACC": "T", "ACA": "T", "ACG": "T",
    # Tryptophan
    "TGG": "W",
    # Glycine
    "GGT": "G", "GGC": "G", "GGA": "G", "GGG": "G",
    # Tyrosine
    "TAT": "Y", "TAC": "Y",
    # Histidine
    "CAT": "H", "CAC": "H",
    # Valine
    "GTT": "V", "GTC": "V", "GTA": "V", "GTG": "V",
    # STOP codons
    "TAA": "STOP", "TGA": "STOP", "TAG": "STOP"
}

assert len(codon_table) == 64


In [21]:

def translate(seq: str, codon_table: dict[str, str]) -> str:
    """Translate a DNA sequence into a protein sequence."""
    protein = []
    for i in range(0, len(seq), 3):
        codon = seq[i:i + 3]
        if len(codon) < 3:
            break
        amino_acid = codon_table.get(codon, "X")
        if amino_acid == "STOP":
            break
        protein.append(amino_acid)
    return "".join(protein)

assert translate("ATGTTTAAAGGG", codon_table) == "MFKG"
assert translate("ATGTTTAAAGGGA", codon_table) == "MFKG"
assert translate("ATGTTTAAAGGGAA", codon_table) == "MFKG"
assert translate("ATGTTTAAAGGGTAA", codon_table) == "MFKG"


### Buscar codones de inicio y stop

Encuentra todas las posiciones donde aparece un codón de inicio (ATG) y su correspondiente codón stop (TAA, TAG, TGA).


In [None]:
def scan_atg(seq: str) -> list[int]:
    """Scan a DNA sequence for the start codon ATG."""
    start_codons = []
    for i in range(len(seq) - 2):
        if seq[i:i + 3] == "ATG":
            start_codons.append(i)
    return start_codons

def scan_stop(seq: str) -> list[int]:
    """Scan a DNA sequence for the stop codon."""
    start_codons = []
    for i in range(len(seq) - 2):
        codon = seq[i:i + 3]
        if codon == "TAA" or codon == "TAG" or codon == "TGA":
            start_codons.append(i)
    return start_codons

def find_atg_stop(seq: str) -> list[tuple[int, int]]:
    """Find all start and stop codons in a DNA sequence."""
    start_codons = scan_atg(seq)
    stop_codons = scan_stop(seq)
    atg_stop = []
    for start in start_codons:
        for stop in stop_codons:
            if stop > start and (stop - start) % 3 == 0:
                atg_stop.append((start, stop))
                break
    return atg_stop


### Conteo de motivos

Dada una secuencia y un motivo (subsecuencia), cuenta cuántas veces aparece (posiciones solapadas incluidas).



### Generador de FASTA

Crea una función que reciba un identificador y una secuencia, y genere una entrada en formato FASTA.



### Parseador de FASTA

Lee un archivo FASTA y devuelve un diccionario con identificadores como claves y secuencias como valores.



### Distancia de Hamming

Calcula la distancia de Hamming entre dos secuencias de igual longitud.



### Subregiones palindrómicas

Dada una secuencia encuentra las subregiones palindrómicas de al menos 5 bases.
Las regiones pueden solaparse, pero no estar una contenida dentro de otra. En
estos casos traer la de mayor tamaño.



 ### Datos de Disprot
 Leer los datos del archivo classes/data/DisProt.tsv
 1. Contar la cantidad de regiones para cada accession.
 2. En aquellos casos donde hay más de una región, contar las que tienen
    posiciones de principio y fin diferentes.
 3  Estimar la longitud total de las proteínas en el archivo.
 4. Contar los regiones que tienen una longitud mayor a 10 aminoácidos.
 5. Generar una nueva tabla Las filas correposden
    a las proteinas y las columnas son: accession, y luego tiene una columna
    por cada valor de term_namespace. En cada celda se debe contar la cantidad
    de veces que aparece el valor de term_namespace en la proteina.



 ### Datos de taxonomy
 Leer los datos del archivo classes/data/nodes.csv.
 El archivo tiene las siguientes columnas: tax_id, parent_tax_id, rank.
 1. Verificar que los datos forma un grafo aciclico con una unica
    componente.
 2. Contar la cantidad de nodos hoja.
 3. Contar la cantidad de nodos internos.
 4. Contar la profundidad de cada hoja.
 5. Calcular el ancestro comun mas cercano entre dos nodos.
 6. Calcular la distancia entre dos nodos.
 7. Contar la cantidad de nodos que tienen un ranking inferior a especie.



 ### Simulación de secuencias de aminoácidos
1. A partir de una secuencia de aminoácidos, simular un proceso de evolución
   de la secuencia. Para esto se debe definir una matriz de probabilidades de
   sustitución de aminoácidos.
   - La evolución de la secuencia se puede simular de a pasos de tiempo hasta
     un tiempo total de evolución (1000 años).
   - Cada paso de tiempo es elegido al azar entre 25 y 200 años.
   - En cada paso de tiempo, se generan dos secuencias hijas a partir de cada
     secuencia padre.
   - Para cada secuencia hija, todos los aminoácidos pueden ser sustituidos
     por otro aminoácido con una tasa dada por la matriz de
     sustitución y el tiempo de evolución (substitution_rates.csv).
   - La composicion del aminoácidos de la secuencia inicial debe corresponderse
     con la composición de aminoácidos general observada en la en naturaleza
     (ver tabla de amino_frq.csv). Asuma que las probabilidades de sustitución
     son independientes de la posición en la secuencia y que la tasa
     de sustitución esta dada en sustituciones cada mil años.
 2. Calcular el porcentaje de identidad entre las secuencias hijas y la
    secuencia padre.
 3. Hacer lo mismo asumiendo que la puede haber inserciones y deleciones en la
    secuencia. En este caso, la probabilidad de inserción y deleción es
    independiente de la posición en la secuencia y de la longitud de la
    secuencia. La probabilidad de inserción es 0.0001 cada 100 años y la
    probabilidad de deleción es 0.0001 cada 100 años. La cantidad de aminoácidos
    insertados o eliminados es un número al azar entre 1 y 5.



 ## Pandas
 - Pandas es una libreria que permite el trabajar con datos tabulares.
 - Permite leer y escribir datos en diferentes formatos.
 - Permite hacer operaciones de filtrado, agrupamiento, y transformación de
   datos.



 Como ejemplo, vamos a leer los datos de DisProt.

In [29]:
import pandas as pd

disprot = pd.read_csv('data/DisProt.tsv', sep='\t')



 ### Información de general de los datos

In [31]:
disprot.head()

Unnamed: 0,acc,name,disorder_content,organism,ncbi_taxon_id,disprot_id,region_id,start,end,term_namespace,term,term_name,ec,ec_name,reference,region_sequence,confidence,obsolete
0,Q64693,POU domain class 2-associating factor 1,100.0,Mus musculus,10090,DP00008,DP00008r013,1,256,Structural state,IDPO:00076,disorder,ECO:0006210,small-angle X-ray scattering evidence used in ...,pmid:11380252,MLWQKSTAPEQAPAPPRPYQGVRVKEPVKELLRRKRGHTSVGAAGP...,,
1,Q64693,POU domain class 2-associating factor 1,100.0,Mus musculus,10090,DP00008,DP00008r015,1,256,Structural state,IDPO:00076,disorder,ECO:0006232,differential scanning calorimetry evidence use...,pmid:10329190,MLWQKSTAPEQAPAPPRPYQGVRVKEPVKELLRRKRGHTSVGAAGP...,,
2,Q64693,POU domain class 2-associating factor 1,100.0,Mus musculus,10090,DP00008,DP00008r020,1,256,Structural state,IDPO:00076,disorder,ECO:0006204,far-UV circular dichroism evidence used in man...,pmid:10329190,MLWQKSTAPEQAPAPPRPYQGVRVKEPVKELLRRKRGHTSVGAAGP...,,
3,Q64693,POU domain class 2-associating factor 1,100.0,Mus musculus,10090,DP00008,DP00008r023,1,65,Structural transition,IDPO:00050,disorder to order,ECO:0006204,far-UV circular dichroism evidence used in man...,pmid:10329190,MLWQKSTAPEQAPAPPRPYQGVRVKEPVKELLRRKRGHTSVGAAGP...,,
4,Q64693,POU domain class 2-associating factor 1,100.0,Mus musculus,10090,DP00008,DP00008r024,1,256,Molecular function,GO:0005515,protein binding,ECO:0005647,isothermal titration calorimetry evidence used...,pmid:10329190,MLWQKSTAPEQAPAPPRPYQGVRVKEPVKELLRRKRGHTSVGAAGP...,,




 ### Mostrar las columnas

In [32]:
disprot.columns

Index(['acc', 'name', 'disorder_content', 'organism', 'ncbi_taxon_id',
       'disprot_id', 'region_id', 'start', 'end', 'term_namespace', 'term',
       'term_name', 'ec', 'ec_name', 'reference', 'region_sequence',
       'confidence', 'obsolete'],
      dtype='object')



 ### Mostrar los primeros registros

In [None]:


disprot.head()



 ### Subsettear los datos

In [None]:
# disprot['acc']
# Devuelve una pd.Serie

# type(disprot.acc)
# Devuelve una pd.Serie

# disprot.filter(['acc'])
# Devuelve un pd.DataFrame

# disprot[['acc']]
# Devuelve un pd.DataFrame

# disprot[['acc', 'term_namespace']]

# disprot.loc[0:5, ['acc', 'term_namespace']]
# Aqui 0:5 hace referencia a los indices de las filas, no a la posicion de las
# filas, aunque en este caso coinciden.

# disprot.iloc[0:5, [0, 2]]
# Aqui 0:5 hace referencia a los posiciones de las filas, no al indice de las
# filas, aunque en este caso coinciden.

Unnamed: 0,acc,disorder_content
0,Q64693,100.0
1,Q64693,100.0
2,Q64693,100.0
3,Q64693,100.0
4,Q64693,100.0




 ### Filtrar los datos

In [50]:


# disprot.query('disorder_content > 50')

# disprot.loc[disprot.disorder_content>50, :]

# disprot.iloc[disprot.disorder_content>50, :] # Error

upper = 60
lower = 40
# disprot.query('disorder_content > @lower and disorder_content < @upper')
disprot.query('acc == "Q91V27"')

Unnamed: 0,acc,name,disorder_content,organism,ncbi_taxon_id,disprot_id,region_id,start,end,term_namespace,term,term_name,ec,ec_name,reference,region_sequence,confidence,obsolete
165,Q91V27,Melanophilin,43.56,Mus musculus,10090,DP00541,DP00541r001,147,403,Structural state,IDPO:00076,disorder,ECO:0006165,nuclear magnetic resonance spectroscopy eviden...,pmid:17513864,GGGGSEPSLEEGNGDSEQTDEDGDLDTEARDQPLNSKKKKRLLSFR...,,
166,Q91V27,Melanophilin,43.56,Mus musculus,10090,DP00541,DP00541r002,147,403,Molecular function,GO:0060090,molecular adaptor activity,ECO:0006165,nuclear magnetic resonance spectroscopy eviden...,pmid:17513864,GGGGSEPSLEEGNGDSEQTDEDGDLDTEARDQPLNSKKKKRLLSFR...,,
167,Q91V27,Melanophilin,43.56,Mus musculus,10090,DP00541,DP00541r003,147,403,Molecular function,GO:0005515,protein binding,ECO:0006165,nuclear magnetic resonance spectroscopy eviden...,pmid:17513864,GGGGSEPSLEEGNGDSEQTDEDGDLDTEARDQPLNSKKKKRLLSFR...,,
168,Q91V27,Melanophilin,43.56,Mus musculus,10090,DP00541,DP00541r004,147,403,Structural state,IDPO:00076,disorder,ECO:0007680,chromatography evidence used in manual assertion,pmid:17513864,GGGGSEPSLEEGNGDSEQTDEDGDLDTEARDQPLNSKKKKRLLSFR...,,
169,Q91V27,Melanophilin,43.56,Mus musculus,10090,DP00541,DP00541r005,147,403,Molecular function,GO:0060090,molecular adaptor activity,ECO:0007680,chromatography evidence used in manual assertion,pmid:17513864,GGGGSEPSLEEGNGDSEQTDEDGDLDTEARDQPLNSKKKKRLLSFR...,,
170,Q91V27,Melanophilin,43.56,Mus musculus,10090,DP00541,DP00541r006,147,403,Molecular function,GO:0005515,protein binding,ECO:0007680,chromatography evidence used in manual assertion,pmid:17513864,GGGGSEPSLEEGNGDSEQTDEDGDLDTEARDQPLNSKKKKRLLSFR...,,
171,Q91V27,Melanophilin,43.56,Mus musculus,10090,DP00541,DP00541r007,147,403,Structural state,IDPO:00076,disorder,ECO:0007691,cleavage assay evidence used in manual assertion,pmid:17513864,GGGGSEPSLEEGNGDSEQTDEDGDLDTEARDQPLNSKKKKRLLSFR...,,
172,Q91V27,Melanophilin,43.56,Mus musculus,10090,DP00541,DP00541r008,147,403,Molecular function,GO:0060090,molecular adaptor activity,ECO:0007691,cleavage assay evidence used in manual assertion,pmid:17513864,GGGGSEPSLEEGNGDSEQTDEDGDLDTEARDQPLNSKKKKRLLSFR...,,
173,Q91V27,Melanophilin,43.56,Mus musculus,10090,DP00541,DP00541r009,147,403,Molecular function,GO:0005515,protein binding,ECO:0007691,cleavage assay evidence used in manual assertion,pmid:17513864,GGGGSEPSLEEGNGDSEQTDEDGDLDTEARDQPLNSKKKKRLLSFR...,,
174,Q91V27,Melanophilin,43.56,Mus musculus,10090,DP00541,DP00541r010,147,403,Structural state,IDPO:00076,disorder,ECO:0006204,far-UV circular dichroism evidence used in man...,pmid:17513864,GGGGSEPSLEEGNGDSEQTDEDGDLDTEARDQPLNSKKKKRLLSFR...,,




 ### Transformar los datos / Agregar columnas

In [53]:


# disprot.assign(disorder_content_norm = disprot.disorder_content / 100)
# No es in-place

disprot['disorder_content_norm'] = disprot.disorder_content / 100



 ### Transformar los datos / Apply

In [66]:


# Applicar la misma función a todas las columnas o filas

(
  disprot
    .filter(['disorder_content', 'start', 'end'])
    # .apply(lambda x: x/100)
    .apply(max, axis=1)
)

0      256.0
1      256.0
2      256.0
3      100.0
4      256.0
       ...  
742     10.0
743     60.0
744    142.0
745    220.0
746     73.0
Length: 747, dtype: float64

a

 ### Transformar los datos / Groupby

In [None]:


# Agrupar los datos por una columna y aplicar una función a cada grupo
# disprot.groupby('acc').size()

# disprot.groupby('acc').agg(
#   {'disorder_content': ['mean', 'std', 'sum', 'count']}
# )

# disprot.groupby('acc').apply(
#   lambda x: max(x.disorder_content)
# )

  disprot.groupby('acc').apply(


acc
B8ZXI1        8.43
O08583       10.98
O08785        6.67
O08807       11.31
O08908        6.93
             ...  
Q9R224      100.00
Q9WTL8       21.52
Q9WUP7-2      3.05
Q9Z0P7       16.74
Q9Z1X4       10.69
Length: 198, dtype: float64



 ### Concat y Merge

In [84]:


# Concatenar dos dataframes

# df1 = disprot.iloc[0:5, :]
# df2 = disprot.iloc[20:25, :]

# concatenated = pd.concat([df1, df2])
# concatenated

# # Merge dos dataframes

disprot_b = (
    disprot
        .groupby('acc')
        .apply(lambda x: x.iloc[0, :])
        .reset_index(drop=True)
)
disprot_b

df1 = disprot_b.loc[0:5, ['acc', 'disorder_content']]
df2 = disprot_b.loc[0:5, ['acc', 'start']].sort_values('start')

merged = pd.merge(df1, df2, on='acc')
merged

  .apply(lambda x: x.iloc[0, :])


Unnamed: 0,acc,disorder_content,start
0,B8ZXI1,8.43,292
1,O08583,10.98,77
2,O08785,6.67,89
3,O08807,11.31,256
4,O08908,6.93,423
5,O35484,6.7,436




 ### Pivotear los datos

In [91]:
df = pd.DataFrame(
  [
    ['ID1', 'Len', 100],
    ['ID1', 'Dis', 0.6],
    ['ID2', 'Len', 200],
    ['ID2', 'Dis', 0.7],
  ],
  columns=['ID', 'Property', 'Value']
)

df_pivot = df.pivot(index=["ID"], columns=["Property"], values=["Value"])
df_pivot

Unnamed: 0_level_0,Value,Value
Property,Dis,Len
ID,Unnamed: 1_level_2,Unnamed: 2_level_2
ID1,0.6,100.0
ID2,0.7,200.0




 ### Melting

In [94]:
df_pivot

Unnamed: 0_level_0,Value,Value
Property,Dis,Len
ID,Unnamed: 1_level_2,Unnamed: 2_level_2
ID1,0.6,100.0
ID2,0.7,200.0


In [128]:
melt_df = (
  df_pivot
    .reset_index()
    .set_axis(
      ["ID", "Len", "Dis"],
      axis=1
    )
    .melt(
      id_vars=["ID"],
      var_name="property",
      value_vars=["Dis", "Len"]
    )
)
melt_df

Unnamed: 0,ID,property,value
0,ID1,Dis,100.0
1,ID2,Dis,200.0
2,ID1,Len,0.6
3,ID2,Len,0.7




 ## Gráficos con matplotlib

In [None]:


import matplotlib.pyplot as plt

import pandas as pd



 ### Scatter plots

In [None]:


data = pd.read_csv('data/gse260897_counts.csv', sep='\t')
avg_data = (
  data
    .set_index("gene_id")
    .assign(
    con = lambda df: df[["C1", "C2", "C3"]]
      .mean(axis=1)
      .astype(int),
    lip = lambda df: df[["L1", "L2", "L3"]]
      .mean(axis=1)
      .astype(int),
    )
    .filter(["con", "lip"])
)

names = pd.read_csv("data/gse260897_names.csv", sep="\t", header=0)
merged_data = pd.merge(
  avg_data,
  names,
  on="gene_id"
)

fig, axes = plt.subplots(figsize=(10, 5))
axes.scatter(
  merged_data["con"],
  merged_data["lip"],
  c="red",
  s=10,
  alpha=0.5
)

axes.set_xlabel("Mean Raw Counts Control")
axes.set_ylabel("Mean Raw Counts Lipid")
axes.set_title("Scatter plot of mean raw counts (Control vs Lipid)")

for i, txt in enumerate(merged_data.gene_name):
  axes.annotate(
    txt,
    (merged_data["con"][i], merged_data["lip"][i] + 5000),
    ha='center',
    va='bottom',
    fontsize=12
  )



 ### Line plots

In [None]:


fig, axes = plt.subplots(
  ncols=3,
  figsize=(15, 5)
)
for i, (index, row) in enumerate(data.iloc[0:3,:].iterrows()):
  axes[i].plot(
    [0, 1, 2],
    row.loc[["C1", "C2", "C3"]],
    label="Control",
    color="red",
  )
  axes[i].plot(
    [0, 1, 2],
    row.loc[["L1", "L2", "L3"]],
    label="Lipid",
    color="blue",
  )
  axes[i].set_title(row.gene_id)
  axes[i].set_xlabel("Sample")
  axes[i].set_ylabel("Raw Counts")
  axes[i].legend()



 ### Bar plots

In [None]:


fig, axes = plt.subplots(figsize=(15, 5))

w = 0.25

for i, g in enumerate(["C1", "C2", "C3"]):
  axes.bar(
    x = [x + i*w for x in range(len(data[g]))],
    height=data[g],
    label=g,
    width=w-0.05,
  )
axes.legend()
axes.set_xticks([x + w for x in range(len(data[g]))])
axes.set_xticklabels(data.gene_id, rotation=45)
axes.set_xlabel("Gene ID")
axes.set_ylabel("Raw Counts")
axes.set_title("Raw Counts of control samples by gene")



 ### Histograms

In [None]:


disprot = pd.read_csv('data/DisProt.tsv', sep='\t')


disorders = disprot.groupby('acc').agg(
  {'disorder_content': 'max'}
)

fig, axes = plt.subplots(figsize=(10, 5))

axes.hist(
  disorders,
  bins=20,
  color='olive',
  edgecolor='black',
)
axes.set_xlabel("Disorder content")
axes.set_ylabel("Frequency")
axes.set_title("Histogram of disorder content")



 ### Box plots

In [None]:


allp = pd.read_csv("data/protein_lengths.csv", sep="\t", header=0)

fig, axes = plt.subplots(figsize=(10, 5))

axes.boxplot(
  [
    allp.query("organism == 'human'")["Length"],
    allp.query("organism == 'e_coli'")["Length"],
  ],
  showfliers=False
)
axes.set_xticklabels(["Human", "E. coli"])
axes.set_ylabel("Protein length")
axes.set_title("Boxplot of protein length by organism")