

 # Revision de Python
 En esta notebook vamos a repasar algunos conceptos basicos de Python
 con algunos ejercicios.

 Más adelante trabajaremos con algunas librerias de comunes de Python.



 ## Ejercicios de Python



### Contar nucleótidos

Dada una cadena de ADN, cuenta cuántas veces aparece cada nucleótido (A, T, C, G).



### Transcripción de ADN a ARN

Convierte una cadena de ADN en ARN reemplazando todas las T por U.



### Secuencia reversa complementaria

Devuelve la cadena reversa complementaria de una secuencia de ADN.



### GC content

Calcula el porcentaje de contenido GC de una secuencia de ADN.



### Palíndromos en ADN

Verifica si una cadena de ADN es palindrómica (igual a su reversa complementaria).



### Traducción de ADN a proteína

Dada una cadena de ADN y la tabla de codones, tradúcela en su secuencia de aminoácidos.



### Buscar codones de inicio y stop

Encuentra todas las posiciones donde aparece un codón de inicio (ATG) y su correspondiente codón stop (TAA, TAG, TGA).



### Conteo de motivos

Dada una secuencia y un motivo (subsecuencia), cuenta cuántas veces aparece (posiciones solapadas incluidas).



### Generador de FASTA

Crea una función que reciba un identificador y una secuencia, y genere una entrada en formato FASTA.



### Parseador de FASTA

Lee un archivo FASTA y devuelve un diccionario con identificadores como claves y secuencias como valores.



### Distancia de Hamming

Calcula la distancia de Hamming entre dos secuencias de igual longitud.



### Subregiones palindrómicas

Dada una secuencia encuentra las subregiones palindrómicas de al menos 5 bases.
Las regiones pueden solaparse, pero no estar una contenida dentro de otra. En
estos casos traer la de mayor tamaño.



 ### Datos de Disprot
 Leer los datos del archivo classes/data/DisProt.tsv
 1. Contar la cantidad de regiones para cada accession.
 2. En aquellos casos donde hay más de una región, contar las que tienen
    posiciones de principio y fin diferentes.
 3  Estimar la longitud total de las proteínas en el archivo.
 4. Contar los regiones que tienen una longitud mayor a 10 aminoácidos.
 5. Generar una nueva tabla Las filas correposden
    a las proteinas y las columnas son: accession, y luego tiene una columna
    por cada valor de term_namespace. En cada celda se debe contar la cantidad
    de veces que aparece el valor de term_namespace en la proteina.



 ### Datos de taxonomy
 Leer los datos del archivo classes/data/nodes.csv.
 El archivo tiene las siguientes columnas: tax_id, parent_tax_id, rank.
 1. Verificar que los datos forma un grafo aciclico con una unica
    componente.
 2. Contar la cantidad de nodos hoja.
 3. Contar la cantidad de nodos internos.
 4. Contar la profundidad de cada hoja.
 5. Calcular el ancestro comun mas cercano entre dos nodos.
 6. Calcular la distancia entre dos nodos.
 7. Contar la cantidad de nodos que tienen un ranking inferior a especie.



 ### Simulación de secuencias de aminoácidos
1. A partir de una secuencia de aminoácidos, simular un proceso de evolución
   de la secuencia. Para esto se debe definir una matriz de probabilidades de
   sustitución de aminoácidos.
   - La evolución de la secuencia se puede simular de a pasos de tiempo hasta
     un tiempo total de evolución (1000 años).
   - Cada paso de tiempo es elegido al azar entre 25 y 200 años.
   - En cada paso de tiempo, se generan dos secuencias hijas a partir de cada
     secuencia padre.
   - Para cada secuencia hija, todos los aminoácidos pueden ser sustituidos
     por otro aminoácido con una tasa dada por la matriz de
     sustitución y el tiempo de evolución (substitution_rates.csv).
   - La composicion del aminoácidos de la secuencia inicial debe corresponderse
     con la composición de aminoácidos general observada en la en naturaleza
     (ver tabla de amino_frq.csv). Asuma que las probabilidades de sustitución
     son independientes de la posición en la secuencia y que la tasa
     de sustitución esta dada en sustituciones cada mil años.
 2. Calcular el porcentaje de identidad entre las secuencias hijas y la
    secuencia padre.
 3. Hacer lo mismo asumiendo que la puede haber inserciones y deleciones en la
    secuencia. En este caso, la probabilidad de inserción y deleción es
    independiente de la posición en la secuencia y de la longitud de la
    secuencia. La probabilidad de inserción es 0.0001 cada 100 años y la
    probabilidad de deleción es 0.0001 cada 100 años. La cantidad de aminoácidos
    insertados o eliminados es un número al azar entre 1 y 5.



 ## Pandas
 - Pandas es una libreria que permite el trabajar con datos tabulares.
 - Permite leer y escribir datos en diferentes formatos.
 - Permite hacer operaciones de filtrado, agrupamiento, y transformación de
   datos.



 Como ejemplo, vamos a leer los datos de DisProt.

In [None]:


import pandas as pd
disprot = pd.read_csv('data/DisProt.tsv', sep='\t')



 ### Información de general de los datos

In [None]:
disprot.info()



 ### Mostrar las columnas

In [None]:


# disprot.columns



 ### Mostrar los primeros registros

In [None]:


disprot.head()



 ### Subsettear los datos

In [None]:


# disprot['acc']
# Devuelve una pd.Serie

# disprot.acc
# Devuelve una pd.Serie

# disprot.filter(['acc'])
# Devuelve un pd.DataFrame

# disprot[['acc']]
# Devuelve un pd.DataFrame

# disprot[['acc', 'term_namespace']]

# disprot.loc[0:5, ['acc', 'term_namespace']]
# Aqui 0:5 hace referencia a los indices de las filas, no a la posicion de las
# filas, aunque en este caso coinciden.

# disprot.iloc[0:5, [0, 2]]
# Aqui 0:5 hace referencia a los posiciones de las filas, no al indice de las
# filas, aunque en este caso coinciden.



 ### Filtrar los datos

In [None]:


disprot.query('disorder_content > 50')

# disprot.loc[disprot.disorder_content>50, :]

# disprot.iloc[disprot.disorder_content>50, :] # Error

upper = 60
lower = 40
disprot.query('disorder_content > @lower and disorder_content < @upper')



 ### Transformar los datos / Agregar columnas

In [None]:


disprot.assign(disorder_content_norm = disprot.disorder_content / 100)
# No es in-place

#disprot['disorder_content_norm'] = disprot.disorder_content / 100



 ### Transformar los datos / Apply

In [None]:


# Applicar la misma función a todas las columnas o filas

(
  disprot
    .filter(['disorder_content', 'start', 'end'])
    .apply(lambda x: x/100)
    .apply(max, axis=1)
)

a

 ### Transformar los datos / Groupby

In [None]:


# Agrupar los datos por una columna y aplicar una función a cada grupo
disprot.groupby('acc').size()

disprot.groupby('acc').agg(
  {'disorder_content': ['mean', 'std', 'sum', 'count']}
)

disprot.groupby('acc').apply(
  lambda x: max(x.disorder_content)
)



 ### Concat y Merge

In [None]:


# Concatenar dos dataframes

df1 = disprot.iloc[0:5, :]
df2 = disprot.iloc[20:25, :]

concatenated = pd.concat([df1, df2])
concatenated

# Merge dos dataframes

disprot_b = (
  disprot
    .groupby('acc')
    .apply(lambda x: x.iloc[0, :])
    .reset_index(drop=True)
)

df1 = disprot_b.loc[0:5, ['acc', 'disorder_content']]
df2 = disprot_b.loc[0:5, ['acc', 'start']]
merged = pd.merge(df1, df2, on='acc')
merged



 ### Pivotear los datos

In [None]:
df = pd.DataFrame(
  [
    ['ID1', 'Len', 100],
    ['ID1', 'Dis', 0.6],
    ['ID2', 'Len', 200],
    ['ID2', 'Dis', 0.7],
  ],
  columns=['ID', 'Property', 'Value']
)

df_pivot = df.pivot(index=["ID"], columns=["Property"], values=["Value"])
df_pivot



 ### Melting

In [None]:


melt_df = (
  df_pivot
    .reset_index()
    .melt(
      id_vars=[("ID", "")],
      var_name="Property",
      value_vars=[("Value", "Dis"), ("Value", "Len")]
    )
    .rename(columns={("ID", ""): "ID"})
)
melt_df



 ## Gráficos con matplotlib

In [None]:


import matplotlib.pyplot as plt

import pandas as pd



 ### Scatter plots

In [None]:


data = pd.read_csv('data/gse260897_counts.csv', sep='\t')
avg_data = (
  data
    .set_index("gene_id")
    .assign(
    con = lambda df: df[["C1", "C2", "C3"]]
      .mean(axis=1)
      .astype(int),
    lip = lambda df: df[["L1", "L2", "L3"]]
      .mean(axis=1)
      .astype(int),
    )
    .filter(["con", "lip"])
)

names = pd.read_csv("data/gse260897_names.csv", sep="\t", header=0)
merged_data = pd.merge(
  avg_data,
  names,
  on="gene_id"
)

fig, axes = plt.subplots(figsize=(10, 5))
axes.scatter(
  merged_data["con"],
  merged_data["lip"],
  c="red",
  s=10,
  alpha=0.5
)

axes.set_xlabel("Mean Raw Counts Control")
axes.set_ylabel("Mean Raw Counts Lipid")
axes.set_title("Scatter plot of mean raw counts (Control vs Lipid)")

for i, txt in enumerate(merged_data.gene_name):
  axes.annotate(
    txt,
    (merged_data["con"][i], merged_data["lip"][i] + 5000),
    ha='center',
    va='bottom',
    fontsize=12
  )



 ### Line plots

In [None]:


fig, axes = plt.subplots(
  ncols=3,
  figsize=(15, 5)
)
for i, (index, row) in enumerate(data.iloc[0:3,:].iterrows()):
  axes[i].plot(
    [0, 1, 2],
    row.loc[["C1", "C2", "C3"]],
    label="Control",
    color="red",
  )
  axes[i].plot(
    [0, 1, 2],
    row.loc[["L1", "L2", "L3"]],
    label="Lipid",
    color="blue",
  )
  axes[i].set_title(row.gene_id)
  axes[i].set_xlabel("Sample")
  axes[i].set_ylabel("Raw Counts")
  axes[i].legend()



 ### Bar plots

In [None]:


fig, axes = plt.subplots(figsize=(15, 5))

w = 0.25

for i, g in enumerate(["C1", "C2", "C3"]):
  axes.bar(
    x = [x + i*w for x in range(len(data[g]))],
    height=data[g],
    label=g,
    width=w-0.05,
  )
axes.legend()
axes.set_xticks([x + w for x in range(len(data[g]))])
axes.set_xticklabels(data.gene_id, rotation=45)
axes.set_xlabel("Gene ID")
axes.set_ylabel("Raw Counts")
axes.set_title("Raw Counts of control samples by gene")



 ### Histograms

In [None]:


disprot = pd.read_csv('data/DisProt.tsv', sep='\t')


disorders = disprot.groupby('acc').agg(
  {'disorder_content': 'max'}
)

fig, axes = plt.subplots(figsize=(10, 5))

axes.hist(
  disorders,
  bins=20,
  color='olive',
  edgecolor='black',
)
axes.set_xlabel("Disorder content")
axes.set_ylabel("Frequency")
axes.set_title("Histogram of disorder content")



 ### Box plots

In [None]:


allp = pd.read_csv("data/protein_lengths.csv", sep="\t", header=0)

fig, axes = plt.subplots(figsize=(10, 5))

axes.boxplot(
  [
    allp.query("organism == 'human'")["Length"],
    allp.query("organism == 'e_coli'")["Length"],
  ],
  showfliers=False
)
axes.set_xticklabels(["Human", "E. coli"])
axes.set_ylabel("Protein length")
axes.set_title("Boxplot of protein length by organism")