# Propuesta de trabajo

## Participantes

* Cristobal Cancino
* Tomás Cortés
* Bruno Martinez

### Presentación de los datos, definición de variables y contexto de la problemática.

Se utilizará una base de datos sobre proteinas entregada por _Research Collaboratory for Structural Bioinformatics (RCSB)_ de _Protein Data Bank (PDB)_, la cual describe proteinas y otras macromoléculas biológicas importantes. Para determinar el lugar de cada átomo en relación a otros en la molécula, biólogos utilizan métodos tales como Cristalografía X-Ray, Espectroscopia NMR y microoscopia crio-electrón. 

Esta base de datos sobre proteinas ha ayudado a la comunidad cientifica para estudiar diferentes enfermedades y preparar nuevos medicamentos y soluciones que han ayudado.

El archivo PDB es un depósito de coordenadas atómicas y otra información que describe proteínas y otras macromoléculas biológicas importantes. Los biólogos estructurales utilizan métodos como la cristalografía de rayos X, la espectroscopia de RMN y la microscopía crioelectrónica para determinar la ubicación de cada átomo en relación con los demás en la molécula. Luego depositan esta información, que luego es anotada y publicada públicamente en el archivo por wwPDB.

El PDB en constante crecimiento es un reflejo de la investigación que se lleva a cabo en los laboratorios de todo el mundo. Esto puede hacer que el uso de la base de datos en la investigación y la educación sea emocionante y desafiante. Las estructuras están disponibles para muchas de las proteínas y ácidos nucleicos involucrados en los procesos centrales de la vida, por lo que puede ir al archivo de PDB para encontrar estructuras para ribosomas, oncogenes, dianas de fármacos e incluso virus completos. Sin embargo, puede ser un desafío encontrar la información que necesita, ya que la PDB archiva tantas estructuras diferentes. A menudo encontrará múltiples estructuras para una molécula determinada, o estructuras parciales, o estructuras que han sido modificadas o inactivadas de su forma nativa.

Recuperado de [Structural Protein Sequence](https://www.kaggle.com/shahir/protein-data-set?select=pdb_data_no_dups.csv)

In [13]:
import os

import numpy as np
import scipy as sp
import pandas as pd
import matplotlib.pyplot as plt

In [19]:
data_path = os.path.join("data", "pdb_data_no_dups.csv")
pdb_no_dups = pd.read_csv(data_path, index_col=0).dropna()
pdb_no_dups

Unnamed: 0_level_0,classification,experimentalTechnique,macromoleculeType,residueCount,resolution,structureMolecularWeight,crystallizationMethod,crystallizationTempK,densityMatthews,densityPercentSol,pdbxDetails,phValue,publicationYear
structureId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
102D,DNA,X-RAY DIFFRACTION,DNA,24,2.20,7637.17,"VAPOR DIFFUSION, SITTING DROP",277.00,2.28,46.06,"pH 7.00, VAPOR DIFFUSION, SITTING DROP, temper...",7.0,1995.0
110D,DNA,X-RAY DIFFRACTION,DNA,6,1.90,2337.73,"VAPOR DIFFUSION, SITTING DROP",277.00,2.90,57.63,"pH 6.60, VAPOR DIFFUSION, SITTING DROP, temper...",6.6,1993.0
111D,DNA,X-RAY DIFFRACTION,DNA,24,2.25,7374.83,"VAPOR DIFFUSION, SITTING DROP",277.00,2.29,46.25,"pH 6.60, VAPOR DIFFUSION, SITTING DROP, temper...",6.6,1989.0
113D,DNA,X-RAY DIFFRACTION,DNA,24,2.50,7356.81,"VAPOR DIFFUSION, SITTING DROP",281.00,2.35,47.59,"pH 7.40, VAPOR DIFFUSION, SITTING DROP, temper...",7.4,1987.0
117D,DNA,X-RAY DIFFRACTION,DNA,12,2.55,3663.39,VAPOR DIFFUSION,277.00,3.01,59.09,"pH 6.50, VAPOR DIFFUSION, temperature 277.00K",6.5,1992.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6F6S,VIRAL PROTEIN,X-RAY DIFFRACTION,Protein,497,2.29,58337.03,"VAPOR DIFFUSION, SITTING DROP",293.00,3.83,67.89,9% (W/V) PEG 6000 AND 0.1 M SODIUM CIT...,5.2,2018.0
6F73,FLAVOPROTEIN,X-RAY DIFFRACTION,Protein,1148,2.22,128053.03,"VAPOR DIFFUSION, HANGING DROP",294.00,2.90,57.00,"20% PEG6000, , 0.2 M NaCl, 0.1 M NaAcetate pH 5.0",5.0,2018.0
6F8P,VIRAL PROTEIN,X-RAY DIFFRACTION,Protein,316,1.60,34958.86,"VAPOR DIFFUSION, SITTING DROP",298.00,2.47,50.15,"20% w/v PEG 6000, 0.1 M HEPES pH 7.0",7.0,2018.0
6FAH,FLAVOPROTEIN,X-RAY DIFFRACTION,Protein,2074,3.13,231360.91,"VAPOR DIFFUSION, SITTING DROP",293.15,3.49,64.73,"PEG 4000, Tris/HCl, Lithium sulphate",8.5,2018.0


In [20]:
pdb_no_dups.describe(include="all").T.fillna("")

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
classification,65886.0,2511.0,HYDROLASE,10237.0,,,,,,,
experimentalTechnique,65886.0,9.0,X-RAY DIFFRACTION,65851.0,,,,,,,
macromoleculeType,65886.0,13.0,Protein,60877.0,,,,,,,
residueCount,65886.0,,,,811.165,1636.47,5.0,279.0,463.0,852.0,89160.0
resolution,65886.0,,,,2.15498,0.583201,0.48,1.79,2.06,2.5,9.5
structureMolecularWeight,65886.0,,,,100587.0,288867.0,488.54,32324.8,53260.7,97861.3,12490100.0
crystallizationMethod,65886.0,406.0,"VAPOR DIFFUSION, HANGING DROP",40076.0,,,,,,,
crystallizationTempK,65886.0,,,,291.116,9.12086,4.0,290.0,293.0,295.0,398.0
densityMatthews,65886.0,,,,2.67706,0.705612,0.0,2.22,2.5,2.92,12.7
densityPercentSol,65886.0,,,,51.5891,9.97203,0.0,44.54,50.65,57.91,90.33


Esta base de datos contiene las siguientes columnas

1. structureid: Indexación para identificar la estructura en particular.
2. clasification: Estructura en estudio.
3. experimentalTechnique: Técnica usada para determinar la ubicación relativa entre cada átomo de la molecula.
4. macromoleculeType: Tipo de macromolecula correspondiente a la estructura
5. residueCount: Número de residuos, es decir, el número de monómeros que componen la macromolécula.
6. resolution: Resolución 
7. structureMoleculeWeight: Masa molar (?) de la estructura
8. cristalizationMethod: Método de critalización. Aquellos experimentos que no consideran cristalización les corresponde NULL 
9. crystalizationTemperature: Temperatura de cristalización. Idem.
10. densityMatthews: Densidad de Matthews, dada por $$\frac{\text{volumen}}{\text{peso molecular} * Z * X},$$ donde $Z$ es el número de unidades asimétricas en la unidad celular y $X$ es el número de moleculas en la unidad asimétrica.
11. densitityPercentSol: Porcentaje de densidad de la solución
12. pdbxDetails: Detalles extra del experimento
13. phValue: Valor del ph
14. publicationYear: Año de publicación

In [21]:
data_path = os.path.join("data", "pdb_data_seq.csv")
pdb_seq = pd.read_csv(data_path, index_col=0).dropna()
pdb_seq

Unnamed: 0_level_0,chainId,sequence,residueCount,macromoleculeType
structureId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100D,A,CCGGCGCCGG,20,DNA/RNA Hybrid
100D,B,CCGGCGCCGG,20,DNA/RNA Hybrid
101D,A,CGCGAATTCGCG,24,DNA
101D,B,CGCGAATTCGCG,24,DNA
101M,A,MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDR...,154,Protein
...,...,...,...,...
9XIA,A,MNYQPTPEDRFTFGLWTVGWQGRDPFGDATRRALDPVESVQRLAEL...,388,Protein
9XIM,A,SVQATREDKFSFGLWTVGWQARDAFGDATRTALDPVEAVHKLAEIG...,1572,Protein
9XIM,B,SVQATREDKFSFGLWTVGWQARDAFGDATRTALDPVEAVHKLAEIG...,1572,Protein
9XIM,C,SVQATREDKFSFGLWTVGWQARDAFGDATRTALDPVEAVHKLAEIG...,1572,Protein


### ¿Cuál es la pregunta que deseamos resolver?