# Tratamiento de datos con Pandas

Pandas es una biblioteca de Python que agrega muchas funciones para manipular datos en forma tabular. Permite filtrar datos según los valores de una o más columnas, ordenas los datos, crear nuevas variables, etc.

## Cargar las libraries

Si al intentar cargas Pandas se genera un error que dice "No module named 'pandas'", es que no está instalada la library. Esto se puede hacer desde una temrinal del sistema operativo, también se puede abrir una terminal en JupyterLab (File > New > Terminal) y desde ahi ejecutar:
conda install conda-forge::pandas
o
pip install pandas

Si hicieron la instalación siguiendo las instrucciones del curso, el primer comando va a funcionar bien. Para instalaciones que no dependan de conda o minoconda, usar "pip". Si instalaron conda, en lugar d eminicnda, ya deberían tener Pandas instalado.

También es probable que tengan instalar openpyxl:
conda install conda-forge::openpyxl
o
pip install openpyxl

In [11]:
import pandas as pd

### Lectura de archivos Excel
Pandas incluye funciones para importar archivos en formato Excel. Es importante que en el archivo Excel los datos estén orgnizados en formato de tabla (ver los dos archivos de ejemplo).

In [20]:
genes_ncbi = pd.read_excel("ncbi_dataset.xlsx")
genes_crec = pd.read_excel("growthScores.xlsx")

Los archivos Excel se leen en unas estructuras de datos propias de Pandas llamadas DataFrames. Estas estructuras son equivalentes a los dataframes de R, y Pandas implementa funcionalidad similares, aunque no idénticas, a las del paquete dplyr de R.

In [24]:
type(genes_ncbi)

pandas.core.frame.DataFrame

In [22]:
print(genes_ncbi)

        Accession  Begin    End Chromosome Orientation  \
0     NC_001133.9   1807   2169          I       minus   
1     NC_001133.9   2480   2707          I        plus   
2     NC_001133.9   7235   9016          I       minus   
3     NC_001133.9  11565  11951          I       minus   
4     NC_001133.9  12046  12426          I        plus   
...           ...    ...    ...        ...         ...   
6472  NC_001224.1  78089  78162         MT       minus   
6473  NC_001224.1  78533  78608         MT        plus   
6474  NC_001224.1  79213  80022         MT        plus   
6475  NC_001224.1  85035  85112         MT        plus   
6476  NC_001224.1  85295  85777         MT        plus   

                                Name Symbol    Gene_ID       Gene_Type  \
0                  seripauperin PAU8   PAU8   851229.0  protein-coding   
1            uncharacterized protein    NaN  1466426.0  protein-coding   
2             putative permease SEO1   SEO1   851230.0  protein-coding   
3      

## Seleccionar columnas y filas

In [30]:
genes_ncbi.columns

Index(['Accession', 'Begin', 'End', 'Chromosome', 'Orientation', 'Name',
       'Symbol', 'Gene_ID', 'Gene_Type', 'Transcripts_accession',
       'Protein_accession', 'Protein_length', 'Locus_tag'],
      dtype='object')

In [103]:
genes_ncbi['Accession']

0       NC_001133.9
1       NC_001133.9
2       NC_001133.9
3       NC_001133.9
4       NC_001133.9
           ...     
6472    NC_001224.1
6473    NC_001224.1
6474    NC_001224.1
6475    NC_001224.1
6476    NC_001224.1
Name: Accession, Length: 6477, dtype: object

Prestar atención a cómo se seleccionan dos o más columnas

In [39]:
genes_ncbi[['Accession', 'Chromosome']]

Unnamed: 0,Accession,Chromosome
0,NC_001133.9,I
1,NC_001133.9,I
2,NC_001133.9,I
3,NC_001133.9,I
4,NC_001133.9,I
...,...,...
6472,NC_001224.1,MT
6473,NC_001224.1,MT
6474,NC_001224.1,MT
6475,NC_001224.1,MT


También se pueden referir las columnas por número. En este caso hay que usar el método, *iloc*, y luego indicar rangos de filas y de columnas, separados por comas. En el ejemplo de más abajo "[:,0:3]" quiere decir, queremos ver todas las filas (":"), luego queremos ver las columnas 0, 1 y 2. 

In [84]:
genes_ncbi.iloc[:,0:3]

Unnamed: 0,Accession,Begin,End
0,NC_001133.9,1807,2169
1,NC_001133.9,2480,2707
2,NC_001133.9,7235,9016
3,NC_001133.9,11565,11951
4,NC_001133.9,12046,12426
...,...,...,...
6472,NC_001224.1,78089,78162
6473,NC_001224.1,78533,78608
6474,NC_001224.1,79213,80022
6475,NC_001224.1,85035,85112


En el ejemplo que sigue indicamos las primeras 5 filas y luego las columnas 0, 2, 4, y 6:

In [89]:
genes_ncbi.iloc[:5,[0, 2, 4, 6]]

Unnamed: 0,Accession,End,Orientation,Symbol
0,NC_001133.9,2169,minus,PAU8
1,NC_001133.9,2707,plus,
2,NC_001133.9,9016,minus,SEO1
3,NC_001133.9,11951,minus,
4,NC_001133.9,12426,plus,


## Filtrado de datos

Con el método *loc* se pueden filtrar datos. Por ejemplo, para recuperar los datos sólo del cromosoma V:

In [141]:
genes_ncbi.loc[genes_ncbi.Chromosome == "V"]

Unnamed: 0,Accession,Begin,End,Chromosome,Orientation,Name,Symbol,Gene_ID,Gene_Type,Transcripts_accession,Protein_accession,Protein_length,Locus_tag
1522,NC_001137.3,264,4097,V,minus,Y' element ATP-dependent helicase,,856630.0,protein-coding,NM_001184302.1,NP_010835.1,1277.0,YEL077C
1523,NC_001137.3,4185,5114,V,minus,uncharacterized protein,,856632.0,protein-coding,NM_001180855.1,NP_010836.1,216.0,YEL076C-A
1524,NC_001137.3,4464,5114,V,minus,uncharacterized protein,,856633.0,protein-coding,NM_001178891.1,NP_010837.1,216.0,YEL076C
1525,NC_001137.3,5345,5713,V,minus,uncharacterized protein,,856634.0,protein-coding,NM_001178890.1,NP_010839.1,122.0,YEL075C
1526,NC_001137.3,7230,7553,V,minus,uncharacterized protein,,856636.0,protein-coding,NM_001178888.1,NP_010841.1,107.0,YEL073C
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1835,NC_001137.3,568040,568759,V,plus,uncharacterized protein,,856938.0,protein-coding,NM_001348829.1,NP_001335771.1,239.0,YER188W
1836,NC_001137.3,569608,569907,V,minus,uncharacterized protein,,1466538.0,protein-coding,NM_001184633.1,NP_878070.1,99.0,YER188C-A
1837,NC_001137.3,571155,571523,V,plus,uncharacterized protein,,856939.0,protein-coding,NM_001179079.3,NP_011116.3,122.0,YER189W
1838,NC_001137.3,571480,576525,V,plus,Y' element ATP-dependent helicase protein 1 co...,YRF1-2,856940.0,protein-coding,NM_001179080.3,NP_011117.3,1681.0,YER190W


También se puede crear un filtro con dos condiciones: genes en el cromosoma V y cuyo producto de expresión tenga un largo de 100 o más aminoçidos:

In [151]:
genes_ncbi.loc[(genes_ncbi.Chromosome == "V") & (genes_ncbi.Protein_length >= 100)]

Unnamed: 0,Accession,Begin,End,Chromosome,Orientation,Name,Symbol,Gene_ID,Gene_Type,Transcripts_accession,Protein_accession,Protein_length,Locus_tag
1522,NC_001137.3,264,4097,V,minus,Y' element ATP-dependent helicase,,856630.0,protein-coding,NM_001184302.1,NP_010835.1,1277.0,YEL077C
1523,NC_001137.3,4185,5114,V,minus,uncharacterized protein,,856632.0,protein-coding,NM_001180855.1,NP_010836.1,216.0,YEL076C-A
1524,NC_001137.3,4464,5114,V,minus,uncharacterized protein,,856633.0,protein-coding,NM_001178891.1,NP_010837.1,216.0,YEL076C
1525,NC_001137.3,5345,5713,V,minus,uncharacterized protein,,856634.0,protein-coding,NM_001178890.1,NP_010839.1,122.0,YEL075C
1526,NC_001137.3,7230,7553,V,minus,uncharacterized protein,,856636.0,protein-coding,NM_001178888.1,NP_010841.1,107.0,YEL073C
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1834,NC_001137.3,566230,566655,V,plus,uncharacterized protein,,856937.0,protein-coding,NM_001179077.1,NP_011114.1,141.0,YER187W
1835,NC_001137.3,568040,568759,V,plus,uncharacterized protein,,856938.0,protein-coding,NM_001348829.1,NP_001335771.1,239.0,YER188W
1837,NC_001137.3,571155,571523,V,plus,uncharacterized protein,,856939.0,protein-coding,NM_001179079.3,NP_011116.3,122.0,YER189W
1838,NC_001137.3,571480,576525,V,plus,Y' element ATP-dependent helicase protein 1 co...,YRF1-2,856940.0,protein-coding,NM_001179080.3,NP_011117.3,1681.0,YER190W


## Fusión de DataFrames

A veces necesitamos combinar información de dos DataFrames diferentes. Por ejemplo, en nuestro caso, el DataFrame genes_crec contiene datos de experimentos de crecimiento de cepas de *S. cerevisiae* con diferentes medios de cultivo. No sería raro que una vez que tenemos esos datos experimentales nos interese enriquecer la información de esos genes. Para consegiur esto vamos a usar el otro DataFrame de este ejercicio, genes_ncbi.

Primero vamos a revisar y repasar la información que tienen estos DataFrames en cuanto a identificadores de genes

In [153]:
genes_ncbi.columns

Index(['Accession', 'Begin', 'End', 'Chromosome', 'Orientation', 'Name',
       'Symbol', 'Gene_ID', 'Gene_Type', 'Transcripts_accession',
       'Protein_accession', 'Protein_length', 'Locus_tag'],
      dtype='object')

In [161]:
genes_ncbi.loc[0:5, ['Name', 'Symbol', 'Locus_tag']]

Unnamed: 0,Name,Symbol,Locus_tag
0,seripauperin PAU8,PAU8,YAL068C
1,uncharacterized protein,,YAL067W-A
2,putative permease SEO1,SEO1,YAL067C
3,uncharacterized protein,,YAL065C
4,uncharacterized protein,,YAL064W-B
5,Tda8p,TDA8,YAL064C-A


In [155]:
genes_crec.columns

Index(['ORF', 'Growth_20g', 'Growth_60g', 'Growth_MM', 'Growth_YPD_NaCl',
       'Growth_YP_lactate'],
      dtype='object')

In [165]:
genes_crec['ORF']

0       YAL003W
1       YAL004W
2       YAL008W
3       YAL013W
4       YAL014C
         ...   
3653    YPR196W
3654    YPR197C
3655    YPR198W
3656    YPR199C
3657    YPR200C
Name: ORF, Length: 3658, dtype: object

La columna Locus_tag del DataFrame genes_ncbi tiene los nombres oficiales de los loci del genoma de la levadura, y lo mismo ocurre con la columna ORF del otro DataFrame. Esto significa que podemos unir ambos DataFrames usando esa columna. Pero hay otra consideración más. La información del NCBI contiene información de muchos genes que en este momento no nos interesan, mientras que para el DataFrame genes_crec queremos conservar toda la información -porque son nuestros datos experimentales-, aún cuando el NCBI no tuviera información para alguno de los loci.

Para fusionar ambos DataFrames tenemos que especificar qué columnas usar para parear registros y qué DataFrame queremos dejar con todos sus registros. En este caso, fusionamos genes_crec con genes_ncbi. Es decir, genes_crec queda a la izquierda y es el DataFrame que queremos conservar completo (la alternativa sería fusionar genes_ncbi con genes_crec):


In [171]:
genes_crec_info = genes_crec.merge(genes_ncbi, 
                                   how = 'left', 
                                   left_on = 'ORF', 
                                   right_on = 'Locus_tag')

In [173]:
print(genes_crec_info)

          ORF Growth_20g Growth_60g Growth_MM Growth_YPD_NaCl  \
0     YAL003W        Ess        Ess       Ess             Ess   
1     YAL004W        Non        Non        ND             Non   
2     YAL008W        Non        Non       Non             Non   
3     YAL013W        Non        0.6        ND             Non   
4     YAL014C        0.8        0.2       0.3             0.4   
...       ...        ...        ...       ...             ...   
3653  YPR196W        0.5        0.8       0.7             Non   
3654  YPR197C        Non        Ess       0.9             Non   
3655  YPR198W        0.7        0.6       Non             0.7   
3656  YPR199C        0.3        0.2       0.1             0.6   
3657  YPR200C        0.5        Non       0.8             0.6   

     Growth_YP_lactate    Accession     Begin       End Chromosome  \
0                  Ess  NC_001133.9  142174.0  143160.0          I   
1                  Non          NaN       NaN       NaN        NaN   
2        

In [175]:
genes_ncbi.shape

(6477, 13)

In [177]:
genes_crec.shape

(3658, 6)

In [179]:
genes_crec_info.shape

(3658, 19)

## Sugerencias de ejercicios

Los dos DataFrames tienen bastante información y se podrían hacer otros filtrados. Por ejemplo, las columnas de genes_crec pueden tomar valores numéricos, indicando el efecto sobre el crecimiento con respecto a la cepa *wild type*, o el valor texto "ess"para indicar que es un gen esencial, o "Non", porque es un gen no esencial y no se observa ningún cambio en el crecimiento, o "ND", indicando que no se realizó la medición. De manera que las columnas son de tipo string, pero se pueden filtrar los genes esenciales, no esenciales y en tercer lugar los de efecto intermedio convirtiendolos a números. 

No lo vimos en esta clase, pero los DataFrames también se pueden ordenar de acuerdo a alguna columna. es algo sencillo de hacer y pueden buscar ustedes la información sobre cómo hacerlo y proponer ejemplos.