In [None]:
from IPython.core.display import display, HTML, Javascript
display(HTML("<style>.container { width:90% !important; }</style>"))

# <font color = blue>DataFrames</font>

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html
- ## se utiliza para <font color = limegreen>manipulaciones de datos estructurados</font> y <font color = limegreen>estadística</font>
- ## Es muy habitual usarlo en la fase de depuración y preparación de los datos.
- ## Es un módulo que se ha añadido recientemente, pero <font color = limegreen>su gran utilidad ha impulsado el uso de Python en la comunidad científica</font> 
- ## Permite crear DataFrames, <font color = limegreen>que son tablas de datos ordenadas por filas y columnas</font>

<img style="float:center;" src="https://github.com/bioinfo01123/Semana1/blob/master/pandas.png?raw=true" width = 80%>

<img style="float:center;" src="https://raw.githubusercontent.com/bioinfo01123/taller2022/main/Clase1_dataframes_pandas.png" width = 80%> 

- ##  <font color = darkorange>Un DataFrame es la estructura de datos más importante y ampliamente usada, y es una manera estándar de almacenar datos</font>

## Importar pandas

In [None]:
import pandas as pd
from pandas import DataFrame

# Cómo construir un DataFrame desde cero

In [None]:
# cómo hacer un df de dos columna
d = {'col1': [1, 2, 3, 4, 5], 'col2': [6, 7, 8, 9, 10], 'col3': [11, 12, 13, 14, 15], 'col4': [16, 17, 18, 19, 20]}

In [None]:
d

In [None]:
pd.DataFrame(data=d)

In [None]:
indice = ['A', 'B', 'C', 'D', 'E']
pd.DataFrame(data=d, index = indice)

In [None]:
# cómo hacer un df de una columna
d1 = {'col1': [1,2,3,4,4,6,7,8,9,0]}

In [None]:
pd.DataFrame(data=d1)

In [None]:
import random
import string

# creamos una lista de letras al azar
letters = string.ascii_uppercase
columnas = random.choices(letters,k=10)

In [None]:
columnas

In [None]:
# otra forma de construir un df de dos columnas
d2 = [[1, 2, 3, 4, 5, 6, 7, 8, 9, 10], [11, 12, 13, 14, 15, 16, 17, 18, 19, 20]]

In [None]:
# usamos las letras como nombres de columnas
DataFrame(d2, columns = columnas)

In [None]:
# otra forma de construir un df de dos columnas
d3 = [[1,7], [2,7], [3,7], [4,7], [5,7], [1,7], [2,7], [3,7], [4,7], [5,7]]

In [None]:
DataFrame(d3, columns = ['A', 'B'])

## <font color = red>Descarga el siguiente archivo usando tu función de descarga:</font>
https://raw.githubusercontent.com/Bioinformatica2020/Semana5/master/Ontology.csv    


# Cómo abrir una tabla:
- ### separada por comas
- ### separada por tabuladores

In [None]:
url1 = 'https://raw.githubusercontent.com/Bioinformatica2020/Semana5/master/Ontology.csv'

In [None]:
# abrir un archivo alojado en la plataforma de Github
ontologia = pd.read_csv(url1)

In [None]:
ontologia

In [None]:
# conteo del número de registros
len(ontologia)

In [None]:
# otra forma de contar los registros y los muestra por columna
ontologia.count()

In [None]:
ontologia.dtypes

In [None]:
ontologia.info()

In [None]:
ontologia.describe()

In [None]:
url2 = 'https://raw.githubusercontent.com/Bioinformatica2020/Semana5/master/Enrichment_data.csv'

In [None]:
# abrir un archivo alojado en la plataforma de Github
enriquecimiento = pd.read_csv(url2, sep = '\t')

In [None]:
enriquecimiento

In [None]:
enriquecimiento.dtypes

In [None]:
enriquecimiento.info()

In [None]:
len(enriquecimiento)

In [None]:
enriquecimiento.count()

In [None]:
enriquecimiento.min()

In [None]:
enriquecimiento.max()

# Cómo filtrar información

- ### Seleccionar: filas o columnas
- ### Eliminar: filas o columnas
- ### Por valores numéricos

### <font color = darkorange>seleccionar un determinado número de filas o de columnas</font>

- #### `iloc` obtiene filas (o columnas) en posiciones particulares en el índice (por lo que solo toma números)

Esta unción puede tener 1 o 2 argumentos, el primero para filas y el segundo para columnas

In [None]:
# nuevo dataframe
d2 = [[1, 2, 3, 4, 5, 6, 7, 8, 9, 10], [11, 12, 13, 14, 15, 16, 17, 18, 19, 20]] * 4

In [None]:
d22 = DataFrame(d2, columns = columnas)
d22

In [None]:
# les estoy diciendo que tome de la fila 5 a la 6, y de la columna 6 en adelante
d22.iloc[4:6, 5:]

In [None]:
# les estoy diciendo que tome todas las filas, y solo las columnas de la 6 a la 9
d22.iloc[:, 5:9]

### <font color = darkorange>seleccionar filas con un patrón</font>

In [None]:
ontologia.head()

In [None]:
ontologia[ontologia['Aspect'].str.contains('P') == True]

In [None]:
# otra forma de seleccionar filas usando un patrón específico pero completo
ontologia[ontologia.Aspect == 'P']

In [None]:
# selecciona algún término de la columna Term


In [None]:
#
ontologia[ontologia['Term'].str.contains('metabolic') == True]

### <font color = darkorange>Seleccionar filas que superan un valor</font>

In [None]:
enriquecimiento[enriquecimiento.list_count > 200]

### <font color = darkorange>Seleccionar filas dentro de un intervalo de valores</font>

In [None]:
enriquecimiento.list_count >= 10

In [None]:
# filas con valores entre 10 y 50 para la columna list_count
enriquecimiento[((enriquecimiento.list_count >= 10) == True) & ((enriquecimiento.list_count <= 50) == True)]

### <font color = darkorange>eliminar filas con un patrón</font>

In [None]:
ontologia[ontologia['Aspect'].str.contains('P|C') == False]

### <font color = darkorange>seleccionar columnas</font>

In [None]:
# Selecionar una columna
ontologia[['Term']]

In [None]:
enriquecimiento[['list_count' , 'P']]

### <font color = darkorange>eliminar columnas</font>

In [None]:
# eliminar columnas específicas
ontologia.drop(columns = ['GO'])

### <font color = darkorange>Ordenar filas</font>

In [None]:
enriquecimiento.head()

In [None]:
enriquecimiento.sort_values(by = ['list_count'], ascending=False)

# Tablas dinámicas

In [None]:
ontologia.head()

In [None]:
ontologia.pivot_table(values = 'GO', index = ['Aspect'], aggfunc = len).reset_index()

## <font color = red>Ejercicio:</font>
### Modificando el comando anterior determina la frecuencia de Terms

In [None]:
enriquecimiento.head()

In [None]:
enriquecimiento.pivot_table(values = 'GO', index = ['Sig'], aggfunc = "count").reset_index()

In [None]:
enriquecimiento.pivot_table(values = 'Term', index = ['list_count'], aggfunc = len).reset_index()

# Agrupar datos con la función `groupby`

In [None]:
enriquecimiento.groupby(['list_count']).Term.count().reset_index()

In [None]:
enriquecimiento[enriquecimiento.list_count == 7]

# función `iterrows()`
## Cuando tienes DataFrames también puedes iterar con sus columnas para realizar alguna acción

In [None]:
for indice, columna in enriquecimiento.iterrows():
    # si el valor de P es menor que el FDR entonces es significante
    # cuando el valor de P es igual o mayor que el FDR deja de ser significante
    print((columna.P < columna.FDR), columna.Sig, columna.Term)

# Cómo hacer `merge`, una herramienta útil para hacer mapeos
https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
## Mapeo de identificadores
### El `merge` solo aplica para cadenas de caracteres, no funciona con números, solo si antes los conviertes caracteres

In [None]:
enriquecimiento2 = enriquecimiento.merge(ontologia, on = 'GO')

In [None]:
enriquecimiento2

In [None]:
enriquecimiento2.pivot_table(values='GO',index=['Sig'], columns = 'Aspect',aggfunc = "count").reset_index()

## <font color = red>Ejercicio:</font>
### Usando la variable enriquecimiento2:
- #### Filtra solo el aspecto Biological Process
- #### Qué términos son estadísticamente significativos, T en la columna `Sig`
- #### Cuántos Terms tienen un valor de P menor a 0.05