In [None]:
from IPython.core.display import display, HTML, Javascript
display(HTML("<style>.container { width:90% !important; }</style>"))

# <font color = blue>DataFrames</font>

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html
- ## se utiliza para <font color = limegreen>manipulaciones de datos estructurados</font> y <font color = limegreen>estadística</font>
- ## Es muy habitual usarlo en la fase de depuración y preparación de los datos.
- ## Es un módulo que se ha añadido recientemente, pero <font color = limegreen>su gran utilidad ha impulsado el uso de Python en la comunidad científica</font> 
- ## Permite crear DataFrames, <font color = limegreen>que son tablas de datos ordenadas por filas y columnas</font>

<img style="float:center;" src="https://github.com/bioinfo01123/Semana1/blob/master/pandas.png?raw=true" width = 80%>

<img style="float:center;" src="https://raw.githubusercontent.com/bioinfo01123/taller2022/main/Clase1_dataframes_pandas.png" width = 80%> 

- ##  <font color = darkorange>Un DataFrame es la estructura de datos más importante y ampliamente usada, y es una manera estándar de almacenar datos</font>

## Importar pandas

In [None]:
import pandas as pd
from pandas import DataFrame

# Cómo construir un DataFrame desde cero

In [None]:
# cómo hacer un df de dos columna
d = {'col1': [1, 2, 3, 4, 5], 'col2': [6, 7, 8, 9, 10], 'col3': [11, 12, 13, 14, 15], 'col4': [16, 17, 18, 19, 20]}

In [None]:
d

In [None]:
pd.DataFrame(data=d)

In [None]:
indice = ['A', 'B', 'C', 'D', 'E']
pd.DataFrame(data=d, index = indice)

In [None]:
# cómo hacer un df de una columna
d1 = {'col1': [1,2,3,4,4,6,7,8,9,0]}

In [None]:
pd.DataFrame(data=d1)

In [None]:
import random
import string

# creamos una lista de letras al azar
letters = string.ascii_uppercase
columnas = random.choices(letters,k=10)

In [None]:
columnas

In [None]:
# otra forma de construir un df de dos columnas
d2 = [[1, 2, 3, 4, 5, 6, 7, 8, 9, 10], [11, 12, 13, 14, 15, 16, 17, 18, 19, 20]]

In [None]:
# usamos las letras como nombres de columnas
DataFrame(d2, columns = columnas)

In [None]:
# otra forma de construir un df de dos columnas
d3 = [[1,7], [2,7], [3,7], [4,7], [5,7], [1,7], [2,7], [3,7], [4,7], [5,7]]

In [None]:
DataFrame(d3, columns = ['A', 'B'])

## <font color = red>Descarga el siguiente archivo usando tu función de descarga:</font>
https://raw.githubusercontent.com/Bioinformatica2020/Semana5/master/Ontology.csv    


# Cómo abrir una tabla:
- ### separada por comas
- ### separada por tabuladores

In [None]:
url1 = 'https://raw.githubusercontent.com/Bioinformatica2020/Semana5/master/Ontology.csv'

In [None]:
# abrir un archivo alojado en la plataforma de Github
ontologia = pd.read_csv(url1)

In [None]:
ontologia

In [None]:
# conteo del número de registros
len(ontologia)

In [None]:
# otra forma de contar los registros y los muestra por columna
ontologia.count()

In [None]:
ontologia.dtypes

In [None]:
ontologia.info()

In [None]:
ontologia.describe()

In [None]:
url2 = 'https://raw.githubusercontent.com/Bioinformatica2020/Semana5/master/Enrichment_data.csv'

In [None]:
# abrir un archivo alojado en la plataforma de Github
enriquecimiento = pd.read_csv(url2, sep = '\t')

In [None]:
enriquecimiento

In [None]:
enriquecimiento.dtypes

In [None]:
enriquecimiento.info()

In [None]:
len(enriquecimiento)

In [None]:
enriquecimiento.count()

In [None]:
enriquecimiento.min()

In [None]:
enriquecimiento.max()

# Cómo filtrar información

- ### Seleccionar: filas o columnas
- ### Eliminar: filas o columnas
- ### Por valores numéricos

### <font color = darkorange>seleccionar un determinado número de filas o de columnas</font>

- #### `iloc` obtiene filas (o columnas) en posiciones particulares en el índice (por lo que solo toma números)

Esta unción puede tener 1 o 2 argumentos, el primero para filas y el segundo para columnas

In [None]:
# nuevo dataframe
d2 = [[1, 2, 3, 4, 5, 6, 7, 8, 9, 10], [11, 12, 13, 14, 15, 16, 17, 18, 19, 20]] * 4

In [None]:
d22 = DataFrame(d2, columns = columnas)
d22

In [None]:
# les estoy diciendo que tome de la fila 5 a la 6, y de la columna 6 en adelante
d22.iloc[4:6, 5:]

In [None]:
# les estoy diciendo que tome todas las filas, y solo las columnas de la 6 a la 9
d22.iloc[:, 5:9]

### <font color = darkorange>seleccionar filas con un patrón</font>

In [None]:
ontologia.head()

In [None]:
ontologia[ontologia['Aspect'].str.contains('P') == True]

In [None]:
# otra forma de seleccionar filas usando un patrón específico pero completo
ontologia[ontologia.Aspect == 'P']

In [None]:
# selecciona algún término de la columna Term


In [None]:
#
ontologia[ontologia['Term'].str.contains('metabolic') == True]

### <font color = darkorange>Seleccionar filas que superan un valor</font>

In [None]:
enriquecimiento[enriquecimiento.list_count > 200]

### <font color = darkorange>Seleccionar filas dentro de un intervalo de valores</font>

In [None]:
enriquecimiento.list_count >= 10

In [None]:
# filas con valores entre 10 y 50 para la columna list_count
enriquecimiento[((enriquecimiento.list_count >= 10) == True) & ((enriquecimiento.list_count <= 50) == True)]

### <font color = darkorange>eliminar filas con un patrón</font>

In [None]:
ontologia[ontologia['Aspect'].str.contains('P|C') == False]

### <font color = darkorange>seleccionar columnas</font>

In [None]:
# Selecionar una columna
ontologia[['Term']]

In [None]:
enriquecimiento[['list_count' , 'P']]

### <font color = darkorange>eliminar columnas</font>

In [None]:
# eliminar columnas específicas
ontologia.drop(columns = ['GO'])

### <font color = darkorange>Ordenar filas</font>

In [None]:
enriquecimiento.head()

In [None]:
enriquecimiento.sort_values(by = ['list_count'], ascending=False)

# Tablas dinámicas

In [None]:
ontologia.head()

In [None]:
ontologia.pivot_table(values = 'GO', index = ['Aspect'], aggfunc = len).reset_index()

## <font color = red>Ejercicio:</font>
### Modificando el comando anterior determina la frecuencia de Terms

In [None]:
enriquecimiento.head()

In [None]:
enriquecimiento.pivot_table(values = 'GO', index = ['Sig'], aggfunc = "count").reset_index()

In [None]:
enriquecimiento.pivot_table(values = 'Term', index = ['list_count'], aggfunc = len).reset_index()

# Agrupar datos con la función `groupby`

In [None]:
enriquecimiento.groupby(['list_count']).Term.count().reset_index()

In [None]:
enriquecimiento[enriquecimiento.list_count == 7]

# función `iterrows()`
## Cuando tienes DataFrames también puedes iterar con sus columnas para realizar alguna acción

In [None]:
for indice, columna in enriquecimiento.iterrows():
    # si el valor de P es menor que el FDR entonces es significante
    # cuando el valor de P es igual o mayor que el FDR deja de ser significante
    print((columna.P < columna.FDR), columna.Sig, columna.Term)

# Cómo hacer `merge`, una herramienta útil para hacer mapeos
https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
## Mapeo de identificadores
### El `merge` solo aplica para cadenas de caracteres, no funciona con números, solo si antes los conviertes caracteres

In [None]:
enriquecimiento2 = enriquecimiento.merge(ontologia, on = 'GO')

In [None]:
enriquecimiento2

In [None]:
enriquecimiento2.pivot_table(values='GO',index=['Sig'], columns = 'Aspect',aggfunc = "count").reset_index()

## <font color = red>Ejercicio:</font>
### Usando la variable enriquecimiento2:
- #### Filtra solo el aspecto Biological Process
- #### Qué términos son estadísticamente significativos, T en la columna `Sig`
- #### Cuántos Terms tienen un valor de P menor a 0.05

In [None]:
bp = enriquecimiento2[enriquecimiento2.Aspect == 'P']

In [None]:
bp

In [None]:
import matplotlib.pyplot as plt

In [None]:
fig, ax = plt.subplots(figsize=(5,10), linewidth= 5)

for i, j in zip(bp[['Term_x']].loc[0:25].Term_x.tolist(), # Columna 0 del DataFrame frecuencia2
                bp[['list_count']].loc[0:25].list_count.tolist()): # Columna 1 del DataFrame frecuencia2
    ax.barh(i, # etiquetas del eje x, en itálica
            j, # valores del eje y
             color= 'blue', # color 
             align='center', # alineamiento de las barras, la otra opción 'edge'
             height= 0.8, # grosor de las barras
            linewidth = 0, # ancho del borde de las barras
             alpha = 1, # transparencia
            edgecolor= 'blue') # color del borde de las barras

ax.spines['right'].set_visible(False) # oculta la linea derecha
ax.spines['left'].set_visible(False) # oculta la linea izquierda
ax.spines['top'].set_visible(False) # oculta la linea superior 
ax.spines['bottom'].set_position(('data',-0.6)) # separación entre la primer barra y el eje x

ax.xaxis.set_tick_params(labelsize=10) # tamaño de letra del eje x
ax.yaxis.set_tick_params(labelsize=12) # tamaño de letra del eje y
ax.set_xlabel("Número de proteínas",size= 15) # título y tamaño para el eje x
ax.set_ylabel("Términos", size= 15) # título y tamaño para el eje y
ax.set_title('Frecuencia', size= 20) # Título del gráfico

# si quieres salvar el gráfico activa la siguiente línea, y vuelve a correr la celda
#fig.savefig('../salidas/Procesos.png',dpi = 600, bbox_inches='tight')

plt.show()

# Datos provenientes de un análisis de 16S

# Filtrar DataFrame

In [None]:
Columnas = [0, 5, 7, 8, 10, 11, 13, 14, 16, 17, 19, 20, 22, 23, 25]
Nombres = ['Entry', 'Kingdom', 'K_Score', 'Phylum', 'P_Score', 'Class', 'C_Score',
'Order', 'O_Score', 'Family', 'F_Score', 'Genus', 'G_Score', 'Species', 'S_Score']
column_scores = ['K_Score', 'P_Score', 'C_Score', 'O_Score', 'F_Score', 'G_Score', 'S_Score']
category_names = ['Kingdom', 'Phylum', 'Class', 'Order', 'Family', 'Genus', 'Species','Entry']

In [None]:
url3 = 'https://raw.githubusercontent.com/bioinfo01123/taller2022/main/ASV_vs_RDP_classif.txt'

In [None]:
tax = pd.read_csv(url3, sep='\t', header =None)

In [None]:
tax

In [None]:
tax = tax[Columnas]

In [None]:
tax.columns=Nombres

In [None]:
tax

In [None]:
tax[['Entry']]

In [None]:
df1 = tax[['Entry', 'Genus','G_Score']]#toma sólo las columnas que se indican entre comillas

In [None]:
df1

In [None]:
df1.max()

In [None]:
df1.min()

In [None]:
especies = tax['S_Score'] >= 0.7 

In [None]:
especies

In [None]:
esp = tax[tax['S_Score'] >= 0.7]

In [None]:
esp

In [None]:
url4 = 'https://raw.githubusercontent.com/bioinfo01123/taller2022/main/ASV_counts.txt'

In [None]:
cuentas = pd.read_csv(url4, sep='\t')

In [None]:
cuentas

In [None]:
df2 = esp.merge(cuentas, on = 'Entry')

In [None]:
df3 = df2.sort_values(by ='Sample_17',ascending=False).reset_index(drop=True)
df3

In [None]:
df4 = pd.pivot_table(df3, values='Sample_17', index='Species', aggfunc=sum).reset_index()

In [None]:
df5 = df4.sort_values(by ='Sample_17',ascending=False).reset_index(drop=True)

In [None]:
top5 = df5.head(5)

In [None]:
top5

In [None]:
plt.gca().set_title("Especies", fontsize=30)
top5.Sample_17.plot.pie(label = '', cmap='Pastel1',figsize = (7,7), 
                        title ="", fontsize = 12,autopct='%1.2f%%', 
                        shadow = False,
                        wedgeprops   = { 'linewidth' : 2,'edgecolor' : "silver" })
circle = plt.Circle( (0,0), 0.7, color='white')
p=plt.gcf()
p.gca().add_artist(circle)
plt.show()

In [None]:
import matplotlib as mpl
from matplotlib import cm
import numpy as np

In [None]:
colores = {'tab20' : [mpl.colors.to_hex(i) for i in cm.tab20(np.arange(20)/20.)],
          'tab10' : [mpl.colors.to_hex(i) for i in cm.tab10(np.arange(10)/10.)],
          'tab20b' : [mpl.colors.to_hex(i) for i in cm.tab20b(np.arange(20)/20.)],
          'tab20c' : [mpl.colors.to_hex(i) for i in cm.tab20c(np.arange(20)/20.)],
          'Set3' : [mpl.colors.to_hex(i) for i in cm.Set3(np.arange(12)/12.)],
          'Set2' : [mpl.colors.to_hex(i) for i in cm.Set2(np.arange(8)/8.)],
          'Set1' : [mpl.colors.to_hex(i) for i in cm.Set1(np.arange(9)/9.)],
          'Pastel2' : [mpl.colors.to_hex(i) for i in cm.Pastel2(np.arange(8)/8.)],
          'Pastel1' : [mpl.colors.to_hex(i) for i in cm.Pastel1(np.arange(9)/9.)],
          'Dark2' : [mpl.colors.to_hex(i) for i in cm.Dark2(np.arange(8)/8.)],
          'Paired' : [mpl.colors.to_hex(i) for i in cm.Paired(np.arange(12)/12.)],
          'Accent' : [mpl.colors.to_hex(i) for i in cm.Accent(np.arange(8)/8.)],
          'Spectral' : [mpl.colors.to_hex(i) for i in cm.Spectral(np.arange(11)/11.)]}

In [None]:
colores['tab20']

In [None]:
df2.columns

In [None]:
T = 'Phylum' # nivel taxonómico
S = 'Sample_15' # elegir la muestra
U = 10 # elegir el número  de filas

In [None]:
df3 = df2.sort_values(by =S,ascending=False).reset_index(drop=True)
df44 = pd.pivot_table(df3, values=S, index=T, aggfunc=sum).reset_index()
df55 = df44.sort_values(by =S,ascending=False).reset_index(drop=True)
df55 = df55[df55[S] > 0]
top55 = df55.head(U)
top55 = top55.set_index(T)
porc = [str(i)+' %' for i in list(np.round(np.array(top55[S].tolist()) / np.sum(top55[S].tolist()) * 100, 2))]
labels = top55.index.tolist()

In [None]:
print(T, S, U)
labels = top55.index.tolist()
sizes = top55[S].tolist()

fig = plt.figure(figsize=(5, 5))
ax = fig.add_axes([0, 0, 1, 1])

#ax.set_title('Biodiversidad', fontsize=20)

ax.pie(sizes, colors = colores['tab20'], shadow=False, startangle=0,
       textprops={'fontsize': 14})

centre_circle = plt.Circle((0,0),0.7,fc='white')
figg = plt.gcf()
figg.gca().add_artist(centre_circle)

plt.legend([a+' ('+b+')' for a, b in zip(labels, porc)], title=T,
           title_fontsize = 23, loc=(0.98, 0.2), shadow=False, fontsize= 14,
          borderpad = 0, edgecolor="white", columnspacing = 1)

plt.show()

<img style="float:center;" src="https://matplotlib.org/stable/_images/sphx_glr_colormaps_006.png" width = 50%>

In [None]:
len(['Class', 'Order', 'Family', 'Genus']) * len([i for i in df2.columns if 'Sample' in i][:5])

In [None]:
for nivel in ['Class', 'Order', 'Family', 'Genus']:
    print(nivel)
    for muestra in [i for i in df2.columns if 'Sample' in i]:
        print(muestra)
        T = nivel # nivel taxonómico
        S = muestra # elegir la muestra
        U = 10 # elegir el número  de filas
        df3 = df2.sort_values(by =S,ascending=False).reset_index(drop=True)
        df44 = pd.pivot_table(df3, values=S, index=T, aggfunc=sum).reset_index()
        df55 = df44.sort_values(by =S,ascending=False).reset_index(drop=True)
        df55 = df55[df55[S] > 0]
        top55 = df55.head(U)
        top55 = top55.set_index(T)
        porc = [str(i)+' %' for i in list(np.round(np.array(top55[S].tolist()) / np.sum(top55[S].tolist()) * 100, 2))]
        labels = top55.index.tolist()
        
        labels = top55.index.tolist()
        sizes = top55[S].tolist()

        fig = plt.figure(figsize=(5, 5))
        ax = fig.add_axes([0, 0, 1, 1])

        #ax.set_title('Biodiversidad', fontsize=20)

        ax.pie(sizes, colors = colores['tab20'], shadow=False, startangle=0,
               textprops={'fontsize': 14})

        centre_circle = plt.Circle((0,0),0.7,fc='white')
        figg = plt.gcf()
        figg.gca().add_artist(centre_circle)

        plt.legend([a+' ('+b+')' for a, b in zip(labels, porc)], title=T,
                   title_fontsize = 23, loc=(0.98, 0.2), shadow=False, fontsize= 14,
                  borderpad = 0, edgecolor="white", columnspacing = 1)

        plt.show()

In [None]:
umbral = 0.05
for nivel in ['Class', 'Order', 'Family', 'Genus']:
    print(nivel)
    for muestra in [i for i in df2.columns if 'Sample' in i]:
        print(muestra)
        T = nivel # nivel taxonómico
        S = muestra # elegir la muestra
        U = 10 # elegir el número  de filas
        df3 = df2.sort_values(by =S,ascending=False).reset_index(drop=True)
        df44 = pd.pivot_table(df3, values=S, index=T, aggfunc=sum).reset_index()
        df55 = df44.sort_values(by =S,ascending=False).reset_index(drop=True)
        df55 = df55[df55[S] > 0]
        top55 = df55.head(U)
        top55 = top55.set_index(T)
        
        porc = [str(i)+' %' for i in list(np.round(np.array(top55[S].tolist()) / np.sum(top55[S].tolist()) * 100, 2))]
        
        #-------------------------------------------
        
        porc2 = [i for i in list(np.round(np.array(top55[S].tolist()) / np.sum(top55[S].tolist()) * 100, 2))]
        top55['per'] = porc2
        top55 = top55[top55['per'] >= umbral]
        
        #-------------------------------------------
        
        labels = top55.index.tolist()
        
        labels = top55.index.tolist()
        sizes = top55[S].tolist()

        fig = plt.figure(figsize=(5, 5))
        ax = fig.add_axes([0, 0, 1, 1])

        #ax.set_title('Biodiversidad', fontsize=20)

        ax.pie(sizes, colors = colores['tab20'], shadow=False, startangle=0,
               textprops={'fontsize': 14})

        centre_circle = plt.Circle((0,0),0.7,fc='white')
        figg = plt.gcf()
        figg.gca().add_artist(centre_circle)

        plt.legend([a+' ('+b+')' for a, b in zip(labels, porc)], title=T,
                   title_fontsize = 23, loc=(0.98, 0.2), shadow=False, fontsize= 14,
                  borderpad = 0, edgecolor="white", columnspacing = 1)

        plt.show()

In [None]:
from IPython.core.display import display, HTML, Javascript
display(HTML("<style>.container { width:90% !important; }</style>"))

In [None]:
df2

In [None]:
df2.columns

In [None]:
name_sample = [i for i in df2.columns if 'Sample' in i]
name_sample

In [None]:
nivel = 'Genus'

In [None]:
data_pivot = pd.pivot_table(df2[[nivel] + name_sample], values = name_sample, index = [nivel], aggfunc = sum).reset_index()

In [None]:
data_pivot

In [None]:
porcentaje = data_pivot[name_sample].values/data_pivot[name_sample].values.sum(axis=0)*100
porcentaje

In [None]:
abundancia_relativa = DataFrame(porcentaje, columns = name_sample)
abundancia_relativa

In [None]:
data_pivot[nivel]

In [None]:
abundancia_relativa.insert(loc = 0, column=nivel, value=data_pivot[nivel])

In [None]:
abundancia_relativa

In [None]:
len(name_sample)

In [None]:
PorcentajE = 3

In [None]:
from functools import reduce

In [None]:
abundancias = []
for i in name_sample:
    df = abundancia_relativa[[nivel, i]]
    if PorcentajE == 0:
        df = df[df[i] > PorcentajE]
        ff = df
    else:
        df = df[df[i] >= PorcentajE]
        ef = DataFrame({nivel:['Others'], i:[100 - df[i].sum()]})
        ff = pd.concat([df, ef])
    abundancias.append(ff)
AbundanciA = reduce(lambda  left,right: pd.merge(left, right, on = [nivel], how = 'outer'), abundancias).fillna(0)

In [None]:
AbundanciA

In [None]:
AbundanciA = AbundanciA[AbundanciA[nivel].str.contains('Others') == False]
AbundanciA

In [None]:
org = AbundanciA[nivel].tolist()
org

In [None]:
AbundanciA = AbundanciA.T
AbundanciA = AbundanciA.drop(AbundanciA.index[[0]])
AbundanciA

In [None]:
AbundanciA.columns = org

In [None]:
AbundanciA.insert(0, 'Sample', AbundanciA.index.tolist())

In [None]:
# plot data in stack manner of bar type
AbundanciA.plot(x='Sample', kind='bar', stacked=True, figsize=(15,6), rot=90, fontsize=12, width=0.9, cmap = 'tab20')

plt.legend(AbundanciA.columns.tolist()[1:], title= nivel, ncol= 1,
           title_fontsize = 15, loc=(1.02, 0.2), shadow=False, fontsize= 10,
          borderpad = 0, edgecolor="white", columnspacing = 1)

plt.gca().set_title('Abundancia relativa (%)', fontsize=15)

plt.show()

In [None]:
PorcentajE = 1
quitar_otros = 'n'



for nivel in ['Phylum', 'Class', 'Order', 'Family', 'Genus', 'Species']:
    
    data_pivot = pd.pivot_table(df2[[nivel] + name_sample], values = name_sample, index = [nivel], aggfunc = sum).reset_index()
    porcentaje = data_pivot[name_sample].values/data_pivot[name_sample].values.sum(axis=0)*100
    abundancia_relativa = DataFrame(porcentaje, columns = name_sample)
    abundancia_relativa.insert(loc = 0, column=nivel, value=data_pivot[nivel])
    

    abundancias = []
    for i in name_sample:
        df = abundancia_relativa[[nivel, i]]
        if PorcentajE == 0:
            df = df[df[i] > PorcentajE]
            ff = df
        else:
            df = df[df[i] >= PorcentajE]
            ef = DataFrame({nivel:['Others'], i:[100 - df[i].sum()]})
            ff = pd.concat([df, ef])
        abundancias.append(ff)
    AbundanciA = reduce(lambda  left,right: pd.merge(left, right, on = [nivel], how = 'outer'), abundancias).fillna(0)
    
    if quitar_otros == 'y':
        AbundanciA = AbundanciA[AbundanciA[nivel].str.contains('Others') == False]
    if quitar_otros == 'n':
        pass
    
    
    org = AbundanciA[nivel].tolist()

    AbundanciA = AbundanciA.T
    AbundanciA = AbundanciA.drop(AbundanciA.index[[0]])


    AbundanciA.columns = org
    AbundanciA.insert(0, 'Sample', AbundanciA.index.tolist())

    # plot data in stack manner of bar type
    AbundanciA.plot(x='Sample', kind='bar', stacked=True, figsize=(15,6), rot=90, fontsize=12, width=0.9, cmap = 'tab20')
    
    
    if len(org) <= 10:
        NCOL = 1
    if 10 < len(org) < 15:
        NCOL = 2
    if 15 < len(org) < 20:
        NCOL = 3
    if 20 < len(org) < 25:
        NCOL = 4
    
    plt.legend(AbundanciA.columns.tolist()[1:], title= nivel, ncol= NCOL,
               title_fontsize = 15, loc=(1.02, 0.2), shadow=False, fontsize= 10,
              borderpad = 0, edgecolor="white", columnspacing = 1)

    plt.gca().set_title('Abundancia relativa (%)', fontsize=15)

    plt.show()