# Módulos

En Python, cada script o archivo de código fuente, se denominan módulos. Estos módulos, a la vez, pueden formar parte de paquetes. Un paquete, es una carpeta que contiene archivos `.py`. Por ejemplo, si guardáramos el contenido de la función para obtener codones a partir de un string, y le ponemos la extensión `py` y lo guardamos como `get_codons.py` sería un script de python, si el script está en la misma carpeta del notebook yo podría importarlo así:

In [None]:
# import get_codons

Eso me permite reutilizar mi código. Afortunadamente python contienen módulos `built-in`, métodos integrados. Además, podemos instalar nuevos paquetes que contienen módulos con `pip`, el instalador oficial de Python, o con `conda`, el gestor de paquetes de Anaconda Inc.

In [None]:
import calendar

In [None]:
print(calendar.month(2022, 2))

Es posible también, abreviar los namespaces mediante un alias. Para ello, durante la importación, se asigna la palabra clave as seguida del alias con el cuál nos referiremos en el futuro a ese namespace importado:

- `import modulo`
- `import modulo as m`
- `import paquete.modulo1 as pm`
- `import paquete.subpaquete.modulo1 as psm`

### OOP

In [None]:
help(get_codons)

In [None]:
import get_codons

In [None]:
help(get_codons)

In [None]:
help(atgtools)

In [None]:
import atgtools

In [None]:
help(atgtools)

In [None]:
from atgtools import get_codons

In [None]:
help(get_codons)

In [None]:
import atgtools as atg

In [None]:
help(atg.get_codons)

In [None]:
atg.get_codons()

In [None]:
def tamaño():
    print("grande")

In [None]:
# Función
tamaño()

In [None]:
class Perros():
    
    razas = "Pastor alemán"
    
    def ladridos(self):
        print("guau guau")
    
    def color(self):
        print("Negro")

In [None]:
# Clase
mascota = Perros()

In [None]:
# Método
mascota.color()

In [None]:
# Atributo
mascota.razas

# Pandas

<img src="./imgs/pandas.png" align="center"/>

## ¿Qué es Pandas?

Pandas, de *"panel data"*, es una biblioteca de Python que nos permite manejar tablas, también conocidas como *DataFrames*, las cuales están constituidas por tres elementos:

- Los datos
- El índice
- Las columnas

|Estructura de pandas | Dimensiones | Analogía Excel
| -- | -- | -- |
|Series |1D| Columna|
|DataFrame |2D | Hoja de cálculo|
|Panel | 3D| Múltiples hojas de cálculo|


Para utilizar el módulo Pandas es necesario importarlo.

```python
import pandas as pd
```

Descargaremos mas adelante el archivo de manera remota utilizando comandos bash en Jupyter Notebooks

```python
! mkdir -p data
! curl https://atgenomics-data.s3.amazonaws.com/IGC.annotation.tsv.gz -o data/IGC.annotation.tsv.gz

df = pd.read_csv("data/IGC.annotation.tsv.gz", sep='\t')
```

O bien, podemos descargar archivos de manera remota utilizando únicamente Pandas, recuerda quitar el `#` de la siguiente celda:

In [None]:
# df = pd.read_csv('https://atgenomics-data.s3.amazonaws.com/IGC.annotation.tsv.gz', sep='\t')

### Uso de comandos bash en celdas de Jupyper Notebooks

Podemos utilizar comandos bash en Jupyter por celda con el comando mágico: `%%bash`

In [None]:
%%bash

for i in {1..10}
do
    echo $i
done

Comando mágico de IPython `%ls` 

In [None]:
%ls -ltrh *ipynb

Linux command with `!`

In [None]:
! ls -ltrh *ipynb
! echo "This is Bash"

In [None]:
myvar = !ls

In [None]:
myvar

Magic Commands availables per line/cell

In [None]:
%lsmagic

### Uso de únicamente Python para descargar archivos

Descargar el archivo de manera remota utilizando ÚNICAMENTE módulos de Python

In [None]:
import os
import requests

Crear directorio

In [None]:
os.makedirs('./data/', exist_ok = True)

Definir variable con URL

In [None]:
url = 'https://atgenomics-data.s3.amazonaws.com/IGC.annotation.tsv.gz'

Utilizar requests para obtener el contenido del archivo en la URL

In [None]:
r = requests.get(url, allow_redirects=True)

Escribir el contenido de request a un archivo

In [None]:
open('./data/IGC.annotation.tsv.gz', 'wb').write(r.content)

Cargamos el paquete Pandas y  archivo a pandas

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('data/IGC.annotation.tsv.gz', sep='\t')

In [None]:
df.head()

### Leer archivos en formato Excel, *xlsx*

Podemos leer un archivo Excel directamente e imprimir el nombre de las hojas de cálculo del archivo

In [None]:
# xlsx = pd.ExcelFile('miarchivoExcel.xlsx')

Lista el nombre de todas las hojas de cálculo:

In [None]:
# xlsx.sheet_names

# df = pd.read_excel(xlsx, "Datos")

O bien, leer directamente la hoja de cálculo definiento el nombre, el número de filas que tiene que omitir -generalmente la cabecera en muchos documentos oficiales- y la columna que definiremos como el índice.

In [None]:
# df = pd.read_excel('miarchivoExcel.xlsx', sheet_name='Datos', skiprows=3, index_col=1)

## Descripción general de *DataFrames*

Es importante recordar siempre qué tipo de dato estamos utilizando en cada línea. En este caso, `df` es un:

In [None]:
type(df)

Obtenemos las dimensiones del DataFrame, el número de filas y columnas.

In [None]:
len(df)

In [None]:
df.shape

¿Qué tipo de datos contiene cada celda? ¿Es así? La asignación de tipo de dato la hace pandas de manera automática, es importante corregir algunos tipos de datos si queremos utilizar ciertos métodos. Por ejemplo, no podemos usar métodos numéricos donde hay valores de 'objetos' (strings,listas, diccionarios); tampoco podemos aplicar métodos numéricos en una columna que tiene sólo valores categóricos.

In [None]:
df.dtypes

|Pandas dtype| Python | Uso|
|--|--|--|
|`object`| string o mixto| Texto o números en string, lista o diccionario|
|`int64`|int | Números enteros|
|`float64`|float | Números decimales|
|`bool`|bool| Valores True/False|
|`datetime64`|datetime | Valores de fechas y hora|
|`category`| NA | Categorías en texto

Una versión extendida descriptiva del DataFrame. AL final vemos el uso de memoria de este grupo de datos, ¿es poco, mucho? ¿Qué creen que sea el `Non-Null Count`?

In [None]:
df.info()

El método `df.head()` nos permite obtener las primeras 5 líneas del DataFrame. Podemos definir el número deseado en el en medio de los paréntesis, por ejemplo `df.head(20)` para obtener las primeras 20 líneas.

In [None]:
df.head()

Ahora las últimas 5.

In [None]:
df.tail()

Podemos usar `sample()` para muestrear aleatoriamente filas del DataFrame

In [None]:
df.sample()

Podemor colocar el puntero en medio de los paréntesis de `df.sample()` y utilizar las teclas `SHIFT + TAB` para obtener ayuda del método de pandas, o de cualquier método que estés aplicando:

![green-divider](imgs/help.png)

In [None]:
df.sample(10)

Cuando manejamos columnas numéricas podemos utilizar `describe()` para obtener algunas medidas de tendencia central. Es importante notar que si una columna de valores booleanos o categóricos en código numérico tienen una etiqueta numérica con `df.dtypes` se obtendrá los descriptores aunque estos carezcan de sentido categórico.

In [None]:
df.describe()

Podemos trasponer una tabla con el método `transpose()` o la propiedad `T`

In [None]:
df.describe().transpose()

In [None]:
df.describe().T

En Python, al ser un lenguaje de tipado dinámico, podemos definir una variable en cualquier momento sin definirla al principio. 

In [None]:
description = df.describe().T

y guardar el contenido de una variable, o de un DataFrame, a un archivo

In [None]:
description.to_csv()

In [None]:
description.to_csv('data/description.tsv', sep='\t', na_rep="**", index=True)

### To Copy or not To Copy

In [None]:
df_test = pd.DataFrame({'A': [1, 2, 3]})

In [None]:
df_test

In [None]:
df_sub = df_test[0:2]

In [None]:
df_sub

In [None]:
df_sub.loc[0, 'A'] = -1

In [None]:
df_sub

In [None]:
df_test

Una modificación de un subset modifica el DataFrame original, para evitar este posible problema podemos usar el método `copy()`.

In [None]:
df_test = pd.DataFrame({'A': [1, 2, 3]})

In [None]:
df_copy = df_test[0:2].copy()

In [None]:
df_copy.loc[0, 'A'] = -1

In [None]:
df_copy

In [None]:
df_test

Podemos usar un **encadenamiento de métodos**, una técnica que se utiliza para realizar varias llamadas a métodos en el mismo objeto, utilizando la referencia del objeto solo una vez: `df.uno().dos().tres().cuatro()`

In [None]:
df.head(100).describe().T

El atributo `columns` y `values` permite accedeer a las columnas y a los valores del DataFrame, respectivamente.

In [None]:
for x in df.columns:
    print(x)

In [None]:
[x for x in df.columns].upper()

In [None]:
df.columns.upper()

In [None]:
df.columns.str.upper()

In [None]:
df.values

¿Qué tipo de datos son los siguientes atributos?

In [None]:
type(df.shape)

In [None]:
type(df.dtypes)

In [None]:
type(df.columns)

In [None]:
type(df.values)

### Selección de columnas

Seleccionamos una columna con la sintaxis `[]` para una sola columna o `[[]]` para una lista de columnas.

In [None]:
df.columns

In [None]:
df.Gene 

In [None]:
df['Gene Name']

In [None]:
df['Gene Name'].head()

In [None]:
df[['Gene Name', 'Gene Length']].head()

In [None]:
type(df['Gene Name'])

In [None]:
type(df[['Gene Name']])

In [None]:
type(df[['Gene Name', 'Gene Length']])

Cuando transponemos las columnas el índice ahora ocupa el valor de las columnas

In [None]:
df[['Gene Name', 'Gene Length']].head().T

Con `set_index()` definimos la columna que usaremos como índice del DataFrame.

In [None]:
tmp = df.head().set_index('Gene Length')

In [None]:
tmp.reset_index()

In [None]:
df[['Gene Name', 'Gene Length']].head()

In [None]:
df[['Gene Name', 'Gene Length']].head().T

In [None]:
df[['Gene Name', 'Gene Length']].set_index('Gene Name').head()

Mientras no definamos el resultado a una nueva variable o sobreescribamos el dataframe original el nuevo índice no se guardará.

In [None]:
df[['Gene Name', 'Gene Length']].set_index('Gene Name').head().T

### Ordenamiento de filas

In [None]:
df.head()

In [None]:
df.sort_index('Gene Length').head()

In [None]:
df.sort_index(axis=1, level='Gene Length').head()

In [None]:
df[['Gene Length']].sort_index(axis=1).head()

### Ordenamiento por columna

In [None]:
df.sort_values('Gene Length').head()

In [None]:
df.sort_values('Gene Length', ascending=False).head()

Podemos seleccionar una columna, ordenar los valores de manera descendente y obtiener las primeras líneas.

In [None]:
type(df.sort_values('Gene Length', ascending=False).head())

In [None]:
type(df['Gene Length'].sort_values(ascending=False).head())

**¿Cuántas categorías funcionales KEGG hay, y cuántos genes de cada categoría?**

In [None]:
df['KEGG Functional Categories'].value_counts()

In [None]:
df['KEGG Functional Categories'].unique()

In [None]:
from collections import Counter

In [None]:
Counter(df['KEGG Functional Categories']).most_common()

In [None]:
kegg = []

for category in df['KEGG Functional Categories']:
    if category not in kegg:
        kegg.append(category)

In [None]:
kegg = {}

for category in df['KEGG Functional Categories']:
    if category not in kegg:
        kegg[category] = 1
    else:
        kegg[category] += 1

In [None]:
sorted(kegg.items(), key=lambda x: x[1], reverse=True)

In [None]:
{k: v for k, v in sorted(kegg.items(), key=lambda x: x[1], reverse=True)}

In [None]:
kegg

In [None]:
# pd.Series(mydictionary)

In [None]:
numbers = [1, 2, 2, 2, 4]

In [None]:
list(set(numbers))

### Medidas de tendencia central

In [None]:
pd.__version__

In [None]:
df['Gene Length'].sum()

In [None]:
df['Gene Length'].min()

In [None]:
df['Gene Length'].max()

In [None]:
df['Gene Length'].mean()

In [None]:
df['Gene Length'].median()

In [None]:
df['Gene Length'].mode()

In [None]:
df['Gene Length'].std()

In [None]:
df['Gene Length'].var()

In [None]:
df['Gene Length'].quantile([.25, .5, .75])

**Funciones utilizadas el día de hoy**

* `df.shape`
* `df.dtypes`
* `df.info()`
* `df.head()`
* `df.tail()`
* `df.describe()`
* `df.T`
* `df.index`
* `df.columns`
* `df.set_index()`
* `df.sort_index()`
* `df.sort_values()`
* `df.to_csv()`
* `df.sum()`
* `df.min()`
* `df.max()`
* `df.mean()`
* `df.median()`
* `df.mode()`
* `df.std()`
* `df.var()`
* `df.quantile()`

## Filtrado de columnas

In [None]:
df.columns

In [None]:
df['Cohort Origin'].head()

In [None]:
df['Cohort Origin'] == 'EUR'

In [None]:
df[df['Cohort Origin'] == 'EUR']

In [None]:
df[df['Cohort Origin'] == 'EUR'].reset_index(drop=True)

In [None]:
df[df['Gene Completeness'] == 'Complete']

In [None]:
df.columns

In [None]:
df.query('`Gene Completeness` == "Complete" & `Cohort Origin` == "EUR"' )

In [None]:
df[(df["Taxonomic Annotation(Genus Level)"] == 'Salmonella') 
    & (df['Cohort Origin'] == 'EUR')
    & (df['KEGG Functional Categories'] == "Translation")]

In [None]:
df[df['Taxonomic Annotation(Genus Level)'].str.contains('Salmonella')]

In [None]:
df[df['Taxonomic Annotation(Genus Level)'].str.contains('sAlmonELLa', case=False)]

In [None]:
df[df['Taxonomic Annotation(Genus Level)'].str.contains('Salmonella')].shape

In [None]:
df[df['Taxonomic Annotation(Genus Level)'].str.contains('Escherichia')].shape

In [None]:
'|'.join(['Salmonella', 'Escherichia'])

In [None]:
df[df['Taxonomic Annotation(Genus Level)'].str.contains('Salmonella|Escherichia')]

In [None]:
df[df['Taxonomic Annotation(Genus Level)'].str.contains('|'.join(['Salmonella', 'Escherichia']))]

In [None]:
df[df['Taxonomic Annotation(Genus Level)'].str.contains('|'.join(['Salmonella', 'Escherichia']))].shape

In [None]:
bacterias_patog = ['Salmonella', 'Escherichia']
df[df['Taxonomic Annotation(Genus Level)'].isin(bacterias_patog)]

**El encadenamiento de métodos es un gran poder que conlleva una gran responsabilidad.**

In [None]:
(df.loc[((df['Gene Length'] >= 15000) & 
         (df['Gene Completeness'] >= 'Complete') &
         (df['KEGG Annotation'] != 'unknown')), 
       ['Gene Name', 'KEGG Annotation', 'Gene Length', 
        'KEGG Functional Categories']]
    .sort_values('Gene Length')
    .set_index('KEGG Annotation'))

## Selección de campos en *DataFrames*

La selección de campos en DataFrames, *slicing*, puede utilizar tres diferentes sintaxis:
- `df[]`
- `df.loc[]`
- `df.iloc[]`

`loc` es para *location*, y `iloc` para *index location*

|Operación| `df[]` | `df.loc[]`| `df.iloc[]`|
| :--- | :--- | :--- |:---|
|Seleccione una sola columna por etiqueta|`df['A']`|`df.loc[:, 'A']`| `-` |
|Seleccionar lista de columnas por etiqueta|`df[['A', 'C']]`|`df.loc[:, ['A', 'C']]`|`-`|
|Cortar columnas por etiqueta|`-`|`df.loc[:, 'A':'C']`|`-`|
|Seleccione una sola columna por posición|`-`|`-`|`df.iloc[:, 1]`|
|Seleccionar lista de columnas por posición|`-`|`-`|`df.iloc[:, [0, 2]]`|
|Cortar columnas por posición|`-`|`-`|`df.iloc[:, 0:2]`|
|Seleccione una sola fila por etiqueta|`-`|`df.loc['a']*`|`-`|
|Seleccione una lista de filas por etiqueta|`-`|`df.loc[['a', 'b']]*`|`-`|
|Cortar filas por etiqueta|`df['a':'d']*`|`df.loc['b':'d']*`|`-`|
|Seleccione una sola fila por posición|`-`|`-`|`df.iloc[1]`|
|Seleccionar una lista de filas por posición|`-`|`-`|`df.iloc[[1, 3]]`|
|Cortar filas por posición|`df[1:4]`|`-`|`df.iloc[1:4]`|
|Seleccionar lista de filas y columnas por etiqueta|`-`|`df.loc[['b', 'c'], ['A', 'C']]*`|`-`|
|Seleccionar lista de filas y columnas por posición|`-`|`-`|`df.iloc[[1, 3], [2, 1]]`|
|Cortar filas y columnas por etiqueta|`-`|`df.locp[['b': 'c'], ['A': 'C']]*`|`-`|
|Cortar filas y columnas por posición|`-`|`-`|`df.iloc[1:3, 0:2]`|

**\*** El índice de la fila debe ser *string*

Hemos seleccionado columnas usando el índice de columnas.

In [None]:
df['Gene Name'].head()

In [None]:
df[['Gene Name', 'KEGG Annotation', 'Gene Length']].head(5)

El *slicing* permite obtener la localización basado en un índice numérico o en el índice de la columna.

In [None]:
df[0:3].head()

In [None]:
df.loc[0:4, 'Gene Name']

In [None]:
df.loc[:, 'Gene Name']

In [None]:
df.loc[:, 'Gene Name'].head()

In [None]:
df.loc[:, 'Gene Name':'Cohort Origin']

In [None]:
df.iloc[:, 0:4]

In [None]:
df.iloc[:, [1, 3, 2]]

In [None]:
df.iloc[0:4, 1:5]

¿Y si quiero obtener un rango de columnas para hacer *slicing*?

## Pandas profiling

In [None]:
from pandas_profiling import ProfileReport

In [None]:
profile = ProfileReport(df, title="Explorando con Pandas", explorative=True)

In [None]:
profile.to_file("reporte_IGC.html")