<img src="https://github.com/Multiomics-Analytics-Group/networks_to_study_microbes/blob/main/figures/cfb.png?raw=1" width="300">


[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Multiomics-Analytics-Group/networks_to_study_microbes/blob/main/notebooks/02_pandas.ipynb)

# Networks to Study Microbes


# Introducción a Pandas (Python Data Analysis Library)

Pandas es una libreria que te permite trabajar con distintos tipos de datos:

- Datos tabulares con columnas de tipo heterogeneo, como una hoja de cálculo de Excel
- Datos de series de tiempo.
- Cualquier tipo de dato observacional/estadístico.

## Objetivos

- Concepto de tabla como data frames
- Organizacion de una tabla: indice, columnas
- Tipos de datos que se pueden manejar en un data frame
- Aplicando estadísticas y agrupando
- Modificando una tabla
- Visualización
- Leer/Escribir datos de/a un fichero

In [2]:
import pandas as pd

## Crear un data frame

In [None]:
df = pd.DataFrame({
    'A': [2.23, 3.45, 4.5, 6.0],
    'B': [1, 2, 3, 4],
    'C': ["test", "train", "test", "train"]
})

In [None]:
df

Unnamed: 0,A,B,C
0,2.23,1,test
1,3.45,2,train
2,4.5,3,test
3,6.0,4,train


In [None]:
data = [
    [2.23, 1, "test"],
    [3.45, 2, "train"],
    [4.5, 3, "test"],
    [6.0, 4, "train"]
]

df = pd.DataFrame(data, columns=['A', 'B', 'C'])
df

### A partir de una `lista` de `diccionarios`

In [None]:
data = [
    {'A': 2.23, 'B': 1, 'C': "test"},
    {'A': 3.45, 'B': 2, 'C': "train"},
    {'A': 4.5, 'B': 3, 'C': "test"},
    {'A': 6.0, 'B': 4, 'C': "train"}
]

df = pd.DataFrame(data)
df

### Crear un `DataFrame` vacio

In [None]:
df = pd.DataFrame()
df['A'] = [2.23, 3.45, 4.5, 6.0]
df['B'] = [1, 2, 3, 4]
df['C'] = ["test", "train", "test", "train"]

df

### Ejercicio

Crea el siguiente DataFrame

|  | Year | Product | Cost |
| ---| :--: | :----:  | :--: |
| 0  | 2015 | Apples  | 0.35 |
| 1  | 2016 | Apples  | 0.45 |
| 2  | 2015 | Bananas | 0.75 |
| 3  | 2016 | Bananas | 1.10 |

# Leer/Escribir Datos de/a un Fichero


Pandas tiene varias funciones para leer datos en multiples formatos. La mayor parte de estas funciones comienzan con `read_`: 

| File Type | Function Name |
| :----:    |  :---:  |
| Excel | `pd.read_excel` |
| CSV, TSV | `pd.read_csv` |
| H5, HDF, HDF5 | `pd.read_hdf` |
| JSON  | `pd.read_json` |
| SQL | `pd.read_sql_table` |


### Leyendo Datos

Vamos a leer datos de GitHub. Para eso, vamos a GitHub, hacemos click en el dataset, y accedemos a la opcion Raw. Esta opcion habre los datos en modo text y nos permite copiar la URL directa al fichero y leerlo sin problemas.


Por ejemplo, para acceder al fichero de Protein-protein Interactions de **Yu2008Science.tsv**: 

https://github.com/Multiomics-Analytics-Group/networks_to_study_microbes/tree/main/example_data/PPI-TranscriptomicData


**Ficheros Comma Separated/Tab Separated (.csv, .tsv)**

In [14]:
df = pd.read_csv("https://raw.githubusercontent.com/Multiomics-Analytics-Group/networks_to_study_microbes/main/example_data/PPI-TranscriptomicData/Yu2008Science.tsv", sep='\t')
df.head()

Unnamed: 0,SOURCE,TARGET,EVIDENCE
0,YLR291C,YNL229C,CCSB-Y2H
1,YLR291C,YCR086W,CCSB-Y2H
2,YLR291C,YPR062W,CCSB-Y2H
3,YJL085W,YBR057C,CCSB-Y2H
4,YLR227C,YDR208W,CCSB-Y2H


**Ficheros Excel (.xls, .xlsx)**

In [7]:
#df = pd.read_excel("/content/drive/My Drive/Curso_Into_Bio_Networks/Archivos/PPI-TranscriptomicData/Yu2008Science.xls", sheet_name='per-capita-electricity-consumption')

### Escribiendo Datos

**Ficheros Comma Separated/Tab Separated (.csv, .tsv)**

In [None]:
#df.to_csv("/content/drive/My Drive/Curso_Into_Bio_Networks/Archivos/PPI-TranscriptomicData/test.tsv", sep=',', index=False)

**Ficheros Excel (.xls, .xlsx)**

In [None]:
#df.to_excel("https://raw.githubusercontent.com/Multiomics-Analytics-Group/networks_to_study_microbes/main/example_data/PPI-TranscriptomicData/Yu2008Science.tsv", sheet_name='ppi')

## Accediendo a datos en Google Drive

Puedes usar tu espacio en Google drive para acceder y almacenar datos. Sin embargo, debes montar el disco de Google Drive en Colab antes de poder utilizarlo siguiendo estos pasos:

1. Ejecuta el siguiente codigo. Te proporcionara un link de autenticacion para que puedas acceder a tu Google Drive:

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

2. Abre el enlace

3. Elige tu Google account

4. Permite el acceso a Google Drive Stream a tu Google Account

5. Copia el codigo que te devuelve y pegalo en la caja de text como la que se muestra a continuacion.

![image.png](https://i0.wp.com/neptune.ai/wp-content/uploads/2022/10/colab-code-copy.png?ssl=1)

Una vez montado, podras visualizar tus ficheros en el panel de files de la izquierda y podras acceder a los ficheros como antes hemos mostrado:
![image.png](https://i0.wp.com/neptune.ai/wp-content/uploads/2022/10/colab-drive.png?ssl=1)

# Indexando

In [1]:
df.index

In [None]:
df.index = ["A", "B", "C", "D"]

### Propiedades de Estructura

In [None]:
df.shape

(4, 3)

In [None]:
df.dtypes

A    float64
B      int64
C     object
dtype: object

In [None]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
df.columns

Index(['A', 'B', 'C'], dtype='object')

In [None]:
df['A']

0    2.23
1    3.45
2    4.50
3    6.00
Name: A, dtype: float64

### Inspeccionando Tablas

In [None]:
df.head()

Unnamed: 0,A,B,C
0,2.23,1,test
1,3.45,2,train
2,4.5,3,test
3,6.0,4,train


In [None]:
df.tail(3)

Unnamed: 0,A,B,C
1,3.45,2,train
2,4.5,3,test
3,6.0,4,train


In [None]:
df.describe()

Unnamed: 0,A,B
count,4.0,4.0
mean,4.045,2.5
std,1.599719,1.290994
min,2.23,1.0
25%,3.145,1.75
50%,3.975,2.5
75%,4.875,3.25
max,6.0,4.0


### Seleccion/Filtrado

#### Seleccion
Para seleccionar o filtrar podemos utilizar condiciones como veiamos con Bool:

```python
df['Column1'] > 0   # Devuelve una serie de `True` cuando es mayor que 0 y sino `Falso`
```

Para filtrar simplemente pon la condicion entre corchetes y filtrara aquellos que son `True`:

```python
select_rows = df[df['Column1'] > 0]
```
o
```python
select_rows = df.loc[df['Column1'] > 0]
```

# Modificar Tabla

### Eliminar columna

In [None]:
del df['B']

In [None]:
df

Unnamed: 0,A,C
0,2.23,test
1,3.45,train
2,4.5,test
3,6.0,train


### Crear una nueva columna

In [None]:
df['nueva'] = [3, 9, 27, 81]

# Estadística

```python
df.describe() # describe las columnas numericas
df['Column1'].describe() # describe una columna en particular
df['Column1'].count()    # cuenta el numero de no NAs
df['Column1'].nunique()  # counts el numbero de valores unicos
df['Column1'].unique()   # devuelve una serie de valores unicos en la columna
df['Column1'].value_counts()  # devuelve una lista de valores unicos y cuantas veces aparecen

df['Column1'].max()
df['Column1'].mean()
df['Column2'][df['Column1'] == 'string'].sum()
```


#### Calcular la media de una columna

In [None]:
df['A'].mean()

4.045

#### Calcular la suma de una columna

In [None]:
df['A'].sum()

16.18

In [None]:
df['A'].min()

2.23

In [None]:
df['A'].max()

6.0

In [None]:
df.groupby(['C']).mean()

Unnamed: 0_level_0,A,B
C,Unnamed: 1_level_1,Unnamed: 2_level_1
test,3.365,2
train,4.725,3


# Ejercicio

Haciendo uso de este dataset [covid-19 cases]("https://opendata.ecdc.europa.eu/covid19/nationalcasedeath_eueea_daily_ei/csv/data.csv")

Responde a las siguientes preguntas.

1. Muestra las primeras y ultimas 5 lineas del dataset

2. Crea un nuevo dataset que tenga solo las columnas: date, population data, number of cases and deaths

3. Crea un nuevo dataset con: year, month, day, number of cases and deaths, para paises en Europa


4. Que pais tiene el mayor numero de muertes reportado?

5. Para cuantos paises hay datos en Europa?

# Missing Values

| method | description
| ---:  | :---- |
**`isna()`** | devuelve True por cada NaN |
**`notna()`** | devuelve False por cada NaN |
**`dropna()`** | devuelve solo aquellas filas que no son NaNs |


El caso de que el dataframe tenga missing values y necesitemos una matriz completa, podemos hacer uso de los siguientes metodos para imputar valores:

| method | description |
| ----: |  :---- |
| **`fillna()`** | reemplaza NaNs con un valor dado |
| **`ffill()`** | reemplaza NaNs el valor previo non-NaN |
| **`bfill()`** | reemplaza NaNs con el siguiente valor non-NaN |
| **`interpolate()`** | hace una interpolacion con los valores previos y siguientes |



In [None]:
df = pd.DataFrame({'time': [0.5, 1., 1.5, None, 2.5, 3., 3.5, None], 'value': [
                    6, 4, 5, 8, None, 10, 11, None]})
df

In [None]:
df[df['time'].isna()]

# Ejercicio

1. A partir de este dataframe calcula el numero de missing values

```python
data = pd.DataFrame({'time': [0.5, 1., 1.5, None, 2.5, 3., 3.5, None], 'value': [
                    6, 4, 5, 8, None, 10, 11, None]})
```

2. Asigna el valor **0** en el caso de missing values en la columna **time**

3. Reemplaza los missing values en la columna **time** con los valores previos y los de la columna **value** con los siguientes.

## Más Recursos

- Python Pandas: https://pandas.pydata.org/pandas-docs/stable/

