# Bienvenido al día 1 del workshop de Nuclio Digital School (2/2)
## 14-Enero-2025

<img src="./pictures/PANDAS_DEEP_DIVE.webp" alt="PANDAS_DD" width="700" height="300"/>

# Objetivos del notebook
---
En este notebook vamos a hacer una introducción a la librería de pandas y explorar algunas de sus ***best practices***.

**[pandas](https://pandas.pydata.org)** es una librería enfocada al análisis y manipulación de datos tabulares.<br>

Este paquete junto con [numpy](https://numpy.org), [matplotlib](https://matplotlib.org), [xgboost](https://xgboost.readthedocs.io/en/stable/) y [scikit-learn](https://scikit-learn.org/stable/index.html) constituyen las principales librerías de Machine Learning Tabular en Python.

**Dado que la mayoría de los problemas a los que se enfrentan las empresas en la vida real son problemas y datasets tabulares, aprendiendo estas 5 librerías, obtenemos una base sólida para empezar a trabajar en el mundo de Machine Learning.**

Al final del notebook, el alumno se tiene que sentir cómodo con los siguientes funcionalidades:

1. Saber como podemos "cargar" un fichero que tenemos en nuestro ordenador a pandas para poder empezar a manipularlo.
1. Entender los objetos básicos que tenemos cuando usamos pandas: **DataFrame** y **Series**.
1. Dar a conocer los métodos más simples de un pandas DataFrame: **head**, **tail**, **describe**, **info** etc.
1. Entender en que consiste el **pandas groupby** y como podemos utilizarlo para hacer cálculo de manera **rápida, limpia y eficiente.**
1. Conocer que es la **pivot_table** de pandas.
1. Conocer los **merge* y **concat** de pandas.
1. Saber utilizar **pipe** dentro de **chaining** de pandas.
---

# Let's go!

---

<a id='index'></a>
## 1. Índice

[1. Imports del notebook](#imports_notebook)<br>

## 2. Dataset
[2. Dataset que vamos a utilizar: animes](#animes)<br>


## 3. Intro to pandas
[3.1 Cargar datos a pandas](#datos)<br>
[3.2 Métodos básicos de pandas](#intro_pandas)<br>
[3.3 Mas métodos de pandas](#pandas2)<br>
[3.4 Groupby y pivot_table](#gbpt)<br>
[3.5 Merge y Concat](#merge_concat)<br>
[3.6 Pipe](#pipe)<br>

## 4. Wrap up y conclusiones
[4. Wrap up y conclusiones](#conclusion)<br>

## 5. Next steps
[5. Next steps](#next_steps)<br>

## 6. Referencias
[6. Referencias y lecturas recomendables](#referencias)<br>

<a id='imports_notebook'></a>
# 1. Imports del notebook
[Volver al índice](#index)

En este apartado hacemos los principales imports del notebook.<br>
Sobre todo vamos a trabajar con **pandas**.

In [31]:
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format

In [2]:
print("Working with these versions of libraries\n")
print("-"*50)
print(f"Pandas version {pd.__version__}")

Working with these versions of libraries

--------------------------------------------------
Pandas version 2.2.1


<a id='animes'></a>
# 2. Dataset que vamos a utilizar: animes
[Volver al índice](#index)

Todo proyecto de Machine Learning requiere de datos. Los datos son la parte **FUNDAMENTAL** y si la calidad de los datos es **<ins>mala</ins>**, muchas veces los resultados que vamos a obtener van a ser **<ins>malos</ins>**.

Gran parte de un proyecto de ML consiste en <ins>limpiar, analizar y preparar los datos</ins> para **"alimentar"** al algoritmo. Muy a menudo, todo esto se realiza con **pandas**.

Dado que nuestro objetivo final es crear un recomendador basado en el historial de los clientes (lo haremos en el notebook [CBRS.ipynb](./CBRS.ipynb)), en este notebook vamos a hacer la limpieza y el análisis de los datos y por el camino vamos a aprender **pandas**.

**¿Que dataset vamos a utilizar en nuestro proyecto?**

Vamos a utilizar un dataset muy famoso de [Animes Japoneses](https://es.wikipedia.org/wiki/Anime) que se puede descargar de manera gratuita del [siguiente enlace](https://www.kaggle.com/datasets/CooperUnion/anime-recommendations-database/data).

# 3. Intro to pandas

<a id='datos'></a>
# 3.1 Cargar datos a pandas
[Volver al índice](#index)

Normalmente los datos con los que trabajamos en la vida real están en diferentes bases de datos y utilizamos el lenguaje de programación [SQL](https://es.wikipedia.org/wiki/SQL) para descargarlos o manipularlos.

En este workshop, para simplificar algo las cosas, vamos a trabajar con ficheros que están en el disco duro de nuestro ordenador para "leerlos" con pandas.

In [3]:
# hacer el import de pandas
import pandas as pd

In [4]:
# donde están mis datos
! pwd

/Users/nicolaepopescul/code/nuclio_charlas


In [5]:
# que tengo en esta ruta
! ls

CBRS.ipynb   INTRO.ipynb  PANDAS.ipynb README.md    [34minput[m[m        [34mpictures[m[m


In [6]:
# que tengo en la carpeta de input
! ls /Users/nicolaepopescul/code/nuclio_charlas/input

cf_-1.parquet.gzip     cf_5.parquet.gzip      cf_anime.parquet.gzip
cf_1.parquet.gzip      cf_6.parquet.gzip      cf_anime.pkl
cf_10.parquet.gzip     cf_7.parquet.gzip      cf_anime.xlsx
cf_2.parquet.gzip      cf_8.parquet.gzip      cf_rating.parquet.gzip
cf_3.parquet.gzip      cf_9.parquet.gzip
cf_4.parquet.gzip      cf_anime.csv


In [7]:
# leemos un fichero en un pandas DataFrame
# ./ indica: utiliza la ruta relativa (allí donde está el notebook) para ir a la carpeta de input
# y leer el fichero cf_anime.parquet.gzip
df = pd.read_parquet("./input/cf_anime.parquet.gzip")

In [8]:
df = df.set_index("anime_id")

In [9]:
# mostar los otros formas para leer ficheros:
# csv
# pickle
# excel
# parquet
# otros

In [10]:
df

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266
...,...,...,...,...,...,...
9316,Toushindai My Lover: Minami tai Mecha-Minami,Hentai,OVA,1,4.15,211
5543,Under World,Hentai,OVA,1,4.28,183
5621,Violence Gekiga David no Hoshi,Hentai,OVA,4,4.88,219
6133,Violence Gekiga Shin David no Hoshi: Inma Dens...,Hentai,OVA,1,4.98,175


Acabamos de cargar nuestro fichero en un pandas **DataFrame.**

El **DataFrame** es el objeto central de pandas y representa una tabla/matriz que tiene 2 ejes (o axis).

<img src="./Pictures/DATAFRAME.png">

[Fuente: www.geeksforgeeks.org](https://www.geeksforgeeks.org/creating-a-pandas-dataframe/)

Un eje son las **filas del DataFrame** y básicamente vienen a representar los **registros** que tenemos en la tabla. A menudo, cuando trabajamos en problemas de ML Supervisados, también los llamamos **"instancias"**.

El otro eje que tenemos son **las columnas del DataFrame**. Las columnas a menudo se conocen como las **"features"** o **"atributos"** y vienen a captar diferentes variables/información sobre nuestras instancias.

**Por ejemplo: si 1 fila es un cliente, las columnas son las variables que tenemos de este cliente y podrían ser la edad, el salario, el móvil que usa etc.**

<a id='intro_pandas'></a>
# 3.2 Métodos básicos de pandas
[Volver al índice](#index)

**Nota:** a menudo a lo largo del workshop voy a utilizar la palabra **método** cuando hable de pandas o bien de un **DataFrame/Series**. Por ejemplo: **el DataFrame tiene el método de sum**.

Lo que esto quiere decir es que cuando tengo una DataFrame, con el DataFrame viene una **FUNCIONALIDAD** incorporada, en este caso, la suma. Por lo tanto, si tengo un DataFrame que tiene una columna númerica, podré calcular la suma de esta columna usando esta funcionalidad.

---

Con el método de `df.shape` podemos llegar a saber el número de filas y de columnas que tiene nuestro dataset.

In [11]:
df.shape

(12294, 6)

**Tip:** para recordar que las filas son el axis 0 y las columnas el axis 1, podemos recordar que `df.shape` 0 nos da las filas y `df.shape` 1 nos da las columnas.

**Nota:** en la mayoría de los lenguajes de programación, el índice empieza por el 0. Esto quiere decir que el primer elemento tiene el índice de 0, el segundo elemento tiene el índice de 1 etc.

Cuando hacemos nuestro primer contacto con un dataset, a menudo nos interesa ver los primeros 5 registros o los últimos 5 registros de una tabla.

Los métodos de `df.head()` o `df.tail()` sirven justo para este propósito.

In [12]:
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [13]:
# el valor por defecto de los métodos head y tail es 5, es decir muestra 5 filas
# por este motivo no lo hemos especificado antes en el head
df.tail(5)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
9316,Toushindai My Lover: Minami tai Mecha-Minami,Hentai,OVA,1,4.15,211
5543,Under World,Hentai,OVA,1,4.28,183
5621,Violence Gekiga David no Hoshi,Hentai,OVA,4,4.88,219
6133,Violence Gekiga Shin David no Hoshi: Inma Dens...,Hentai,OVA,1,4.98,175
26081,Yasuji no Pornorama: Yacchimae!!,Hentai,Movie,1,5.46,142


Muy a menudo queremos sacar una pequeña muestra de clientes de nuestra tabla para analizarla rápidamente.

El método `df.sample(nr_registros)` nos permite hacer una muestra aleatoria sin reemplazo.

Con la siguiente línea de código vamos a seleccionar al azar 15 registros de nuestro dataset.

In [14]:
df.sample(15)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
4490,Soap no Moko-chan,Hentai,OVA,1,6.3,717
31519,Anitore! EX,"Comedy, Sports",TV,12,5.62,15005
30695,Pop in Q,"Fantasy, Music",Movie,1,,5207
30269,Momoiro Milk,Hentai,OVA,2,6.37,1628
569,Musekinin Kanchou Tylor,"Comedy, Military, Parody, Sci-Fi, Space",TV,26,7.97,19841
304,Aa! Megami-sama! Movie,"Comedy, Magic, Romance, Seinen, Supernatural",Movie,1,7.65,29330
8492,Kikansha Yaemon,"Fantasy, Kids",Movie,1,5.64,89
20713,Mai Zhu,"Comedy, Historical",Movie,1,5.78,180
10936,Nekogami Yaoyorozu: Ohanami Ghostbusters,"Comedy, Seinen, Supernatural",OVA,1,6.76,2515
6324,Omamori Himari,"Action, Comedy, Demons, Ecchi, Harem, Romance,...",TV,12,7.19,119572


Vemos que nuestro dataset está formado por 6 columnas.

Cuando usamos pandas, decimos que 1 columna es un **pandas Series**. 

Por tanto, nuestro **DataFrame** es básicamente una colección de 6 pandas **Series**.

Si queremos seleccionar 1 única columna de nuestro **DataFrame** lo podemos hacer con el siguiente código.

In [15]:
series = df["rating"]

Las **Series** a menudo tienen los mismos métodos que un **DataFrame**: `head`, `tail`etc.

In [16]:
series.head()

anime_id
32281    9.37
5114     9.26
28977    9.25
9253     9.17
9969     9.16
Name: rating, dtype: float64

En el ejemplo de antes, hemos utilizado el nombre de la columna entre **corchetes** para seleccionar 1 columna.

Existen otras formas de hacer lo mismo.

Por ejemplo, si el nombre **<u>no contiene ningún espacio</u>**, podemos escribir `df.nombre_columna` para obtener este **Series**.

In [17]:
df.rating

anime_id
32281    9.37
5114     9.26
28977    9.25
9253     9.17
9969     9.16
         ... 
9316     4.15
5543     4.28
5621     4.88
6133     4.98
26081    5.46
Name: rating, Length: 12294, dtype: float64

Por último, es muy común utilizar el método `loc` o `iloc` para seleccionar columnas o filas o una combinación de ambas.

Con `loc` podemos acceder a diferentes filas usando el nombre de la fila o columna.

In [18]:
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [19]:
# en este ejemplo, 32281 es el anime_id que tenemos en la primera fila (índice 0).
# si fuese un text en vez de número deberíamos escribir el nombre con comillas simples '' o comillas dobles "".
df.loc[32281]

name                              Kimi no Na wa.
genre       Drama, Romance, School, Supernatural
type                                       Movie
episodes                                       1
rating                                      9.37
members                                   200630
Name: 32281, dtype: object

Con el loc puedo seleccionar diferentes filas y columnas especificando más parámetros en el loc.

In [20]:
df.loc[32281, "genre"]

'Drama, Romance, School, Supernatural'

Si quiero seleccionar "genre" y también la columna de "type" lo puedo hacer poniendo "genre" y "type" dentro de una lista de python: `["genre", "type"]` es decir, usamos otra vez corchetes.

In [21]:
df.loc[32281, ["genre", "type"]]

genre    Drama, Romance, School, Supernatural
type                                    Movie
Name: 32281, dtype: object

Mientras que `loc` permite acceder a las diferentes filas y columnas por el nombre, `iloc` lo hace por el índice.

In [22]:
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [23]:
# el resultado es el mismo que usando df.loc[32281]
df.iloc[0]

name                              Kimi no Na wa.
genre       Drama, Romance, School, Supernatural
type                                       Movie
episodes                                       1
rating                                      9.37
members                                   200630
Name: 32281, dtype: object

In [24]:
# el resultado es el mismo que usando df.loc[32281, "genre"]
df.iloc[0, 1]

'Drama, Romance, School, Supernatural'

In [25]:
# el resultado es el mismo que usando df.loc[32281, ["genre", "type"]]
df.iloc[0, [1, 2]]

genre    Drama, Romance, School, Supernatural
type                                    Movie
Name: 32281, dtype: object

Los métodos de antes, `loc` y `iloc` permite filtrar también varias filas como se muestra a continuación.

In [26]:
df.loc[[32281, 28977], ["name", "episodes"]]

Unnamed: 0_level_0,name,episodes
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1
32281,Kimi no Na wa.,1
28977,Gintama°,51


Para conseguir lo mismo con `iloc` podemos hacerlo de la siguiente manera:

In [27]:
df.iloc[[0, 2], [0, 3]]

Unnamed: 0_level_0,name,episodes
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1
32281,Kimi no Na wa.,1
28977,Gintama°,51


<a id='pandas2'></a>
# 3.3 Mas métodos de pandas
[Volver al índice](#index)

Hasta ahora hemos visto los métodos más simples que hay de pandas **DataFrames**.

Veamos ahora otros métodos muy utilizados y que nos permiten tener una idea sobre nuestros datos de manera muy rápida.

`df.info()` nos muestra un resumen sobre todas nuestras columnas.

Vemos de golpe el nombre de la columna, la cantidad de no nulos que hay en cada columna y el tipo de columna que es (númerica: `int` o `float`, categórica: `category` o bien objetos python o texto: `object`).

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12294 entries, 32281 to 26081
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      12294 non-null  object 
 1   genre     12232 non-null  object 
 2   type      12269 non-null  object 
 3   episodes  12294 non-null  object 
 4   rating    12064 non-null  float64
 5   members   12294 non-null  int64  
dtypes: float64(1), int64(1), object(4)
memory usage: 930.4+ KB


Con el método de `df.describe()` podemos ver rápidamente algunos estadísticos rápidos de nuestras columnas númericas.

In [32]:
df.describe()

Unnamed: 0,rating,members
count,12064.0,12294.0
mean,6.47,18071.34
std,1.03,54820.68
min,1.67,5.0
25%,5.88,225.0
50%,6.57,1550.0
75%,7.18,9437.0
max,10.0,1013917.0


Otro método muy común que usamos a menudo es `df.isnull()` para calcular el número de nulos que tenemos en cada columna.

Si observamods con detenimieto vemos que los valores de antes (los números y el texto) han desaparecido y ahora únicamente tenemos True y False.

Decimos que en este caso, hemos "evaluado" si cada valor es un nulo o no

1. Cuando es un nulo -> True
1. Cuando no es un nulo -> False

**Además, en este ejemplo, vemos que podemos "concatenar" o utilizar un método detrás de otro en cadena.**

In [33]:
df.head().isnull()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,False,False,False,False,False,False
5114,False,False,False,False,False,False
28977,False,False,False,False,False,False
9253,False,False,False,False,False,False
9969,False,False,False,False,False,False


Quitamos el método de `.head()` y añadimos el método de `.sum()` con esto podemos saber el número de nulos que tenemos en cada columna.

In [34]:
df.isnull().sum()

name          0
genre        62
type         25
episodes      0
rating      230
members       0
dtype: int64

Si tengo valores nulos, puedo utilizar el método de `.fillna()` para reemplazar los valores que faltan por otro valor que a mi me interesa.

In [38]:
df["genre"] = df["genre"].fillna("Missing")

En la celda anterior, hemos reemplazado todos los valores nulos que tenemos en la columna de **genre** por el valor **Missing**.

En el ejemplo de antes, hemos introducido otro concepto muy importante cuando trabajamos con pandas **DataFrame**: **los boolean masks**.

Cuando hemos **evaluado** si un valor determinado cumple o no una condición (si es nulo o no), obtenemos o bien un True o bien un False. A este conjunto de datos que son True o False lo llamamos **máscara booleana** y podemos usarla para filtar nuestro **DataFrame**.

In [39]:
# evaluamos si los valores que tenemos es TV o no
df["type"] == "TV"

anime_id
32281    False
5114      True
28977     True
9253      True
9969      True
         ...  
9316     False
5543     False
5621     False
6133     False
26081    False
Name: type, Length: 12294, dtype: bool

In [40]:
boolean_mask = df["type"] == "TV"

Si despúes ponemos nuestra máscara dentro de un corchete de pandas, podemos filtrar nuestro **DataFrame**.

En este caso en concreto, obtenemos/filtramos únicamente los animes que son del `type TV`.

In [41]:
tvs = df[boolean_mask]

In [44]:
tvs.head(3)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572


In [45]:
# en total tenemos 3.787 animes del tipo TV.

tvs.shape[0]

3787

Las **boolean masks** es una forma muy versátil subseleccionar partes de nuestro **DataFrame** para hacer un zoom o un análisis más profundo.

<a id='gbpt'></a>
## 3.4 Groupby y pivot_table
[Volver al índice](#index)<br>

Quizás la operación más frecuente que se realiza a la hora de analizar un dataset sea la del `groupby` o con la `pivot_table`.

Cualquier persona que haya trabajado con datos y con excel, se habrá encontrado con que su jefe le pide: 

### ¿Podemos sacar las ventas medias por xyz subcategorías?

Cuando nos piden este tipo de datos, normalmente en Excel hacemos una tabla_dinámica o una pivot_table.

Pues bien, en pandas también lo podemos hacer de 2 maneras: con los métodos de `groupby` o con la `pivot_table`.

In [46]:
df.groupby(by=["type"])["name"].count()

type
Movie      2348
Music       488
ONA         659
OVA        3311
Special    1676
TV         3787
Name: name, dtype: int64

La lógica más simple de los groupbies es como sigue:

1. Partimos de un DataFrame (en nuestro caso se llama df).
1. Llamamos el método de `.groupby` del df y le pasamos las columnas por las que queremos agrupar en el parámetro by (en nuestro caso es ["type"]).
1. Posteriormente seleccionamos la columna que nos interesa calcular entre corchetes (en nuestro caso es ["name"]).
1. Por último llamamos una función de agregación cualquiera (en nuestro caso es `.count()` que viene a ser un contador normal y corriente).

En el ejemplo anterior hacemos la agrupación de una única columna, pero en más de una ocasión nos interesa hacer varios cálculos de golpe.

Por ejemplo: **el jefe nos pide no solo las ventas medias sino también las ventas totales.** En este caso podemos usar la siguiente síntaxis.

In [49]:
df.groupby(by=["type"]).agg({"rating":"mean", "name":"count"})

Unnamed: 0_level_0,rating,name
type,Unnamed: 1_level_1,Unnamed: 2_level_1
Movie,6.32,2348
Music,5.59,488
ONA,5.64,659
OVA,6.38,3311
Special,6.52,1676
TV,6.9,3787


Lo único que cambia con respecto a la explicación anterior es que usamos el método especial `.agg()` que permite pasar un diccionario o pares de **llave:valor** `{"key":"value"}` tal y como lo hacemos a continuación.

`.agg({"rating":"mean", "name":"count"})`

Este mismo resultado lo podemos obtener con la `pivot_table` pero antes de seguir, vamos a introduccir otra **best practice** de pandas que es el **chaining** de las operaciones.

Si somos muy críticos con nuestro código antes escrito:

```python
df.groupby(by=["type"]).agg({"rating":"mean", "name":"count"})
```

Podemos reconocer que cuesta mucho leerlo porque esta escrito todo en una única línea.

Podemos obtener un resultado mucho más visual y fácil de leer usando el **chaining**, para ello debemos "encapsular" nuestro código dentro de un paréntesis.

Lo que obtenemos es básicamente una receta, donde cada línea de código viene a representar un paso en concreto que queremos hacer sobre nuestro **DataFrame**.

In [52]:
# antes
df.groupby(by=["type"]).agg({"rating":"mean", "name":"count"})

Unnamed: 0_level_0,rating,name
type,Unnamed: 1_level_1,Unnamed: 2_level_1
Movie,6.32,2348
Music,5.59,488
ONA,5.64,659
OVA,6.38,3311
Special,6.52,1676
TV,6.9,3787


In [53]:
# ahora
(
    df                        # paso 1: parto de mi df
    .groupby(by=["type"])     # paso 2: hago el groupby por el campo type
    .agg(                     # paso 3: llamo el método agg
        {
            "rating":"mean",  # paso 4: calcularé la media del campo rating (dentro de agg)
            "name":"count"    # paso 5: calcularé el count del campo name (dentro del agg)
        }
    )                         # paso n: podemos seguir con más pasos
)

Unnamed: 0_level_0,rating,name
type,Unnamed: 1_level_1,Unnamed: 2_level_1
Movie,6.32,2348
Music,5.59,488
ONA,5.64,659
OVA,6.38,3311
Special,6.52,1676
TV,6.9,3787


Espero que todo el mundo esta de acuerdo en que esta forma de escribir nuestro código es mucho mas "limpia" y "fácil de leer".

Ahora vayamos a obtener el mismo resultado de antes con la `.pivot_table`.

La lógica más simple de las pivot_tables es:

1. Partimos de un DataFrame (en nuestro caso se llama df).
1. Llamamos el método de `.pivot_table` del df y le pasamos las columnas por las que queremos agrupar en el parámetro index (en nuestro caso es la columna **"type"**).
1. En el parámetro `values` le especificamos a pandas con que columnas vamos a tener que trabajar (en determinados casos este valor se puede omitir).
1. Por último, tenemos el parámetro de `aggfunc`. A este parámetro le podemos pasar diferentes valores, en nuestro caso le pasamos un diccionario de python o pares de **llave**:**valor** entre llaves ({}). Es exactamente lo mismo que hemos hecho en el caso anterior.
1. Margins es otro parámetro opcional que nos permite hacer **totales** (aparece la fila "All").

In [54]:
(
    df
    .pivot_table(
        index = "type",
        values = ["rating", "name"],
        aggfunc = {
            "rating":"mean",
            "name":"count"
        },
        margins = True
    )
)

Unnamed: 0_level_0,name,rating
type,Unnamed: 1_level_1,Unnamed: 2_level_1
Movie,2348,6.32
Music,488,5.59
ONA,659,5.64
OVA,3311,6.38
Special,1676,6.52
TV,3787,6.9
All,12064,6.47


<a id='merge_concat'></a>
### 3.5 Merge y Concat
[Volver al índice](#index)<br>

Hasta ahora siempre hemos trabajado con un único `df`, pero en más de una ocasión queremos o tenemos que analizar más de 1 `df` y a menudo nos interesa "juntar" estos **DataFrames** para hacer el análisis mucho más rápido y ágil.

Los dos métodos clave que nos ofrece **pandas** para este tipo de operaciones son `pd.merge` y `pd.concat`.

Veamos ahora cada uno de estos métodos por separado.

El método `pd.merge` sirve para "cruzar" 2 **DataFrames** por algún campo en común. Es similar a un [join](https://www.w3schools.com/SQl/sql_join.asp) de SQL.

<img src="./Pictures/SQL_JOINS.png">

[Fuente: www.w3schools.com](https://www.w3schools.com/SQl/sql_join.asp)

### Para demostrar este método, vamos a ver cuáles son los top 30 animes más "vistos" cuando los han puntuado con un 10. Buscamos el anime perfecto.

In [55]:
rating_10 = pd.read_parquet("./input/cf_10.parquet.gzip")

In [56]:
rating_10.head(3)

Unnamed: 0,user_id,anime_id,rating
47,1,8074,10
81,1,11617,10
83,1,11757,10


In [57]:
df.head(3)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262


In [58]:
df.reset_index(inplace = True)

Como podemos ver, los dos campos que hay en común entre el `rating_10` y `df` es **anime_id**.

Vamos a usar este campo para hacer el merge.

In [59]:
rating_with_names = pd.merge(          # invocamos el método merge de pandas
    left = rating_10,                  # seleccionamos 1 df
    right = df[["anime_id", "name"]],  # seleccionamos 2 columnas del otro df
    how = "left",                      # hacemos un left join
    on = ["anime_id"]                  # el campo común es anime_id así que hacemos el cruce por este campo
)

In [60]:
(
    rating_with_names
    .groupby(["name"])
    .size()
    .sort_values(ascending = False)
    .head(30)
)

name
Death Note                                                  12892
Fullmetal Alchemist: Brotherhood                            11869
Code Geass: Hangyaku no Lelouch R2                          10082
Code Geass: Hangyaku no Lelouch                              9500
Steins;Gate                                                  9179
Clannad: After Story                                         8570
Shingeki no Kyojin                                           8183
Sen to Chihiro no Kamikakushi                                7980
Tengen Toppa Gurren Lagann                                   6959
Angel Beats!                                                 6797
Sword Art Online                                             6702
Toradora!                                                    5599
Clannad                                                      5583
Cowboy Bebop                                                 5158
Howl no Ugoku Shiro                                          5118
Ano H

In [61]:
del rating_10

In [62]:
del rating_with_names

A veces no interesa "apilar" diferentes `dfs`.

Por ejemplo, en nuestro caso tenemos un df específico para cada uno de los ratings que han dejado los usuarios.

Podría ser muy útil "juntarlos" todos en un único `df` para agilizar el análisis.

In [63]:
! ls -l ./input

total 142840
-rw-r--r--  1 nicolaepopescul  staff   9483708 11 ene 18:21 cf_-1.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff    193900 11 ene 18:21 cf_1.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff   6251475 11 ene 18:21 cf_10.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff    270828 11 ene 18:21 cf_2.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff    454624 11 ene 18:21 cf_3.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff   1064510 11 ene 18:21 cf_4.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff   2249386 11 ene 18:21 cf_5.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff   4407473 11 ene 18:21 cf_6.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff   8936548 11 ene 18:21 cf_7.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff  10518165 11 ene 18:21 cf_8.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff   8298450 11 ene 18:21 cf_9.parquet.gzip
-rw-r--r--  1 nicolaepopescul  staff    985151  5 ene 18:56 cf_anime.csv
-rw-r--r--@ 1 nicolaepopescul  staff    4

In [64]:
DFS_TO_CONCAT = [
    "cf_-1.parquet.gzip",
    "cf_1.parquet.gzip",
    "cf_2.parquet.gzip",
    "cf_3.parquet.gzip",
    "cf_4.parquet.gzip",
    "cf_5.parquet.gzip",
    "cf_6.parquet.gzip",
    "cf_7.parquet.gzip",
    "cf_8.parquet.gzip",
    "cf_9.parquet.gzip",
    "cf_10.parquet.gzip"
]

In [65]:
r1 = pd.read_parquet("./input/cf_1.parquet.gzip")
r2 = pd.read_parquet("./input/cf_2.parquet.gzip")

In [66]:
r1.head(1)

Unnamed: 0,user_id,anime_id,rating
308,5,24,1


In [70]:
r1.shape

(16649, 3)

In [67]:
r2.head(1)

Unnamed: 0,user_id,anime_id,rating
321,5,150,2


In [71]:
r2.shape

(23150, 3)

In [72]:
16649 + 23150

39799

In [73]:
r = pd.concat([r1, r2], axis = 0)

In [75]:
r.sample(10)

Unnamed: 0,user_id,anime_id,rating
6597485,60936,790,2
3942189,37238,1722,2
4278557,40515,169,2
1536846,14844,1157,1
7547416,70686,22199,2
5562830,52260,724,1
5080240,48606,12255,2
890542,8094,11491,2
7260910,67670,2403,2
1878963,18232,6166,1


In [76]:
r.shape

(39799, 3)

In [77]:
del r1, r2, r

En la siguiente celda, vamos a hacer un poco de "magia" de Python.

Vamos a usar [list compherensions](https://www.w3schools.com/python/python_lists_comprehension.asp) para crear un lista rápida que contiene cada uno de los dfs.

Una vez que estos están dentro de la lista, podemos hacer el `pd.concat` sin mayores problemas.

In [78]:
r = pd.concat(
    [pd.read_parquet(f"./input/{file}") for file in DFS_TO_CONCAT],
    axis = 0
)

In [80]:
r.sample(10)

Unnamed: 0,user_id,anime_id,rating
6743852,62309,23209,10
3031050,28119,1840,8
7175754,66928,9441,7
7033257,65723,8348,7
2596259,24559,4382,7
1913845,18588,18119,10
7179695,66957,22135,8
5120594,48905,93,7
4180425,39616,813,8
5760324,53948,4901,-1


In [79]:
r.shape

(7813737, 3)

In [81]:
del r

<a id='pipe'></a>
### 3.6 Pipe
[Volver al índice](#index)<br>

Por último, vamos a introducir otro método de **pandas** que es muy versátil y que permite hacer añadir "operaciones custom" dentro de nuestro "chaining".

In [83]:
(
    df
    .groupby(["type"])
    .size()
    .to_frame()
    .rename(columns = {0:"nr"})
    .pipe(lambda df: df.divide(df.sum(axis = 0), axis = 1))
)

Unnamed: 0_level_0,nr
type,Unnamed: 1_level_1
Movie,0.19
Music,0.04
ONA,0.05
OVA,0.27
Special,0.14
TV,0.31


<a id='conclusion'></a>
### 4. Wrap up y conclusiones
[Volver al índice](#index)<br>

Hemos hecho una breve introducción a pandas y hemos visto los principales métodos que hay.

<a id='next_steps'></a>
### 5. Next steps
[Volver al índice](#index)<br>

En el siguiente notebook [CBRS.ipynb](./CBRS.ipynb) vamos a usar todo lo aprendido sobre **pandas** para hacer un "Content Based Recommendation System" end to end.

De cara a la próxima sesión sería de extrema utilidad que puedan repasar todo lo aprendido hoy sobre pandas.

Los puntos más importantes serían:
1. Saber leer ficheros en un DataFrame (métodos que empiezan por `pd.read_`).
1. Entender como podemos filtrar columnas y/o filas de un DataFrame (métodos como `df.loc` y `df.iloc`).
1. Practicar y entender el método de `df.groupby`.
1. Practicar y entender los métodos de `pd.merge` y `pd.concat`.

Básicamente con lo expuesto antes y algunos métodos que veremos el próximo día vamos a poder hacer nuestro recomendador.

<a id='referencias'></a>
### 6. Referencias y lecturas recomendables
[Volver al índice](#index)<br>

A continuación dejamos algunos links útiles para profundizar en algunos de los conceptos que hemos visto en el notebook:

[Sitio oficial de pandas](https://pandas.pydata.org/)

[Is it too late for me to learn programming and land a job with it?
](https://www.reddit.com/r/learnprogramming/comments/67bary/is_it_too_late_for_me_to_learn_programming_and/)