<a href="https://colab.research.google.com/github/CaroliCosas/Bootcamp_Data_Science/blob/main/03_pandas_avanzado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## pandas - Avanzado

- Filtros en DataFrames.
- Cambiar tipos de datos.
- Concatenación de DataFrames.
- Merge (join).
- Métodos _**.map()**_, _**.applymap()**_ y _**.apply()**_.
- Manipulación de NaN's en _**pandas**_.
- _**GroupBy**_.

In [6]:
import numpy as np
import pandas as pd

In [7]:
# Versiones

print(f"numpy=={np.__version__}")
print(f"pandas=={pd.__version__}")

numpy==1.26.4
pandas==2.2.2


In [8]:
# Usaremos 2 DataFrames

df1 = pd.read_csv("titanic_1.csv")
df2 = pd.read_csv("titanic_2.csv")

In [9]:
df1.head(3)

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0


In [10]:
df2.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Ticket,Fare
0,1,0,3,A/5 21171,7.25
1,2,1,1,PC 17599,71.2833
2,3,1,3,STON/O2. 3101282,7.925


### Filtros en DataFrames

Para aplicar filtros o "máscaras" en los _**pd.DataFrames()**_ utilizaremos una sintaxis muy similar a _**np.where()**_.

La sintaxis se basa en condicionales y para unir 2 o más condiciones usaremos _**&**_, _**|**_ y _**~**_, en lugar de _**and**_, _**or**_ y _**not**_ respectivamente.

Si tenemos más de una condición, cada condición se debe agrupar usando paréntesis.

| Operador     | Operación     |
|--------------|---------------|
| **==**       | Igual         |
| **!=**       | Diferente     |
| **>**        | Mayor que     |
| **<**        | Menor que     |
| **>=**       | Mayor o igual |
| **<=**       | Menor o igual |

In [11]:
# Para aplicar un filtro usamos los operadores de comparación

# Usamos df1

df1["Age"] > 18

# Esto retorna una pd.Series() con True y False

Unnamed: 0,Age
0,True
1,True
2,True
3,True
4,True
...,...
886,True
887,True
888,False
889,True


In [12]:
# Si quisieramos aplicar ese "filtro" al DataFrame hariamos un "indexing" con el operador

df1[df1["Age"] > 18]

# Esto nos retorna el DataFrame solo con las filas que cumplen la condición
# En este ejemplo filtramos el DataFrame para quedarnos con las filas donde "Age" es mayor estricto a 18

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0
...,...,...,...,...
885,886,"Rice, Mrs. William (Margaret Norton)",female,39.0
886,887,"Montvila, Rev. Juozas",male,27.0
887,888,"Graham, Miss. Margaret Edith",female,19.0
889,890,"Behr, Mr. Karl Howell",male,26.0


In [13]:
# Podemos unir 2 o más condiciones usando | o &
# Cada condición debe de estar entre paréntesis

# En este ejemplo usamos |

df1[(df1["Age"] > 18) | (df1["Sex"] == "female")]

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0
...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,27.0
887,888,"Graham, Miss. Margaret Edith",female,19.0
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,
889,890,"Behr, Mr. Karl Howell",male,26.0


In [None]:
# Ejemplo usando &

df1[(df1["Age"] > 18) & (df1["Sex"] == "female")]

In [None]:
df2.head(3)

In [None]:
# Usamos df2

df2[(df2["Pclass"] == 1) | (df2["Pclass"] == 2)]

In [None]:
# Es posible hacer un filtro que no tenga ningun resultado
# Esto nos retorna un DataFrame vacío

df2[(df2["Pclass"] == 1) & (df2["Pclass"] == 2)]

Ahora veremos métodos que nos ayudarán a filtrar de forma más eficiente en ciertos casos

|Método           |Descripción                                                                                                                  |
|-----------------|-----------------------------------------------------------------------------------------------------------------------------|
|**.isin()**      |Filtra el DataFrame usando los valores de una lista. Es similar a concatenar varios _**\|**_.                                |
|**.between()**   |Filtra el DataFrame usando un intervalo. Es similar a esta expresión _**a <= x <= b**_. Solo funciona con columnas numéricas.|
|**.duplicated()**|Muestra los valores duplicados de una columna, omite la primera fila donde aparece ese valor.                                |

In [None]:
# Filtramos sobre la misma columna

df2[(df2["Pclass"] == 1) | (df2["Pclass"] == 2)]

In [None]:
# El mismo resultado se puede lograr con: .isin()

df2[df2["Pclass"].isin([1, 2])]

In [None]:
# Se puede usar con números o cadenas

df1[df1["Sex"].isin(["male", "female"])]

In [None]:
# Si quisieramos filtrar por un rango, podemos usar: .between()
# Los dos extremos son incluidos
# Solo se puede usar en columnas númericas

df1[(df1["Age"].between(28, 30))]

In [None]:
# Con ~ podemos obtener el resultado opuesto:

df1[~(df1["Age"].between(28, 29))]

# En este ejemplo filtramos todos los elementos donde "Age" es diferente de 28 y 29, también incluye NaN's

In [None]:
# Con .duplicated() vemos las filas que tengan valores repetidos, no muestra las primera apariciones

df1[df1["Age"].duplicated()]

### Cambiar el tipo de datos

Por lo general **pandas** utilizará los tipos de datos más generales para crear los **pd.DataFrame()**.

Podemos cambiar los tipos de datos de las columnas para ahorrar espacio en memoria o si queremos que los elementos de una columna tengan un comportamiento diferente, como por ejemplo una columna de **enteros** a **strings**.

Para esto usamos el método _**.astype()**_

In [None]:
# Aquí podemos observar el tipo de dato de cada columna como el especio que ocupa en "memory usage"

df1.info()

In [None]:
# Modificamos el tipo de dato de la columna "PassengerId" a "int8"

df1["PassengerId"] = df1["PassengerId"].astype("int8")

df1.info()

# Ahora "memory usage" es más bajo

In [None]:
# Cambiamos el tipo de dato de la columna "Sex" a "category"

df1["Sex"] = df1["Sex"].astype("category")

df1.info()

In [None]:
# Ahora la columna "Sex" es tipo "category"

df1["Sex"]

In [None]:
# También podemos transformar una columna numérica a string o "object"

df1["PassengerId"] = df1["PassengerId"].astype("str")

df1.info()

In [None]:
# Cambiar 2 o más a la vez

df2[["PassengerId", "Survived", "Pclass"]] = df2[["PassengerId", "Survived", "Pclass"]].astype("int8")

df2.info()

### Concatenación de DataFrames

Al igual que **NumPy** podemos concatenar elementos de 2 dimensiones.

Para concatenar usaremos la función _**pd.concat()**_, por defecto esta función usa _**axis = 0**_.

Al concatenar **pandas** verificará si comparten el mismo nombre en las columnas y en las filas.

En **pandas** no es necesario verificar el número de filas/columnas. Si algún _**pd.DataFrame()**_ no concuerda con otro entonces se llenarán los espacios vacíos con _**NaN's**_





#### Horizontal (axis = 1)

In [None]:
df1 = pd.DataFrame({"Columna_1" : ["A", "B"],
                    "Columna_2" : ["C", "D"]})

df2 = pd.DataFrame({"Columna_2" : ["E", "F", "G"],
                    "Columna_4" : ["G", "H", "I"]})

In [None]:
df1

In [None]:
df2

In [None]:
# Para concatenar horizontalmente hay que usar axis = 1

# pd.concat() recibe una lista de DataFrames

pd.concat([df1, df2], axis = 1)

In [None]:
# Usando un solo pd.concat() podemos concatenar varios DataFrames a la vez, incluso repetirlos

pd.concat([df1, df2, df2, df2], axis = 1)

### Vertical

In [None]:
df1 = pd.DataFrame({"Columna_1" : ["A", "B", "1"],
                    "Columna_2" : ["C", "D", "2"]})

df2 = pd.DataFrame({"Columna_1" : ["E", "F"],
                    "Columna_2" : ["G", "H"]})

# Ambos tienen el mismo nombre en las columnas

In [None]:
df1

In [None]:
df2

In [None]:
# Como tienen el mismo nombre de columnas, pandas los agrupa automaticamente

pd.concat([df1, df2], axis = 0)

In [None]:
# Este DataFrame solo tiene un nombre de columna en común

df3 = pd.DataFrame({"Columna_1" : ["E", "F"],
                    "Columna_3" : ["G", "H"]})

df3

In [None]:
# En este ejemplo los DataFrames tienen columnas diferentes

pd.concat([df1, df3], axis = 0)

# Por eso, pandas agrupa la columna en comun, y las que sean diferentes las llena con NaN's

In [None]:
# Si nos fijamos, pandas incluso concatena los indices, para evitar este comportamiento podemos agregar otro parametro:
# ignore_index = True

pd.concat([df1, df3], axis = 0, ignore_index = True)

### Merge (join)

La operación _**merge**_ (o _join_ en SQL) hace referencia a unir dos **DataFrames** basándose en un conjunto común de columnas, puede ser 1 o más columnas a la vez.

En **pandas** tenemos la función _**pd.merge()**_.

Para hacer "merge" de dos DataFrames es necesario que ambos compartan la misma columna, con el mismo tipo de dato.

Parámetro _**how**_:

- _inner_: Unión "interna", conservando solo las filas que tienen elementos comunes en **ambos DataFrames**.

- _left_: Unión "izquierda", conservando todas las filas del **DataFrame izquierdo**, incluso si no hay coincidencia en el **DataFrame derecho**, las filas sin coincidencia en el **DataFrame derecho** se rellenan con NaN's.

- _right_: Unión "derecha", conservando todas las filas del **DataFrame derecho**, incluso si no hay coincidencia en el **DataFrame izquierdo**, las filas sin coincidencia en el **DataFrame izquierdo** se rellenan con NaN's.

- _outer_: Unión "externa", conservando todas las filas de **ambos DataFrames**. Las filas sin coincidencia en uno de los DataFrames se rellenan con NaN's.

In [None]:
# Usaremos los DataFrames del titanic como ejemplo

# Ambos DataFrames comparten la misma columna "PassengerId"

df1 = pd.read_csv("../Data/titanic_1.csv")
df2 = pd.read_csv("../Data/titanic_2.csv")

In [None]:
df1.head(3)

In [None]:
df2.head(3)

In [None]:
# pd.merge() Une dos DataFrames que tengan una columna en común:
# Por defecto "how" es "inner"

df = pd.merge(left = df1, right = df2, left_on = "PassengerId", right_on = "PassengerId", how = "inner")

# Guardamos el resultado en df.

In [None]:
# Ahora vamos a eliminar algunas filas para ver como funcionan los otros valores del parámetro "how"

df1 = df1.drop([1, 3, 5], axis = 0)
df2 = df2.drop([2, 4, 6], axis = 0)

In [None]:
# how = left
# Aquí se mantienen los elementos del DataFrame de la izquierda (df1)
# Los espacios vacíos se llenan con NaN's

pd.merge(left = df1, right = df2, left_on = "PassengerId", right_on = "PassengerId", how = "left")

In [None]:
# how = right
# Aquí se mantienen los elementos del DataFrame de la right (df2)
# Los espacios vacíos se llenan con NaN's

pd.merge(left = df1, right = df2, left_on = "PassengerId", right_on = "PassengerId", how = "right")

In [None]:
# how = outer
# Aquí se mantienen los elementos de ambos DataFrames
# Los espacios vacíos se llenan con NaN's

pd.merge(left = df1, right = df2, left_on = "PassengerId", right_on = "PassengerId", how = "outer")

In [None]:
# Si ambos DataFrames comparten el mismo nombre de columna podemos usar el parámetro "on"
# En lugar de usar "left_on" y "right_on"

pd.merge(left = df1, right = df2, on = "PassengerId", how = "inner")

### .map() y .apply()

Los siguientes métodos se utilizan para transformar una o varias columnas usando una función o un diccionario, también es conocido como "mapeo":

|Método         |Descripción                                                                          |
|---------------|-------------------------------------------------------------------------------------|
|**.map()**     |Aplica una función a cada elemento de una o varias columnas de un **pd.DataFrame()**.|
|**.apply()**   |Aplica una función a cada fila o columna de un **pd.DataFrame()**.                   |

Estos métodos no son **in-place**.

Al usar alguno de estos métodos es importante tomar en cuenta si existen NaN's en la columna/fila/DataFrame, ya que algunas operaciones no son compatibles con los NaN's.

#### .map()

In [None]:
# pd.Series().map()

# En este ejemplo usamos la función anónima (lambda) para transformar una pd.Series()

df["Name"].map(lambda x : x.lower())

In [None]:
# Podemos hacer lo mismo si definimos una función

def transformar_lower(x):
    return x.lower()

df["Name"].map(transformar_lower)

# En este caso no es necesario usar la lambda, pero de igual forma se puede hacer

# df["Name"].map(lambda x : transformar_lower(x))

In [None]:
# Si tenemos un diccionario podemos usarlo para transformar toda la columna

dict_sex = {"male" : "H", "female" : "F"}

df["Sex"].map(dict_sex)

# En este caso no es necesario usar la lambda, pero de igual forma se puede hacer

# df["Name"].map(lambda x : dict_sex[x])

In [None]:
# Podemos usar operadores ternarios

df["Age"].map(lambda x : "mayor" if x >= 18 else "menor")

#### .apply()

In [None]:
# .apply() Se puede utilizar para Series y DataFrames

# Ejemplo en pd.Series()

df["Age"].apply(lambda x : np.sqrt(x))

# np.sqrt() toma en cuenta los NaN's, por eso vemos un elemento NaN en la Serie
# No todas las funciones se comportan de esta forma

# Probar con:
# df["Age"].apply(lambda x : int(x))

In [None]:
# Ejemplo en columnas de pd.DataFrame()

df[["PassengerId", "Age"]].apply(lambda x : np.sqrt(x))

In [None]:
# Ejemplo en filas de pd.DataFrame()

df[["PassengerId", "Age"]].apply(lambda x : x["PassengerId"] + x["Age"], axis = 1)

# Este ejemplo es un poco más complejo
# Suma horizontalmente los elementos de cada fila
# En lugar de retornar 2 columnas como el ejemplo anterior solo retorna una.
# Para hacer uso de los elementos en cada columna usamos la variable "x" como si fuese un diccionario
# Indicando que debe hacer con cada elemento de cada columna
# Usamos axis = 1

### Manipulación de NaN's en pandas.

- Encontrar NaN's.
- Eliminar NaN's.
- Rellenar NaN's.

#### Encontrar NaN's

In [None]:
# Normalmente en casi todas las operaciones que hace pandas se omiten los valores nulos (NaN's)
# Si quisieramos ver cuantos hay podemos hacer:

df["Age"].value_counts()

# Aquí pandas está omitiendo los NaN's

In [None]:
# Si agregamos el parámetro "dropna = False" ya no omitirá los NaN's

df["Age"].value_counts(dropna = False)

In [None]:
# Con .isnull() podemos filtrar el DataFrame para ver las filas con NaN's de una columna

df[df["Age"].isnull()]

In [None]:
# Si queremos ver cuantos NaN's hay por columna podemos usar el método .isna()

df.isna().sum()

In [None]:
# Incluso verlo en porcentaje

df.isna().sum()*100/df.shape[0]

#### Eliminar NaN's

In [None]:
# Para eliminar los NaN's podemos usar .dropna()
# Esta operación no es in-place

df.dropna()

# El número de filas cambia porque se eliminar las filas con al menos un NaN.
# El índice queda igual, no se modifica por haber perdido filas
# Para "actualizar" el índice podemos usar .reset_index()

#### Rellenar NaN's

In [None]:
# Para llenar los NaN's de una columna podemos usar la función .fillna()
# El elemento para rellenar los NaN's idealmente debe ser del mismo tipo de dato que la columna
# De los contrario pandas transformará todos los elementos al tipo de dato mas general

df["Age"].fillna(999)

# Probar con:
# df["Age"].fillna("999")
# Con esto todos los elementos dejan de ser números a ser strings.

### GroupBy

El método _**.groupby()**_ permite agrupar filas de un **pd.DataFrame()** en función de una o más columnas y aplicar funciones a cada grupo.

Usaremos en conjunto con el _**.groupby()**_ las funciones de _agregación_ y los métodos _**.aggregate()**_ y _**.agg()**_:

|Función   |
|----------|
|**max**   |
|**min**   |
|**sum**   |
|**mean**  |
|**median**|
|**count** |
|**std**   |

Las funciones de _agregación_ se llaman así porque combinan o resumen varios valores en un solo valor.

En inglés se les llaman _**aggregate functions**_.

In [None]:
# Vamos a usar otro pd.DataFrame()
# Este DataFrame contiene información de migración de paises a Canada

df = pd.read_excel("../Data/Canada.xlsx")

df.head(3)

In [None]:
df["Continente"].unique()

In [None]:
# .groupby() se usa para agrupar filas que tienen los mismos valores.
# Obligatoriamente se usa junto con funciones agregadas para producir informes resumidos.

df.groupby(by = "Continente")

# Solo usar .groupby() retorna el objeto de la operación, pero no muestra nada

In [None]:
# Para ejecutar alguna operación o aggregate function podemos hacer simplemente:

df.groupby(by = "Continente").max()

# En este ejemplo usamos la función "max"
# El DataFrame muestra por cada continente el "max" por cada columna

In [None]:
# También podemos usar el método .aggregate()

df.groupby(by = "Continente").aggregate(["max"])

# En este ejemplo usamos la función "max"
# El DataFrame muestra por cada continente el "max" por cada columna, también añade otro nivel de columnas
# Es la principal diferencia entre este método y el anterior

In [None]:
# El método .aggregate() permite hacer más de una función a la vez

df.groupby(by = "Continente").aggregate(["min", "max"])

In [None]:
# Otra opción puede ser usar el método .agg()
# La diferencia es que este método toma como parámetro un diccionario
# Donde la llave es la columna del DataFrame y el valor una lista de aggregate functions

df.groupby(by = "Continente").agg({2000 : ["min", "max", "sum"],
                                   2001 : ["min", "max"],
                                   2002 : ["count"]})

# La ventaja es que solo aplica las aggregate functions a las columnas indicadas, no a todo el DataFrame

In [None]:
# También podemos hacer .groupby() a varias columnas a la vez

df.groupby(by = ["Continente", "Tipo de region"]).agg({2000 : ["min", "max", "sum"]})

In [None]:
# También podemos hacer .groupby() a varias columnas a la vez

df.groupby(by = ["Tipo de region", "Continente"]).agg({2000 : ["min", "max", "sum"]})

# En este ejemplo cambiamos el orden de las columnas del .groupby(), el resultado está en otro orden

In [None]:
# Podemos agregar el parámetro "as_index = False" para que las columnas del .groupby()
# No se conviertan en el índice

df1 = df.groupby(by = ["Tipo de region", "Continente"], as_index = False).agg({2000 : ["min", "max", "sum"]})

df1
# De esta manera podemos seguir usando los elementos de las columnas

In [None]:
# Debido al doble nivel de columnas, obtenemos este resultado al ver las columnas

df1.columns

# Es una lista de tuplas, donde cada tupla es el nombre de la columna y el aggregate function aplicada a cada una

In [None]:
# Para eliminar los niveles de las columnas podemos usar el siguiente código

# Guardamos el .groupby() en una variable
df1 = df.groupby(by = ["Tipo de region", "Continente"], as_index = False).agg({2000 : ["min", "max", "sum"]})

df1.columns = [f"{x[0]}_{x[1]}" if x[1] != "" else f"{x[0]}" for x in df1.columns.values]

df1

In [None]:
################################################################################################################################