<a href="https://colab.research.google.com/github/CaroliCosas/Bootcamp_Data_Science/blob/main/03_pandas_avanzado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## pandas - Avanzado

- Filtros en DataFrames.
- Cambiar tipos de datos.
- Concatenación de DataFrames.
- Merge (join).
- Métodos _**.map()**_, _**.applymap()**_ y _**.apply()**_.
- Manipulación de NaN's en _**pandas**_.
- _**GroupBy**_.

In [68]:
import numpy as np
import pandas as pd

In [69]:
# Versiones

print(f"numpy=={np.__version__}")
print(f"pandas=={pd.__version__}")

numpy==1.26.4
pandas==2.2.2


In [70]:
# Usaremos 2 DataFrames

df1 = pd.read_csv("titanic_1.csv")
df2 = pd.read_csv("titanic_2.csv")

In [71]:
df1.head(3)

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0


In [72]:
df2.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Ticket,Fare
0,1,0,3,A/5 21171,7.25
1,2,1,1,PC 17599,71.2833
2,3,1,3,STON/O2. 3101282,7.925


### Filtros en DataFrames

Para aplicar filtros o "máscaras" en los _**pd.DataFrames()**_ utilizaremos una sintaxis muy similar a _**np.where()**_.

La sintaxis se basa en condicionales y para unir 2 o más condiciones usaremos _**&**_, _**|**_ y _**~**_, en lugar de _**and**_, _**or**_ y _**not**_ respectivamente.

Si tenemos más de una condición, cada condición se debe agrupar usando paréntesis.

| Operador     | Operación     |
|--------------|---------------|
| **==**       | Igual         |
| **!=**       | Diferente     |
| **>**        | Mayor que     |
| **<**        | Menor que     |
| **>=**       | Mayor o igual |
| **<=**       | Menor o igual |

In [73]:
# Para aplicar un filtro usamos los operadores de comparación

# Usamos df1

df1["Age"] > 18

# Esto retorna una pd.Series() con True y False

Unnamed: 0,Age
0,True
1,True
2,True
3,True
4,True
...,...
886,True
887,True
888,False
889,True


In [74]:
# Si quisieramos aplicar ese "filtro" al DataFrame hariamos un "indexing" con el operador

df1[df1["Age"] > 18]

# Esto nos retorna el DataFrame solo con las filas que cumplen la condición
# En este ejemplo filtramos el DataFrame para quedarnos con las filas donde "Age" es mayor estricto a 18

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0
...,...,...,...,...
885,886,"Rice, Mrs. William (Margaret Norton)",female,39.0
886,887,"Montvila, Rev. Juozas",male,27.0
887,888,"Graham, Miss. Margaret Edith",female,19.0
889,890,"Behr, Mr. Karl Howell",male,26.0


In [75]:
# Podemos unir 2 o más condiciones usando | o &
# Cada condición debe de estar entre paréntesis

# En este ejemplo usamos |

df1[(df1["Age"] > 18) | (df1["Sex"] == "female")]

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0
...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,27.0
887,888,"Graham, Miss. Margaret Edith",female,19.0
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,
889,890,"Behr, Mr. Karl Howell",male,26.0


In [76]:
# Ejemplo usando &

df1[(df1["Age"] > 18) & (df1["Sex"] == "female")]

Unnamed: 0,PassengerId,Name,Sex,Age
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
8,9,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0
11,12,"Bonnell, Miss. Elizabeth",female,58.0
...,...,...,...,...
879,880,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0
880,881,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0
882,883,"Dahlberg, Miss. Gerda Ulrika",female,22.0
885,886,"Rice, Mrs. William (Margaret Norton)",female,39.0


In [77]:
df2.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Ticket,Fare
0,1,0,3,A/5 21171,7.25
1,2,1,1,PC 17599,71.2833
2,3,1,3,STON/O2. 3101282,7.925


In [78]:
# Usamos df2

df2[(df2["Pclass"] == 1) | (df2["Pclass"] == 2)]

Unnamed: 0,PassengerId,Survived,Pclass,Ticket,Fare
1,2,1,1,PC 17599,71.2833
3,4,1,1,113803,53.1000
6,7,0,1,17463,51.8625
9,10,1,2,237736,30.0708
11,12,1,1,113783,26.5500
...,...,...,...,...,...
880,881,1,2,230433,26.0000
883,884,0,2,C.A./SOTON 34068,10.5000
886,887,0,2,211536,13.0000
887,888,1,1,112053,30.0000


In [79]:
# Es posible hacer un filtro que no tenga ningun resultado
# Esto nos retorna un DataFrame vacío

df2[(df2["Pclass"] == 1) & (df2["Pclass"] == 2)]

Unnamed: 0,PassengerId,Survived,Pclass,Ticket,Fare


Ahora veremos métodos que nos ayudarán a filtrar de forma más eficiente en ciertos casos

|Método           |Descripción                                                                                                                  |
|-----------------|-----------------------------------------------------------------------------------------------------------------------------|
|**.isin()**      |Filtra el DataFrame usando los valores de una lista. Es similar a concatenar varios _**\|**_.                                |
|**.between()**   |Filtra el DataFrame usando un intervalo. Es similar a esta expresión _**a <= x <= b**_. Solo funciona con columnas numéricas.|
|**.duplicated()**|Muestra los valores duplicados de una columna, omite la primera fila donde aparece ese valor.                                |

In [80]:
# Filtramos sobre la misma columna

df2[(df2["Pclass"] == 1) | (df2["Pclass"] == 2)]

Unnamed: 0,PassengerId,Survived,Pclass,Ticket,Fare
1,2,1,1,PC 17599,71.2833
3,4,1,1,113803,53.1000
6,7,0,1,17463,51.8625
9,10,1,2,237736,30.0708
11,12,1,1,113783,26.5500
...,...,...,...,...,...
880,881,1,2,230433,26.0000
883,884,0,2,C.A./SOTON 34068,10.5000
886,887,0,2,211536,13.0000
887,888,1,1,112053,30.0000


In [81]:
# El mismo resultado se puede lograr con: .isin()

df2[df2["Pclass"].isin([1, 2])]

Unnamed: 0,PassengerId,Survived,Pclass,Ticket,Fare
1,2,1,1,PC 17599,71.2833
3,4,1,1,113803,53.1000
6,7,0,1,17463,51.8625
9,10,1,2,237736,30.0708
11,12,1,1,113783,26.5500
...,...,...,...,...,...
880,881,1,2,230433,26.0000
883,884,0,2,C.A./SOTON 34068,10.5000
886,887,0,2,211536,13.0000
887,888,1,1,112053,30.0000


In [82]:
# Se puede usar con números o cadenas

df1[df1["Sex"].isin(["male", "female"])]

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0
...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,27.0
887,888,"Graham, Miss. Margaret Edith",female,19.0
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,
889,890,"Behr, Mr. Karl Howell",male,26.0


In [83]:
# Si quisieramos filtrar por un rango, podemos usar: .between()
# Los dos extremos son incluidos
# Solo se puede usar en columnas númericas

df1[(df1["Age"].between(28, 30))]

Unnamed: 0,PassengerId,Name,Sex,Age
23,24,"Sloper, Mr. William Thompson",male,28.0
34,35,"Meyer, Mr. Edgar Joseph",male,28.0
53,54,"Faunthorpe, Mrs. Lizzie (Elizabeth Anne Wilkin...",female,29.0
57,58,"Novel, Mr. Mansouer",male,28.5
66,67,"Nye, Mrs. (Elizabeth Ramell)",female,29.0
...,...,...,...,...
799,800,"Van Impe, Mrs. Jean Baptiste (Rosalie Paula Go...",female,30.0
842,843,"Serepeca, Miss. Augusta",female,30.0
848,849,"Harper, Rev. John",male,28.0
874,875,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0


In [84]:
# Con ~ podemos obtener el resultado opuesto:

df1[~(df1["Age"].between(28, 29))]

# En este ejemplo filtramos todos los elementos donde "Age" es diferente de 28 y 29, también incluye NaN's

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0
...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,27.0
887,888,"Graham, Miss. Margaret Edith",female,19.0
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,
889,890,"Behr, Mr. Karl Howell",male,26.0


In [85]:
# Con .duplicated() vemos las filas que tengan valores repetidos, no muestra las primera apariciones

df1[df1["Age"].duplicated()]

Unnamed: 0,PassengerId,Name,Sex,Age
4,5,"Allen, Mr. William Henry",male,35.0
14,15,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0
16,17,"Rice, Master. Eugene",male,2.0
17,18,"Williams, Mr. Charles Eugene",male,
19,20,"Masselmani, Mrs. Fatima",female,
...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,27.0
887,888,"Graham, Miss. Margaret Edith",female,19.0
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,
889,890,"Behr, Mr. Karl Howell",male,26.0


### Cambiar el tipo de datos

Por lo general **pandas** utilizará los tipos de datos más generales para crear los **pd.DataFrame()**.

Podemos cambiar los tipos de datos de las columnas para ahorrar espacio en memoria o si queremos que los elementos de una columna tengan un comportamiento diferente, como por ejemplo una columna de **enteros** a **strings**.

Para esto usamos el método _**.astype()**_

In [86]:
# Aquí podemos observar el tipo de dato de cada columna como el especio que ocupa en "memory usage"

df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Name         891 non-null    object 
 2   Sex          891 non-null    object 
 3   Age          714 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 28.0+ KB


In [87]:
# Modificamos el tipo de dato de la columna "PassengerId" a "int8"

df1["PassengerId"] = df1["PassengerId"].astype("int8")

df1.info()

# Ahora "memory usage" es más bajo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int8   
 1   Name         891 non-null    object 
 2   Sex          891 non-null    object 
 3   Age          714 non-null    float64
dtypes: float64(1), int8(1), object(2)
memory usage: 21.9+ KB


In [88]:
# Cambiamos el tipo de dato de la columna "Sex" a "category"

df1["Sex"] = df1["Sex"].astype("category")

df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  891 non-null    int8    
 1   Name         891 non-null    object  
 2   Sex          891 non-null    category
 3   Age          714 non-null    float64 
dtypes: category(1), float64(1), int8(1), object(1)
memory usage: 15.9+ KB


In [89]:
# Ahora la columna "Sex" es tipo "category"

df1["Sex"]

Unnamed: 0,Sex
0,male
1,female
2,female
3,female
4,male
...,...
886,male
887,female
888,female
889,male


In [90]:
# También podemos transformar una columna numérica a string o "object"

df1["PassengerId"] = df1["PassengerId"].astype("str")

df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  891 non-null    object  
 1   Name         891 non-null    object  
 2   Sex          891 non-null    category
 3   Age          714 non-null    float64 
dtypes: category(1), float64(1), object(2)
memory usage: 22.0+ KB


In [91]:
# Cambiar 2 o más a la vez

df2[["PassengerId", "Survived", "Pclass"]] = df2[["PassengerId", "Survived", "Pclass"]].astype("int8")

df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int8   
 1   Survived     891 non-null    int8   
 2   Pclass       891 non-null    int8   
 3   Ticket       891 non-null    object 
 4   Fare         891 non-null    float64
dtypes: float64(1), int8(3), object(1)
memory usage: 16.7+ KB


### Concatenación de DataFrames

Al igual que **NumPy** podemos concatenar elementos de 2 dimensiones.

Para concatenar usaremos la función _**pd.concat()**_, por defecto esta función usa _**axis = 0**_.

Al concatenar **pandas** verificará si comparten el mismo nombre en las columnas y en las filas.

En **pandas** no es necesario verificar el número de filas/columnas. Si algún _**pd.DataFrame()**_ no concuerda con otro entonces se llenarán los espacios vacíos con _**NaN's**_





#### Horizontal (axis = 1)

In [92]:
df1 = pd.DataFrame({"Columna_1" : ["A", "B"],
                    "Columna_2" : ["C", "D"]})

df2 = pd.DataFrame({"Columna_2" : ["E", "F", "G"],
                    "Columna_4" : ["G", "H", "I"]})

In [93]:
df1

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D


In [94]:
df2

Unnamed: 0,Columna_2,Columna_4
0,E,G
1,F,H
2,G,I


In [95]:
# Para concatenar horizontalmente hay que usar axis = 1

# pd.concat() recibe una lista de DataFrames

pd.concat([df1, df2], axis = 1)

Unnamed: 0,Columna_1,Columna_2,Columna_2.1,Columna_4
0,A,C,E,G
1,B,D,F,H
2,,,G,I


In [96]:
# Usando un solo pd.concat() podemos concatenar varios DataFrames a la vez, incluso repetirlos

pd.concat([df1, df2, df2, df2], axis = 1)

Unnamed: 0,Columna_1,Columna_2,Columna_2.1,Columna_4,Columna_2.2,Columna_4.1,Columna_2.3,Columna_4.2
0,A,C,E,G,E,G,E,G
1,B,D,F,H,F,H,F,H
2,,,G,I,G,I,G,I


### Vertical

In [97]:
df1 = pd.DataFrame({"Columna_1" : ["A", "B", "1"],
                    "Columna_2" : ["C", "D", "2"]})

df2 = pd.DataFrame({"Columna_1" : ["E", "F"],
                    "Columna_2" : ["G", "H"]})

# Ambos tienen el mismo nombre en las columnas

In [98]:
df1

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D
2,1,2


In [99]:
df2

Unnamed: 0,Columna_1,Columna_2
0,E,G
1,F,H


In [100]:
# Como tienen el mismo nombre de columnas, pandas los agrupa automaticamente

pd.concat([df1, df2], axis = 0)

Unnamed: 0,Columna_1,Columna_2
0,A,C
1,B,D
2,1,2
0,E,G
1,F,H


In [101]:
# Este DataFrame solo tiene un nombre de columna en común

df3 = pd.DataFrame({"Columna_1" : ["E", "F"],
                    "Columna_3" : ["G", "H"]})

df3

Unnamed: 0,Columna_1,Columna_3
0,E,G
1,F,H


In [102]:
# En este ejemplo los DataFrames tienen columnas diferentes

pd.concat([df1, df3], axis = 0)

# Por eso, pandas agrupa la columna en comun, y las que sean diferentes las llena con NaN's

Unnamed: 0,Columna_1,Columna_2,Columna_3
0,A,C,
1,B,D,
2,1,2,
0,E,,G
1,F,,H


In [103]:
# Si nos fijamos, pandas incluso concatena los indices, para evitar este comportamiento podemos agregar otro parametro:
# ignore_index = True

pd.concat([df1, df3], axis = 0, ignore_index = True)

Unnamed: 0,Columna_1,Columna_2,Columna_3
0,A,C,
1,B,D,
2,1,2,
3,E,,G
4,F,,H


### Merge (join)

La operación _**merge**_ (o _join_ en SQL) hace referencia a unir dos **DataFrames** basándose en un conjunto común de columnas, puede ser 1 o más columnas a la vez.

En **pandas** tenemos la función _**pd.merge()**_.

Para hacer "merge" de dos DataFrames es necesario que ambos compartan la misma columna, con el mismo tipo de dato.

Parámetro _**how**_:

- _inner_: Unión "interna", conservando solo las filas que tienen elementos comunes en **ambos DataFrames**.

- _left_: Unión "izquierda", conservando todas las filas del **DataFrame izquierdo**, incluso si no hay coincidencia en el **DataFrame derecho**, las filas sin coincidencia en el **DataFrame derecho** se rellenan con NaN's.

- _right_: Unión "derecha", conservando todas las filas del **DataFrame derecho**, incluso si no hay coincidencia en el **DataFrame izquierdo**, las filas sin coincidencia en el **DataFrame izquierdo** se rellenan con NaN's.

- _outer_: Unión "externa", conservando todas las filas de **ambos DataFrames**. Las filas sin coincidencia en uno de los DataFrames se rellenan con NaN's.

In [104]:
# Usaremos los DataFrames del titanic como ejemplo

# Ambos DataFrames comparten la misma columna "PassengerId"

df1 = pd.read_csv("titanic_1.csv")
df2 = pd.read_csv("titanic_2.csv")

In [105]:
df1.head(3)

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0


In [106]:
df2.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Ticket,Fare
0,1,0,3,A/5 21171,7.25
1,2,1,1,PC 17599,71.2833
2,3,1,3,STON/O2. 3101282,7.925


In [107]:
# pd.merge() Une dos DataFrames que tengan una columna en común:
# Por defecto "how" es "inner"

df = pd.merge(left = df1, right = df2, left_on = "PassengerId", right_on = "PassengerId", how = "inner")

# Guardamos el resultado en df.

In [108]:
# Ahora vamos a eliminar algunas filas para ver como funcionan los otros valores del parámetro "how"

df1 = df1.drop([1, 3, 5], axis = 0)
df2 = df2.drop([2, 4, 6], axis = 0)

In [109]:
# how = left
# Aquí se mantienen los elementos del DataFrame de la izquierda (df1)
# Los espacios vacíos se llenan con NaN's

pd.merge(left = df1, right = df2, left_on = "PassengerId", right_on = "PassengerId", how = "left")

Unnamed: 0,PassengerId,Name,Sex,Age,Survived,Pclass,Ticket,Fare
0,1,"Braund, Mr. Owen Harris",male,22.0,0.0,3.0,A/5 21171,7.250
1,3,"Heikkinen, Miss. Laina",female,26.0,,,,
2,5,"Allen, Mr. William Henry",male,35.0,,,,
3,7,"McCarthy, Mr. Timothy J",male,54.0,,,,
4,8,"Palsson, Master. Gosta Leonard",male,2.0,0.0,3.0,349909,21.075
...,...,...,...,...,...,...,...,...
883,887,"Montvila, Rev. Juozas",male,27.0,0.0,2.0,211536,13.000
884,888,"Graham, Miss. Margaret Edith",female,19.0,1.0,1.0,112053,30.000
885,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,,0.0,3.0,W./C. 6607,23.450
886,890,"Behr, Mr. Karl Howell",male,26.0,1.0,1.0,111369,30.000


In [110]:
# how = right
# Aquí se mantienen los elementos del DataFrame de la right (df2)
# Los espacios vacíos se llenan con NaN's

pd.merge(left = df1, right = df2, left_on = "PassengerId", right_on = "PassengerId", how = "right")

Unnamed: 0,PassengerId,Name,Sex,Age,Survived,Pclass,Ticket,Fare
0,1,"Braund, Mr. Owen Harris",male,22.0,0,3,A/5 21171,7.2500
1,2,,,,1,1,PC 17599,71.2833
2,4,,,,1,1,113803,53.1000
3,6,,,,0,3,330877,8.4583
4,8,"Palsson, Master. Gosta Leonard",male,2.0,0,3,349909,21.0750
...,...,...,...,...,...,...,...,...
883,887,"Montvila, Rev. Juozas",male,27.0,0,2,211536,13.0000
884,888,"Graham, Miss. Margaret Edith",female,19.0,1,1,112053,30.0000
885,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,,0,3,W./C. 6607,23.4500
886,890,"Behr, Mr. Karl Howell",male,26.0,1,1,111369,30.0000


In [111]:
# how = outer
# Aquí se mantienen los elementos de ambos DataFrames
# Los espacios vacíos se llenan con NaN's

pd.merge(left = df1, right = df2, left_on = "PassengerId", right_on = "PassengerId", how = "outer")

Unnamed: 0,PassengerId,Name,Sex,Age,Survived,Pclass,Ticket,Fare
0,1,"Braund, Mr. Owen Harris",male,22.0,0.0,3.0,A/5 21171,7.2500
1,2,,,,1.0,1.0,PC 17599,71.2833
2,3,"Heikkinen, Miss. Laina",female,26.0,,,,
3,4,,,,1.0,1.0,113803,53.1000
4,5,"Allen, Mr. William Henry",male,35.0,,,,
...,...,...,...,...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,27.0,0.0,2.0,211536,13.0000
887,888,"Graham, Miss. Margaret Edith",female,19.0,1.0,1.0,112053,30.0000
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,,0.0,3.0,W./C. 6607,23.4500
889,890,"Behr, Mr. Karl Howell",male,26.0,1.0,1.0,111369,30.0000


In [112]:
# Si ambos DataFrames comparten el mismo nombre de columna podemos usar el parámetro "on"
# En lugar de usar "left_on" y "right_on"

pd.merge(left = df1, right = df2, on = "PassengerId", how = "inner")

Unnamed: 0,PassengerId,Name,Sex,Age,Survived,Pclass,Ticket,Fare
0,1,"Braund, Mr. Owen Harris",male,22.0,0,3,A/5 21171,7.2500
1,8,"Palsson, Master. Gosta Leonard",male,2.0,0,3,349909,21.0750
2,9,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,1,3,347742,11.1333
3,10,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,2,237736,30.0708
4,11,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,3,PP 9549,16.7000
...,...,...,...,...,...,...,...,...
880,887,"Montvila, Rev. Juozas",male,27.0,0,2,211536,13.0000
881,888,"Graham, Miss. Margaret Edith",female,19.0,1,1,112053,30.0000
882,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,,0,3,W./C. 6607,23.4500
883,890,"Behr, Mr. Karl Howell",male,26.0,1,1,111369,30.0000


### .map() y .apply()

Los siguientes métodos se utilizan para transformar una o varias columnas usando una función o un diccionario, también es conocido como "mapeo":

|Método         |Descripción                                                                          |
|---------------|-------------------------------------------------------------------------------------|
|**.map()**     |Aplica una función a cada elemento de una o varias columnas de un **pd.DataFrame()**.|
|**.apply()**   |Aplica una función a cada fila o columna de un **pd.DataFrame()**.                   |

Estos métodos no son **in-place**.

Al usar alguno de estos métodos es importante tomar en cuenta si existen NaN's en la columna/fila/DataFrame, ya que algunas operaciones no son compatibles con los NaN's.

#### .map()

In [113]:
# pd.Series().map()

# En este ejemplo usamos la función anónima (lambda) para transformar una pd.Series()

df["Name"].map(lambda x : x.lower())

Unnamed: 0,Name
0,"braund, mr. owen harris"
1,"cumings, mrs. john bradley (florence briggs th..."
2,"heikkinen, miss. laina"
3,"futrelle, mrs. jacques heath (lily may peel)"
4,"allen, mr. william henry"
...,...
886,"montvila, rev. juozas"
887,"graham, miss. margaret edith"
888,"johnston, miss. catherine helen ""carrie"""
889,"behr, mr. karl howell"


In [114]:
# Podemos hacer lo mismo si definimos una función

def transformar_lower(x):
    return x.lower()

df["Name"].map(transformar_lower)

# En este caso no es necesario usar la lambda, pero de igual forma se puede hacer

# df["Name"].map(lambda x : transformar_lower(x))

Unnamed: 0,Name
0,"braund, mr. owen harris"
1,"cumings, mrs. john bradley (florence briggs th..."
2,"heikkinen, miss. laina"
3,"futrelle, mrs. jacques heath (lily may peel)"
4,"allen, mr. william henry"
...,...
886,"montvila, rev. juozas"
887,"graham, miss. margaret edith"
888,"johnston, miss. catherine helen ""carrie"""
889,"behr, mr. karl howell"


In [115]:
# Si tenemos un diccionario podemos usarlo para transformar toda la columna

dict_sex = {"male" : "H", "female" : "F"}

df["Sex"].map(dict_sex)

# En este caso no es necesario usar la lambda, pero de igual forma se puede hacer

# df["Name"].map(lambda x : dict_sex[x])

Unnamed: 0,Sex
0,H
1,F
2,F
3,F
4,H
...,...
886,H
887,F
888,F
889,H


In [116]:
# Podemos usar operadores ternarios

df["Age"].map(lambda x : "mayor" if x >= 18 else "menor")

Unnamed: 0,Age
0,mayor
1,mayor
2,mayor
3,mayor
4,mayor
...,...
886,mayor
887,mayor
888,menor
889,mayor


#### .apply()

In [117]:
# .apply() Se puede utilizar para Series y DataFrames

# Ejemplo en pd.Series()

df["Age"].apply(lambda x : np.sqrt(x))

# np.sqrt() toma en cuenta los NaN's, por eso vemos un elemento NaN en la Serie
# No todas las funciones se comportan de esta forma

# Probar con:
# df["Age"].apply(lambda x : int(x))

Unnamed: 0,Age
0,4.690416
1,6.164414
2,5.099020
3,5.916080
4,5.916080
...,...
886,5.196152
887,4.358899
888,
889,5.099020


In [118]:
# Ejemplo en columnas de pd.DataFrame()

df[["PassengerId", "Age"]].apply(lambda x : np.sqrt(x))

Unnamed: 0,PassengerId,Age
0,1.000000,4.690416
1,1.414214,6.164414
2,1.732051,5.099020
3,2.000000,5.916080
4,2.236068,5.916080
...,...,...
886,29.782545,5.196152
887,29.799329,4.358899
888,29.816103,
889,29.832868,5.099020


In [119]:
# Ejemplo en filas de pd.DataFrame()

df[["PassengerId", "Age"]].apply(lambda x : x["PassengerId"] + x["Age"], axis = 1)

# Este ejemplo es un poco más complejo
# Suma horizontalmente los elementos de cada fila
# En lugar de retornar 2 columnas como el ejemplo anterior solo retorna una.
# Para hacer uso de los elementos en cada columna usamos la variable "x" como si fuese un diccionario
# Indicando que debe hacer con cada elemento de cada columna
# Usamos axis = 1

Unnamed: 0,0
0,23.0
1,40.0
2,29.0
3,39.0
4,40.0
...,...
886,914.0
887,907.0
888,
889,916.0


### Manipulación de NaN's en pandas.

- Encontrar NaN's.
- Eliminar NaN's.
- Rellenar NaN's.

#### Encontrar NaN's

In [120]:
# Normalmente en casi todas las operaciones que hace pandas se omiten los valores nulos (NaN's)
# Si quisieramos ver cuantos hay podemos hacer:

df["Age"].value_counts()

# Aquí pandas está omitiendo los NaN's

Unnamed: 0_level_0,count
Age,Unnamed: 1_level_1
24.00,30
22.00,27
18.00,26
19.00,25
28.00,25
...,...
36.50,1
55.50,1
0.92,1
23.50,1


In [121]:
# Si agregamos el parámetro "dropna = False" ya no omitirá los NaN's

df["Age"].value_counts(dropna = False)

Unnamed: 0_level_0,count
Age,Unnamed: 1_level_1
,177
24.00,30
22.00,27
18.00,26
28.00,25
...,...
36.50,1
55.50,1
0.92,1
23.50,1


In [122]:
# Con .isnull() podemos filtrar el DataFrame para ver las filas con NaN's de una columna

df[df["Age"].isnull()]

Unnamed: 0,PassengerId,Name,Sex,Age,Survived,Pclass,Ticket,Fare
5,6,"Moran, Mr. James",male,,0,3,330877,8.4583
17,18,"Williams, Mr. Charles Eugene",male,,1,2,244373,13.0000
19,20,"Masselmani, Mrs. Fatima",female,,1,3,2649,7.2250
26,27,"Emir, Mr. Farred Chehab",male,,0,3,2631,7.2250
28,29,"O'Dwyer, Miss. Ellen ""Nellie""",female,,1,3,330959,7.8792
...,...,...,...,...,...,...,...,...
859,860,"Razi, Mr. Raihed",male,,0,3,2629,7.2292
863,864,"Sage, Miss. Dorothy Edith ""Dolly""",female,,0,3,CA. 2343,69.5500
868,869,"van Melkebeke, Mr. Philemon",male,,0,3,345777,9.5000
878,879,"Laleff, Mr. Kristo",male,,0,3,349217,7.8958


In [123]:
# Si queremos ver cuantos NaN's hay por columna podemos usar el método .isna()

df.isna().sum()

Unnamed: 0,0
PassengerId,0
Name,0
Sex,0
Age,177
Survived,0
Pclass,0
Ticket,0
Fare,0


In [124]:
# Incluso verlo en porcentaje

df.isna().sum()*100/df.shape[0]

Unnamed: 0,0
PassengerId,0.0
Name,0.0
Sex,0.0
Age,19.86532
Survived,0.0
Pclass,0.0
Ticket,0.0
Fare,0.0


#### Eliminar NaN's

In [125]:
# Para eliminar los NaN's podemos usar .dropna()
# Esta operación no es in-place

df.dropna()

# El número de filas cambia porque se eliminar las filas con al menos un NaN.
# El índice queda igual, no se modifica por haber perdido filas
# Para "actualizar" el índice podemos usar .reset_index()

Unnamed: 0,PassengerId,Name,Sex,Age,Survived,Pclass,Ticket,Fare
0,1,"Braund, Mr. Owen Harris",male,22.0,0,3,A/5 21171,7.2500
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,1,PC 17599,71.2833
2,3,"Heikkinen, Miss. Laina",female,26.0,1,3,STON/O2. 3101282,7.9250
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,1,113803,53.1000
4,5,"Allen, Mr. William Henry",male,35.0,0,3,373450,8.0500
...,...,...,...,...,...,...,...,...
885,886,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,3,382652,29.1250
886,887,"Montvila, Rev. Juozas",male,27.0,0,2,211536,13.0000
887,888,"Graham, Miss. Margaret Edith",female,19.0,1,1,112053,30.0000
889,890,"Behr, Mr. Karl Howell",male,26.0,1,1,111369,30.0000


#### Rellenar NaN's

In [126]:
# Para llenar los NaN's de una columna podemos usar la función .fillna()
# El elemento para rellenar los NaN's idealmente debe ser del mismo tipo de dato que la columna
# De los contrario pandas transformará todos los elementos al tipo de dato mas general

df["Age"].fillna(999)

# Probar con:
# df["Age"].fillna("999")
# Con esto todos los elementos dejan de ser números a ser strings.

Unnamed: 0,Age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0
...,...
886,27.0
887,19.0
888,999.0
889,26.0


### GroupBy

El método _**.groupby()**_ permite agrupar filas de un **pd.DataFrame()** en función de una o más columnas y aplicar funciones a cada grupo.

Usaremos en conjunto con el _**.groupby()**_ las funciones de _agregación_ y los métodos _**.aggregate()**_ y _**.agg()**_:

|Función   |
|----------|
|**max**   |
|**min**   |
|**sum**   |
|**mean**  |
|**median**|
|**count** |
|**std**   |

Las funciones de _agregación_ se llaman así porque combinan o resumen varios valores en un solo valor.

En inglés se les llaman _**aggregate functions**_.

In [127]:
# Vamos a usar otro pd.DataFrame()
# Este DataFrame contiene información de migración de paises a Canada

df = pd.read_excel("../Data/Canada.xlsx")

df.head(3)

FileNotFoundError: [Errno 2] No such file or directory: '../Data/Canada.xlsx'

In [None]:
df["Continente"].unique()

In [None]:
# .groupby() se usa para agrupar filas que tienen los mismos valores.
# Obligatoriamente se usa junto con funciones agregadas para producir informes resumidos.

df.groupby(by = "Continente")

# Solo usar .groupby() retorna el objeto de la operación, pero no muestra nada

In [None]:
# Para ejecutar alguna operación o aggregate function podemos hacer simplemente:

df.groupby(by = "Continente").max()

# En este ejemplo usamos la función "max"
# El DataFrame muestra por cada continente el "max" por cada columna

In [None]:
# También podemos usar el método .aggregate()

df.groupby(by = "Continente").aggregate(["max"])

# En este ejemplo usamos la función "max"
# El DataFrame muestra por cada continente el "max" por cada columna, también añade otro nivel de columnas
# Es la principal diferencia entre este método y el anterior

In [None]:
# El método .aggregate() permite hacer más de una función a la vez

df.groupby(by = "Continente").aggregate(["min", "max"])

In [None]:
# Otra opción puede ser usar el método .agg()
# La diferencia es que este método toma como parámetro un diccionario
# Donde la llave es la columna del DataFrame y el valor una lista de aggregate functions

df.groupby(by = "Continente").agg({2000 : ["min", "max", "sum"],
                                   2001 : ["min", "max"],
                                   2002 : ["count"]})

# La ventaja es que solo aplica las aggregate functions a las columnas indicadas, no a todo el DataFrame

In [None]:
# También podemos hacer .groupby() a varias columnas a la vez

df.groupby(by = ["Continente", "Tipo de region"]).agg({2000 : ["min", "max", "sum"]})

In [None]:
# También podemos hacer .groupby() a varias columnas a la vez

df.groupby(by = ["Tipo de region", "Continente"]).agg({2000 : ["min", "max", "sum"]})

# En este ejemplo cambiamos el orden de las columnas del .groupby(), el resultado está en otro orden

In [None]:
# Podemos agregar el parámetro "as_index = False" para que las columnas del .groupby()
# No se conviertan en el índice

df1 = df.groupby(by = ["Tipo de region", "Continente"], as_index = False).agg({2000 : ["min", "max", "sum"]})

df1
# De esta manera podemos seguir usando los elementos de las columnas

In [None]:
# Debido al doble nivel de columnas, obtenemos este resultado al ver las columnas

df1.columns

# Es una lista de tuplas, donde cada tupla es el nombre de la columna y el aggregate function aplicada a cada una

In [None]:
# Para eliminar los niveles de las columnas podemos usar el siguiente código

# Guardamos el .groupby() en una variable
df1 = df.groupby(by = ["Tipo de region", "Continente"], as_index = False).agg({2000 : ["min", "max", "sum"]})

df1.columns = [f"{x[0]}_{x[1]}" if x[1] != "" else f"{x[0]}" for x in df1.columns.values]

df1

In [None]:
################################################################################################################################