# Pandas

Pandas es una librerías más utilizadas para limpieza, procesamiento y análisis de datos tabulares en Python. Tiene una interfaz fácil de ocupar, y se basa en conceptos similares a los que estamos acostumbrados a utilizar: `DataFrame` (similar a una tabla u hoja de Excel) y `Series` (similar a una columna o un *array* de valores)

## Repaso de creación y consulta de DataFrames

 Primero vamos a corroborar que Pandas se encuentre instalado en nuestro equipo, para ello ejecutamos la siguiente línea.

In [116]:
import pandas as pd

Si nos entrega un error "ModuleNotFoundError" significa que no contamos con la librería, por lo que es necesario instalarla, ejecutando `pip`, que nos permite instalar librerías en Python. El formato de la sentencia es `pip install NOMBRE_LIBRERIA`. En este caso es `pip install pandas`. Este tipo de comandos no se ejecutan en Python, sino que en la consola/terminal de nuestro entorno. En el caso de Jupyter o Colab se utiliza el carácter exclamación "!" para introducir una secuencia de consola.

In [117]:
!pip install pandas



Al ejecutar el comando `pip install` verás como se cargan las librerías necesarias o te informará que todo está en orden si es que ya cuentas con Pandas. Cabe destacar que no todas las librerías cuentan con la facilidad de ser instaladas mediante `pip install`. Además, algunas librerías que veremos más adelante, dependen de otras librerías, las que deben estar instaladas antes de instalar nuestra librería objetivo. Por eso, es muy importante informarse sobre este proceso.

Continuando con el análisis exploratorio, antes de cargar los datos, vamos a describir las 2 estructuras de datos clave en Pandas: Series y DataFrames:

* **Series** se puede entender como un arreglo unidimensional etiquetado/indexado. Se puede acceder a elementos individuales de esta Serie a través de estas etiquetas.

* **DataFrame** es similar a un libro de Excel, tiene nombres de columnas que hacen referencia a ellas y tiene filas, a las que se puede acceder mediante el uso de números de estas. La diferencia esencial es que acá, los nombres de columna y los números de fila se conocen como índice de columna y fila.

Series y DataFrames forman el modelo de datos básicos para Pandas en Python. Los conjuntos de datos se leen primero en DataFrames y luego se pueden aplicar fácilmente varias operaciones (por ejemplo, agrupar por, agregación, etc.) a sus columnas.

Creemos nuestro propio DataFrame a partir de 2 columnas, que inicializaremos como 2 series:

In [118]:
area = pd.Series(
    {
        "Calama": 34,
        "Lampa": 452,
        "Los Angeles": 1748,
        "Villarrica": 1291,
        "Osorno": 951,
    }
)
pop = pd.Series(
    {
        "Calama": 165731,
        "Lampa": 126898,
        "Los Angeles": 202331,
        "Villarrica": 55478,
        "Osorno": 182338,
    }
)
data = pd.DataFrame({"area": area, "pop": pop})
data

Unnamed: 0,area,pop
Calama,34,165731
Lampa,452,126898
Los Angeles,1748,202331
Villarrica,1291,55478
Osorno,951,182338


* ¿Qué hace la siguiente línea?

In [119]:
data[1:3]

Unnamed: 0,area,pop
Lampa,452,126898
Los Angeles,1748,202331


In [120]:
data.iloc[1:3]

Unnamed: 0,area,pop
Lampa,452,126898
Los Angeles,1748,202331


In [121]:
#data.iloc["Lampa":"Villarrica"]
#iloc solo utiliza posiciones no el nombre de las filas y columnas

In [122]:
data.loc["Lampa":"Villarrica"] #loc incluye ambos extremos

Unnamed: 0,area,pop
Lampa,452,126898
Los Angeles,1748,202331
Villarrica,1291,55478


* ¿Cuál es la salida de la siguiente línea?

In [123]:
data.loc[:"Los Angeles", :"area"]

Unnamed: 0,area
Calama,34
Lampa,452
Los Angeles,1748


* ¿Cuáles filas y columnas se imprimirán en la siguiente celda?

In [124]:
data.iloc[:1:3]

Unnamed: 0,area,pop
Calama,34,165731


In [125]:
data.iloc[:4,:1]

Unnamed: 0,area
Calama,34
Lampa,452
Los Angeles,1748
Villarrica,1291


En general:
* `DataFrame.loc`: accede al grupo de filas y columnas a través de su nombre
* `DataFrame.iloc`: accede al grupo de filas y columnas a través de su posición (índice)

## Combinación de datos para DataFrames y Series

Cuando toda la información está en un DataFrame, es fácil trabajar con los datos. Sin embargo, la mayoría de las veces tenemos distintas tablas o conjuntos de datos que podríamos querer operar. Pandas entrega varios mecanismos para juntar múltiples fuentes de información.

---

Pandas cuenta con una muy buena guía sobre [merge, join, concatenate and compare](https://pandas.pydata.org/docs/user_guide/merging.html).

### Uso de `concat()`

La función `concat()` permite concatenar una cantidad arbitraria de Series o DataFrames a lo largo de un eje. Adicionalmente, puede trabajar con la unión o intersección de los índices en el otro eje.

![](https://pandas.pydata.org/docs/_images/merging_concat_basic.png)

In [126]:
# pd.concat?

Empecemos definiendo dos series:

In [127]:
s1 = pd.Series(["A", "B"])
s1

0    A
1    B
dtype: object

In [128]:
s2 = pd.Series(["C", "D"])
s2

0    C
1    D
dtype: object

* ¿Qué hace el siguiente código?

In [129]:
pd.concat([s1, s2], axis=0)


0    A
1    B
0    C
1    D
dtype: object

In [130]:
pd.concat([s1, s2], axis=1)

Unnamed: 0,0,1
0,A,C
1,B,D


* ¿Cuál es la diferencia entre la siguiente línea y la anterior?

In [131]:
pd.concat([s1, s2], keys=["s1", "s2"])

s1  0    A
    1    B
s2  0    C
    1    D
dtype: object

* ¿Y ahora?

In [132]:
pd.concat([s1, s2], keys=["s1", "s2"], names=["Nombre de serie", "Id fila"])

Nombre de serie  Id fila
s1               0          A
                 1          B
s2               0          C
                 1          D
dtype: object

Ahora probemos con DataFrames:

In [133]:
df1 = pd.DataFrame({"a": [1, 2, 3]})
df1

Unnamed: 0,a
0,1
1,2
2,3


In [134]:
df2 = pd.DataFrame({"b": [4, 5, 6, 7]})
df2

Unnamed: 0,b
0,4
1,5
2,6
3,7


In [135]:
pd.concat([df1, df2], axis=0)

Unnamed: 0,a,b
0,1.0,
1,2.0,
2,3.0,
0,,4.0
1,,5.0
2,,6.0
3,,7.0


* ¿Por qué no quedó todo en una sola columna como en el caso de las series?

En el caso de los DataFrames, también podemos concatenar "hacia un lado" en lugar de solo "hacia abajo"

In [136]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,a,b
0,1.0,4
1,2.0,5
2,3.0,6
3,,7


¿Y qué ocurre al unir una Serie con un DataFrame?

In [137]:
# Recordar que podemos transformar entre Series y DataFrame
# type(df1["a"]), type(s1.to_frame()), type(pd.DataFrame(s1))

In [138]:
pd.concat([df1, s1])

Unnamed: 0,a,0
0,1.0,
1,2.0,
2,3.0,
0,,A
1,,B


#### Keyworkd `join` en `concat`

Esta keyword permite indicar qué hacer con los valores en el axis (índice o columnas) que no existan en el primer DataFrame.

In [139]:
df_A = pd.DataFrame(
    {
        "key": ["k0", "k1", "k2", "k3", "k4", "k5"],
        "columnA": ["c0", "c1", "c2", "c3", "c4", "c5"],
    }
)
df_A

Unnamed: 0,key,columnA
0,k0,c0
1,k1,c1
2,k2,c2
3,k3,c3
4,k4,c4
5,k5,c5


In [140]:
df_B = pd.DataFrame(
    {
        "key": ["k0", "k1", "k2"],
        "columnB": ["d0", "d1", "d2"],
    }
)
df_B

Unnamed: 0,key,columnB
0,k0,d0
1,k1,d1
2,k2,d2


Ahora, ¿qué podemos diferenciar entre las siguientes 3 líneas?

In [141]:
# 1
pd.concat([df_A, df_B])

Unnamed: 0,key,columnA,columnB
0,k0,c0,
1,k1,c1,
2,k2,c2,
3,k3,c3,
4,k4,c4,
5,k5,c5,
0,k0,,d0
1,k1,,d1
2,k2,,d2


In [142]:
#2
pd.concat([df_A, df_B], join="inner")

Unnamed: 0,key
0,k0
1,k1
2,k2
3,k3
4,k4
5,k5
0,k0
1,k1
2,k2


In [143]:
#3
pd.concat([df_A,df_B], join="outer")

Unnamed: 0,key,columnA,columnB
0,k0,c0,
1,k1,c1,
2,k2,c2,
3,k3,c3,
4,k4,c4,
5,k5,c5,
0,k0,,d0
1,k1,,d1
2,k2,,d2


Cuando usamos `join="outer"` tomamos la unión de todos los valores en el eje a concatenar, mientras que con `join="inner"` tomamos la intersección de esos valores.

In [144]:
pd.concat([df_A, df_B], axis=1, join="inner")

Unnamed: 0,key,columnA,key.1,columnB
0,k0,c0,k0,d0
1,k1,c1,k1,d1
2,k2,c2,k2,d2


### Uso de `join()`

Esta operación, solo disponible para DataFrames, permite combinar las columnas de múltiples dataframes que podrían tener diferentes índices.

![](https://pandas.pydata.org/docs/_images/merging_join_outer.png)

In [145]:
# pd.DataFrame.join?

Siguiendo estos ejemplos, ¿qué ocurre en la siguiente celda si intentamos usar join con Series?

In [146]:
# s1.join(s2)

Es importante siempre leer los mensajes de error: las series no tienen atributo join.

Esto nos lleva a movernos a DataFrames.

En el siguiente ejemplo se puede ver de mejor manera cómo funciona join: haciendo los *matches* en base al índice

In [147]:
left = pd.DataFrame(
    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]}, index=["K0", "K1", "K2"]
)
left

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [148]:
right = pd.DataFrame(
    {"C": ["C0", "C2", "C3"], "D": ["D0", "D2", "D3"]}, index=["K0", "K2", "K3"]
)
right

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [149]:
left.join(right)  # how="left"

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [150]:
# right.join(left)

In [151]:
left.join(right, how="outer")

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


### Uso de `merge()`

La operación que realizaremos a continuación es **merge**, que podemos entenderlo de manera similar a un JOIN de SQL donde estamos "cruzando" tablas.

![](https://pandas.pydata.org/docs/_images/merging_merge_on_key.png)

In [152]:
# pd.merge?

Definamos un nuevo par de dataframes:

In [153]:
df_A = pd.DataFrame(
    {
        "key1": ["K0", "K0", "K1", "K2"],
        "key2": ["K0", "K1", "K0", "K1"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)
df_A


Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [154]:
df_B = pd.DataFrame(
    {
        "key1": ["K0", "K1", "K1", "K2"],
        "key2": ["K0", "K0", "K0", "K0"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    }
)
df_B

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


Si queremos combinar ambos dataframes, siguiendo una idea similar a *join*, pero sobre un grupo arbitrario de columnas (no solo sobre el índice), ocupamos *merge*:

In [155]:
pd.merge(df_A, df_B, on=["key1", "key2"])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


¿Qué podemos diferenciar o aprender de las siguientes líneas?

In [156]:
#1
pd.merge(df_A, df_B, on=["key1", "key2"])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [157]:
#2
pd.merge(df_A, df_B, how="left", on=["key1", "key2"])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


In [158]:
#3
pd.merge(df_A, df_B, how="right", on=["key1", "key2"])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [159]:
#4
pd.merge(df_A, df_B, how="outer", on=["key1", "key2"])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [160]:
#5
pd.merge(df_A, df_B, how="inner", on=["key1", "key2"])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


Notar que podemos ocupar merge sobre una o varias columnas a la vez, mientras las columnas en `on` estén en ambos dataframes:

In [161]:
pd.merge(df_A, df_B, on="key1", suffixes=("_A", "_B"))

Unnamed: 0,key1,key2_A,A,B,key2_B,C,D
0,K0,K0,A0,B0,K0,C0,D0
1,K0,K1,A1,B1,K0,C0,D0
2,K1,K0,A2,B2,K0,C1,D1
3,K1,K0,A2,B2,K0,C2,D2
4,K2,K1,A3,B3,K0,C3,D3


### Resumen


Con esstas figuras, podríamos entender visualmente cómo funciona cada uno de los tipos de *join* que podemos realizar.

**left**: usa llaves solamente del df de la izquierda

![](https://github.com/gadenbuie/tidyexplain/raw/main/images/left-join-extra.gif)

**right**: usa llaves solamente del df de la derecha

![](https://github.com/gadenbuie/tidyexplain/raw/main/images/right-join.gif)

**outer**: usa la unión de las llaves de ambos dfs

![](https://github.com/gadenbuie/tidyexplain/raw/main/images/full-join.gif)

**inner**: usa la intersección de las llaves de ambos dfs

![](https://github.com/gadenbuie/tidyexplain/raw/main/images/inner-join.gif)

---

Fuente de las figuras: [gadenbuie/tidyexplain @ GitHub](https://github.com/gadenbuie/tidyexplain)

## Agrupamiento de datos

### Dataset "planets" desde Seaborn

Seaborn es una librería para visualizar datos estadísticos. Esta librería será revisada en mayor profundidad más adelante en el diplomado. Por ahora, vamos a utilizar uno de los datasets que ya vienen incorporados en Seaborn, de su [lista de datasets](https://github.com/mwaskom/seaborn-data).

In [162]:
import seaborn as sns


# Importamos seaborn con un alias. Luego cargamos el dataset de planetas
planets = sns.load_dataset("planets")
planets.head()


Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [163]:
planets.shape

(1035, 6)

Veamos qué contiene el dataset.

Recordar que `dropna` elimina las filas que tengan algún valor nulo (desconocido).

In [164]:
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


### Uso de `DataFrame.groupby`

El método `groupby` nos permite agrupar datos de acuerdo a los valores de cada fila en una o varias columnas.

Para ser eficiente, el método `groupby` genera una estructura de agrupación. Luego, podemos especificar una función de agregación que realiza un cálculo. Esto le permite a Pandas tener más flexibilidad, ya que incluso se pueden especificar operaciones independientes por grupo.

Al hacer "group by" nos referemos al proceso que involucra uno o más de los siguientes pasos:
* Particionar (split) los datos en grupos basandose en algún criterio
* Aplicar (apply) una función a cada grupo de manera independiente
* Combinar (combine) los resultados en una sola estructura de salida

---

Pandas cuenta con una muy buena guía sobre [group by: split-apply-combine](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html).

Veamos algunos ejemplos sobre este dataset:

In [165]:
planets.groupby(["year"]).size()

year
1989      1
1992      2
1994      1
1995      1
1996      6
1997      1
1998      5
1999     15
2000     16
2001     12
2002     32
2003     25
2004     26
2005     39
2006     31
2007     53
2008     74
2009     98
2010    102
2011    185
2012    140
2013    118
2014     52
dtype: int64

In [166]:
planets.groupby("method")["orbital_period"].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

In [167]:
planets.groupby("method")["distance"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,17.875,4.094148,14.98,16.4275,17.875,19.3225,20.77
Eclipse Timing Variations,4.0,315.36,213.203907,130.72,130.72,315.36,500.0,500.0
Imaging,32.0,67.715937,53.736817,7.69,22.145,40.395,132.6975,165.0
Microlensing,10.0,4144.0,2076.611556,1760.0,2627.5,3840.0,4747.5,7720.0
Orbital Brightness Modulation,2.0,1180.0,0.0,1180.0,1180.0,1180.0,1180.0,1180.0
Pulsar Timing,1.0,1200.0,,1200.0,1200.0,1200.0,1200.0,1200.0
Pulsation Timing Variations,0.0,,,,,,,
Radial Velocity,530.0,51.600208,45.559381,1.35,24.4125,40.445,59.2175,354.0
Transit,224.0,599.29808,913.87699,38.0,200.0,341.0,650.0,8500.0
Transit Timing Variations,3.0,1104.333333,915.819487,339.0,597.0,855.0,1487.0,2119.0


In [168]:
planets["mass"].isna()

0       False
1       False
2       False
3       False
4       False
        ...  
1030     True
1031     True
1032     True
1033     True
1034     True
Name: mass, Length: 1035, dtype: bool

planets["mass"].isna() selecciona todos los planes en que la masa es desconocida
~ con este simbolo negamos el codigo que va mas adelante


In [169]:
planets.loc[~planets["mass"].isna()]

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300,7.100,77.40,2006
1,Radial Velocity,1,874.774,2.210,56.95,2008
2,Radial Velocity,1,763.000,2.600,19.84,2011
3,Radial Velocity,1,326.030,19.400,110.62,2007
4,Radial Velocity,1,516.220,10.500,119.47,2009
...,...,...,...,...,...,...
784,Radial Velocity,3,580.000,0.947,135.00,2012
913,Radial Velocity,1,677.800,19.800,,2007
914,Radial Velocity,1,6.958,0.340,,2014
915,Radial Velocity,1,5.118,0.400,,2014


In [170]:
planets["bigger_than_earth"] = planets["mass"] >= 1

In [171]:
planets["bigger_than_earth"] = planets["mass"] >= 1
planets.loc[planets["mass"].isna(), "bigger_than_earth"] = "UNK"
planets.groupby(["year", "bigger_than_earth"]).size()

year  bigger_than_earth
1989  True                   1
1992  UNK                    2
1994  UNK                    1
1995  False                  1
1996  False                  2
      True                   2
      UNK                    2
1997  True                   1
1998  False                  1
      True                   4
1999  False                  2
      True                  12
      UNK                    1
2000  False                  5
      True                   9
      UNK                    2
2001  False                  2
      True                   9
      UNK                    1
2002  False                  8
      True                  23
      UNK                    1
2003  False                  3
      True                  19
      UNK                    3
2004  False                  6
      True                   9
      UNK                   11
2005  False                 21
      True                  13
      UNK                    5
2006  False    

### Agrupando en varias dimensiones

Las tablas dinámicas son otra forma de agrupar datos:
* Pueden verse como una versión multidimensional de la función `groupby`
* Esencialmente, las etapas split y combine no se realizan sobre un índice de 1D, sino una grilla 2D.

Veámoslo en un ejemplo:

In [186]:
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [192]:
# Volvemos a cargar un dataset desde seaborn
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [193]:
titanic.groupby("sex")[["survived"]].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [197]:
titanic.groupby(["sex", "class"])["survived"].aggregate("mean")

sex     class 
female  First     0.968085
        Second    0.921053
        Third     0.500000
male    First     0.368852
        Second    0.157407
        Third     0.135447
Name: survived, dtype: float64

* ¿Qué está haciendo la función `pivot_table`?

In [198]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [199]:
titanic.pivot_table("survived", index="sex", columns="class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


* ¿Qué está haciendo `pd.cut`?

In [200]:
titanic["age"]

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [201]:
pd.cut(titanic["age"], [0, 18, 80])

0      (18.0, 80.0]
1      (18.0, 80.0]
2      (18.0, 80.0]
3      (18.0, 80.0]
4      (18.0, 80.0]
           ...     
886    (18.0, 80.0]
887    (18.0, 80.0]
888             NaN
889    (18.0, 80.0]
890    (18.0, 80.0]
Name: age, Length: 891, dtype: category
Categories (2, interval[int64, right]): [(0, 18] < (18, 80]]

In [179]:
age = pd.cut(titanic["age"], [0, 18, 80])
titanic.pivot_table("survived", ["sex", age], "class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


* ¿Qué está haciendo `pd.qcut`?

In [180]:
fare = pd.qcut(titanic["fare"], 2)
titanic.pivot_table("survived", ["sex", age], [fare, "class"])

Unnamed: 0_level_0,fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,class,First,Second,Third,First,Second,Third
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 18]",,1.0,0.714286,0.909091,1.0,0.318182
female,"(18, 80]",,0.88,0.444444,0.972973,0.914286,0.391304
male,"(0, 18]",,0.0,0.26087,0.8,0.818182,0.178571
male,"(18, 80]",0.0,0.098039,0.125,0.391304,0.030303,0.192308


No solo podemos agregar una columna a la vez, sino que varias, reutilizando el criterio de agrupamiento:

In [181]:
titanic.pivot_table(
    index="sex",
    columns="class",
    aggfunc={"survived": sum, "fare": "mean"},
)

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47
