<a href="https://colab.research.google.com/github/institutohumai/cursos-python/blob/master/AnalisisDeDatos/1_Indexing/Indexing.ipynb"> <img src='https://colab.research.google.com/assets/colab-badge.svg' /> </a>
<div align="center"> Recordá abrir en una nueva pestaña </div>

In [80]:
# Siempre al principio, importamos las librerías.
import pandas as pd
import numpy as np

# Indexación y Agregación 

Tabla de Contenidos

    I. Análisis de datos con Pandas
    II. Los objetos fundamentales de Pandas
        I. Series
        II. DataFrames
        III. Índices
    III. Exploración
        I. Filtrando un DataFrame (Indexing)
            I. Boolean Indexing
                I. Máscara booleana
                II. Máscara booleana con muchas condiciones
            II. Boolean indexing con query()
            III. Fancy Indexing
        II. Funciones de Agregación
    IV. Otros análisis descriptivos
        I. Para las variables numéricas
        II. Para las variables categóricas
        III. Ordenar por columnas y limitar la cantidad de resultados
    V. Anexo: volviendo al tema de la vectorización

## Exploración

Vamos a analizar datos de una fuente real. Los ingresos de los funcionarios son información pública que se libera anualmente en el <a href='https://data.buenosaires.gob.ar/dataset/sueldo-funcionarios'>portal de datos abiertos</a> de GCBA.  

En general los 4 primeros pasos para analizar un data set son:
1. Leerlo
2. Consultar cuáles son las columnas
3. Extraer una muestra
4. Verificar cuántos registros tiene

## 1- Para leer el data set usamos la función de pandas read_csv

Con esta función podemos leer archivos que estén en una url pública o en una ubicación del disco accesible desde la Jupyter Notebook. 

In [81]:
df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

## 2- Consultamos las columnas


In [82]:
df.columns

Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')

## 3- Extraemos una muestra

In [83]:
df.sample(5)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
166,20-14699669-9,2019,6,MOCCIA,FRANCO,Ministerio de Desarrollo Urbano y Transporte,249661.6,124830.8,374492.4,
122,27-26690980-8,2019,4,UHALDE,MARIA PAULA,SECR Cultura Ciudadana y Función Pública,226866.41,0.0,226866.41,
229,20-24941711-5,2019,8,MURA,MARTIN,Ministerio de Economía y Finanzas,263531.98,0.0,263531.98,
360,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SS Contenidos,74991.86,110404.68,185396.54,baja al 9/12
24,27-21759789-2,2019,1,LEGUIZAMON,ISABELLA KARINA,"Consejo de los Derechos de Niñas, Niños y Adol...",204017.27,0.0,204017.27,


## 4- Consultamos la cantidad de filas y de columnas

In [84]:
# La propiedad shape nos devuelve una tupla (filas,columnas)
df.shape

(385, 10)

## Vectorización con Pandas

Pandas es una de las librerías de Python más usadas para análisis de datos. El nombre pandas viene de "Panel Data Analysis" y su funcionalidad permite hacer operaciones sobre datos que se encuentran en memoria de manera eficiente. 

Pandas es útil para trabajar sobre datos tabulares, con dos condiciones importantes:

I. Los datos se encuentran enteramente en la memoria RAM. Con lo cual, el tamaño de los datos que podemos manipular está limitado por el hardware. Como regla de pulgar, es una buena práctica no ocupar más de 1/3 de la memoria RAM de nuestro dispositivo con el dataset. Así, si estamos trabajando localmente en una notebook con 8GB de memoria RAM no es recomendable procesar datasets de más de 2.33GB.

II. En pandas, las operaciones sobre filas y columnas son, en general, eficientes porque se hacen de forma "vectorizada". En realidad esta optimización, se hace desde numpy, una librería para realizar operaciones matemáticas que se utilizó a su vez para escribir pandas. 

Las operaciones vectorizadas son las que se realizan en bloque en vez de caso por caso. Las computadoras de hoy tienen la capacidad de recibir muchas instrucciones juntas y procesar varias de ellas a la vez. Por ejemplo, si nuestro hardware tiene la capacidad de procesar 4 operaciones juntas, el resultado de vectorizar una operación matemática es el siguiente:

<img src = 'https://datasets-humai.s3.amazonaws.com/images/vectorizacion.png' /> 


En el primer caso hay que hacer 5 operaciones y en el segundo caso sólo dos.

Es importante entender, entonces, que Pandas trabaja de esta manera y que por eso es una de las herramientas más elegidas para manipular datos en memoria.


## Los objetos fundamentales de Pandas

### Series

Las series son "columnas" que de una tabla que están asociadas a un índice y a un nombre. Igual que una lista común de Python es una secuencia de elementos ordenados, pero a diferencia de la lista está asociada a más información.

In [85]:
# Las series se pueden crear a partir de una lista
serie = pd.Series(['a','b','c'])

In [86]:
# Propiedades importantes de las series
print('Tipo de objetos que tiene ', serie.dtype)
print('Nombre ', serie.name)
print('Index ',serie.index)
print('Valores ',serie.values)


Tipo de objetos que tiene  object
Nombre  None
Index  RangeIndex(start=0, stop=3, step=1)
Valores  ['a' 'b' 'c']


## DataFrames

Los DataFrames son "tablas", compuestas por varias "columnas" o series que comparten todas un mismo índice. En general los DataFrames se crean a partir de leer tablas de archivos (pueden ser en formato json o csv) pero a veces también se crean a partir de listas de diccionarios o de otras maneras. 

Los DataFrames tienen un objeto Index que describe los nombres de columnas y otro objeto Index que describen los nombres de las filas.

In [87]:
# Leemos un dataset público
df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

In [88]:
# Propiedades importantes de los dataframes
print('Columnas ', df.columns)
print('Index ', df.index)
print('Dimensiones ',df.shape)


Columnas  Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')
Index  RangeIndex(start=0, stop=385, step=1)
Dimensiones  (385, 10)


In [89]:
# Consultar las primeras filas
df.head()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.0,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,


Si queremos extraer una serie del DataFrame, podemos hacerlo de la misma forma en que extraemos un valor de un diccionario.



In [90]:
serie_mes = df['mes']

In [91]:
type(serie_mes)

pandas.core.series.Series

## Índices

Los índices acompañan a las series y a los Data Frames. Son conjuntos ordenados e inmutables de elementos

In [92]:
df.index

RangeIndex(start=0, stop=385, step=1)

In [93]:
df.columns

Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')

In [94]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

In [95]:
# ind[1] = 0

### Ejercicio
Exploren el dataset público que se encuentra en la siguiente url: https://datasets-humai.s3.amazonaws.com/datasets/titanic.csv ¿De qué se trata? ¿Cuántas filas tiene? ¿Cuántas columnas? Al leerlo, pueden almacenarlo en la variable df_titanic. 

In [96]:
df_titanic  = pd.read_csv('./train.csv')

In [97]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [98]:
df_titanic.shape

(891, 12)

## Filtrando un DataFrame (Indexing)

Hay muchas técnicas para filtrar un DataFrame. Podemos querer filtrar por columnas o por filas, por posición o por nombre. También podemos querer filtrar por condiciones que se cumplen o no. Cuando no queremos filtrar sobre una dimensión (filas o columnas) usamos ":" para seleccionar todo.


<img src='img/indexing.png' style='height:350px' />



### Boolean Indexing

Supongamos que queremos tomar el dataset de funcionarios y quedarnos únicamente con los que pertenecen al Ministerio de Cultura.
Para eso lo que hacemos es indexar al DataFrame por una condición booleana. Eso implica que debemos crear una serie compuesta por valores True y False para aplicarla como índice a las filas.

Los operadores que sirven para evaluar condiciones sobre las series son:


| S  | Descripción   | S  | Descripción   |   |
|----|---------------|----|---------------|---|
| >= | Mayor o Igual | <= | Menor o Igual |   |
| == | Igual         | != | Distinto      |   |
| >  | Mayor         | <  | Menor         |   |

#### Máscara booleana

Veamos lo que pasa cuando le aplicamos a una serie una condición que devuelve un booleano

In [99]:
df['anio'] != 2019

0      False
1      False
2      False
3      False
4      False
       ...  
380    False
381    False
382    False
383    False
384    False
Name: anio, Length: 385, dtype: bool

In [100]:
mascara_booleana = df['anio'] != 2019

Nos devuelve una serie de la misma longitud que la original y que contiene sólo valores True o False. 

In [101]:
type(mascara_booleana)

pandas.core.series.Series

In [102]:
mascara_booleana.shape

(385,)

In [103]:
mascara_booleana.dtype

dtype('bool')

Ahora seleccionemos entonces, los registros que corresponden al Ministerio de Cultura.

In [104]:
df_min_cul = df.loc[df['reparticion'] == 'Ministerio de Cultura',:]

In [105]:
# Veamos la cantidad de casos
df_min_cul.shape

(12, 10)

Algo que puede llegar a confundir sobre el Indexing en Pandas es que en algunos casos se puede ser menos explícito a la hora de filtrar. Por ejemplo si ponemos una condición Booleana, pandas asume que el tipo de indexing es loc y que el filtro es sobre las filas y no sobre las columnas:


In [106]:
df_min_cul = df[df['reparticion'] == 'Ministerio de Cultura']

In [107]:
df_min_cul.shape

(12, 10)

Probemos con otra condición.

### Ejercicio

Traer todos los sueldos de la segunda mitad del año...

In [108]:
sueldos_2da_mitad = df.loc[df['mes'] > 6]
sueldos_2da_mitad

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
188,20-17692128-6,2019,7,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.40,0.00,228396.40,
189,20-17735449-0,2019,7,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,228396.40,0.00,228396.40,
190,27-24483014-0,2019,7,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,263531.98,0.00,263531.98,
191,20-13872301-2,2019,7,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,263531.98,0.00,263531.98,
192,20-25641207-2,2019,7,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,263531.98,0.00,263531.98,
...,...,...,...,...,...,...,...,...,...,...
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificación, Evaluación y Coordinación ...",249972.86,124986.43,374959.29,


### Ejercicio
Volviendo al DataFrame del Titanic ¿Cuántos pasajeros sobrevivieron y cuántos no? ¿Cuántos pagaron una tarifa menor a 25?

In [109]:
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [110]:
sobrevivientes = df_titanic[df_titanic['Survived'] == 1]
sobrevivientes.shape

(342, 12)

In [111]:
no_sobrevivientes = df_titanic[df_titanic['Survived'] == 0]
no_sobrevivientes.shape

(549, 12)

In [112]:
tarifa_less_25 = df_titanic[df_titanic['Fare'] < 25]
tarifa_less_25.shape

(557, 12)

#### Máscara booleana con muchas condiciones

Ahora tratemos de filtrar el dataset por dos condiciones: por ejemplo tomar los sueldos de abril de la secretaria de innovación. 
Para eso tenemos que combinar dos máscaras booleanas con una condición.

| S | Descripcion        | S  | Descripcion |   |
|---|--------------------|----|-------------|---|
| & | AND (y)            | \| | OR (o)      |   |
| ^ | XOR (o exclusivo)  | ~  | NOT (no)    |   |



Por ejemplo: seleccionemos los casos donde o bien se haya cobrado aguinaldo o bien el salario total haya sido mayor que 240.000, pero no las dos cosas. 


In [113]:
df[(df['total_salario_bruto_i_+_ii'] > 240000) ^ (df['aguinaldo_ii'] > 0)]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
55,20-26781618-3,2019,2,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,34002.88,238020.15,baja 28/2/2019
97,27-24483014-0,2019,4,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,249661.60,0.00,249661.60,
98,20-13872301-2,2019,4,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,249661.60,0.00,249661.60,
99,20-25641207-2,2019,4,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.60,0.00,249661.60,
100,27-13221055-7,2019,4,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.60,0.00,249661.60,
...,...,...,...,...,...,...,...,...,...,...
360,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SS Contenidos,74991.86,110404.68,185396.54,baja al 9/12
361,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SECR de Medios,187539.45,15628.29,203167.74,alta desde el 10/12
362,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,74991.86,110404.68,185396.54,baja al 9/12
363,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,187539.45,15628.29,203167.74,alta desde el 10/12


Ahora veamos los sueldos de febrero de la SECR Ciencia, Tecnologia e Innovacion.

In [114]:
df[(df['mes'] == 2) & (df['reparticion'] == 'SECR Ciencia, Tecnologia e Innovacion')]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
55,20-26781618-3,2019,2,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,34002.88,238020.15,baja 28/2/2019


### Boolean indexing con query()

La sintaxis que se utiliza para hacer Boolean indexing es un poco repetitiva. Noten que filtrar (aún en su expresión más corta sin loc ni especificar filas o columnas) implica ESCRIBIR DOS VECES el nombre del dataset. Para crear un shortcut, Pandas ofrece la función .query() 



In [115]:
df_cult = df.query('reparticion == "Ministerio de Cultura"')

También se puede hacer query sobre múltiples condiciones.

In [116]:
df2 = df.query('asignacion_por_cargo_i > 240000 & aguinaldo_ii > 0')

In [117]:
df2.shape

(34, 10)

### Ejercicio: Piensen cómo traducir a la sintaxis de query, estas consultas que ya hicimos:

In [125]:
# df[df['mes'] > 6]
df.query('mes > 6')


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
188,20-17692128-6,2019,7,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.40,0.00,228396.40,
189,20-17735449-0,2019,7,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,228396.40,0.00,228396.40,
190,27-24483014-0,2019,7,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,263531.98,0.00,263531.98,
191,20-13872301-2,2019,7,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,263531.98,0.00,263531.98,
192,20-25641207-2,2019,7,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,263531.98,0.00,263531.98,
...,...,...,...,...,...,...,...,...,...,...
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificación, Evaluación y Coordinación ...",249972.86,124986.43,374959.29,


In [126]:
# df[(df['mes'] == 2) & (df['reparticion'] == 'SECR Ciencia, Tecnologia e Innovacion')]
df.query('mes == 2 & reparticion == "SECR Ciencia, Tecnologia e Innovacion"')

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
55,20-26781618-3,2019,2,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,34002.88,238020.15,baja 28/2/2019


### Fancy Indexing

Ahora vamos a quedarnos con un subconjunto de columnas del DataFrame.

In [127]:
df_view = df.loc[:,['anio','mes']]

In [128]:
df_view.shape

(385, 2)

Existe una forma menos explícita de hacer esta misma operación. Si pasamos una lista al indexing, pandas asume que el tipo de indexing es loc y que el filtro es sobre las columnas y no las filas:

In [129]:
df_view = df[['anio','mes']]

In [130]:
df_view.shape

(385, 2)

Fíjense lo que pasa si tratamos de acceder a filas utilizando una lista de nombres, en este caso [0,1]. 

In [131]:
# Incorrecto
df_view = df[[3,8]]

KeyError: "None of [Index([3, 8], dtype='int64')] are in the [columns]"

Nos da un error porque cuando pasamos únicamente una lista al indexing, pandas asume que queremos un set de columnas y si los nombres no existen, da error. La forma correcta de hacerlo es pasar una lista de índices y explicitar que vamos a indizar con loc y que seleccionamos todas las columnas.

In [132]:
# Correcto
df_view = df.loc[[3,8],:]

In [133]:
df_view

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
8,20-22293873-3,2019,1,MIGUEL,FELIPE OSCAR,Jefatura de Gabinete de Ministros,224516.62,0.0,224516.62,


### Ejercicio. Volviendo al ejemplo del titanic...

1) ¿Cuántos hombres y mujeres sobrevivieron? 

2) ¿Cuántos menores de 18 años había? ¿Cuántos sobrevivieron?

3) Seleccionen únicamente las columnas Sex y Survived y almacenenlas en un nuevo DataFrame que se llame df_titanic_subset.


In [134]:
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [135]:
df_titanic.query('Survived == 1').groupby('Sex').agg('size')

Sex
female    233
male      109
dtype: int64

In [136]:
menores = df_titanic.query('Age < 18').size
menores_sobrevivieron = df_titanic.query('Age < 18 & Survived == 1').size

print(f'Había {menores} menores de 18 años de los cuáles sobrevivieron {menores_sobrevivieron}')

Había 1356 menores de 18 años de los cuáles sobrevivieron 732


In [137]:
df_titanic_subset = df_titanic[['Survived', 'Sex']]

In [138]:
df_titanic_subset.head()

Unnamed: 0,Survived,Sex
0,0,male
1,1,female
2,1,female
3,1,female
4,0,male


## Funciones de Agregación

Utilizando Pandas podemos aplicar funciones a nivel de columna. Algunas funciones predefinidas son la media, el desvío estándar y la sumatoria, el valor máximo y el mínimo.

Algunas de las funciones de agregación más comunes son:

<ul>
    <li>min</li>
    <li>max</li>
    <li>count</li>
    <li>sum</li>
    <li>prod</li>
    <li>mean</li>
    <li>median</li>
    <li>mode</li>
    <li>std</li>
    <li>var</li>
</ul>




In [139]:
df['mes'].max()

np.int64(12)

In [140]:
df['asignacion_por_cargo_i'].mean()

np.float64(234234.36800000002)

In [141]:
df['asignacion_por_cargo_i'].std()

np.float64(35043.160084661766)

In [142]:
df['total_salario_bruto_i_+_ii'].sum()

np.float64(97988834.36000001)

Podemos combinar los filtros que vimos antes con las funciones de agregación para responder preguntas cómo ¿Cuál fue en gasto en asignaciones de funcionarios para la Secretaría de Medios 2019? ¿Y para la de Justicia y Seguridad?

In [143]:
df[df['reparticion'] == 'SECR de Medios']['total_salario_bruto_i_+_ii'].sum()

np.float64(3232402.25)

In [144]:
df[df['reparticion'] == 'SECR Justicia y Seguridad']['total_salario_bruto_i_+_ii'].sum()

np.float64(3029551.7300000004)

Ahora respondamos algunas preguntas: ¿Quién o quiénes del dataset cobran el salario más alto? ¿Y el más bajo?

In [145]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].max()]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
374,20-13872301-2,2019,12,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,275089.75,170855.56,445945.31,


In [146]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].min()]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
344,27-30744939-6,2019,12,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,74991.86,110404.68,185396.54,baja al 9/12
348,20-22709722-2,2019,12,LOPEZ,MATIAS,SECR Desarrollo Ciudadano,74991.86,110404.68,185396.54,baja al 9/12
354,20-20008464-1,2019,12,GIUSTI,JOSE LUIS,UPE Transferencia de Funciones y Facultades en...,74991.86,110404.68,185396.54,baja al 9/12
358,20-31164337-2,2019,12,DI BENEDETTO,FEDERICO,SS Comunicacion,74991.86,110404.68,185396.54,baja al 9/12
360,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SS Contenidos,74991.86,110404.68,185396.54,baja al 9/12
362,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,74991.86,110404.68,185396.54,baja al 9/12


## Otros análisis descriptivos

Pandas viene con algunas funciones built-in para ayudar al análisis descriptivo.

## Para las variables numéricas

In [147]:
df.describe()

Unnamed: 0,anio,mes,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii
count,385.0,385.0,385.0,385.0,385.0
mean,2019.0,6.631169,234234.368,20282.084883,254516.452883
std,0.0,3.539077,35043.160085,45248.840725,51434.98787
min,2019.0,1.0,74991.86,0.0,185396.54
25%,2019.0,4.0,224516.62,0.0,224516.62
50%,2019.0,7.0,239470.36,0.0,245811.62
75%,2019.0,10.0,249972.87,0.0,263531.98
max,2019.0,12.0,275089.75,170855.56,445945.31


## Para las variables categóricas


In [148]:
df['reparticion'].value_counts()

reparticion
Ministerio de Salud                                               13
SECR de Medios                                                    13
SECR Justicia y Seguridad                                         13
SECR Desarrollo Ciudadano                                         13
Vicejefatura de Gobierno                                          12
Jefe de Gobierno                                                  12
Ministerio de Desarrollo Urbano y Transporte                      12
Jefatura de Gabinete de Ministros                                 12
Ministerio de Gobierno                                            12
SECR Integración Social y Urbana                                  12
SECR Planificación, Evaluación y Coordinación de Gestión          12
Procuración General de la Ciudad de Buenos Aires                  12
Ministerio de Cultura                                             12
Sindicatura General de la Ciudad de Buenos Aires                  12
Consejo de los Derecho

### Ejercicio: Volviendo al ejemplo del Titanic.

1) ¿Cuál era la edad promedio de los pasajeros de cada clase (Pclass)?

2) ¿Cuál fue la tarifa que pagaron en promedio los hombres? ¿Y las mujeres?

3) ¿Cuánto pagaron en total los pasajeros de primera clase para subir al Titanic? ¿Y los de tercera?

4) ¿Cuántos pasajeros había en cada tipo de clase?

In [149]:
# 1
df_titanic.groupby('Pclass')['Age'].mean()

Pclass
1    38.233441
2    29.877630
3    25.140620
Name: Age, dtype: float64

In [150]:
# 2
df_titanic.groupby('Sex')['Fare'].mean()

Sex
female    44.479818
male      25.523893
Name: Fare, dtype: float64

In [151]:
df_titanic.groupby('Pclass')['Fare'].sum()

Pclass
1    18177.4125
2     3801.8417
3     6714.6951
Name: Fare, dtype: float64

In [152]:
df_titanic.groupby('Pclass').agg('size')

Pclass
1    216
2    184
3    491
dtype: int64

## Ordenar por columnas y limitar la cantidad de resultados

Otra forma de resolver el problema de encontrar el mayor y el menos es con el método sort_values. Este método puede recibir un valor único (nombre de columna) o una lista (con varias columnas) y un orden asc o desc. Por default el orden es asc.

Si combinamos el ordenamiento con el método head() para limitar la cantidad de resultados, podemos encontrar los N primeros. 

In [153]:
# Recordemos cómo abrir la documentación de un método
df.sort_values?

[1;31mSignature:[0m
[0mdf[0m[1;33m.[0m[0msort_values[0m[1;33m([0m[1;33m
[0m    [0mby[0m[1;33m:[0m [1;34m'IndexLabel'[0m[1;33m,[0m[1;33m
[0m    [1;33m*[0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m:[0m [1;34m'Axis'[0m [1;33m=[0m [1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mascending[0m[1;33m:[0m [1;34m'bool | list[bool] | tuple[bool, ...]'[0m [1;33m=[0m [1;32mTrue[0m[1;33m,[0m[1;33m
[0m    [0minplace[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mkind[0m[1;33m:[0m [1;34m'SortKind'[0m [1;33m=[0m [1;34m'quicksort'[0m[1;33m,[0m[1;33m
[0m    [0mna_position[0m[1;33m:[0m [1;34m'str'[0m [1;33m=[0m [1;34m'last'[0m[1;33m,[0m[1;33m
[0m    [0mignore_index[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mkey[0m[1;33m:[0m [1;34m'ValueKeyFunc | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m [1;33m->[0m

In [154]:
# Calculamos el máximo
df.sort_values('total_salario_bruto_i_+_ii',ascending=False).head(1)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
374,20-13872301-2,2019,12,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,275089.75,170855.56,445945.31,


In [155]:
# Calculamos el mínimo
df.sort_values('total_salario_bruto_i_+_ii').head(1)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
358,20-31164337-2,2019,12,DI BENEDETTO,FEDERICO,SS Comunicacion,74991.86,110404.68,185396.54,baja al 9/12


## Anexo: volviendo al tema de la vectorización

¿Por qué es tan importante trabajar con Pandas y no con funciones escritas por nosotros en Python nativo y que procesen los datos dentro de un for loop?

Por un lado está la comodidad. Hay mucha funcionalidad que ya está desarrollada en Pandas. Existen funciones que resuelven muchos de los problemas clásicos de manipular datos: agrupar, sumarizar, sacar estadísticas, filtrar, etc. Pero además hay una razón de performance. 

Veamos una demostración de que vectorizar es más eficiente. Vamos a crear dos listas de 1.000.000 de números aleatorios cada una y vamos a tratar de multiplicar elemento por elemento con pandas y sin pandas:



In [156]:
lista1 = list(np.random.randint(1, 100, 1000000))
lista2 = list(np.random.randint(1, 100, 1000000))

In [157]:
%%timeit 
for x,y in zip(lista1,lista2):
    x * y

39.6 ms ± 942 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Ahora probemos hacer lo mismo con dos series de Pandas

In [158]:
serie1 = pd.Series(lista1)
serie2 = pd.Series(lista2)

In [159]:
%%timeit 
resultado = serie1 * serie2

1.14 ms ± 10.9 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Conclusión: la operación vectorizada es <strong> más de 70 veces más rápida.</strong>