<a href="https://colab.research.google.com/github/institutohumai/cursos-python/blob/master/AnalisisDeDatos/1_Indexing/Indexing.ipynb"> <img src='https://colab.research.google.com/assets/colab-badge.svg' /> </a>
<div align="center"> Recordá abrir en una nueva pestaña </div>

In [1]:
# Siempre al principio, importamos las librerías.
import pandas as pd
import numpy as np

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


# Indexación y Agregación 

Tabla de Contenidos

    I. Análisis de datos con Pandas
    II. Los objetos fundamentales de Pandas
        I. Series
        II. DataFrames
        III. Índices
    III. Exploración
        I. Filtrando un DataFrame (Indexing)
            I. Boolean Indexing
                I. Máscara booleana
                II. Máscara booleana con muchas condiciones
            II. Boolean indexing con query()
            III. Fancy Indexing
        II. Funciones de Agregación
    IV. Otros análisis descriptivos
        I. Para las variables numéricas
        II. Para las variables categóricas
        III. Ordenar por columnas y limitar la cantidad de resultados
    V. Anexo: volviendo al tema de la vectorización

## Exploración

Vamos a analizar datos de una fuente real. Los ingresos de los funcionarios son información pública que se libera anualmente en el <a href='https://data.buenosaires.gob.ar/dataset/sueldo-funcionarios'>portal de datos abiertos</a> de GCBA.  

En general los 4 primeros pasos para analizar un data set son:
1. Leerlo
2. Consultar cuáles son las columnas
3. Extraer una muestra
4. Verificar cuántos registros tiene

## 1- Para leer el data set usamos la función de pandas read_csv

Con esta función podemos leer archivos que estén en una url pública o en una ubicación del disco accesible desde la Jupyter Notebook. 

In [8]:
df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

## 2- Consultamos las columnas


In [9]:
df.columns # atributo que devuelve objeto de tipo Index

Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')

## 3- Extraemos una muestra

In [10]:
df.sample(5) # metodo

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
41,20-14699669-9,2019,2,MOCCIA,FRANCO,Ministerio de Desarrollo Urbano y Transporte,224516.62,0.0,224516.62,
352,20-26932366-4,2019,12,GARCIA RESTA,ALVARO,SECR Desarrollo Urbano,174981.0,14581.75,189562.75,alta desde el 10/12
334,20-20008464-1,2019,11,GIUSTI,JOSE LUIS,UPE Transferencia de Funciones y Facultades en...,249972.87,0.0,249972.87,
359,20-31164337-2,2019,12,DI BENEDETTO,FEDERICO,"SECR Comunicación, Contenidos y Participación ...",187539.45,15628.29,203167.74,alta desde el 10/12
193,27-13221055-7,2019,7,BOU PEREZ,ANA MARIA,Ministerio de Salud,263531.98,0.0,263531.98,


## 4- Consultamos la cantidad de filas y de columnas

In [11]:
# La propiedad shape nos devuelve una tupla (filas,columnas)
df.shape 

(385, 10)

<div style="font-size: 1rem; text-align: justify;">

En este dataset en particular, hemos de mencionar que la key o clave estaría conformada por el cuil, año y mes para cada persona, de forma tal que como mucho cada funcionario tendría 12 registros, uno por cada mes, para brindar información acerca de sus ingresos públicos desde Enero hasta Diciembre.
</div>

## Vectorización con Pandas

Pandas es una de las librerías de Python más usadas para análisis de datos. El nombre pandas viene de "Panel Data Analysis" y su funcionalidad permite hacer operaciones sobre datos que se encuentran en memoria de manera eficiente. 

Pandas es útil para trabajar sobre datos tabulares, con dos condiciones importantes:

I. Los datos se encuentran enteramente en la memoria RAM. Con lo cual, el tamaño de los datos que podemos manipular está limitado por el hardware. Como regla de pulgar, es una buena práctica no ocupar más de 1/3 de la memoria RAM de nuestro dispositivo con el dataset. Así, si estamos trabajando localmente en una notebook con 8GB de memoria RAM no es recomendable procesar datasets de más de 2.33GB.

II. En pandas, las operaciones sobre filas y columnas son, en general, eficientes porque se hacen de forma "vectorizada". En realidad esta optimización, se hace desde numpy, una librería para realizar operaciones matemáticas que se utilizó a su vez para escribir pandas. 

Las operaciones vectorizadas son las que se realizan en bloque en vez de caso por caso. Las computadoras de hoy tienen la capacidad de recibir muchas instrucciones juntas y procesar varias de ellas a la vez. Por ejemplo, si nuestro hardware tiene la capacidad de procesar 4 operaciones juntas, el resultado de vectorizar una operación matemática es el siguiente:

<img src = './img/vectorizar.png' /> 


En el primer caso hay que hacer 5 operaciones y en el segundo caso sólo dos.

Es importante entender, entonces, que Pandas trabaja de esta manera y que por eso es una de las herramientas más elegidas para manipular datos en memoria.


In [12]:
# un ejemplo de vectorizacion, es decir, realizar calculos sobre varios, muchos o todos los registros seria algo asi:
# queremos saber el porcentaje que representa el aguinaldo respecto del sueldo, y nos creamos una nueva columna
df['aguinaldo_porcentaje'] = df['aguinaldo_ii'] * 100 / df['asignacion_por_cargo_i']
df.tail() # ultimos 5 registros

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones,aguinaldo_porcentaje
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,,50.0
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,,49.999998
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,,49.999998
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificación, Evaluación y Coordinación ...",249972.86,124986.43,374959.29,,50.0
384,27-27011181-0,2019,12,FERNANDEZ,KARINA BEATRIZ,SECR Asuntos Estratégicos,187539.45,15628.29,203167.74,alta desde el 10/12,8.333335


## Los objetos fundamentales de Pandas

### Series

Las series son "columnas" que de una tabla que están asociadas a un índice y a un nombre. Igual que una lista común de Python es una secuencia de elementos ordenados, pero a diferencia de la lista está asociada a más información.

In [15]:
# Las series se pueden crear a partir de una lista
serie = pd.Series(data=['a','b','c'], name='Ejemplo_Serie')

In [16]:
# Propiedades importantes de las series
print('Tipo de objetos que tiene ', serie.dtype)
print('Nombre ', serie.name)
print('Index ',serie.index)
print('Valores ',serie.values)


Tipo de objetos que tiene  object
Nombre  Ejemplo_Serie
Index  RangeIndex(start=0, stop=3, step=1)
Valores  ['a' 'b' 'c']


## DataFrames

Los DataFrames son "tablas", compuestas por varias "columnas" o series que comparten todas un mismo índice. En general los DataFrames se crean a partir de leer tablas de archivos (pueden ser en formato json o csv) pero a veces también se crean a partir de listas de diccionarios o de otras maneras. 

Los DataFrames tienen un objeto Index que describe los nombres de columnas y otro objeto Index que describen los nombres de las filas.

In [22]:
my_dict = { "Name": ["Sol", "Belén"], "Age": [18, 45] }
dataframe = pd.DataFrame(data=my_dict)
dataframe

Unnamed: 0,Name,Age
0,Sol,18
1,Belén,45


In [23]:
# Leemos un dataset público
df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

In [24]:
# Propiedades importantes de los dataframes
print('Columnas ', df.columns)
print('Index ', df.index)
print('Dimensiones ',df.shape)


Columnas  Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')
Index  RangeIndex(start=0, stop=385, step=1)
Dimensiones  (385, 10)


In [25]:
# Consultar las primeras filas
df.head()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.0,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,


Si queremos extraer una serie del DataFrame, podemos hacerlo de la misma forma en que extraemos un valor de un diccionario.



In [26]:
serie_mes = df['mes']

In [27]:
type(serie_mes)

pandas.core.series.Series

## Índices

Los índices acompañan a las series y a los Data Frames. Son conjuntos ordenados e inmutables de elementos

In [28]:
df.index

RangeIndex(start=0, stop=385, step=1)

In [29]:
df.columns

Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')

In [30]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

In [31]:
ind[1] = 0 # esto daria error, ya que los objetos tipo Index son inmutables

TypeError: Index does not support mutable operations

### Ejercicio
Exploren el dataset público del titanic. ¿De qué se trata? ¿Cuántas filas tiene? ¿Cuántas columnas? Al leerlo, pueden almacenarlo en la variable df_titanic. 

In [67]:
df_titanic = pd.read_csv("./csv_ejemplo/titanic.csv")

In [68]:
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [69]:
df_titanic.shape

(891, 12)

<div style="font-size: 1rem; text-align: justify;">

Otro ejemplo que analiza un grupo de clientes del siguiente repositorio: 
<a href="https://github.com/datablist/sample-csv-files/tree/main">CSV_100_records_cutomers</a>
y descargué el archivo .csv correspondiente. 
<br> <br>
Para tener en cuenta, la estructura de dicho csv es esta:

##### Customer Schema
* Index
* Customer Id
* First Name
* Last Name
* Company
* City
* Country
* Phone 1
* Phone 2
* Email
* Subscription Date
* Website

</div>

In [40]:
df_customers = pd.read_csv(filepath_or_buffer="./csv_ejemplo/customers-100.csv", sep=",")

In [41]:
df_customers.head()

Unnamed: 0,Index,Customer Id,First Name,Last Name,Company,City,Country,Phone 1,Phone 2,Email,Subscription Date,Website
0,1,DD37Cf93aecA6Dc,Sheryl,Baxter,Rasmussen Group,East Leonard,Chile,229.077.5154,397.884.0519x718,zunigavanessa@smith.info,2020-08-24,http://www.stephenson.com/
1,2,1Ef7b82A4CAAD10,Preston,Lozano,Vega-Gentry,East Jimmychester,Djibouti,5153435776,686-620-1820x944,vmata@colon.com,2021-04-23,http://www.hobbs.com/
2,3,6F94879bDAfE5a6,Roy,Berry,Murillo-Perry,Isabelborough,Antigua and Barbuda,+1-539-402-0259,(496)978-3969x58947,beckycarr@hogan.com,2020-03-25,http://www.lawrence.com/
3,4,5Cef8BFA16c5e3c,Linda,Olsen,"Dominguez, Mcmillan and Donovan",Bensonview,Dominican Republic,001-808-617-6467x12895,+1-813-324-8756,stanleyblackwell@benson.org,2020-06-02,http://www.good-lyons.com/
4,5,053d585Ab6b3159,Joanna,Bender,"Martin, Lang and Andrade",West Priscilla,Slovakia (Slovak Republic),001-234-203-0635x76146,001-199-446-3860x3486,colinalvarado@miles.net,2021-04-17,https://goodwin-ingram.com/


In [42]:
df_customers.shape # nos devuelve 100 filas x 12 columnas

(100, 12)

## Filtrando un DataFrame (Indexing)

Hay muchas técnicas para filtrar un DataFrame. Podemos querer filtrar por columnas o por filas, por posición o por nombre. También podemos querer filtrar por condiciones que se cumplen o no. Cuando no queremos filtrar sobre una dimensión (filas o columnas) usamos ":" para seleccionar todo.


<img src='img/indexing.png' style='height:350px' />



### Boolean Indexing

Supongamos que queremos tomar el dataset de funcionarios y quedarnos únicamente con los que pertenecen al Ministerio de Cultura.
Para eso lo que hacemos es indexar al DataFrame por una condición booleana. Eso implica que debemos crear una serie compuesta por valores True y False para aplicarla como índice a las filas.

Los operadores que sirven para evaluar condiciones sobre las series son:


| S  | Descripción   | S  | Descripción   |   |
|----|---------------|----|---------------|---|
| >= | Mayor o Igual | <= | Menor o Igual |   |
| == | Igual         | != | Distinto      |   |
| >  | Mayor         | <  | Menor         |   |

#### Máscara booleana

Veamos lo que pasa cuando le aplicamos a una serie una condición que devuelve un booleano

In [43]:
df['anio'] != 2019

0      False
1      False
2      False
3      False
4      False
       ...  
380    False
381    False
382    False
383    False
384    False
Name: anio, Length: 385, dtype: bool

In [44]:
mascara_booleana = df['anio'] != 2019

Nos devuelve una serie de la misma longitud que la original y que contiene sólo valores True o False. 

In [45]:
type(mascara_booleana)

pandas.core.series.Series

In [46]:
mascara_booleana.shape

(385,)

In [47]:
mascara_booleana.dtype

dtype('bool')

In [53]:
df.loc[:]
#muestra todos los datos del dataFrame

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.80,0.00,197745.80,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.80,0.00,197745.80,
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.00,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.00,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.00,224516.62,
...,...,...,...,...,...,...,...,...,...,...
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificación, Evaluación y Coordinación ...",249972.86,124986.43,374959.29,


In [55]:
df.loc[0:4] 
#muestra los datos de la fila 0 a la fila 4, todas las columnas

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.0,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,


In [56]:
df.loc[0:4, ['cuil', 'anio']] 
#filtra los datos de la fila que va de 0 a 4 y de las columnas cuil y anio

Unnamed: 0,cuil,anio
0,20-17692128-6,2019
1,20-17735449-0,2019
2,27-24483014-0,2019
3,20-13872301-2,2019
4,20-25641207-2,2019


Ahora seleccionemos entonces, los registros que corresponden al Ministerio de Cultura.

In [48]:
df_min_cul = df.loc[df['reparticion'] == 'Ministerio de Cultura',:] # filtra en las filas, pero trae todas las columnas

In [50]:
df_min_cul.head()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
36,20-25641207-2,2019,2,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
68,20-25641207-2,2019,3,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,231167.76,0.0,231167.76,
99,20-25641207-2,2019,4,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,0.0,249661.6,
130,20-25641207-2,2019,5,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,0.0,249661.6,


In [49]:
# Veamos la cantidad de casos
df_min_cul.shape

(12, 10)

In [70]:
df_min_cul2 = df.loc[:, ["cuil"]] # trae todas las filas, pero solo la columna cuil
df_min_cul2.head()

Unnamed: 0,cuil
0,20-17692128-6
1,20-17735449-0
2,27-24483014-0
3,20-13872301-2
4,20-25641207-2


Algo que puede llegar a confundir sobre el Indexing en Pandas es que en algunos casos se puede ser menos explícito a la hora de filtrar. Por ejemplo si ponemos una condición Booleana, pandas asume que el tipo de indexing es loc y que el filtro es sobre las filas y no sobre las columnas:


In [71]:
df_min_cul = df[df['reparticion'] == 'Ministerio de Cultura']

In [72]:
df_min_cul.shape

(12, 10)

Probemos con otra condición.

### Ejercicio

Traer todos los sueldos de la segunda mitad del año...

In [75]:
df_segunda_mitad = df.loc[df['mes'] >= 7, :]

In [76]:
df_segunda_mitad.shape

(197, 10)

### Ejercicio
Volviendo al DataFrame del Titanic ¿Cuántos pasajeros sobrevivieron y cuántos no? ¿Cuántos pagaron una tarifa menor a 25?

In [79]:
df_sobrevivieron = df_titanic[df_titanic["Survived"] == 1]
print("Sobrevivieron", df_sobrevivieron.shape[0], "pasajeros")

Sobrevivieron 342 pasajeros


In [80]:
df_fallecieron = df_titanic[df_titanic["Survived"] == 0]
print("Fallecieron", df_fallecieron.shape[0], "pasajeros")

Fallecieron 549 pasajeros


In [85]:
# otra forma, mas util cuando no hay demasiados valores posibles que puede tomar. Por ejemplo, aca es sobrevivio o no sobrevivio
df_titanic["Survived"].value_counts()

Survived
0    549
1    342
Name: count, dtype: int64

In [81]:
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [86]:
df_tarifa_menor = df_titanic[df_titanic["Fare"] < 25]
print(df_tarifa_menor.shape[0], "pasajeros pagaron una tarifa menor a 25")

557 pasajeros pagaron una tarifa menor a 25


In [87]:
df_titanic["Fare"].value_counts()

Fare
8.0500     43
13.0000    42
7.8958     38
7.7500     34
26.0000    31
           ..
35.0000     1
28.5000     1
6.2375      1
14.0000     1
10.5167     1
Name: count, Length: 248, dtype: int64

#### Máscara booleana con muchas condiciones

Cuando se quiere filtrar con más de una condición, la sintaxis es la misma que en los ejemplos vistos, solo que cada condición se separa con paréntesis, y se usa entre ellas alguno de los símbolos de la tabla de abajo.

Ahora tratemos de filtrar el dataset por dos condiciones: por ejemplo tomar los sueldos de abril de la secretaria de innovación. 
Para eso tenemos que combinar dos máscaras booleanas con una condición.

| S | Descripcion        | S  | Descripcion |   |
|---|--------------------|----|-------------|---|
| & | AND (y)            | \| | OR (o)      |   |
| ^ | XOR (o exclusivo)  | ~  | NOT (no)    |   |



Por ejemplo: seleccionemos los casos donde o bien se haya cobrado aguinaldo o bien el salario total haya sido mayor que 240.000, pero no las dos cosas, para lo cual, en casos como estos donde se busca una cosa o la otra pero no ambas al mismo tiempo, se usa el XOR (o exclusivo). 


In [88]:
df[(df['total_salario_bruto_i_+_ii'] > 240000) ^ (df['aguinaldo_ii'] > 0)]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
55,20-26781618-3,2019,2,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,34002.88,238020.15,baja 28/2/2019
97,27-24483014-0,2019,4,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,249661.60,0.00,249661.60,
98,20-13872301-2,2019,4,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,249661.60,0.00,249661.60,
99,20-25641207-2,2019,4,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.60,0.00,249661.60,
100,27-13221055-7,2019,4,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.60,0.00,249661.60,
...,...,...,...,...,...,...,...,...,...,...
360,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SS Contenidos,74991.86,110404.68,185396.54,baja al 9/12
361,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SECR de Medios,187539.45,15628.29,203167.74,alta desde el 10/12
362,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,74991.86,110404.68,185396.54,baja al 9/12
363,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,187539.45,15628.29,203167.74,alta desde el 10/12


Ahora veamos los sueldos de febrero de la SECR Ciencia, Tecnologia e Innovacion.

In [89]:
df[(df['mes'] == 2) & (df['reparticion'] == 'SECR Ciencia, Tecnologia e Innovacion')]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
55,20-26781618-3,2019,2,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,34002.88,238020.15,baja 28/2/2019


### Boolean indexing con query()

La sintaxis que se utiliza para hacer Boolean indexing es un poco repetitiva. Noten que filtrar (aún en su expresión más corta sin loc ni especificar filas o columnas) implica ESCRIBIR DOS VECES el nombre del dataset. Para crear un shortcut, Pandas ofrece la función .query() 



In [90]:
df_cult = df.query('reparticion == "Ministerio de Cultura"')
df_cult.head()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
36,20-25641207-2,2019,2,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
68,20-25641207-2,2019,3,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,231167.76,0.0,231167.76,
99,20-25641207-2,2019,4,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,0.0,249661.6,
130,20-25641207-2,2019,5,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,0.0,249661.6,


También se puede hacer query sobre múltiples condiciones.

In [93]:
df2 = df.query('asignacion_por_cargo_i > 240000 & aguinaldo_ii > 0')
df2.head()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
159,27-24483014-0,2019,6,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,249661.6,124830.8,374492.4,
160,20-13872301-2,2019,6,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,249661.6,165196.76,414858.36,
161,20-25641207-2,2019,6,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,124830.8,374492.4,
162,27-13221055-7,2019,6,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.6,124830.8,374492.4,
163,27-13092400-5,2019,6,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,249661.6,124830.8,374492.4,


In [92]:
df2.shape

(34, 10)

### Ejercicio: Piensen cómo traducir a la sintaxis de query, estas consultas que ya hicimos:

In [102]:
# df_sem2 = df[df['mes'] > 6]
df_sem2 = df.query('mes > 6')
print(df_sem2.shape)
df_sem2.head()

(197, 10)


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
188,20-17692128-6,2019,7,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.4,0.0,228396.4,
189,20-17735449-0,2019,7,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,228396.4,0.0,228396.4,
190,27-24483014-0,2019,7,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,263531.98,0.0,263531.98,
191,20-13872301-2,2019,7,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,263531.98,0.0,263531.98,
192,20-25641207-2,2019,7,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,263531.98,0.0,263531.98,


In [105]:
# df[(df['mes'] == 2) & (df['reparticion'] == 'SECR Ciencia, Tecnologia e Innovacion')]
df_feb_SECR = df.query('mes == 2 & reparticion == "SECR Ciencia, Tecnologia e Innovacion"')
print(df_feb_SECR.shape)
df_feb_SECR.head()

(1, 10)


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
55,20-26781618-3,2019,2,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,34002.88,238020.15,baja 28/2/2019


### Fancy Indexing

Ahora vamos a quedarnos con un subconjunto de columnas del DataFrame.

In [106]:
df_view = df.loc[:,['anio','mes']]

In [107]:
df_view.shape

(385, 2)

Existe una forma menos explícita de hacer esta misma operación. Si pasamos una lista al indexing, pandas asume que el tipo de indexing es loc y que el filtro es sobre las columnas y no las filas:

In [108]:
df_view = df[['anio','mes']]

In [109]:
df_view.shape

(385, 2)

Fíjense lo que pasa si tratamos de acceder a filas utilizando una lista de nombres, en este caso [0,1]. 

In [122]:
# Incorrecto
df_view = df[[3,8]]

KeyError: "None of [Index([3, 8], dtype='int64')] are in the [columns]"

Nos da un error porque cuando pasamos únicamente una lista al indexing, pandas asume que queremos un set de columnas y si los nombres no existen, da error. La forma correcta de hacerlo es pasar una lista de índices y explicitar que vamos a indizar con loc y que seleccionamos todas las columnas.

In [129]:
# Correcto
df_view = df.loc[[3,8],:] # filas 3 y 8, que no es lo mismo que esto: [3:8, :] que es filas de 3 a la 8, todas las columnas

In [130]:
df_view.head()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
8,20-22293873-3,2019,1,MIGUEL,FELIPE OSCAR,Jefatura de Gabinete de Ministros,224516.62,0.0,224516.62,


In [131]:
df_view.shape

(2, 10)

### Ejercicio. Volviendo al ejemplo del titanic...

1) ¿Cuántos hombres y mujeres sobrevivieron? 

2) ¿Cuántos menores de 18 años había? ¿Cuántos sobrevivieron?

3) Seleccionen únicamente las columnas Sex y Survived y almacenenlas en un nuevo DataFrame que se llame df_titanic_subset.


In [115]:
df_titanic.query('Sex == "female" & Survived == 1')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S


In [116]:
df_titanic.query('Sex == "male" & Survived == 1')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0000,,S
21,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0000,D56,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5000,A6,S
36,37,1,3,"Mamee, Mr. Hanna",male,,0,0,2677,7.2292,,C
55,56,1,1,"Woolner, Mr. Hugh",male,,0,0,19947,35.5000,C52,S
...,...,...,...,...,...,...,...,...,...,...,...,...
838,839,1,3,"Chip, Mr. Chang",male,32.0,0,0,1601,56.4958,,S
839,840,1,1,"Marechal, Mr. Pierre",male,,0,0,11774,29.7000,C47,C
857,858,1,1,"Daly, Mr. Peter Denis",male,51.0,0,0,113055,26.5500,E17,S
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S


In [119]:
df_titanic.query("Age < 18 & Survived == 1")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.00,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.00,1,1,PP 9549,16.7000,G6,S
22,23,1,3,"McGowan, Miss. Anna ""Annie""",female,15.00,0,0,330923,8.0292,,Q
39,40,1,3,"Nicola-Yarred, Miss. Jamila",female,14.00,1,0,2651,11.2417,,C
43,44,1,2,"Laroche, Miss. Simonne Marie Anne Andree",female,3.00,1,2,SC/Paris 2123,41.5792,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
830,831,1,3,"Yasbeck, Mrs. Antoni (Selini Alexander)",female,15.00,1,0,2659,14.4542,,C
831,832,1,2,"Richards, Master. George Sibley",male,0.83,1,1,29106,18.7500,,S
853,854,1,1,"Lines, Miss. Mary Conover",female,16.00,0,1,PC 17592,39.4000,D28,S
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.00,1,1,347742,11.1333,,S


In [132]:
df_titanic_subset = df_titanic[["Sex", "Survived"]] # todas las filas, con estas dos columnas

In [133]:
df_titanic_subset.head()

Unnamed: 0,Sex,Survived
0,male,0
1,female,1
2,female,1
3,female,1
4,male,0


## Funciones de Agregación

Utilizando Pandas podemos aplicar funciones a nivel de columna. Algunas funciones predefinidas son la media, el desvío estándar y la sumatoria, el valor máximo y el mínimo.

Algunas de las funciones de agregación más comunes son:

<ul>
    <li>min</li>
    <li>max</li>
    <li>count</li>
    <li>sum</li>
    <li>prod</li>
    <li>mean</li>
    <li>median</li>
    <li>mode</li>
    <li>std</li>
    <li>var</li>
</ul>




In [134]:
df['mes'].max()

12

In [136]:
df['asignacion_por_cargo_i'].mean() # media

234234.36800000002

In [137]:
df['asignacion_por_cargo_i'].std() # desvio estandar

35043.160084661766

In [138]:
df['total_salario_bruto_i_+_ii'].sum()

97988834.36000001

Podemos combinar los filtros que vimos antes con las funciones de agregación para responder preguntas cómo ¿Cuál fue en gasto en asignaciones de funcionarios para la Secretaría de Medios 2019? ¿Y para la de Justicia y Seguridad?

In [139]:
df[df['reparticion'] == 'SECR de Medios']['total_salario_bruto_i_+_ii'].sum()

3232402.25

In [140]:
df[df['reparticion'] == 'SECR Justicia y Seguridad']['total_salario_bruto_i_+_ii'].sum()

3029551.7300000004

Ahora respondamos algunas preguntas: ¿Quién o quiénes del dataset cobran el salario más alto? ¿Y el más bajo?

In [141]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].max()]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
374,20-13872301-2,2019,12,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,275089.75,170855.56,445945.31,


In [142]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].min()]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
344,27-30744939-6,2019,12,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,74991.86,110404.68,185396.54,baja al 9/12
348,20-22709722-2,2019,12,LOPEZ,MATIAS,SECR Desarrollo Ciudadano,74991.86,110404.68,185396.54,baja al 9/12
354,20-20008464-1,2019,12,GIUSTI,JOSE LUIS,UPE Transferencia de Funciones y Facultades en...,74991.86,110404.68,185396.54,baja al 9/12
358,20-31164337-2,2019,12,DI BENEDETTO,FEDERICO,SS Comunicacion,74991.86,110404.68,185396.54,baja al 9/12
360,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SS Contenidos,74991.86,110404.68,185396.54,baja al 9/12
362,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,74991.86,110404.68,185396.54,baja al 9/12


## Otros análisis descriptivos

Pandas viene con algunas funciones built-in para ayudar al análisis descriptivo.

## Para las variables numéricas

In [144]:
df.describe() # para las variables/columnas numericas del dataset

Unnamed: 0,anio,mes,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii
count,385.0,385.0,385.0,385.0,385.0
mean,2019.0,6.631169,234234.368,20282.084883,254516.452883
std,0.0,3.539077,35043.160085,45248.840725,51434.98787
min,2019.0,1.0,74991.86,0.0,185396.54
25%,2019.0,4.0,224516.62,0.0,224516.62
50%,2019.0,7.0,239470.36,0.0,245811.62
75%,2019.0,10.0,249972.87,0.0,263531.98
max,2019.0,12.0,275089.75,170855.56,445945.31


<div>

Haciendo un pequeño paréntesis, hay algunos de estos conceptos que nos aporta el método describe() que son propios de probabilidad y estadística, como lo son la media y la mediana, siendo que esta última además se relaciona con los percentiles (cuartiles en este caso).
Aquí un video explicativo de qué son los cuartiles y cómo obtenerlos:
<a href="https://www.youtube.com/watch?v=suSz9RXFNTs">Cuartiles introducción</a>
<br><br>
Por otro lado, aquí un pequeño gráfico para tener presente la diferencia entre media y mediana:
<img src="./img/conceptos_estadisticos_1.jpg">
<br>
<img src="./img/conceptos_estadisticos_2.jpg">
<br>
<img src="./img/conceptos_estadisticos_3.jpg">
</div>

## Para las variables categóricas


In [145]:
df['reparticion'].value_counts()

reparticion
SECR Desarrollo Ciudadano                                         13
Ministerio de Salud                                               13
SECR Justicia y Seguridad                                         13
SECR de Medios                                                    13
Jefe de Gobierno                                                  12
SECR Legal y Técnica                                              12
SS Contenidos                                                     12
Ente de Turismo Ley Nº 2627                                       12
Consejo de los Derechos de Niñas, Niños y Adoles - Presidencia    12
Vicejefatura de Gobierno                                          12
UPE Transferencia de Funciones y Facultades en Materia de Seg.    12
SECR Administración de Seguridad y Emergencias                    12
SECR Integración Social y Urbana                                  12
SECR Integración Social Para Personas Mayores                     12
SECR Planificación, Ev

### Ejercicio: Volviendo al ejemplo del Titanic.

1) ¿Cuál era la edad promedio de los pasajeros de cada clase (Pclass)?

2) ¿Cuál fue la tarifa que pagaron en promedio los hombres? ¿Y las mujeres?

3) ¿Cuánto pagaron en total los pasajeros de primera clase para subir al Titanic? ¿Y los de tercera?

4) ¿Cuántos pasajeros había en cada tipo de clase?

In [146]:
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [150]:
# 1. ¿Cuál era la edad promedio de los pasajeros de cada clase (Pclass)?
df_titanic.groupby('Pclass')['Age'].mean().round(2)

Pclass
1    38.23
2    29.88
3    25.14
Name: Age, dtype: float64

In [151]:
# 2. ¿Cuál fue la tarifa que pagaron en promedio los hombres? ¿Y las mujeres?
df_titanic.groupby('Sex')['Fare'].mean().round(2)

Sex
female    44.48
male      25.52
Name: Fare, dtype: float64

In [152]:
# 3. ¿Cuánto pagaron en total los pasajeros de primera clase para subir al Titanic? ¿Y los de tercera?
df_titanic.groupby('Pclass')['Fare'].sum().round(2)

Pclass
1    18177.41
2     3801.84
3     6714.70
Name: Fare, dtype: float64

In [154]:
# 4. ¿Cuántos pasajeros había en cada tipo de clase?
df_titanic['Pclass'].value_counts()

Pclass
3    491
1    216
2    184
Name: count, dtype: int64

## Ordenar por columnas y limitar la cantidad de resultados

Otra forma de resolver el problema de encontrar el mayor y el menos es con el método sort_values. Este método puede recibir un valor único (nombre de columna) o una lista (con varias columnas) y un orden asc o desc. Por default el orden es asc.

Si combinamos el ordenamiento con el método head() para limitar la cantidad de resultados, podemos encontrar los N primeros. 

In [155]:
# Recordemos cómo abrir la documentación de un método
df.sort_values?

[0;31mSignature:[0m
[0mdf[0m[0;34m.[0m[0msort_values[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mby[0m[0;34m:[0m [0;34m'IndexLabel'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0maxis[0m[0;34m:[0m [0;34m'Axis'[0m [0;34m=[0m [0;36m0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mascending[0m[0;34m:[0m [0;34m'bool | list[bool] | tuple[bool, ...]'[0m [0;34m=[0m [0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0minplace[0m[0;34m:[0m [0;34m'bool'[0m [0;34m=[0m [0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mkind[0m[0;34m:[0m [0;34m'SortKind'[0m [0;34m=[0m [0;34m'quicksort'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mna_position[0m[0;34m:[0m [0;34m'str'[0m [0;34m=[0m [0;34m'last'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mignore_index[0m[0;34m:[0m [0;34m'bool'[0m [0;34m=[0m [0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mkey[0m[0;34m:[0m [0;34m'Valu

In [156]:
# Calculamos el máximo
df.sort_values('total_salario_bruto_i_+_ii',ascending=False).head(1)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
374,20-13872301-2,2019,12,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,275089.75,170855.56,445945.31,


In [157]:
# Calculamos el mínimo
df.sort_values('total_salario_bruto_i_+_ii').head(1)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
344,27-30744939-6,2019,12,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,74991.86,110404.68,185396.54,baja al 9/12


## Anexo: volviendo al tema de la vectorización

¿Por qué es tan importante trabajar con Pandas y no con funciones escritas por nosotros en Python nativo y que procesen los datos dentro de un for loop?

Por un lado está la comodidad. Hay mucha funcionalidad que ya está desarrollada en Pandas. Existen funciones que resuelven muchos de los problemas clásicos de manipular datos: agrupar, sumarizar, sacar estadísticas, filtrar, etc. Pero además hay una razón de performance. 

Veamos una demostración de que vectorizar es más eficiente. Vamos a crear dos listas de 1.000.000 de números aleatorios cada una y vamos a tratar de multiplicar elemento por elemento con pandas y sin pandas:



In [158]:
lista1 = list(np.random.randint(1, 100, 1000000))
lista2 = list(np.random.randint(1, 100, 1000000))

In [159]:
%%timeit 
for x,y in zip(lista1,lista2):
    x * y

99 ms ± 4.29 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Ahora probemos hacer lo mismo con dos series de Pandas

In [160]:
serie1 = pd.Series(lista1)
serie2 = pd.Series(lista2)

In [161]:
%%timeit 
resultado = serie1 * serie2

3.2 ms ± 55.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Conclusión: la operación vectorizada es <strong> más de 70 veces más rápida.</strong>

<div>

Esta última sección nos sirvió para ver que Pandas lleva implementadas internamente muchas de las funcionalidades de numpy, por lo cual llevar a cabo operaciones matemáticas con ellas siempre será mucho más eficiente que crear nuestras propias funciones "a mano", que seguramente harán su trabajo pero en mayor tiempo, lo que le resta eficiencia.
En este caso, se evaluó el tiempo entre una función armada por nosotros y la implementación de Pandas mediante la utilidad %timeit que nos aporta la información de cuánto tardó en ejecutarse.
Además de timeit, también existe %time
</div>