# Análisis de datos con Pandas

Pandas es una de las librerías de Python más usadas para análisis de datos. El nombre pandas viene de "Panel Data Analysis" y su funcionalidad permite hacer operaciones sobre datos que se encuentran en memoria de manera eficiente. 

Pandas es útil para trabajar sobre datos tabulares, con dos condiciones importantes:

I. Los datos se encuentran enteramente en la memoria RAM. Con lo cual, el tamaño de los datos que podemos manipular está limitado por el hardware. Como regla de pulgar, es una buena práctica no ocupar más de 1/3 de la memoria RAM de nuestro dispositivo con el dataset. Así, si estamos trabajando localmente en una notebook con 8GB de memoria RAM no es recomendable procesar datasets de más de 2.33GB.

II. En pandas, las operaciones sobre filas y columnas son, en general, eficientes porque se hacen de forma "vectorizada". En realidad esta optimización, se hace desde numpy, una librería para realizar operaciones matemáticas que se utilizó a su vez para escribir pandas. 

Las operaciones vectorizadas son las que se realizan en bloque en vez de caso por caso. Las computadoras de hoy tienen la capacidad de recibir muchas instrucciones juntas y procesar varias de ellas a la vez. Por ejemplo, si nuestro hardware tiene la capacidad de procesar 4 operaciones juntas, el resultado de vectorizar una operación matemática es el siguiente:

<img src = 'img/vectorizacion.png' /> 


En el primer caso hay que hacer 5 operaciones y en el segundo caso sólo dos.

Es importante entender, entonces, que Pandas trabaja de esta manera y que por eso es una de las herramientas más elegidas para manipular datos en memoria.


# 1. Los objetos fundamentales de Pandas

## 1.1 Series

Las series son "columnas" que de una tabla que están asociadas a un índice y a un nombre. Igual que una lista común de Python es una secuencia de elementos ordenados, pero a diferencia de la lista está asociada a más información.

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Las series se pueden crear a partir de una lista
serie = pd.Series(['a','b','c'])

In [3]:
# Propiedades importantes de las series
print('Tipo de objetos que tiene ', serie.dtype)
print('Nombre ', serie.name)
print('Index ',serie.index)
print('Valores ',serie.values)


Tipo de objetos que tiene  object
Nombre  None
Index  RangeIndex(start=0, stop=3, step=1)
Valores  ['a' 'b' 'c']


## 1.2 DataFrames

Los DataFrames son "tablas", compuestas por varias "columnas" o series que comparten todas un mismo índice. En general los DataFrames se crean a partir de leer tablas de archivos (pueden ser en formato json o csv) pero a veces también se crean a partir de listas de diccionarios o de otras maneras. 

Los DataFrames tienen un objeto Index que describe los nombres de columnas y otro objeto Index que describen los nombres de las filas.

In [4]:
# 1. Descargamos un dataset público
!wget http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv

--2020-06-14 21:21:58--  http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv
Resolving cdn.buenosaires.gob.ar (cdn.buenosaires.gob.ar)... 200.16.89.97
Connecting to cdn.buenosaires.gob.ar (cdn.buenosaires.gob.ar)|200.16.89.97|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 41078 (40K) [text/csv]
Saving to: ‘sueldo_funcionarios_2019.csv.1’


2020-06-14 21:21:59 (225 KB/s) - ‘sueldo_funcionarios_2019.csv.1’ saved [41078/41078]



In [5]:
# 2. Una vez que tenemos los datos en el disco local, podemos leerlos
df = pd.read_csv('sueldo_funcionarios_2019.csv')

In [6]:
# Propiedades importantes de los dataframes
print('Columnas ', df.columns)
print('Index ', df.index)
print('Dimensiones ',df.shape)


Columnas  Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')
Index  RangeIndex(start=0, stop=385, step=1)
Dimensiones  (385, 10)


In [7]:
# Explorar un DataFrame
df.head()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.0,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,


Si queremos extraer una serie del DataFrame, podemos hacerlo de la misma forma en que extraemos un valor de un diccionario.



In [15]:
serie_mes = df['mes']

In [16]:
type(serie_mes)

pandas.core.series.Series

## 1.3 Índices

Los índices acompañan a las series y a los Data Frames. Son conjuntos ordenados e inmutables de elementos

In [8]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [9]:
ind[1] = 0

TypeError: Index does not support mutable operations

## 2. Exploración

Vamos a analizar datos de una fuente real. Los ingresos de los funcionarios son información pública que se libera anualmente en el <a href='https://data.buenosaires.gob.ar/dataset/sueldo-funcionarios'>portal de datos abiertos</a> de GCBA.  

En general los 4 primeros pasos para analizar un dataset son:
1. Leerlo
2. Consultar cuáles son las columnas
3. Extraer una muestra
4. Verificar cuántos registros tiene

In [10]:
df = pd.read_csv('sueldo_funcionarios_2019.csv')
df.columns

Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')

In [11]:
df.sample(5)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
217,20-28908968-4,2019,7,COELHO CHICANO,CHRISTIAN,SS Contenidos,239470.36,0.0,239470.36,
81,20-29751476-9,2019,3,CARRILLO,FACUNDO,SECR Atención y Gestión Ciudadana,210061.14,0.0,210061.14,
234,20-16891528-5,2019,8,NACHON,MARCELO JORGE,SECR de Medios,256657.23,0.0,256657.23,
192,20-25641207-2,2019,7,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,263531.98,0.0,263531.98,
343,27-13221055-7,2019,12,BOU PEREZ,ANA MARIA,Ministerio de Salud,82526.92,121497.97,204024.89,baja al 9/12


In [12]:
# La propiedad shape nos devuelve una tupla (filas,columnas)
df.shape

(385, 10)

## 3. Filtrando un DataFrame (Indexing)

Hay muchas técnicas para filtrar un DataFrame. Podemos querer filtrar por columnas o por filas, por posición o por nombre. También podemos querer filtrar por condiciones que se cumplen o no. Cuando no queremos filtrar sobre una dimensión (filas o columnas) usamos ":" para seleccionar todo.


<img src='img/indexing.png' style='height:350px' />



## 3.1 Boolean Indexing

Vamos a tomar el dataset de funcionarios y quedarnos únicamente con los que pertenecen al Ministerio de Cultura.

In [13]:
df_min_cul = df.loc[df['reparticion'] == 'Ministerio de Cultura',:]

In [14]:
# Veamos la cantidad de casos
df_min_cul.shape

(12, 10)

Algo que puede llegar a confundir sobre el Indexing en Pandas es que en algunos casos se puede ser menos explícito a la hora de filtrar. Por ejemplo si ponemos una condición Booleana, pandas asume que el tipo de indexing es loc y que el filtro es sobre las filas y no sobre las columnas:


In [17]:
df_min_cul = df[df['reparticion'] == 'Ministerio de Cultura']['']

In [18]:
df_min_cul.shape

(12, 10)

## 3.2 Fancy Indexing

Ahora vamos a quedarnos con un subconjunto de columnas del DataFrame.

In [19]:
df_view = df.loc[:,['anio','mes']]

In [20]:
df_view.shape

(385, 2)

Existe una forma menos explícita de hacer esta misma operación. Si pasamos una lista al indexing, pandas asume que el tipo de indexing es loc y que el filtro es sobre las columnas y no las filas:

In [21]:
df_view = df[['anio','mes']]

In [22]:
df_view.shape

(385, 2)

## 4 Funciones de Agregación

Utilizando Pandas podemos aplicar funciones a nivel de columna. Algunas funciones predefinidas son la media, el desvío estándar y la sumatoria, el valor máximo y el mínimo



In [23]:
df['mes'].max()

12

In [24]:
df['asignacion_por_cargo_i'].mean()

234234.3679999999

In [25]:
df['asignacion_por_cargo_i'].std()

35043.16008466176

In [26]:
df['total_salario_bruto_i_+_ii'].sum()

97988834.36000001

Podemos combinar los filtros que vimos antes con las funciones de agregación para responder preguntas cómo ¿Cuál fue en gasto en asignaciones de funcionarios para la Secretaría de Medios 2019? ¿Y para la de Justicia y Seguridad?

In [43]:
df[df['reparticion'] == 'SECR de Medios']['total_salario_bruto_i_+_ii'].sum()

3232402.25

In [44]:
df[df['reparticion'] == 'SECR Justicia y Seguridad']['total_salario_bruto_i_+_ii'].sum()

3029551.7300000004

## 5 Otros análisis descriptivos

Pandas viene con algunas funciones built-in para ayudar al análisis descriptivo.

### 5.1 Para las variables numéricas

In [39]:
df.describe()

Unnamed: 0,anio,mes,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii
count,385.0,385.0,385.0,385.0,385.0
mean,2019.0,6.631169,234234.368,20282.084883,254516.452883
std,0.0,3.539077,35043.160085,45248.840725,51434.98787
min,2019.0,1.0,74991.86,0.0,185396.54
25%,2019.0,4.0,224516.62,0.0,224516.62
50%,2019.0,7.0,239470.36,0.0,245811.62
75%,2019.0,10.0,249972.87,0.0,263531.98
max,2019.0,12.0,275089.75,170855.56,445945.31


### 5.2 Para las variables categóricas


In [41]:
df['reparticion'].value_counts()

SECR Desarrollo Ciudadano                                         13
SECR Justicia y Seguridad                                         13
Ministerio de Salud                                               13
SECR de Medios                                                    13
SS Contenidos                                                     12
Jefatura de Gabinete de Ministros                                 12
SECR Integración Social y Urbana                                  12
Ministerio de Desarrollo Urbano y Transporte                      12
Vicejefatura de Gobierno                                          12
Jefe de Gobierno                                                  12
SECR Legal y Técnica                                              12
SECR Administración de Seguridad y Emergencias                    12
Ministerio de Gobierno                                            12
UPE Transferencia de Funciones y Facultades en Materia de Seg.    12
Ministerio de Cultura             

# Anexo: volviendo al tema de la vectorización

¿Por qué es tan importante trabajar con Pandas y no con funciones escritas por nosotros en Python nativo y que procesen los datos dentro de un for loop?

Por un lado está la comodidad. Hay mucha funcionalidad que ya está desarrollada en Pandas. Existen funciones que resuelven muchos de los problemas clásicos de manipular datos: agrupar, sumarizar, sacar estadísticas, filtrar, etc. Pero además hay una razón de performance. 

Veamos una demostración de que vectorizar es más eficiente. Vamos a crear dos listas de 1.000.000 de números aleatorios cada una y vamos a tratar de multiplicar elemento por elemento con pandas y sin pandas:



In [45]:
lista1 = list(np.random.randint(1, 100, 1000000))
lista2 = list(np.random.randint(1, 100, 1000000))

In [46]:
%%timeit 
for x,y in zip(lista1,lista2):
    x * y

69.6 ms ± 1.65 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Ahora probemos hacer lo mismo con dos series de Pandas

In [47]:
serie1 = pd.Series(lista1)
serie2 = pd.Series(lista2)

In [48]:
%%timeit 
resultado = serie1 * serie2

954 µs ± 17.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Conclusión: la operación vectorizada es <strong> más de 70 veces más rápida.</strong>