# Como agrupar y organizar tus datos
1. 🎨 Analizando datos con Pandas

2. 📊 Fundamentos de pandas: series, dataframes e índices

3. 🔍 Descubriendo los datos: Índices, máscaras booleanas, funciones de agregación

4. 📈 Análisis descriptivos

5. 🚀 Vectorización pd Python

Exploración
Vamos a analizar datos de una fuente real. Los ingresos de los funcionarios son información pública que se libera anualmente en el portal de datos abiertos de GCBA.

En general los 4 primeros pasos para analizar un data set son:

Leer
Consultar las columnas
Extraer una muestra
Verificar cantidad de registros

In [1]:
#importamos las librerías necesarias
import pandas as pd
import numpy as np

In [None]:
# 1- Para leer los datos usamos la función de pandas read_csv
# Con esta función podemos leer archivos que estén en una url pública o en una ubicación del disco accesible desde la Jupyter Notebook.

df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

In [4]:
# 2- Verificamos las columnas

df.columns

Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')

In [None]:
# 3- Extraemos una muestra (aleatoria)

df.sample(5)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
252,27-24483014-0,2019,9,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,275089.75,0.0,275089.75,
239,20-22293622-6,2019,8,FERNANDEZ,DIEGO HERNAN,SECR Integración Social y Urbana,239470.36,0.0,239470.36,
264,27-17593512-1,2019,9,MONTIEL,MARIA LETICIA,SECR Legal y Técnica,267913.5,0.0,267913.5,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,
310,20-28908968-4,2019,10,COELHO CHICANO,CHRISTIAN,SS Contenidos,249972.87,0.0,249972.87,


In [6]:
# 4- Consultamos la cantidad de filas y de columnas

df.shape

(385, 10)

## Vectorización con Pandas

Pandas es una de las librerias esenciales para el análisis de datos en Python, ofrece eficiencia al operar sobre datos en la memoria RAM. Ideal para datos tabulares, su uso requiere que estos residan completamente en la RAM, con una recomendación de no exceder 1/3 de la memoria disponible. Además, utiliza operaciones vectorizadas para optimizar manipulaciones sobre filas y columnas, heredadas de la librería numpy.

En el primer caso hay que hacer 5 operaciones y en el segundo caso sólo dos.

Es importante entender, entonces, que Pandas trabaja de esta manera y que por eso es una de las herramientas más elegidas para manipular datos en memoria.

## Fundamentos de Pandas

### Series

Las series son "columnas" que de una tabla que están asociadas a un índice y a un nombre. Igual que una lista común de Python es una secuencia de elementos ordenados, pero a diferencia de la lista está asociada a más información.

In [3]:
# Las series se pueden crear a partir de una lista
serie = pd.Series(['a','b','c'])

# Propiedades importantes de las series
print('Tipo de objetos que tiene ', serie.dtype)
print('Nombre ', serie.name)
print('Index ',serie.index)
print('Valores ',serie.values)

Tipo de objetos que tiene  object
Nombre  None
Index  RangeIndex(start=0, stop=3, step=1)
Valores  ['a' 'b' 'c']


## DataFrames

Los DataFrames son "tablas", compuestas por varias "columnas" o series que comparten todas un mismo índice. En general los DataFrames se crean a partir de leer tablas de archivos (pueden ser en formato json o csv) pero a veces también se crean a partir de listas de diccionarios o de otras maneras.

Los DataFrames tienen un objeto Index que describe los nombres de columnas y otro objeto Index que describen los nombres de las filas.

In [None]:
# Leemos un dataset público
df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

# Propiedades importantes de los dataframes
print('Columnas ', df.columns)
print('Index ', df.index)
print('Dimensiones ',df.shape)

# Consultar las 10 primeras filas
df.head(10)

Columnas  Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')
Index  RangeIndex(start=0, stop=385, step=1)
Dimensiones  (385, 10)


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.0,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
5,27-13221055-7,2019,1,BOU PEREZ,ANA MARIA,Ministerio de Salud,224516.62,0.0,224516.62,
6,27-13092400-5,2019,1,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
7,20-17110752-1,2019,1,MACCHIAVELLI,EDUARDO ALBERTO,Ministerio de Ambiente y Espacio Público,224516.62,0.0,224516.62,
8,20-22293873-3,2019,1,MIGUEL,FELIPE OSCAR,Jefatura de Gabinete de Ministros,224516.62,0.0,224516.62,
9,20-14699669-9,2019,1,MOCCIA,FRANCO,Ministerio de Desarrollo Urbano y Transporte,224516.62,0.0,224516.62,


In [9]:
# Si queremos extraer una serie del DataFrame, podemos hacerlo de la misma forma 
serie_mes = df['mes']
serie_mes

0       1
1       1
2       1
3       1
4       1
       ..
380    12
381    12
382    12
383    12
384    12
Name: mes, Length: 385, dtype: int64

## Filtrando un DataFrame - Boolean Indexing
Supongamos que queremos tomar el dataset de funcionarios y quedarnos únicamente con los que pertenecen al Ministerio de Cultura. Para eso lo que hacemos es indexar al DataFrame por una condición booleana. Eso implica que debemos crear una serie compuesta por valores True y False para aplicarla como índice a las filas.

Los operadores que sirven para evaluar condiciones sobre las series son:

>=	Mayor o Igual	
<=	Menor o Igual	
==	Igual	
!=	Distinto	
>	Mayor	
<	Menor	

In [5]:
mascara_booleana = df['anio'] != 2019
mascara_booleana

0      False
1      False
2      False
3      False
4      False
       ...  
380    False
381    False
382    False
383    False
384    False
Name: anio, Length: 385, dtype: bool

In [None]:
# Nos devuelve a longitud de la serie
mascara_booleana.shape

(385,)

In [None]:
# Nos devuelve el tipo de dato de la serie
mascara_booleana.dtype

dtype('bool')

In [None]:
#Ahora seleccionemos los registros que corresponden al Ministerio de Cultura.

df_min_cul = df.loc[df['reparticion'] == 'Ministerio de Cultura',:]
df_min_cul

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
36,20-25641207-2,2019,2,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
68,20-25641207-2,2019,3,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,231167.76,0.0,231167.76,
99,20-25641207-2,2019,4,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,0.0,249661.6,
130,20-25641207-2,2019,5,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,0.0,249661.6,
161,20-25641207-2,2019,6,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,124830.8,374492.4,
192,20-25641207-2,2019,7,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,263531.98,0.0,263531.98,
223,20-25641207-2,2019,8,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,263531.98,0.0,263531.98,
254,20-25641207-2,2019,9,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,275089.75,0.0,275089.75,
285,20-25641207-2,2019,10,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,275089.75,0.0,275089.75,


#### Máscara booleana con muchas condiciones

In [None]:
#Por ejemplo: seleccionemos los casos donde bien se haya cobrado aguinaldo o bien el salario total haya sido mayor que 240.000.
df[(df['total_salario_bruto_i_+_ii'] > 240000) | (df['aguinaldo_ii'] > 0)]

In [None]:
# Ahora veamos los sueldos de febrero de la SECR Ciencia, Tecnologia e Innovacion.
df[(df['mes'] == 2) & (df['reparticion'] == "Ministerio de Cultura")]

### Boolean indexing con query()

In [7]:
df_cult = df.query('reparticion == "Ministerio de Cultura"')
df_cult

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
36,20-25641207-2,2019,2,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
68,20-25641207-2,2019,3,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,231167.76,0.0,231167.76,
99,20-25641207-2,2019,4,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,0.0,249661.6,
130,20-25641207-2,2019,5,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,0.0,249661.6,
161,20-25641207-2,2019,6,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,124830.8,374492.4,
192,20-25641207-2,2019,7,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,263531.98,0.0,263531.98,
223,20-25641207-2,2019,8,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,263531.98,0.0,263531.98,
254,20-25641207-2,2019,9,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,275089.75,0.0,275089.75,
285,20-25641207-2,2019,10,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,275089.75,0.0,275089.75,


In [8]:
df2 = df.query("asignacion_por_cargo_i > 240000 & aguinaldo_ii > 0")
df2

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
159,27-24483014-0,2019,6,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,249661.6,124830.8,374492.4,
160,20-13872301-2,2019,6,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,249661.6,165196.76,414858.36,
161,20-25641207-2,2019,6,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,124830.8,374492.4,
162,27-13221055-7,2019,6,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.6,124830.8,374492.4,
163,27-13092400-5,2019,6,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,249661.6,124830.8,374492.4,
164,20-17110752-1,2019,6,MACCHIAVELLI,EDUARDO ALBERTO,Ministerio de Ambiente y Espacio Público,249661.6,124830.8,374492.4,
165,20-22293873-3,2019,6,MIGUEL,FELIPE OSCAR,Jefatura de Gabinete de Ministros,249661.6,124830.8,374492.4,
166,20-14699669-9,2019,6,MOCCIA,FRANCO,Ministerio de Desarrollo Urbano y Transporte,249661.6,124830.8,374492.4,
167,20-24941711-5,2019,6,MURA,MARTIN,Ministerio de Economía y Finanzas,249661.6,124830.8,374492.4,
168,20-21981279-6,2019,6,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,249661.6,124830.8,374492.4,


In [None]:
# Ejercicio: Piensen cómo traducir a la sintaxis de query
df_sem2 = df[df['mes'] > 6]
df_sem2 = df.query('mes > 6')

In [10]:
### Fancy Indexing

# Ahora vamos a quedarnos con un subconjunto de columnas del DataFrame.
df_view = df.loc[:,['anio','mes']] # COMO TAREA !!! - se puede convertir en versión query
df_view.shape

# Existe una forma menos explícita de hacer esta misma operación. Si pasamos una lista al indexing, pandas asume que el tipo de indexing es loc y que el filtro es sobre las columnas y no las filas:
df_view = df[['anio','mes']]
df_view.shape
df_view

Unnamed: 0,anio,mes
0,2019,1
1,2019,1
2,2019,1
3,2019,1
4,2019,1
...,...,...
380,2019,12
381,2019,12
382,2019,12
383,2019,12


In [16]:
# prompt: Mediante el marco de datos df_view: haceme un grafico

import altair as alt

alt.Chart(df_view).mark_bar().encode(
    alt.X("mes:O"),
    alt.Y('count():Q')
)


Funciones de Agregación
Utilizando Pandas podemos aplicar funciones a nivel de columna. Algunas funciones predefinidas son la media, el desvío estándar y la sumatoria, el valor máximo y el mínimo.

Algunas de las funciones de agregación más comunes son:

min
max
count
sum
prod
mean
median
mode
std
var

In [None]:
df['mes'].max()
df['asignacion_por_cargo_i'].mean() #promedio

234234.36800000002

In [None]:
df['asignacion_por_cargo_i'].std() #desviación estándar

35043.16008466176

In [19]:
df['total_salario_bruto_i_+_ii'].sum()

97988834.36000001

In [None]:
df[df['reparticion'] == 'SECR de Medios']['total_salario_bruto_i_+_ii'].sum() #la suma de los salarios de la Secretaría de Medios

In [None]:
df[df['reparticion'] == 'SECR Justicia y Seguridad']['total_salario_bruto_i_+_ii'].sum() #la suma de los salarios de la Secretaría de Justicia y Seguridad

In [None]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].max()] # el registro con el salario más alto

In [None]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].min()] # el registro con el salario más bajo

In [22]:
# Otros análisis descriptivos
# Pandas viene con algunas funciones built-in para ayudar al análisis descriptivo.

# Para las variables numéricas
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
anio,385.0,2019.0,0.0,2019.0,2019.0,2019.0,2019.0,2019.0
mes,385.0,6.631169,3.539077,1.0,4.0,7.0,10.0,12.0
asignacion_por_cargo_i,385.0,234234.368,35043.160085,74991.86,224516.62,239470.36,249972.87,275089.75
aguinaldo_ii,385.0,20282.084883,45248.840725,0.0,0.0,0.0,0.0,170855.56
total_salario_bruto_i_+_ii,385.0,254516.452883,51434.98787,185396.54,224516.62,245811.62,263531.98,445945.31


Ordenar por columnas y limitar la cantidad de resultados
Otra forma de resolver el problema de encontrar el mayor y el menos es con el método sort_values. Este método puede recibir un valor único (nombre de columna) o una lista (con varias columnas) y un orden asc o desc. Por default el orden es asc.

Si combinamos el ordenamiento con el método head() para limitar la cantidad de resultados, podemos encontrar los N primeros.

In [23]:
# Calculamos el máximo
df.sort_values('total_salario_bruto_i_+_ii',ascending=False).head(10)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
374,20-13872301-2,2019,12,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,275089.75,170855.56,445945.31,
160,20-13872301-2,2019,6,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,249661.6,165196.76,414858.36,
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,
373,20-22293873-3,2019,12,MIGUEL,FELIPE OSCAR,Jefatura de Gabinete de Ministros,275089.75,137544.87,412634.62,
367,27-24483014-0,2019,12,ACUÑA,MARIA SOLEDAD,Ministerio de Educación,275089.75,137544.87,412634.62,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,
365,27-13092400-5,2019,12,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,275089.75,137544.87,412634.62,
369,20-24941711-5,2019,12,MURA,MARTIN,Ministerio de Hacienda y Finanzas,275089.75,137544.87,412634.62,
368,20-25641207-2,2019,12,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,275089.75,137544.87,412634.62,
370,27-17593512-1,2019,12,MONTIEL,MARIA LETICIA,SECR Legal y Técnica,267913.5,133956.75,401870.25,


In [24]:
# Calculamos el mínimo
df.sort_values('total_salario_bruto_i_+_ii').head(1)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
344,27-30744939-6,2019,12,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,74991.86,110404.68,185396.54,baja al 9/12


Anexo: volviendo al tema de la vectorización
¿Por qué es tan importante trabajar con Pandas y no con funciones escritas por nosotros en Python nativo y que procesen los datos dentro de un for loop?

Por un lado está la comodidad. Hay mucha funcionalidad que ya está desarrollada en Pandas. Existen funciones que resuelven muchos de los problemas clásicos de manipular datos: agrupar, sumarizar, sacar estadísticas, filtrar, etc. Pero además hay una razón de performance.

Veamos una demostración de que vectorizar es más eficiente. Vamos a crear dos listas de 1.000.000 de números aleatorios cada una y vamos a tratar de multiplicar elemento por elemento con pandas y sin pandas:

In [None]:
lista1 = list(np.random.randint(1, 100, 1000000)) #lista de 1 millón de números aleatorios entre 1 y 100
lista2 = list(np.random.randint(1, 100, 1000000))

In [26]:
%%timeit #indica cuanto tarda en ejecutarse el código que sigue
for x,y in zip(lista1,lista2):
    x * y

95.2 ms ± 8 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [31]:
# Ahora probemos hacer lo mismo con dos series de Pandas

serie1 = pd.Series(lista1)
serie2 = pd.Series(lista2)

In [None]:
#CON PANDAS ES MUCHO MÁS RÁPIDO
%%timeit
resultado = serie1 * serie2

3.11 ms ± 111 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
