<a href="https://colab.research.google.com/github/mateosuster/pythonungs/blob/master/codigos/manipulacion_de_datos/2_Pandas_Indexing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Indexación y Agregación 

Tabla de Contenidos

    I. Índices
    II. Exploración
        I. Filtrando un DataFrame (Indexing)
            I. Boolean Indexing
                I. Máscara booleana
                II. Máscara booleana con muchas condiciones
            II. Boolean indexing con query()
            III. Fancy Indexing
        II. Funciones de Agregación
    IV. Otros análisis descriptivos
        I. Para las variables numéricas
        II. Para las variables categóricas
        III. Ordenar por columnas y limitar la cantidad de resultados

## Índices

Los índices acompañan a las series y a los Data Frames. Son conjuntos ordenados e inmutables de elementos. Volvamos a levantar el dataset de salarios de funcionarios como ejemplo.

In [1]:
import pandas as pd
df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

In [None]:
df.index

RangeIndex(start=0, stop=385, step=1)

In [None]:
df.shape

(385, 10)

In [None]:
df.columns

Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [None]:
ind[1] = 0

TypeError: ignored

### Ejercicio Titanic exploratorio
Exploren el dataset público que se encuentra en la siguiente url: https://osf.io/aupb4/download ¿De qué se trata? ¿Cuántas filas tiene? ¿Cuántas columnas? Al leerlo, pueden almacenarlo en la variable df_titanic. 

## Filtrando un DataFrame (Indexing)

Hay muchas técnicas para filtrar un DataFrame. Podemos querer filtrar por columnas o por filas, por posición o por nombre. También podemos querer filtrar por condiciones que se cumplen o no. Cuando no queremos filtrar sobre una dimensión (filas o columnas) usamos ":" para seleccionar todo.

Existe un método muy práctico con el cual podemos acceder a filas y columnas que se realiza mediante las instrucciones **`.iloc[]`** (utilizando el número de índice/posición) o usando **`.loc[]`** (mediante el nombre del índice o columna).



```
#con .iloc (selección implícita)
NombreDataFrame.iloc[numero_filas, numero_columnas]

#con .loc (selección explícita)
NombreDataFrame.loc[nombre_indice, nombre_columnas]
```

![](https://shanelynnwebsite-mid9n9g1q9y8tt.netdna-ssl.com/wp-content/uploads/2016/10/Pandas-selections-and-indexing-1024x731.png)

### Boolean Indexing

Supongamos que queremos tomar el dataset de funcionarios y quedarnos únicamente con los que pertenecen al Ministerio de Cultura.
Para eso lo que hacemos es indexar al DataFrame por una condición booleana. Eso implica que debemos crear una serie compuesta por valores True y False para aplicarla como índice a las filas.

Los operadores que sirven para evaluar condiciones sobre las series son:


| S  | Descripción   | S  | Descripción   |   |
|----|---------------|----|---------------|---|
| >= | Mayor o Igual | <= | Menor o Igual |   |
| == | Igual         | != | Distinto      |   |
| >  | Mayor         | <  | Menor         |   |

#### Máscara booleana

Veamos lo que pasa cuando le aplicamos a una serie una condición que devuelve un booleano

In [6]:
df['asignacion_por_cargo_i'] > 270000

0      False
1      False
2      False
3      False
4      False
       ...  
380    False
381     True
382     True
383    False
384    False
Name: asignacion_por_cargo_i, Length: 385, dtype: bool

Nos devuelve una serie de la misma longitud que la original y que contiene sólo valores True o False. 

In [16]:
mascara_booleana = df['asignacion_por_cargo_i'] > 270000

In [None]:
type(mascara_booleana)

pandas.core.series.Series

In [None]:
mascara_booleana.shape

(385,)

In [None]:
mascara_booleana.dtype

dtype('bool')

Como la máscara posee las posiciones donde se cumple o no la condición, luego podemos quedarnos con solo las filas que sí la cumplen por medio de indexar el dataframe con este Series resultante.

In [17]:
df[mascara_booleana]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
252,27-24483014-0,2019,9,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,275089.75,0.0,275089.75,
253,20-13872301-2,2019,9,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,275089.75,0.0,275089.75,
254,20-25641207-2,2019,9,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,275089.75,0.0,275089.75,
255,27-13221055-7,2019,9,BOU PEREZ,ANA MARIA,Ministerio de Salud,275089.75,0.0,275089.75,
256,27-13092400-5,2019,9,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,275089.75,0.0,275089.75,
257,20-17110752-1,2019,9,MACCHIAVELLI,EDUARDO ALBERTO,Ministerio de Ambiente y Espacio Público,275089.75,0.0,275089.75,
258,20-22293873-3,2019,9,MIGUEL,FELIPE OSCAR,Jefatura de Gabinete de Ministros,275089.75,0.0,275089.75,
259,20-14699669-9,2019,9,MOCCIA,FRANCO,Ministerio de Desarrollo Urbano y Transporte,275089.75,0.0,275089.75,
260,20-24941711-5,2019,9,MURA,MARTIN,Ministerio de Economía y Finanzas,275089.75,0.0,275089.75,
261,20-21981279-6,2019,9,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,0.0,275089.75,


Ahora seleccionemos entonces, los registros que corresponden al Ministerio de Cultura.

In [None]:
df_min_cul = df.loc[df['reparticion'] == 'Ministerio de Cultura',:]

In [None]:
# Veamos la cantidad de casos
df_min_cul.shape

(12, 10)

Algo que puede llegar a confundir sobre el Indexing en Pandas es que en algunos casos se puede ser menos explícito a la hora de filtrar. Por ejemplo si ponemos una condición Booleana, pandas asume que el tipo de indexing es loc y que el filtro es sobre las filas y no sobre las columnas:


In [None]:
df_min_cul = df[df['reparticion'] == 'Ministerio de Cultura']

In [None]:
df_min_cul.shape

(12, 10)

Probemos con otra condición.

### Ejercicio sueldos mitad de año

Traer todos los sueldos de la segunda mitad del año...

### Ejercicio Titanic sobrevientes
Volviendo al DataFrame del Titanic ¿Cuántos pasajeros sobrevivieron y cuántos no? 

#### Máscara booleana con muchas condiciones

Ahora tratemos de filtrar el dataset por dos condiciones: por ejemplo tomar los sueldos de abril de la secretaria de innovación. 
Para eso tenemos que combinar dos máscaras booleanas con una condición.

| S | Descripcion        | S  | Descripcion |   |
|---|--------------------|----|-------------|---|
| & | AND (y)            | \| | OR (o)      |   |
| ^ | XOR (o exclusivo)  | ~  | NOT (no)    |   |



Por ejemplo: seleccionemos los casos donde o bien se haya cobrado aguinaldo o bien el salario total haya sido mayor que 240.000, pero no las dos cosas. 


In [None]:
df[(df['total_salario_bruto_i_+_ii'] > 240000) ^ (df['aguinaldo_ii'] > 0)]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
55,20-26781618-3,2019,2,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,34002.88,238020.15,baja 28/2/2019
97,27-24483014-0,2019,4,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,249661.60,0.00,249661.60,
98,20-13872301-2,2019,4,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,249661.60,0.00,249661.60,
99,20-25641207-2,2019,4,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.60,0.00,249661.60,
100,27-13221055-7,2019,4,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.60,0.00,249661.60,
...,...,...,...,...,...,...,...,...,...,...
360,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SS Contenidos,74991.86,110404.68,185396.54,baja al 9/12
361,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SECR de Medios,187539.45,15628.29,203167.74,alta desde el 10/12
362,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,74991.86,110404.68,185396.54,baja al 9/12
363,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,187539.45,15628.29,203167.74,alta desde el 10/12


Ahora veamos los sueldos de febrero de la SECR Ciencia, Tecnologia e Innovacion.

In [None]:
df[(df['mes'] == 2) & (df['reparticion'] == 'SECR Ciencia, Tecnologia e Innovacion')]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
55,20-26781618-3,2019,2,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,34002.88,238020.15,baja 28/2/2019


### Boolean indexing con query()

La sintaxis que se utiliza para hacer Boolean indexing es un poco repetitiva. Noten que filtrar (aún en su expresión más corta sin loc ni especificar filas o columnas) implica ESCRIBIR DOS VECES el nombre del dataset. Para crear un shortcut, Pandas ofrece la función .query() 



In [None]:
df_cult = df.query('reparticion == "Ministerio de Cultura"')
df_cult.head()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
36,20-25641207-2,2019,2,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,
68,20-25641207-2,2019,3,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,231167.76,0.0,231167.76,
99,20-25641207-2,2019,4,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,0.0,249661.6,
130,20-25641207-2,2019,5,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.6,0.0,249661.6,


También se puede hacer query sobre múltiples condiciones.

In [None]:
df2 = df.query('asignacion_por_cargo_i > 240000 & aguinaldo_ii > 0')

In [None]:
df2.shape

(34, 10)

### Fancy Indexing

Ahora vamos a quedarnos con un subconjunto de columnas del DataFrame.

In [None]:
df_view = df.loc[:,['anio','mes']]

In [None]:
df_view.shape

(385, 2)

Existe una forma menos explícita de hacer esta misma operación. Si pasamos una lista al indexing, pandas asume que el tipo de indexing es loc y que el filtro es sobre las columnas y no las filas:

In [None]:
df_view = df[['anio','mes']]

In [None]:
df_view.shape

(385, 2)

Fíjense lo que pasa si tratamos de acceder a filas utilizando una lista de nombres, en este caso [3,8]. 

In [None]:
# Incorrecto
df_view = df[[3,8]]

KeyError: ignored

Nos da un error porque cuando pasamos únicamente una lista al indexing, pandas asume que queremos un set de columnas y si los nombres no existen, da error. La forma correcta de hacerlo es pasar una lista de índices y explicitar que vamos a indizar con loc y que seleccionamos todas las columnas.

In [None]:
# Correcto
df_view = df.loc[[3,8],:]

In [None]:
df_view

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
8,20-22293873-3,2019,1,MIGUEL,FELIPE OSCAR,Jefatura de Gabinete de Ministros,224516.62,0.0,224516.62,


Podemos utilizar una lista con números para filtrar con el método .iloc

In [None]:
df.iloc[:,[3,8]] #Traigo todas las filas y las columnas 3 y 8

### Ejercicio Titanic sobrevivientes por género
¿Cuántos hombres y mujeres sobrevivieron según los datos del Titanic? 

## Funciones de Agregación

Utilizando Pandas podemos aplicar funciones a nivel de columna. Algunas funciones predefinidas son la media, el desvío estándar y la sumatoria, el valor máximo y el mínimo.

Algunas de las funciones de agregación más comunes son:

<ul>
    <li>min</li>
    <li>max</li>
    <li>count</li>
    <li>sum</li>
    <li>prod</li>
    <li>mean</li>
    <li>median</li>
    <li>mode</li>
    <li>std</li>
    <li>var</li>
</ul>




In [None]:
df['mes'].max()

12

In [None]:
df['asignacion_por_cargo_i'].mean()

234234.3679999999

In [None]:
df['asignacion_por_cargo_i'].std()

35043.16008466176

In [None]:
df['total_salario_bruto_i_+_ii'].sum()

97988834.36000001

Podemos combinar los filtros que vimos antes con las funciones de agregación para responder preguntas cómo ¿Cuál fue en gasto en asignaciones de funcionarios para la Secretaría de Medios 2019? ¿Y para la de Justicia y Seguridad?

In [None]:
df[df['reparticion'] == 'SECR de Medios']['total_salario_bruto_i_+_ii'].sum()

3232402.25

In [None]:
df[df['reparticion'] == 'SECR Justicia y Seguridad']['total_salario_bruto_i_+_ii'].sum()

3029551.7300000004

Ahora respondamos algunas preguntas: ¿Quién o quiénes del dataset cobran el salario más alto? ¿Y el más bajo?

In [None]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].max()]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
374,20-13872301-2,2019,12,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,275089.75,170855.56,445945.31,


In [None]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].min()]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
344,27-30744939-6,2019,12,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,74991.86,110404.68,185396.54,baja al 9/12
348,20-22709722-2,2019,12,LOPEZ,MATIAS,SECR Desarrollo Ciudadano,74991.86,110404.68,185396.54,baja al 9/12
354,20-20008464-1,2019,12,GIUSTI,JOSE LUIS,UPE Transferencia de Funciones y Facultades en...,74991.86,110404.68,185396.54,baja al 9/12
358,20-31164337-2,2019,12,DI BENEDETTO,FEDERICO,SS Comunicacion,74991.86,110404.68,185396.54,baja al 9/12
360,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SS Contenidos,74991.86,110404.68,185396.54,baja al 9/12
362,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,74991.86,110404.68,185396.54,baja al 9/12


## Otros análisis descriptivos

Pandas viene con algunas funciones built-in para ayudar al análisis descriptivo.



### Para las variables numéricas

In [None]:
df.describe()

Unnamed: 0,anio,mes,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii
count,385.0,385.0,385.0,385.0,385.0
mean,2019.0,6.631169,234234.368,20282.084883,254516.452883
std,0.0,3.539077,35043.160085,45248.840725,51434.98787
min,2019.0,1.0,74991.86,0.0,185396.54
25%,2019.0,4.0,224516.62,0.0,224516.62
50%,2019.0,7.0,239470.36,0.0,245811.62
75%,2019.0,10.0,249972.87,0.0,263531.98
max,2019.0,12.0,275089.75,170855.56,445945.31


### Para las variables categóricas


In [None]:
df['reparticion'].unique()

In [None]:
df['reparticion'].value_counts()

SECR Desarrollo Ciudadano                                         13
Ministerio de Salud                                               13
SECR Justicia y Seguridad                                         13
SECR de Medios                                                    13
Jefe de Gobierno                                                  12
SECR Legal y Técnica                                              12
SS Contenidos                                                     12
Ente de Turismo Ley Nº 2627                                       12
Consejo de los Derechos de Niñas, Niños y Adoles - Presidencia    12
Vicejefatura de Gobierno                                          12
UPE Transferencia de Funciones y Facultades en Materia de Seg.    12
SECR Administración de Seguridad y Emergencias                    12
SECR Integración Social y Urbana                                  12
SECR Integración Social Para Personas Mayores                     12
SECR Planificación, Evaluación y C

### Ejercicios Tiranic promedios

1) ¿Cuál era la edad promedio de los pasajeros de cada clase (Pclass)?

2) ¿Cuál fue la tarifa que pagaron en promedio los hombres? ¿Y las mujeres?


## Ordenar por columnas y limitar la cantidad de resultados

Otra forma de resolver el problema de encontrar el mayor y el menos es con el método sort_values. Este método puede recibir un valor único (nombre de columna) o una lista (con varias columnas) y un orden asc o desc. Por default el orden es asc.

Si combinamos el ordenamiento con el método head() para limitar la cantidad de resultados, podemos encontrar los N primeros. 

In [None]:
# Recordemos cómo abrir la documentación de un método
df.sort_values?

In [None]:
# Calculamos el máximo
df.sort_values('total_salario_bruto_i_+_ii',ascending=False).head(1)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
374,20-13872301-2,2019,12,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,275089.75,170855.56,445945.31,


In [None]:
# Calculamos el mínimo
df.sort_values('total_salario_bruto_i_+_ii').head(1)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
344,27-30744939-6,2019,12,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,74991.86,110404.68,185396.54,baja al 9/12
