<a href="https://colab.research.google.com/github/mateosuster/pythonungs/blob/master/codigos/pandas/Practica_2_2_Pandas_Indexing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Indexación y Agregación 

Tabla de Contenidos

    I. Índices
    II. Exploración
        I. Filtrando un DataFrame (Indexing)
            I. Boolean Indexing
                I. Máscara booleana
                II. Máscara booleana con muchas condiciones
            II. Boolean indexing con query()
            III. Fancy Indexing
        II. Funciones de Agregación
    IV. Otros análisis descriptivos
        III. Ordenar por columnas y limitar la cantidad de resultados
    V. Anexo: volviendo al tema de la vectorización

## Índices

Los índices acompañan a las series y a los Data Frames. Son conjuntos ordenados e inmutables de elementos. Volvamos a levantar el dataset de salarios de funcionarios como ejemplo.

In [None]:
# Siempre al principio, importamos las librerías.
import numpy as np 
import pandas as pd

df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

In [None]:
df.index

In [None]:
df.shape

In [None]:
df.columns

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

In [None]:
ind[1] = 0

### Ejercicio Titanic exploratorio
Exploren el dataset público del Titanic que se encuentra en la carpeta de Drive (también presente en la siguiente [url](https://drive.google.com/uc?export=download&id=1gx8PkHLMIPJQtsETT8yRV4C9UfgmKqV4)). ¿De qué se trata? ¿Cuántas filas tiene? ¿Cuántas columnas? Al leerlo, pueden almacenarlo en la variable df_titanic. 

## Filtrando un DataFrame (Indexing)

Hay muchas técnicas para filtrar un DataFrame. Podemos querer filtrar por columnas o por filas, por posición o por nombre. También podemos querer filtrar por condiciones que se cumplen o no. Cuando no queremos filtrar sobre una dimensión (filas o columnas) usamos ":" para seleccionar todo.

Existe un método muy práctico con el cual podemos acceder a filas y columnas que se realiza mediante las instrucciones **`.iloc[]`** (utilizando el número de índice/posición) o usando **`.loc[]`** (mediante el nombre del índice o columna).



```
#con .iloc (selección implícita)
NombreDataFrame.iloc[numero_filas, numero_columnas]

#con .loc (selección explícita)
NombreDataFrame.loc[nombre_indice, nombre_columnas]
```

![](https://c8j9w8r3.rocketcdn.me/wp-content/uploads/2016/10/Pandas-selections-and-indexing.png)

En resumen, el acceso a los datos de un DataFrame se puede hacer a través de posiciones o través de los nombres de las filas y columnas.

*Accesos mediante posiciones*

* df.iloc[i, j] : Devuelve el elemento que se encuentra en la fila i y la columna j del DataFrame df. Pueden indicarse secuencias de índices para obtener partes del DataFrame.
* df.iloc[filas, columnas] : Devuelve un DataFrame con los elementos de las filas de la lista filas y de las columnas de la lista columnas.
* df.iloc[i] : Devuelve una serie con los elementos de la fila i del DataFrame df.

*Acceso a los elementos mediante nombres*

* df.loc[fila, columna] : Devuelve el elemento que se encuentra en la fila con nombre fila y la columna de con nombre columna del DataFrame df.
* df.loc[filas, columnas] : Devuelve un DataFrame con los elemento que se encuentra en las filas con los nombres de la lista filas y las columnas con los nombres de la lista columnas del DataFrame df.
* df[columna] : Devuelve una serie con los elementos de la columna de nombre columna del DataFrame df.
* df.columna : Devuelve una serie con los elementos de la columna de nombre columna del DataFrame df. Es similar al método anterior pero sólo funciona cuando el nombre de la columna no tiene espacios en blanco.

Como vemos, cuando realizamos una selección de atributos sin especificar el método (loc o iloc), pandas asume que el tipo de indexing es loc y que el filtro es sobre las columnas y no las filas

In [None]:
df['funcionario_apellido']

In [None]:
df.funcionario_apellido

In [None]:
df.loc[1, 'funcionario_apellido']

In [None]:
df.iloc[0]

In [None]:
df.iloc[0,0]

### Boolean Indexing

Supongamos que queremos tomar el dataset de funcionarios y quedarnos únicamente con los que pertenecen al Ministerio de Cultura.
Para eso lo que hacemos es indexar al DataFrame por una condición booleana. Eso implica que debemos crear una serie compuesta por valores True y False para aplicarla como índice a las filas.

Los operadores que sirven para evaluar condiciones sobre las series son:


| S  | Descripción   | S  | Descripción   |   |
|----|---------------|----|---------------|---|
| >= | Mayor o Igual | <= | Menor o Igual |   |
| == | Igual         | != | Distinto      |   |
| >  | Mayor         | <  | Menor         |   |

#### Máscara booleana

Veamos lo que pasa cuando le aplicamos a una serie una condición que devuelve un booleano

In [None]:
df['mes'] != 2

Nos devuelve una serie de la misma longitud que la original y que contiene sólo valores True o False. 

In [None]:
mascara_booleana = df['mes'] != 2

In [None]:
type(mascara_booleana)

In [None]:
mascara_booleana.shape

In [None]:
mascara_booleana.dtype

Ahora seleccionemos entonces, los registros que corresponden al Ministerio de Cultura.

In [None]:
df_min_cul = df.loc[df['reparticion'] == 'Ministerio de Cultura',:]

In [None]:
# Veamos la cantidad de casos
df_min_cul.shape

Algo que puede llegar a confundir sobre el Indexing en Pandas es que en algunos casos se puede ser menos explícito a la hora de filtrar. Por ejemplo si ponemos una condición Booleana, pandas asume que el tipo de indexing es loc y que el filtro es sobre las filas y no sobre las columnas. Veamos un ejemplo con el mismo resultado:


In [None]:
#mismo resultado, pero sin .loc
df_min_cul = df[df['reparticion'] == 'Ministerio de Cultura']
df_min_cul.shape

Probemos con otra condición.

### Ejercicio sueldos mitad de año

Traer todos los sueldos de la segunda mitad del año...

### Ejercicio Titanic sobrevientes
Volviendo al DataFrame del Titanic ¿Cuántos pasajeros sobrevivieron y cuántos no? ¿Cuántos eran mayores de 70 años?

#### Máscara booleana con muchas condiciones

Ahora tratemos de filtrar el dataset por dos condiciones: por ejemplo tomar los sueldos de abril de la secretaria de innovación. 
Para eso tenemos que combinar dos máscaras booleanas con una condición.

| S | Descripcion        | S  | Descripcion |   |
|---|--------------------|----|-------------|---|
| & | AND (y)            | \| | OR (o)      |   |
| ^ | XOR (o exclusivo)  | ~  | NOT (no)    |   |



Por ejemplo: seleccionemos los casos donde o bien se haya cobrado aguinaldo o bien el salario total haya sido mayor que 240.000, pero no las dos cosas. 


In [None]:
df[(df['total_salario_bruto_i_+_ii'] > 240000) ^ (df['aguinaldo_ii'] > 0)]

Ahora veamos los sueldos de febrero de la SECR Ciencia, Tecnologia e Innovacion.

In [None]:
df[(df['mes'] == 2) & (df['reparticion'] == 'SECR Ciencia, Tecnologia e Innovacion')]

### Boolean indexing con query()

La sintaxis que se utiliza para hacer Boolean indexing es un poco repetitiva. Noten que filtrar (aún en su expresión más corta sin loc ni especificar filas o columnas) implica ESCRIBIR DOS VECES el nombre del dataset. Para crear un shortcut, Pandas ofrece la función *.query()* 



In [None]:
df_cult = df.query('reparticion == "Ministerio de Cultura"')
df_cult.head()

También se puede hacer query sobre múltiples condiciones.

In [None]:
df2 = df.query('asignacion_por_cargo_i > 240000 & aguinaldo_ii > 0')

In [None]:
df2.shape

### Ejercicio: Piensen cómo traducir a la sintaxis de query, estas consultas que ya hicimos:

In [None]:
# df_sem2 = df[df['mes'] > 6]


In [None]:
# df[(df['mes'] == 2) & (df['reparticion'] == 'SECR Ciencia, Tecnologia e Innovacion')]


### Fancy Indexing

Ahora vamos a quedarnos con un subconjunto de columnas del DataFrame.

In [None]:
df_view = df.loc[:,['anio','mes']]

In [None]:
df_view.shape

Como mencionamos anteriormente, existe una forma menos explícita de hacer esta misma operación. Si pasamos una lista al indexing, pandas asume que el tipo de indexing es loc y que el filtro es sobre las columnas y no las filas:

In [None]:
df_view = df[['anio','mes']]

In [None]:
df_view.shape

Fíjense lo que pasa si tratamos de pasar la lista `[3,8]` al indexing. 

In [None]:
# Incorrecto
df_view = df[[3,8]]

Nos da un error porque cuando pasamos únicamente una lista al indexing, pandas asume que queremos un set de columnas y si los nombres no existen, da error. La forma correcta de hacerlo es pasar una lista de índices y explicitar qué es lo que vamos a indizar con loc o iloc (según lo que necesitemos).

In [None]:
# Correcto
df_view = df.loc[[3,8],:]  #Traigo las filas 3 y 8 y todas las columnas

In [None]:
df_view

Podemos utilizar una lista con números para filtrar con el método .iloc

In [None]:
# También correcto
df.iloc[:,[3,8]] #Traigo todas las filas y las columnas 3 y 8

### Ejercicio Titanic (otra vez)

Volviendo al ejemplo del titanic...

1) ¿Cuántos hombres y mujeres sobrevivieron? 

2) ¿Cuántos menores de 18 años había? ¿Cuántos sobrevivieron?

3) Seleccionen únicamente las columnas Sex y Survived y almacenenlas en un nuevo DataFrame que se llame df_titanic_subset.


In [None]:
#df_titanic_subset.head()

## Aplicación de funciones de agregación

Utilizando Pandas podemos aplicar funciones a nivel de columna. Algunas funciones predefinidas son la media, el desvío estándar y la sumatoria, el valor máximo y el mínimo.

Algunas de las funciones de agregación más comunes son:

<ul>
    <li>min</li>
    <li>max</li>
    <li>count</li>
    <li>sum</li>
    <li>prod</li>
    <li>mean</li>
    <li>median</li>
    <li>mode</li>
    <li>std</li>
    <li>var</li>
</ul>




In [None]:
df['mes'].max()

In [None]:
df['asignacion_por_cargo_i'].mean()

In [None]:
df['asignacion_por_cargo_i'].std()

In [None]:
df['total_salario_bruto_i_+_ii'].sum()

Podemos aplicar también estas funciones sobre todo el dataset

In [None]:
df.mean()

In [None]:
df.min()

Podemos combinar los filtros que vimos antes con las funciones de agregación para responder preguntas cómo ¿Cuál fue en gasto en asignaciones de funcionarios para la Secretaría de Medios 2019? ¿Y para la de Justicia y Seguridad?

In [None]:
df[df['reparticion'] == 'SECR de Medios']['total_salario_bruto_i_+_ii'].sum()

In [None]:
df[df['reparticion'] == 'SECR Justicia y Seguridad']['total_salario_bruto_i_+_ii'].sum()

Ahora respondamos algunas preguntas: ¿Quién o quiénes del dataset cobran el salario más alto? ¿Y el más bajo?

In [None]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].max()]

In [None]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].min()]

Podemos aplicar una misma función a cada elemento de las Series usando [**apply**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html).

In [None]:
df[['asignacion_por_cargo_i','aguinaldo_ii']].apply(np.log)

Con *apply* podemos aplicar nuestras propias funciones, definidas con nuestro puño y teclado.

In [None]:
def por_cien(x): #un ejemplo sencillo
  return x*100

df.apply(por_cien).head(3)

Con `lambda` podemos definir la función en una sóla linea

In [None]:
df.apply(lambda x: x*100 , axis=0).head(3)

### Ejercicios volviendo al Tiranic edad

1) ¿Cuál era la edad promedio de los pasajeros de cada clase (Pclass)?

2) ¿Cuál fue la tarifa que pagaron en promedio los hombres? ¿Y las mujeres?

3) ¿Cuánto pagaron en total los pasajeros de primera clase para subir al Titanic? ¿Y los de tercera?

4) ¿Cuántos pasajeros había en cada tipo de clase?



## Ordenar por columnas y limitar la cantidad de resultados

Otra forma de resolver el problema de encontrar el mayor y el menos es con el método sort_values. Este método puede recibir un valor único (nombre de columna) o una lista (con varias columnas) y un orden asc o desc. Por default el orden es asc.

Si combinamos el ordenamiento con el método head() para limitar la cantidad de resultados, podemos encontrar los N primeros. 

In [None]:
# Recordemos cómo abrir la documentación de un método
df.sort_values?

In [None]:
# Calculamos el máximo
df.sort_values('total_salario_bruto_i_+_ii',ascending=False).head(1)

In [None]:
# Calculamos el mínimo
df.sort_values('total_salario_bruto_i_+_ii').head(1)

## Anexo: volviendo al tema de la vectorización

¿Por qué es tan importante trabajar con Pandas y no con funciones escritas por nosotros en Python nativo y que procesen los datos dentro de un for loop?

Por un lado está la comodidad. Hay mucha funcionalidad que ya está desarrollada en Pandas. Existen funciones que resuelven muchos de los problemas clásicos de manipular datos: agrupar, sumarizar, sacar estadísticas, filtrar, etc. Pero además hay una razón de performance. 

Veamos una demostración de que vectorizar es más eficiente. Vamos a crear dos listas de 1.000.000 de números aleatorios cada una y vamos a tratar de multiplicar elemento por elemento con pandas y sin pandas:



In [None]:
lista1 = list(np.random.randint(1, 100, 1000000))
lista2 = list(np.random.randint(1, 100, 1000000))

In [None]:
%%timeit 
for x,y in zip(lista1,lista2):
    x * y

Ahora probemos hacer lo mismo con dos series de Pandas

In [None]:
serie1 = pd.Series(lista1)
serie2 = pd.Series(lista2)

In [None]:
%%timeit 
resultado = serie1 * serie2

Conclusión: la operación vectorizada es <strong> más de 70 veces más rápida.</strong>