<center>
<h4>Universidad Nacional de Córdoba - Facultad de Matemática, Astronomía, Física y Computación</h4>
<h3>Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones</h3>
</center>

# Funciones avanzadas en pandas (pero muy útiles)

En esta notebook vamos a ver ejemplos de datos en formato long y en formato wide, y cómo transformarlos de uno al otro. 

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy
import pandas
import seaborn

In [2]:
# Con esto hacemos los gráficos más grandes, adecuados para las presentaciones.
seaborn.set_context(context='talk', font_scale=1.2)

In [3]:
## TODO: Cambiar la dirección del conjunto de datos de acuerdo a dónde lo guardaron
dataset = pandas.read_csv(
    '~/Downloads/generated_dataset.csv')

In [4]:
dataset.columns = ['timestamp', 'gender', 'age', 'zodiac_sign', 'profession', 'junior_programmer_salary', 'senior_programmer_salary']

In [5]:
dataset

Unnamed: 0,timestamp,gender,age,zodiac_sign,profession,junior_programmer_salary,senior_programmer_salary
0,0,Prefiero no decirlo,23,Cáncer,Ingeniero,27000,149000
1,1,Mujer,17,Virgo,Contadora,28000,74000
2,2,Varon,37,Tauro,Físico,22000,75000
3,3,Varon,23,Sagitario,Ingeniero,34000,127000
4,4,Varon,60,Picis,Contador,29000,84000
...,...,...,...,...,...,...,...
95,95,Varon,23,Géminis,Física,52000,68000
96,96,Varon,53,Géminis,Programador,20000,52000
97,97,Varon,63,Capricornio,Física,33000,48000
98,98,Varon,35,Libra,Matemático,34000,76000


## Group by

Los tipos de gráficos que hemos visto calculan estimadores para grupos de valores automáticamente. Por ejemplo, si realizamon un gráfico de barra con el parámetro `hue='gender'`, se calcula la media por cada uno de los valores de `gender`, y luego se dibuja cada barra utilizando ese valor.

En pandas se puede realizar la misma operación explícitamente a través de un *agrupado* de datos, usando la función `groupby`, y subsecuentemente un *agregado* de los datos en cada uno de los grupos. Las funciones de agregado son muy variadas: `sum`, `count`, `mean` e incluso nuevas funciones definidas por el usuario. Veamos un ejemplo.

In [7]:
dataset.groupby(["gender", "zodiac_sign", "profession"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,timestamp,age,junior_programmer_salary,senior_programmer_salary
gender,zodiac_sign,profession,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Mujer,Acuario,Economista,82.0,18.0,31000.0,70000.0
Mujer,Aries,Economista,59.0,38.0,42000.0,101000.0
Mujer,Aries,Estudiante,52.0,30.0,46000.0,126000.0
Mujer,Capricornio,Programador,87.0,46.0,36000.0,70000.0
Mujer,Cáncer,Contador,9.0,62.0,46000.0,134000.0
...,...,...,...,...,...,...
Varon,Tauro,Profesor,15.0,19.0,37000.0,52000.0
Varon,Virgo,Contador,81.0,27.0,41000.0,112000.0
Varon,Virgo,Física,78.0,42.0,39000.0,93000.0
Varon,Virgo,Profesor,34.0,30.0,52000.0,93000.0


Vemos que las columnas que utilizamos para agrupar ahora son parte del índice, y que todas las columnas restantes fueron agregadas.

## Ejercicio 1

Agrupen los valores por género y agréngenlos usando la función `median`. Luego, utilicen esos datos para hacer un gráfico de barras que compare las medias de distintos grupos. Pista: usen la función `reset_index` para trabajar más cómodamente con los datos.

## Formatos long y wide

El tipo de formato de un dataset puede ser `long` o `wide`. Esto hace referencia a la forma que toma para representar la misma información: en el caso de `wide`, el dataset tiene muchas columnas, y en el caso de `long` tiene muchas filas.

En nuestro dataset, luego de agrupar los datos nos queda un formato long. Tomemos un ejemplo:

In [15]:
long_dataset = dataset.groupby(["gender", "zodiac_sign"]).mean()[
    ['junior_programmer_salary', 'senior_programmer_salary']]
long_dataset

Unnamed: 0_level_0,Unnamed: 1_level_0,junior_programmer_salary,senior_programmer_salary
gender,zodiac_sign,Unnamed: 2_level_1,Unnamed: 3_level_1
Mujer,Acuario,31000.0,70000.0
Mujer,Aries,44000.0,113500.0
Mujer,Capricornio,36000.0,70000.0
Mujer,Cáncer,46000.0,134000.0
Mujer,Escorpio,31666.666667,77666.666667
Mujer,Géminis,35666.666667,56000.0
Mujer,Leo,37400.0,89800.0
Mujer,Picis,34666.666667,125000.0
Mujer,Sagitario,35250.0,76000.0
Mujer,Tauro,35000.0,90000.0


En este caso, tenemos una fila por cada valor de `zodiac_sign`, pero podríamos crear una columna distinta para cada signo, y utilizar el valor de la estimación de salario para rellenar la celda correspondiente. En pandas, esta operación se realiza con la función `pivot`. Notar que debemos elegir aquí si quedarnos con la columna de las estimaciones para junior o para senior, no podemos elegir ambas.

In [17]:
wide_dataset = long_dataset.reset_index().pivot(index='gender', columns='zodiac_sign',
                                                values='junior_programmer_salary')
wide_dataset

zodiac_sign,Acuario,Aries,Capricornio,Cáncer,Escorpio,Géminis,Leo,Libra,Picis,Sagitario,Tauro,Virgo
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Mujer,31000.0,44000.0,36000.0,46000.0,31666.666667,35666.666667,37400.0,,34666.666667,35250.0,35000.0,34250.0
Prefiero no decirlo,,40000.0,,27000.0,,,,,,,,37500.0
Varon,31333.333333,37875.0,34750.0,39000.0,30200.0,32666.666667,32833.333333,32428.571429,34000.0,42666.666667,36250.0,37750.0


Por otra parte, las estimaciones de salario se podrían considerar en formato `wide`. Para usar el formato long, tendríamos que tener una única columna `estimation`, y otra que nos describa el tipo de la estimación (junior o senior). Esto se logra en pandas con la función `melt`.

In [20]:
pandas.melt(long_dataset.reset_index(), id_vars=['gender', 'zodiac_sign'],
            value_vars=['junior_programmer_salary', 'senior_programmer_salary'],
            var_name='estimation_type', value_name='estimation')

Unnamed: 0,gender,zodiac_sign,estimation_type,estimation
0,Mujer,Acuario,junior_programmer_salary,31000.0
1,Mujer,Aries,junior_programmer_salary,44000.0
2,Mujer,Capricornio,junior_programmer_salary,36000.0
3,Mujer,Cáncer,junior_programmer_salary,46000.0
4,Mujer,Escorpio,junior_programmer_salary,31666.666667
5,Mujer,Géminis,junior_programmer_salary,35666.666667
6,Mujer,Leo,junior_programmer_salary,37400.0
7,Mujer,Picis,junior_programmer_salary,34666.666667
8,Mujer,Sagitario,junior_programmer_salary,35250.0
9,Mujer,Tauro,junior_programmer_salary,35000.0


Esto es importante porque las herramientas de visualización como seaborn utilizan el formato `long`. Ahora podemos realizar con un solo comando un gráfico de barras que compare las estimaciones para junior y senior utilizando el parámetro `hue='estimation_type'`.

## Ejercicio 2

Realizar dicho gráfico de barras.

## Ejercicio 3

Utilizar la función `melt` junto con la función `cut` para comparar en un gráfico de línea las estimaciones de distintos grupos etáreos para seniors y juniors.