# Visualización con *salary.csv*

El dataset *salary.csv* contiene salarios de profesores universitarios de una universidad de Estados Unidos. Nos han solicitado analizar gráficamente el dataset y detectar discrepancias de ingresos entre grupos distintos.

### Importamos los paquetes requeridos 

In [None]:
# Paquetes numéricos y estadísticos
import numpy as np
import scipy.stats as stats

# Pandas maneja la carga y manipulación del dataset
import pandas as pd

# Funciones de plotting
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar matplotlib para que se muestre en la notebook (sin necesidad de usar plt.show())
%matplotlib inline

### Cargamos los datos

In [None]:
# Cargá el dataset con pandas (ver práctica guiada)
salary = pd.read_csv('salary.csv')

In [None]:
# Chequeá las primeras líneas del dataset
salary.head()

* ¿El nombre de las columnas es suficientemente claro? 

In [None]:
# Imprimí la lista de nombres de columnas
salary.columns

In [None]:
# Empleá el el comando .info() para caracterizar los datos del dataframe
salary.info()

Como conocemos al información de antemano, podemos renombar las columnas para evitar malos entendidos a posteriori. El código para esto es:

```salary.columns = ['gender', 'professor_rank', 'years_in_job', 'degree_level', 'years_since_degree', 'yearly_salary']```

In [None]:
# Renombrá los títulos de columnas según la lista de arriba


In [None]:
# Usá .head() para chequear el cambio


#### Describa brevemente el dataset
¿Qué información contiene? 

¿Cuántos casos? 

¿Qué tipo de datos posee?



### Ploteo exploratorio de los datos

#### Scatter plot de 'antigüedad en el puesto de trabajo' y 'salario anual'

In [None]:
# Construí un subset con los datos que registran variables de interés
years_in_job = salary.years_in_job.values
yearly_salary = salary.yearly_salary.values

In [None]:
# Chequeá qué forma tienen estos datos
years_in_job, yearly_salary

In [None]:
# Corrobá documentación y opciones de ploteo 
plt.plot?

In [None]:
# Visualizamos las dos series que creamos arriba en un scatter plot con estrellitas azules


* ¿Consideras adecuado el tamaño de la imagen? ¿Y el tipo o el color del marcador?
* Recordá que si colocás *;* al final de la sentencia, dejás que sólo se muestre la imagen

In [None]:
# Buscá opciones de visualización de esta imagen
plt.figure?

In [None]:
# Agrandá la imagen y modificá los marcadores, elegí la forma y el color que prefieras


In [None]:
# Indagá sobre opciones de leyendas y etiquetas
plt.xlabel?
#plt.title?

In [None]:
# Replicá el gráfico anterior, incluyendo nombres de los ejes y título al gráfico

# Aumentamos el tamaño de los puntos

# Nombre eje x

# Nombre eje y

# Título del gráfico


#### Ahora exploremos alternativas con el comando sns.jointplot()

In [None]:
# Mirá el comando jointplot de seaborn
sns.jointplot?

In [None]:
# Ploteá las dos variables de interés con sus respectivos histogramas


In [None]:
# Es posible incluir una regresión lineal entre ambas variables y su distribución conjunta
# Identificá qué opciones permite el argumento 'kind' del método joinplot() al respecto


Aquí hemos trabajado con todos los datos de forma conjunta... pero esto no sería de gran ayuda si, por ejemplo, necesitáramos analizar las diferencias salariales por género o puesto de trabajo.

#### ¿Sabes que podemos visualizar *todas* las variables de forma conjunta, identificando relaciones por pares?
Para ello, aprendamos sobre sns.pairplot()

In [None]:
# Veamos de qué se trata el pairplot de seaborn
sns.pairplot?

In [None]:
# Usemos un paneo global de las variables


Hemos perdido nuestras variables de interés... de las 6 columnas existentes en 'salary', sólo fue posible graficar 3, ¿por qué? ¿qué tipo de dato contienen estas variables? ¿y las omitidas?

### Retomemos nuestro análisis... 

### Ploteo desagregado por categorías

In [None]:
# Definí un subset de nuestro dataset
subset = salary[['gender','professor_rank','years_in_job','yearly_salary']] # pido columnas dentro del corchete
subset.head()

#### Box plots

In [None]:
# Analicemos la distribución de la variable 'ingresos anuales' por género con un boxplot
# PISTA: consideremos la variable 'gender' como nuestras 'x' y la variable 'yearly_salary' como nuestras 'y'


In [None]:
# De modo análogo, analicemos la distribución de la variable 'ingresos anuales' según el puesto del 'professor_rank'


A primera visata, será ncesario profundizar nuestro entendimiento sobre las diferencias salariales entre las categorías de 'gender' y 'professor_rank'. Para ello, nos sería de suma utilidad discriminar categorías por forma o color para plotearlas conjuntamente y, a la vez, identificar subgrupos.

Veamos cuán factible es combinar ambas variables categóricas...

#### Gráfico de barras

In [None]:
# Complementariamente, esta información se puede presentar en un gráfico de barras


* ¿La media per se refleja la heterogeneidad de cada subgrupo?

Para acceder a los valores de la columna podemos usar distintas opciones:

* ```salary.gender.values```

* ```salary[['gender']].values```

In [None]:
# Construimos variables que nos permitan realizar la desagregación deseada
gender = salary.gender.values
rank = salary.professor_rank.values

# Identificamos las categorías de cada variable, llamando una única vez a cada categoría
gender_values = np.unique(gender)
rank_values = np.unique(rank)

print("Valores de Gender: ", gender_values)
print("Valores de Rank: ", rank_values)

* ¿Que se observa respecto de la cantidad de observaciones desagregada por categoría? ¿Y respecto de la brecha de ingresos?

#### Hay una funciòn que nos permite graficar estas categorías de forma separada: sns.FacetGrid()

In [None]:
# veamos de qué se trata el FacetGrid de seaborn
sns.FacetGrid?

In [None]:
# con FACETGRID podemos plotear todas las combinaciones posibles a partir de las categorías de nuestras variables


#### Scatter plot combinado

In [None]:
plt.style.use('fivethirtyeight')
fig = plt.figure(figsize=(12,8))
axes = fig.gca()

# a partir de las nuevas variables, generamos un loop
for g in gender_values:
    if g == 'female':
        color = 'darkred'
    elif g == 'male':
        color = 'steelblue'
        
    for r in rank_values:        
        if r == 'full':
            # Representa el punto como un '+'
            point_marker = '+'
        elif r == 'associate':
            # Representa el punto como un cuadrado ('s' de square en inglés)
            point_marker = 's'
        elif r == 'assistant':
            # Representa el punto como un triangulo con punta hacia arriba
            point_marker = '^'
            
        current_years = [y for y, g_, r_ in zip(years_in_job, gender, rank) if g_ == g and r_ == r]
        current_salaries = [s for s, g_, r_ in zip(yearly_salary, gender, rank) if g_ == g and r_ == r]

        axes.scatter(current_years, current_salaries, c=color, marker=point_marker, s=150,
                     label=' '.join([r, g]))

axes.set_title('Antigüedad vs Salario', fontsize=20)
axes.set_xlabel('Antigüedad en el puesto de trabajo', fontsize=16)
axes.set_ylabel('Salario anual', fontsize=16)

handles, labels = plt.gca().get_legend_handles_labels()
by_label = {l:h for l, h in zip(labels, handles)}
plt.legend(by_label.values(), by_label.keys(), loc = 'center right', fontsize=12);