# Visualización y análisis exploratorio
En este notebook aprenderemos a crear visualizaciones a partir de los datos y a inferir

## Dataset
Para revisar este tema, utilizaremos el dfset del Indice de Desempeño Académico (API) de todas las escuelas de California, basado en el test estandarizado de estudiantes. Este dfset contiene información de todas las escuelas con al menos 100 estudiantes. El formato es el siguiente.

Format </br>
The full population df in apipop are a df frame with 6194 observations on the following 37 variables.
- cds: Unique identifier
- stype: Elementary/Middle/High School
- name: School name (15 characters)
- sname: School name (40 characters)
- snum: School number
- dname: District name
- dnum: District number
- cname: County name
- cnum: County number
- flag: reason for missing df
- pcttest: percentage of students tested
- api00: API in 2000
- api99: API in 1999
- target: target for change in API
- growth: Change in API
- sch.wide: Met school-wide growth target?
- comp.imp: Met Comparable Improvement target
- both: Met both targets
- awards: Eligible for awards program
- meals: Percentage of students eligible for subsidized meals
- ell: `English Language Learners' (percent)
- yr.rnd: Year-round school
- mobility: percentage of students for whom this is the first year at the school
- acs.k3: average class size years K-3
- acs.46: average class size years 4-6
- acs.core: Number of core academic courses
- pct.resp: percent where parental education level is known
- not.hsg: percent parents not high-school graduates
- hsg: percent parents who are high-school graduates
- some.col: percent parents with some college
- col.grad: percent parents with college degree
- grad.sch: percent parents with postgraduate education
- avg.ed: average parental education level
- full: percent fully qualified teachers
- emer: percent teachers with emergency qualifications
- enroll: number of students enrolled
- api.stu: number of students tested.

In [None]:
%matplotlib inline

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime 


In [None]:
sns.set()

In [None]:
df = pd.read_excel("apipop.xlsx")

In [None]:
df.columns = [x.replace(".","_") for x in df.columns]

In [None]:
df.loc[:,"avg_ed"] =df.loc[:,"avg_ed"].fillna(0)

In [None]:
# Reemplazar valores datetime en columna avg_ed
filter_datetimes = lambda x: isinstance(x,datetime.datetime)
idx_filter_dtypes = df.loc[:,"avg_ed"].apply(filter_datetimes)
df.loc[idx_filter_dtypes,"avg_ed"]=0
df.loc[:,"avg_ed"] = df.loc[:,"avg_ed"].astype(float)

In [None]:
# Llenar la columna flag con 0s
df.loc[:,"flag"]=0

## Separación del dataframe según tipos de datos

**Ejercicio:**
1. Separa el dataframe en 2, un dataframe sólo con datos numéricos y otro sólo con datos categóricos (strings)

In [None]:
df.dtypes

In [None]:
NUMERICAL_TYPES = [np.float64,"int64"]
# Escribe tu código acá
num_df = df.select_dtypes("number")
cat_df = df.select_dtypes("object")


In [None]:
num_df

In [None]:
cat_df

## Variables numéricas

### Matriz de correlación
El coeficiente de correlación nos índica si existe una fuerte relación lineal entre dos variables

In [None]:
fig = plt.figure(figsize=(15,15))
ax= plt.gca()
sns.heatmap(num_df.corr(),ax=ax)


**Ejercicio:** </br>
2. Indica cual es par de variables más correlacionadas y cuál es el par de variables menos correlacionadas </br>
*Escribe tu respuesta aquí:* </br>

### Plot de pares

In [None]:
sns.pairplot(pd.concat([num_df.iloc[:,list(range(0,4))],cat_df.loc[:,"awards"]],axis=1), hue="awards")

**Ejercicio:** </br>
3. A simple vista cuáles son las variables que mejor dividen los puntos del dataset según la column 'awards' </br>
*Escribe tu respuesta aquí:*

### Plotear valuores nulos

**Ejercicio:** </br>
4. Usando el heatmap de seaborn, plotea la ocurrencia de valores nulos en el dataset

In [None]:
# Escribe tu código aquí


In [None]:
num_df.acs_core.isnull().sum()

### Plot de distribuciones

Con un plot de distribución podemos saber con que frecuencia los datos caen en un determinado rango de valores. También nos permiten evaluar valores atípicos o outliers

In [None]:
fig = plt.figure(figsize=(15,15))
ax =plt.gca()
num_df.hist(ax=ax,bins=20)

**Ejercicio:** </br>
5. Cuáles son las variables con más valores atípicos? Cuáles son las variables más sesgadas?</br>
*Escrbe tu respuesta aquí:* </br>

**Ejercicio:** </br>
6. Aplica la transformación logarítmica a todas las columnas y describe que ha pasado </br>
*Escribe tu respuesta aquí:*</br>

In [None]:
# Escribe tu código aquí


### Remoción de valores atípicos
En muchas aplicaciones es importante remover valores atípicos, para esto comúnmente se usa la regla del rango intercuartil. El rango intercuartil o IQR es la diferencia entre el tercer y primer quartil. La regla dice que si un valor es menor al primer cuartil menos 1.5 veces el IQR o mayor al tercer quartil más 1.5 veces el IQR, entonces es muy posible que sea un valor atípico.

**Ejercicio:**</br>
7. Usando la función quantile calcula el IQR para cada columna y luego remueve los valores atipicos de cada una usando la regla del IQR. Finalmente plotea los histogramas y describe como han cambiado. </br>
*Escribe tu respuesta aquí:*

In [None]:
# Escribe tu código aquí


### Boxplots

In [None]:
from sklearn.preprocessing import scale
fig = plt.figure(figsize=(15,15))
ax =plt.gca()
pd.DataFrame(scale(num_df),columns=num_df.columns).boxplot(ax=ax)

**Ejecicio:** </br>
7.5 Haz boxplots de la variable target agrupada por condado (cname) para los condados de Los Angeles, San Diego y Alameda .Tendrás que concantenar num_df con la columna cat_df["cname"] usando la función pd.concat(...,axis=1)

In [None]:
# Escribe tu código aquí


## Variables categóricas

### Prevalencia en el dataset

In [None]:
cat_df.columns

In [None]:
fig = plt.figure(figsize=(15,15))
ax =plt.gca()
cat_df.loc[:,"stype"].value_counts().plot.pie(subplots=True,legend=True,ax=ax)

**Ejercicio:** </br>
8. Cree pie plots para la variable cname

In [None]:
# Escribe tu código aquí


### Plot de barras agrupadas

In [None]:
fig = plt.figure(figsize=(30,30))
ax =plt.gca()
cat_df.groupby(["cname"]).stype.value_counts().unstack().plot.barh(ax=ax)

**Ejercicio:** </br>
9. Crea un plot de barras agrupadas para la variable awards agrupada por cname. El gráfico debe mostrar el número de escuelas aceptadas y no aceptadas para awards de cada condado </br>

In [None]:
#Escribe tu código aquí


## Plot de pies agrupados

In [None]:
fig = plt.figure(figsize=(30,30))
ax =plt.gca()
cat_df.loc[cat_df["cname"].isin(["Yolo","Colusa","Alameda"])].groupby(["cname"]).stype.value_counts().unstack(0).plot.pie(subplots=True,ax=ax)