<a href="https://colab.research.google.com/github/joaquinmenendez/JIS-2020/blob/main/Curso_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  Exploración y visualización de datos en Python
Docentes a cargo: [Joaquín Menéndez](https://www.linkedin.com/in/joaquin-menendez/)

Tanto este curso como el curso `Introducción a Python para ciencia de datos e IA` pueden accederse en el siguiente repositorio [JIS-2020](https://github.com/joaquinmenendez/JIS-2020)

## Temas

1. Introducción a Numpy y Pandas
    - `array`, matrices, `Series` y `DataFrames`
    - Leer archivos  
    - Interactuar con nuestro dataset (indexing, filtering, merge)
2. Análisis Exploratorio de Datos
    - Análisis descriptivo (none values, media, percentiles, outliers) 
    - Plotear los graficos mas comunes (barras, boxplot, lineplot, matrix de correlaciones) 
4. Introducción a la Estadística inferencial
    - Evaluar normalidad de nuestros datos
    - Comparar Hipotesis
    - Regresion Lineal usando `statsmodels`

## Links útiles
- [Anaconda](https://www.anaconda.com/products/individual)
- [Google Colab](https://colab.research.google.com/)
- [2 meses grátis de Datacamp](https://docs.microsoft.com/en-us/visualstudio/subscriptions/vs-datacamp)
- [StackOverflow](https://stackoverflow.com/)
- [Python (documentación)](https://python-reference.readthedocs.io/en/latest/index.html#)
- [Slicing](https://python-reference.readthedocs.io/en/latest/docs/brackets/slicing.html)



# ¿Qué es el Análisis Exploratorio de Datos?

Hemos visto en el primer curso algo de Pandas y sus diferentes funciones. En este módulo, indagaremos más acerca de cómo usarlo para realizar un 'Analisis Exploratorio de los Datos' o `EDA` (en ingles, 'Exploratory Data Analysis'). El EDA es un paso previo e imprescindible a la hora de comprender los datos con los que se va a trabajar y altamente recomendable para una correcta metodología de investigación.

El objetivo de este análisis es explorar, describir, resumir y visualizar la naturaleza de los datos recogidos en las variables del proyecto o investigación de interés, mediante la aplicación de técnicas simples de resumen de datos y métodos gráficos sin asumir asunciones para su interpretación. Luego de la `Adquisicion` de los datos, el `EDA` es el tercer paso en todo proyecto de Analisis de Datos. <br>

![Ciclo de vida de los datos](https://www.eduliticas.com/wp-content/uploads/2017/05/pasos-clave-ciclo-analitico.png)

Podemos decir de una manera general que los pasos en la exploración y preprocesamiento de datos son:
1. Identificación de variables y tipos de datos
2. Analizando las métricas básicas
3. Análisis univariante no gráfico
4. Análisis gráfico univariado
5. Análisis bivariado
6. Transformaciones variables
7. Tratamiento de valor perdido
8. Tratamiento de valores atípicos
9. Análisis de correlación
10. Reducción de dimensionalidad

En este curso no vamos a ver en profundidad los puntos `[7,8,10]` dado que ameritan un curso en si mismos y usualmente son herramientas o pasos mas orientados a la creación de modelos estadísticos o de Machine Learning.

## 1. Introducción a Numpy y Pandas

Antes de empezar con el EDA propiamente repasamos las dos principales librerías que usaremos.

### Numpy
**Arrays y Matrices**

La programación gráfica se fundamenta sobre la idea de manipular información almacenada en unas estructuras conocidas como vectores y matrices. En Python (nativo) la única forma de simular estas estructuras es usando listas y lo malo es que son muy limitadas respecto a las funciones matemáticas que permiten. Numpy viene a solucionar esa carencia ofreciéndonos un nuevo tipo de dato llamado array.

Un array es parecido a una lista en Python y de hecho se pueden crear a partir de ellas:

In [None]:
import numpy as np 
from IPython import display
# Vamos a importa la libreria Numpy y vamos a abreviarla para no escribir tanto en el futuro

In [None]:
array = np.array([1,2,3,4,5])
array

In [None]:
# Propiedades importantes de los arrays
print( 'Dimensiones:', array.shape)
print( 'Tipo de datos:', array.dtype)

In [None]:
# Funciones que operan sobre los arrays
print( 'Valor Mínimo', array.min())
print( 'Valor Máximo', array.max())
print( 'Media', array.mean())
print( 'Desvío Standard', array.std())
print( 'Indice que contiene el valor máximo', array.argmax())


In [None]:
array2 = np.array([1,2,3, "cuatro"])
array2.dtype

In [None]:
array2.mean()

Si bien es posible incluir mas de un tipo de data en un Array, esto nos va a impedir realizar ciertas operaciones. Esto es importante para cuando trabajemos con columnas.


**Indexing**

Al igual que en las listas, vamos a poder indexar o "llamar"a un o varios elementos de nuestro array.
La siguiente imagen muestra como "Seleccionabamos" elementos de una lista.<br>
![Slicing](https://user-images.githubusercontent.com/43391630/94975818-dc4ab100-04e0-11eb-85ab-b58939445f1b.png)

Ahora bien, en el caso de los arrays veremos que tenemos una pequeña diferencia. Estos pueden tener la forma de una lista, pero pueden tener dos dimensiones (filas y columnas), hasta las N dimensiones que queramos.<br>
![Indexing](https://user-images.githubusercontent.com/43391630/94975755-a3aad780-04e0-11eb-8eab-37d8e205a888.png)

In [None]:
# Ejemplo de como indexar un array de una dimension
var = np.array([1,2,3,4,5])
var[0], var[-1]

In [None]:
#Como mencionamos anteriormente un array puede tener mas de una diemnsión
matrix_var = np.array([
                       [1,2,3],
                       [4,5,6],
                       [7,8,9]
])
print("Dimensión:", matrix_var.shape)
matrix_var

In [None]:
matrix_var[0]

In [None]:
matrix_var[1,-1]  # Primer elementos las filas, segundo elemento las columnas

In [None]:
matrix_var[:,1:] # Dame de todas las filas, los valores de la segunda columna hasta la ultima columna

Para mas informacion de como usar los indices para seleccionar datos, consultar la [documentacion](https://numpy.org/doc/stable/reference/arrays.indexing.html) de Numpy.

**Operaciones** 

Otra de las ventajas de numpy es que nos permite realizar operaciones entre arrays y escalares y arrays y otros arrays.

In [None]:
# Sumar un escalar a todos los elementos de un array
np.array([1,2,3]) + 3

In [None]:
# Sumar un array con otro array
np.array([1,2,3,4,5]) + np.array([9,9,9,9,9])

Cuando realicemos operaciones entre arrays es importante que ambos tengan las mismas dimensiones, sino Numpy no sabra como operar y tendremos un errror como el siguiente:

In [None]:
np.array([1,2,3,4,5]) + np.array([9,5])

In [None]:
# Restas
np.array([1,2,3,4,5]) - np.array([9,9,9,9,9])

In [None]:
# Multiplicar un array o vector por un escalar
np.array([1,2,3,4,5]) * 2

In [None]:
# Las mismas operaciones pueden realizarse con arrays de mas dimensiones, o comunmente denominados matrices
display.display(matrix_var)
matrix_var * 2

In [None]:
matrix_var * matrix_var # Multiplicacion pair-wise

In [None]:
matrix_var @ np.array([1,1,1]) # Multiplicacion de matrices

Para mas informacion acerca de las principales operaciones algebraicas utilizando Numpy consultar este [link](https://cmdlinetips.com/2019/06/9-basic-linear-algebra-operations-with-numpy/)

### Pandas

Pandas es una de las librerías de Python más usadas para análisis de datos. El nombre pandas viene de "Panel Data Analysis" y su funcionalidad permite hacer operaciones sobre datos que se encuentran en memoria de manera eficiente.

Pandas es útil para trabajar sobre datos tabulares, con dos condiciones importantes:

    I. Los datos se encuentran enteramente en la memoria RAM. Con lo cual, el tamaño de los datos que podemos manipular está limitado por el hardware. Como regla de pulgar, es una buena práctica no ocupar más de 1/3 de la memoria RAM de nuestro dispositivo con el dataset.

    II. En pandas, las operaciones sobre filas y columnas son, en general, eficientes porque se hacen de forma "vectorizada". En realidad esta optimización, se hace desde numpy, una librería para realizar operaciones matemáticas que se utilizó a su vez para escribir pandas.

In [None]:
import pandas as pd  #Importamos la libreria

**Series**

In [None]:
# Series
serie = pd.Series(data = [1,2,2,3,4,5,5,5,5])
serie

In [None]:
# Propiedades importantes de las series
print('Tipo de objetos que tiene:', serie.dtype)
print('Nombre:', serie.name)
print('Index:',serie.index)
print('Valores:',serie.values)

In [None]:
serie.min()

In [None]:
serie.max()

In [None]:
serie.idxmax()  # Devuelve el indice donde se encuentra el maximo valor de mi serie.

In [None]:
serie[serie.idxmax()]

In [None]:
## Funciones que operan sobre los arrays
# Similares a las que usamos anteriomente con nuestros arrays. Esto no es una sorpresa dado que Pandas esta montado sobre Numpy
print('Media',serie.mean())
print('Mediana',serie.median())
print('Moda', serie.mode().values)
print('Desvio Standard',serie.std())

Al mismo tiempo podemos aplicar metodos propios de las Series

In [None]:
serie.astype(str).mean()  #Podemos pedir el valor promedio pero no va a tener ningun sentido para nosotros

In [None]:
serie.count()

In [None]:
serie.unique()

In [None]:
serie.nunique()

**Masking**

Llamamos `masking`cuando sometemos a un `array` o una `Series` a una evaluación lógica, para filtrar los datos que coincidan con dicha evaluación. Una mascara es un array de booleanos, con  True en los valores que cumplen la condición y False donde no. Una vez que creamos la máscara, podemos usarla para seleccionar de nuestro arreglo aquellos elementos que queremos filtrar.




In [None]:
mask = serie > 4
mask

In [None]:
serie[mask] # Solo debería seleccionar los valores mayores a 4

**Dataframes**

In [None]:
## DataFrame
df = pd.DataFrame(data = {'columna1' : [1,2,3],
                          'columna2' : ["uno", "dos", "tres"]
                         })
df

In [None]:
# Propiedades importantes de los dataframes
print('Columnas: ', df.columns)
print('Index: ', df.index)
print('Dimensiones: ',df.shape)

In [None]:
df.describe() #Nuevamente vemos que el typo de data nos va a permitir ciertas operaciones

In [None]:
df.dtypes

In [None]:
df.info() # si queremos tener un pantallazo mas completo

### Actividad práctica
Pandas puede crear dataframes si les pasamos una URL. 
Proba de ver el siguiente dataset: https://raw.githubusercontent.com/joaquinmenendez/JIS-2020/main/data/admision_universidad.csv

La idea es que cargues este dataset y uses el método describe para ver un pantallazo rápido de los datos.
Pandas te permite leer archivos usando los métodos `.read_...`. Fijate cuál es la extensión del archivo y eso te dará una pista de que método usar.
- Queremos saber cual es la mediana para el GPA
- Vamos a usar un filtro para hacer dos grupos unos con un GPA < a la mediana y otro con un GPA >=
- Para cada una de estas grupos vamos a calcular la media del GMAT.


## 2. Exploracion y Análisis de datos

Podemos decir de una manera general que los pasos en la exploración y preprocesamiento de datos son:
1. Identificación de variables y tipos de datos
2. Analizando las métricas básicas
3. Análisis univariante no gráfico
4. Análisis gráfico univariado
5. Análisis bivariado
6. Transformaciones de variables
7. Tratamiento de valor perdido
8. Tratamiento de valores atípicos
9. Análisis de correlación
10. Reducción de dimensionalidad

En este curso no vamos a ver en profundidad los puntos `[7,8,10]` dado que ameritan un curso en si mismos y usualmente son herramientas o pasos mas orientados a la creación de modelos estadísticos o de Machine Learning.

Vamos a descargar un dataset con datos mas similares a la vida real.<br>
Este conjunto de datos contiene información sobre bebés recién nacidos y sus padres. Contiene principalmente variables continuas (aunque algunas tienen solo unos pocos valores, por ejemplo, el número de cigarrillos fumados por día) y es más útil para la correlación y regresión. El peso al nacer de los bebés que las madres fumaron se ha ajustado ligeramente para exagerar las diferencias entre las madres que fumaban y las que no fumaban.<br>
Puedes encontrar mas información de este dataset [aquí](https://rdrr.io/cran/UsingR/man/babies.html).


In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('./data/babiesdata.csv')  # Leo un archivo en mi filesystem
df.head(5)  # Mostrame las primeras 5 filas

### 1. Identificación de variables y tipos de datos

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
# Verificar si hay datos faltantes
df.isna().sum()

In [None]:
round(df.isna().sum() / df.shape[0] * 100, 2)

Ojo! Miramos el porcentaje de datos faltante del padre. Esto nos puede dar cuenta de que el padre no estaba presente al momento de la evaluación o quizas que no estuvo presente durante el embarazo.

**Removiendo valores faltantes**

In [None]:
df_notna = df.copy()
df_notna = df_notna.dropna()

Notaras que usamos un comando llamado `copy`, lo que hace es otorgarnos una copia de los valores, en vez de el mismo objeto. Esto es un tema un poco complejo, pero la explicación breve es que cuando asignamos valores a una variable Python los guarda de manera diferenciada. Por una parte tenemos el nombre de la variable, y por otro el contenido. En vez de duplicar los datos, python asigna `punteros` señalando donde estan los datos. Esto es comodo ya que Python hace todo el trabajo, pero si hacemos modificaciones en nuestros datos, esto repercutira en todas las variables que apuntaban a los mismos. Una discusión acerca de este tema puede encontrarse [aquí](https://es.stackoverflow.com/questions/397/entendiendo-la-ausencia-de-punteros-en-python)

**Removiendo columnas que no son de nuestro interes**

In [None]:
df_notna.drop(columns=["drace","dage","ded","dht","dwt","marital","inc"])

In [None]:
df_notna.drop(columns=["drace","dage","ded","dht","dwt","marital","inc"], inplace = True)

El argumento `inplace` opera sobre nuestro DataFrame evitando la necesidad de asignar el DF modificado a una nueva variable. **Usar con precaución!!**

<p style="background-color:red; text-align:center">Descargando un nuevo dataset</p>

Pandas me permite leer el archivo directamente desde una URL si así lo quisieras.
Si el usuario lo desea puede acceder a un dataset mas acotado y ya limpio en el siguiente [enlace](https://www.sheffield.ac.uk/mash/statistics/datasets).

Vamos a usar ese para simular que ya elegimos las variables que nos resultaron interesantes y ya limpiamos los datos. En nuestro caso vamos a centrarnos exclusivamente en variables relacionadas a la madre.

In [None]:
df = pd.read_csv('https://www.sheffield.ac.uk/polopoly_fs/1.886038!/file/Birthweight_reduced_R.csv')
df.head()

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
# Verificar si hay datos faltantes
df.isna().sum()

### 2. Analizando las métricas básicas

In [None]:
round(df.describe(),2)

`describe` solo muestra las columnas cuyo tipo es númerico. En este caso, la información que se nos brinda es es solo de las variables que son númericas, otro tipo de variables pierden su significado al intentar asignarles métricas por lo cual no son tenidas en cuenta.

Algunos elementos que si nos llaman la atención:
- smoker : Mother smokes
```text
    1 = smoker 
    0 = non-smoker
```
- lowbwt : Low birth weight
```text
    1 = No
    0 = Yes
```
- mage35 : Mother over 35
```text
    1 = No 
    0 = Yes
```

### 3.	Análisis univariante (no gráfico)

**Contar casos**

Cuando observamos as columnas que no fueron descriptas usando el metodo `decribe` notamos algunas que pueden sernos de interes a la hora de construir un modelo.

In [None]:
df.LowBirthWeight.value_counts()

In [None]:
df.LowBirthWeight.value_counts() / df.shape[0] 

Al mismo tiempo nos puede interesar contar cuantos casos tenemos para nuestras variables dicotómicas (binarias)

In [None]:
binarias = ["smoker", "lowbwt","mage35"]

In [None]:
for col in binarias:
    print(round(df[col].value_counts(normalize = True) * 100, 2))

**Filtrando según una condición**

In [None]:
df[df.smoker == 1].shape

In [None]:
df[(df.smoker == 1) & (df.lowbwt == 1)].shape

Que pasa si por ejemplo nos interesaria ver estadisticos descriptivos o contar casos de una variable en relación a otra?

Esto es muy similar a como usamos las tablas Pivot en Excel.<br>
La función de `DataFrame.pivot_table` permite crear una tabla dinámica fácilmente, eligiendo qué columnas se quieren mostrar en:

- **índice** (index): la variable elegida para organizar los casos en filas.
- **columnas** (columns): lla variable elegida para organizar los casos en columnas.
- **valores** (values): las variables que se quieren observar dependiendo de los valores de las filas y columnas.

Y se puede elegir una o más funciones de agregación para aplicar a los valores cuando son agregados.

In [None]:
df.pivot_table(
    index=['smoker'],
    columns = ['LowBirthWeight'],
    values=['Birthweight'],
#   aggfunc='median',
#   margins = True,
#   margins_name='Medias totales'
)

In [None]:
df.pivot_table(
    index=['mage35', "smoker"],
    values=['Birthweight'],
    aggfunc='median',
    margins = True,
    margins_name='Media total'
)

Pandas nos permite realizar analisis para grupos escpicificos. En otras palabras, nos permite segmentar nuestro dataset en X grupos, donde X corresponde con los niveles de una o varias varibles. Ejemplo:

In [None]:
df.groupby(by=['smoker', 'mage35']).count()

In [None]:
df.groupby(by=['LowBirthWeight', 'smoker']).count()['id']

In [None]:
df.groupby(by=['LowBirthWeight', 'smoker'])['Gestation'].agg('median')

### Actividad práctica
Para la siguiente actividad vamos a usar el dataset del Titanic ([link](https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html)). 
Usa el link en la página para descargar el dataset y veamos:
- Si hay datos faltantes
- Cuantos gente sobrevivio 
- El promedio ('mean') del precio pagado por el ticket según si sobrevivieron o no.

### 4.	Análisis gráfico univariado

#### Matplotlib

Python ofrece una gran cantidad de librerias externas (es decir que las puede instalar usando `pip install`) para plotear datos. Dentro de las mas destacadas se encuentran [Seaborn](https://seaborn.pydata.org/), [Bokeh](https://docs.bokeh.org/en/latest/index.html), [Plotly](https://plotly.com/), entre otras. Sin embargo, Python ofrece una libreria por defecto llamada `matplotlib` que es muy versatil y siempre es una buena primera opción al momento de hacer nuestros primeros ploteos exploratorios.
Por ejemplo, el gráfico que acabamos de realizar fue hecho tambien con `matplotlib`, Pandas lo usa por defecto en su función `plot()`.

Exploremos un poco esta libreria:

In [None]:
import matplotlib.pyplot as plt
plt.plot(np.array([1,2,3,4]),
         np.array([3,3,4,3]))

Pasan varias cosas aquí.
Primero observamos una leyenda que dice `[<matplotlib.lines.Line2D at ...>]`.<br>
Por qué sucede esto? Porque por defecto `plot()` produce un objeto gráfico.
El usuario posee una gran capacidad para customizar estos gráficos y agregar detalles. Es aquí donde tanta flexibilidad puede volverse media incomoda, ya que debemos recordar el nombre de todos los diferentes argumentos que queremos modificar. 

Una lista de estos puede consultarse [aquí](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.html) y [aquí](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html?highlight=matplotlib%20pyplot%20plot#matplotlib.pyplot.plot).

#### Histograma
En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Link a la [documentación](https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.hist.html) de matplotlib

In [None]:
plt.hist(df.motherage)

Pandas va a utilizar Marplotlib para plotear los valores de cada columna. 

In [None]:
df.motherage.plot(kind='hist')

Si bien Pandas nos va a permitir realizar ciertos gráficos sobre nuestras columnas, vamos a ver como podemos hacer todo esto directamente usando `matplotlib`. Esto nos va a permitir mucha flexibilidad. A su vez, no siempre vamos a plotear datos provenientes de un dataframe por lo cual es importante aprender como hacer esto.

In [None]:
plt.hist(df.motherage, edgecolor = 'black')
plt.xlabel('Edad'), plt.ylabel('Frecuencia')
plt.title('Frecuencia de edad de la madre')
plt.show()

`matplotlib` nos va a permitir plotear diferentes datos en un mismo par de ejes x,y. Para esto creamos un par de ejes iniciales, en este caso lo haremos directamente con la función `plot.hist()`. Luego plotearemos un nuevo grafico con nueva información sobre etos mismos ejes.
Vamos a hacer dos histogramas, uno con los distribución de edad para Fumadores y otro para no Fumadores.

In [None]:
#Fuman
plt.hist(df[df.smoker == 1].motherage, 
         color = 'red',
         edgecolor = 'k',
         #histtype='step',
         label= 'Fumador',
         alpha = 0.4
        )
#Nofuman
plt.hist(df[df.smoker == 0].motherage, 
         color = 'blue',
         edgecolor = 'k',
         #histtype='step',
         label= 'No Fumador',
         alpha = 0.4
        )

Vemos que ambos gráficos comparten los mismos ejes. Sin embargo, vemos que en este caso los 'bins' difieren en su localización lo cual vuelven la comparación un poco más difícil.
A su vez vemos que la función `plot.hist()` devielve tres elementos antes de devolver el objeto gráfico. Estos son la frecuencia para cada bin, las coordenadas en el eje X de los bins, y los poligonos o barras.

In [None]:
plt.figure(figsize=(8,5)) # creamos una figura, la vamos a hacer mas grande.
BINS = 12
RANGO = (18,42)

valores, ticks , polygon = plt.hist(df[df.smoker == 1].motherage, 
                                     range= RANGO, # Seteamos el rango de datos que vamos a mostrar
                                     bins = BINS,  # Seteamos la cantidad de bins
                                     edgecolor = 'red',
                                     color = 'red',
                                     label= 'Fumador',
                                     alpha = 0.4
                                    )

plt.hist(df[df.smoker == 0].motherage,
         range= RANGO,
         bins = BINS,
         edgecolor = 'blue',
         color = 'blue',
         label= 'No fumador',
         alpha = 0.4,
        )

plt.xlabel('Edad'), plt.ylabel('Frecuencia') # Nombramos nuestros ejes
plt.xticks(ticks=ticks) # seteamos que los ticks sean los del primer grafico
plt.legend()
plt.show()

#### Boxplot
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.<br>
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.<br>
Link a la [documentación](https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.boxplot.html) de matplotlib.


![Boxplot](https://user-images.githubusercontent.com/43391630/97821719-70936980-1c81-11eb-8fa3-4ac05ecf07a2.png)


In [None]:
plt.boxplot(df.length)

Vemos que la funcion `plt.boxplot` arroja como output un diccionario, en donde cada key corresponde a un elemento del gráfico. Vamos a utilizar este diccionario para modificar ciertas propiedades del grafico.

In [None]:
# plt.figure(figsize=(10,5))
dic = plt.boxplot(x = [
                      df[df.smoker == 0].length,
                      df[df.smoker == 1].length
                      ],
                  meanline=True,
                  showmeans=True,
                  widths=[0.7,0.7],
                  labels=['No Fumador','Fumador',]
                 )

[i.set_linewidth(0.3) for i in dic['boxes']] # Esto es una lista por comprension! 
#Si te cuesta entender que esta haciendo pensalo asi:
# Para cada elemento en dic['boxes'] va a aplicar el metodo .set_linewidth (dado que YA SE que ambos seran objetos
# con este metodo)

dic['medians'][0].set_label('Mediana') 
# Como ambos objetos tienen media y mediana le colocare nombre a uno solo y luego ploteare la leyenda
dic['means'][0].set_label('Media')

plt.title('Largo del bebe al nacer')
plt.ylabel('cm')
plt.legend()
plt.show()

#### Subplots
`matplotlib` nos permite crear plots que contengan plots mas pequeños dentro, o mejor dicho subplots. 
Esto nos sera útil al momento de traducir metricas como las que vimos cuando usamos `pd.describe` de una manera gráfica para cada variable de interes.

In [None]:
df.shape

In [None]:
df.columns

In [None]:
plt.subplots(nrows=4,ncols=3)

Vemos que el output de `subplots` es una tupla con dos elementos una Figura y un array con Ejes (Axes). [Documentación](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.subplots.html)<br>
A modo breve, podemos decir que la Figura es el "marco" y los ejes los "elementos" de nuestro cuadro o imagen. 
Cada elemento tendra sus propios `atributos` y `metodos`. 
Sobre los ejes plotearemos nuestros gráficos individuales, en cada eje plotearemos un grafico puntual, epero como ya vimos tambien podemos superponer los graficos.<br>
Usaremos la Figura solamente para modificar aspectos estéticos de la imagen como tal.

In [None]:
fig, axs = plt.subplots(nrows=3,ncols=3)
axs[0,0].boxplot(df.length) # Ploteo nuestro histograma en el primer eje
axs[0,0].set_title('Largo al nacer') # Tambien puedo setear los mismo elementos que con un solo plot
axs[0,0].set_ylabel('Lenght')
fig.set_size_inches(10,8) # cambio el tamaño de TODA la figura
plt.show()

In [None]:
vars_interesante = ['headcirumference', 'length', 'Birthweight', 'Gestation',
        'motherage', 'mheight', 'mppwt','mnocig', 'fheight']
fig, axs = plt.subplots(nrows=3,ncols=3)

for idx, ax in enumerate(axs.ravel()):
    ax.boxplot(df[vars_interesante[idx]])
    ax.set_title(vars_interesante[idx]) 
    ax.set_xticklabels('') # Saquemos los labels ya que es una sola variable
fig.set_size_inches(10,8)

A simple vista podemos ver que nuestro dataset esta bastante bien curado. Hay muy poco valores outliers (aquellos por fuera de este rango interquartil, o 95% de los valores). En caso de tener muchos outliers en un caso deberiamos inspeccionar a que se puede deber esto. Cada dataset es un mundo, y entre mejor sepamos como los datos fueron recolectados mejor podremos entender a que se puede deber estos outliers. 

In [None]:
#axs.ravel()

#### Barplot

Un diagrama de barras, también conocido como gráfico de barras o gráfico de columnas, es una forma de representar gráficamente un conjunto de datos o valores mediante barras rectangulares de longitud proporcional a los valores representados. Los gráficos de barras pueden ser usados para comparar cantidades de una variable en diferentes momentos o diferentes variables para el mismo momento. Las barras pueden orientarse horizontal y verticalmente.

Si bien `matplotlib` ofrece la posibilidad de generar estos gráficos, considero mas recomendable usar `Seaborn`. Esta librería nos ofrece funcionalidades muy buenas para poder hacer plots segmentando nuestras variables principales (x,y) por alguna variable secundaria mediante la opción `hue`.
[Seaborn (Documentación)](https://seaborn.pydata.org/)

En este caso vamos a usar un tipo de barplot específico denominado `countplot` el cual se utiliza para contar la cantidad de casos por categoría de variable

In [None]:
import seaborn as sns # Importo la librería

In [None]:
ax = sns.countplot(data = df,
                   x='smoker')

In [None]:
ax = sns.catplot(data=df,
                 x='smoker',
                 kind='count')

Seaborn es incluso más cómodo al momento de plotear subplots. Seaborn acepta como argumento `ax` un objeto de tipo Axes.

In [None]:
fig, axs = plt.subplots(1,3)
categoricas = ['smoker', 'mage35', 'LowBirthWeight']

for idx, ax in enumerate(axs.ravel()):
    sns.countplot(data = df,
                  x = categoricas[idx],
                  ax=ax
                 )
fig.set_size_inches(10,5)

### 5. Análisis bivariado

Hasta ahora hemos puesto enfasis en los graficos univariados, pero ya hemos visto como hemos incluido otras variables en nuestros gráficos (ej largo dividido por fumador/no fumador). <br>
No solo nos interesa saber como se "ve" una variable particular, sino como interactua con otras variables de nuestro dataset. Esto nos va a permitir empezar a dilucidar ciertas hipotesis, problemas, etc.

In [None]:
# Seaborn nos ofrece un comando simple en el cual vamos a poder plotear todos las variables de nuestro dataset
# contra todas las demas. Si bien puede ser útil veremos que cuando tenemos muchos datos esto puede ser confuso
sns.pairplot(df)

In [None]:
sns.pairplot(df.loc[:,['Birthweight','length', 
                       'Gestation','mnocig', 'mppwt','smoker']],)
            #hue='smoker')

### Scatterplot
Si bien no hablamos mucho de este gráfico, nos es múy util para plotear cada uno de nuestros data points. Esto nos permite ver con mas detalle como es la distribución de nuestros datos. Seaborn nos permite no solo usarlo como un grafico de dos variables, sino tambien aprovechar la posibilidad de segmentar nuestros datos según una variable categórica (tambien numérica) utilizando `hue`.

In [None]:
sns.scatterplot(data=df, x='mppwt', y='Birthweight')
plt.show()

In [None]:
sns.scatterplot(data=df, x='mppwt', y='Birthweight', hue='smoker')
plt.show()

En este dataset contamos con varias columnas. Cuando tenemos demasiada información puede ser confuso entender qué está pasando. En esos casos es bueno representar la información gráficamente. Vamos a crear una [matrix de correlacion](https://es.wikipedia.org/wiki/Matriz_de_correlaci%C3%B3n#:~:text=Estas%20variables%20independientes%20o%20explicativas,la%20relaci%C3%B3n%20entre%20cada%20pareja)

#### Correlation plot

In [None]:
# Correlacion
# Pandas viene por defecto con una función que calcula la matriz por nosotros --> corr 
df.drop(columns= ["id"], inplace = True) # Eliminamos la column ID
df.corr()

In [None]:
# Vamos a usar seabron para plotear esta matriz
import seaborn as sbn # Libreria para plotear, mas linda que matplotlib y con graficos útiles
sbn.heatmap(df.corr())

 Baia baia, si bien ahora podemos ver toda la información al mismo tiempo, aún no es muy claro.  Vamos a hacer una matriz mas bonita y facil de entender usando numpy y seaborn

In [None]:
mask = np.triu(np.ones_like(df.corr(), dtype=np.bool)) # vamos a quedarnos solo con el triangulo inferior de la matriz
# np.triu devuelve una matriz triangular, en este caso populada con booleans (True) para el triangulo inferior.

plt.figure(figsize = (10,10)) # creo una figura con un tamañ de 10*10
sbn.heatmap(df.corr(),
            mask=mask, #seaborn viene con la opcion de alimentar a nuestro plot con una mascara
            center=0,  #centramos el valor de correlacion 0 como el punto medio de nuestra barra
            cmap = 'RdBu',
            # Elegimos un mapa de colores mas intuitivo (https://seaborn.pydata.org/generated/seaborn.color_palette.html#seaborn.color_palette)
            square=True, 
            linewidths=.5,
            cbar_kws={"shrink": .7})
plt.title('Matriz de correlación')
plt.show()

**Esto se ve mucho mejor!**
Si observamos el grafico automáticamente se observan 3 lineas rojas:

`smoker` : Codifica si la madre fumó o no durante el embarazo (nominal)<br>
`mnocig` : Numero de cigarrillos fumados por la madre por día<br>
`lowbwt` : Bajo peso al nacer (nominal)<br>

Para este curso vamos a concentrarnos en una sola variable para hacer nuestros análisis. Utilizaremos una variable similar a `lowbwt ` pero expresada de una manera cuantitativa: `Birthweight`. Esta variable indica el peso del recien nacido en libras.

Dada nuestra matriz de correlación, podemos suponer que el peso de un recien nacido puede estar influenciado por el consumo de tabaco da la madre durante el embarazo.

 *Pequeña aclaración, si bien podemos hacer análisis inferencial sobre estos datos, esto no implica que se realizo un diseño experimental para poder corroborar causalidad entre estas variables.*

### Actividad práctica 
Usar alguno de los dataset trabajado y explorar sus datos. 
- Hacer un gráficos univariado
- Hacer un gráfico bivariado
- Escribir una conclusión sencilla de lo observado

---

## 4. Introducción a la estadística inferencial

**Que veremos en esta unidad:**

- [Contraste de hipotesis][Modeling]
- Introduccion a [Statsmodels][Statsmodels]
- Test de normalidad de variables [Shapiro-Wilk][Shapiro-Wilk]
- [QQplots][QQplots]
- Distintos [datasets][Datasets] disponibles

[Modeling]:http://conceptosclaros.com/contraste-hipotesis/
[Statsmodels]:https://www.statsmodels.org/stable/index.html
[Shapiro-Wilk]:https://machinelearningmastery.com/a-gentle-introduction-to-normality-tests-in-python/
[QQplots]:https://www.geeksforgeeks.org/qqplot-quantile-quantile-plot-in-python/
[Datasets]:https://www.sheffield.ac.uk/mash/statistics/datasets

In [None]:
# Importamos librerias que nos seran útiles 
import scipy.stats as stat  # Libreria con diversos test estadísticos
import seaborn as sbn  # Libreria para plotear, más linda que matplotlib y con graficos útiles

### Distribution plot

In [None]:
# Seaborn nos permite no solo plotear el histograma, sino tambien la distribucion de la variable
sbn.distplot(df.Birthweight,
             bins = 10,
             color = 'purple',
             hist_kws={'edgecolor':'k'})
plt.show()

In [None]:
# vamos a aislar nuestras variables dependiendo si la madre fumó o no durante el embarazo
peso_fumador = df[df.smoker == 1].Birthweight 
peso_no_fumador = df[df.smoker == 0].Birthweight

In [None]:
# Plots

fig, axs = plt.subplots(1,2,figsize = (10,5)) # Dado que tengo dos grupos vamos a plotearlos uno al lado del otro
# plt.subplots() nos va a devolver en este caso una figura y unos ejes, mas precisamente devolverá 2 ejes.
# los dos primeros numeros (1,2) significa 1 fila ,  2 columnas

sbn.distplot(peso_no_fumador,
             bins = 8,
             color = 'green',
             hist_kws={'edgecolor':'k'},
             label = 'No fumador',
             ax=axs[0])

axs[0].legend(bbox_to_anchor=(2.7,1)) # Modifico la ubicacion de la leyenda
axs[0].set_ylabel('Density') # Le pongo un nombre al eje y

sbn.distplot(peso_fumador,
             bins = 8,
             color = 'red',
             hist_kws={'edgecolor':'k'},
             label = 'Fumador',
             ax=axs[1]
            )

axs[1].legend(bbox_to_anchor=(1.45,.9)) # Modifico la ubicacion de la leyenda
plt.suptitle('Distribucion de mis dos variables') # Titulo de toda la figura
plt.show()

### Graficos de cajas y bigotes ('Boxplot')

In [None]:
fig = plt.boxplot([peso_no_fumador,peso_fumador],
            labels=['No fumador', 'Fumador'],
            patch_artist=True)

fig['boxes'][0].set(facecolor = 'green')
fig['boxes'][1].set(facecolor = 'red')
plt.ylabel('Peso al nacer (libras)')
plt.show()

In [None]:
# Podemos usar Seaborn en lugar de lib. Observe las diferencias entre una libreria y otra
ax = sbn.boxplot(data = df, y = 'Birthweight', x = 'smoker', palette={0:'green', 1:'red'})
ax.set_xticklabels(['No fumador','Fumador'])
plt.show()

A primera vista hay una diferencia en el peso al nacer y el hecho de fumar o no. El primer paso antes de realizar cualquier tipo de test estadístico es corroborar los supuestos de los test que queremos emplear. En este caso, usaremos test paramétricos los cuales tienen diversos supuestos, siendo los principales la normalidad de nuestras variables y la igualdad de varianza

 Para mas información consultar el siguiente [link](https://www.scientific-european-federation-osteopaths.org/wp-content/uploads/2019/01/Estad%C3%ADstica-param%C3%A9trica.pdf)

 Vamos a plotear la distribución de nuestra variable `peso al nacer`, para ver si luce normalmente distribuída.

In [None]:
sbn.distplot(peso_no_fumador,
             bins = 8,
             color = 'green',
             hist_kws={'edgecolor':'k'},
             label = 'No fumador',
             hist = False) 

sbn.distplot(peso_fumador,
             bins = 8,
             color = 'red',
             hist_kws={'edgecolor':'k'},
             label = 'Fumador',
             hist = False)
plt.legend()
plt.show()

Las distribuciones se ven normales, estando la distribucion para los `No fumadores` corrida a la derecha. Los valores para los `No fumadores` parecerían estar mas concentrado alrededor de la media. Esto nos daria una idea de la varianza de los datos. 
Para indagar más detalladamente sobre la normalidad de nuestros datos, podemos plotear un [QQ-plot](https://www.geeksforgeeks.org/qqplot-quantile-quantile-plot-in-python/)

### QQ plot

In [None]:
import statsmodels.api as sm  # Esta libreria cuenta con diferentes pruebas estadisticas.

fig, axs = plt.subplots(1,2, figsize = (10,5))
_ = sm.qqplot(peso_fumador, line ='s', ax = axs[1])  
_ = sm.qqplot(peso_no_fumador, line ='s', ax = axs[0])  
# Por que el _? porque la funcion sm.qqplot por defecto plotea el grafico
# y como queremos plotearlos juntos no nos importa el output.
axs[1].set_title('Fumador')
axs[0].set_title('No fumador')
plt.show()

Si bien los datos lucen normalmente distribuidos, podemos corroborar esto realizando un test de normalidad. Para eso usaremos el test de normalidad [Shapiro-Wilk](https://machinelearningmastery.com/a-gentle-introduction-to-normality-tests-in-python/)

In [None]:
s, p = stat.shapiro(peso_fumador)
print('Fumadores', f'Shapiro Wilk = {s:.2f}',f'p-value = {p:.2f}', sep='\n')

In [None]:
s, p = stat.shapiro(peso_no_fumador)
print('No fumadores', f'Shapiro Wilk = {s:.2f}',f'p-value = {p:.2f}', sep='\n')

Testeemos la homoceasticidad (o igualdad de varianzas) de las variables solo para estar seguros. Para eso usaremos el test de homoceasticidad de [Bartlett](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.bartlett.html?highlight=bartlett#scipy.stats.bartlett)

In [None]:
s, p = stat.bartlett(peso_fumador,peso_no_fumador)
print('Homoceasticidad de varianza',
      f'Bartlet (T) = {s:.2f}',
      f'p-value = {p:.2f}', sep = '\n')

### Test de Student 
Realizamos un test de student para observar si hay o no diferencias entre las medias de la población de nuestras variables

In [None]:
t,p,dg = sm.stats.ttest_ind(peso_fumador,peso_no_fumador)

# Esto se llama unpacking. Dado que la funcion devuelve tres valores yo puedo elegir guardarlo como una lista
# o puedo asignarlo a tres variables diferentes.

In [None]:
print(f'Se rechaza la hipotesis nula (H0) de que las dos distribuciones son iguales.',
      f'Hay una diferencia estadísticamente significativa entre las medias (T={t:.2f} , p={p:.3f})',
      'Se puede afirmar que los niños recien nacidos de madres fumadores, pesan menos al nacer que los niños' \
      'de madres que no fumaron durante el embarazo',
      sep = '\n')

**Importante** A pesar de que podemos afirmar una diferencia entre las medias de estas poblaciónes no podemos afirmar causalidad debido a que este es un análisis retrospectivo. 

### Aproximación al modelado estadístico usando Python 

Si bien, el modelado estadístico en Python per se amerita un curso por si mismo, no quería terminar sin mostrar una breve aproximación. 
Si bien R es por defecto la primera opción cuando hablamos de modelados estadístico cláasico, librerías como Statsmodels nos ofrece los principales test estadísticos de una manera amigable. 
Para esta breve demostración queria utilizar nuesto ya conocido dataset y emplear una [Regresion líneal](https://www.statsmodels.org/stable/regression.html).<br> Para una buena introducción consultar [aquí](http://www2.uca.edu.sv/matematica/upload_w/file/REGRESION%20SIMPLE%20Y%20MULTIPLE.pdf)

Ahora bien, si realizamos una regresión lineal usando `smoker` como factor, no va a ser diferente (o no deberia al menos!) del T-Test que realizamos anteriormente. 
Para recapitular, esta es la formula empleada en la regresión líneal:

$$ y = β_0 + Xβ_1 + \epsilon , \text{ donde}\, \epsilon ∼ N$$

a veces figura así:

$$ y = Xβ + \epsilon $$

En nuestro caso intentaremos predecir **y** (`Birthweight`), usando como covariables unicamente una sola variable: `smoker`. Por ende mas que una matriz, usaremos un vector.

In [None]:
df = df.sample(frac=1).reset_index(drop=True)

In [None]:
import statsmodels.api as sm # Importamos la libreria 
X = sm.add_constant(df[['smoker']]) 
# Definimos nuestra matriz de covariables X y le agregamos nuestro vector de coeficientes 𝛽 
# utilizando la función add_constant
y = df.Birthweight 
model = sm.OLS(y,X)
result = model.fit()

In [None]:
#Si quieres ver como se ve esta matriz descomenta la línea de abajo
# "const" es B_0 o la ordenada al origen y "smoker" son los valores de nuestro vector
#X  

In [None]:
print(result.summary())  # Printeamos nuestros resultado.

Nuevamente vemos que nuestro valor $T = -2.054$ y $p=0.047$. Esto nos permite nuevamente rechazar la $H_O$ de que los dos grupos tienen iguales medias.  

Y si estas acostumbrado a R y te gusta escribir las formulas puede sencillamente usar el modulo `formula`. <br>
Tambien es más cómodo para escribir interacciones entre variables. Para indagar mas acerca de esto consultar el siguiente [link](https://www.statsmodels.org/devel/example_formulas.html)<br>
Veamos un ejemplo

In [None]:
from statsmodels.formula.api import ols  # Importo el modelo `ols` de otro modulo, en este caso el modulo `formula`

model_formula="Birthweight ~ smoker"   # Identica sintaxis que en R
r_model = ols(formula=model_formula, data = df).fit()
print(r_model.summary())

**Ambos resultados coinciden!!**

Veamos un poco mas de cerca que predijo nuestro modelo, para eso usaremos nuestras habilidades con matplotlib!


In [None]:
import matplotlib.pyplot as plt
import seaborn as sbn

plt.figure(figsize=(15,5)) # Establezco un tamaño grande para trabajar mas cómodo

plt.plot(result.predict(X)[result.predict(X) > 7], marker = 'd',
         markersize = 5, linewidth = 0, color = 'lightgreen') 
# El modelo solo predice dos valores, es decir, un valor para fumadores y otro para no fumadores

plt.plot(result.predict(X)[result.predict(X) < 7], marker = 'd',
         markersize = 5, linewidth = 0, color = 'tomato') 
# Puedes observar los diferentes valores printeando `result.predict(X)`

plt.ylim(df.Birthweight.min(),df.Birthweight.max()) # Seteo límites para que coincida con nuestro próximo gráfico
plt.show()

In [None]:
plt.figure(figsize=(15,5))

plt.plot(result.predict(X)[result.predict(X) > 7], marker = 'd', markersize = 5, linewidth = 0, color = 'lightgreen')
plt.plot(result.predict(X)[result.predict(X) < 7], marker = 'd', markersize = 5, linewidth = 0, color = 'tomato') 

plt.plot(df[df.smoker == 1].Birthweight,  marker = '.', linewidth = 0,
         markersize = 10, color = 'red', label = 'Fumador') 
# Agreguemos nuestros valores ya conocidos para ver que tal le fue a nuestro modelo!
plt.plot(df[df.smoker == 0].Birthweight,  marker = '.', linewidth = 0,
         markersize = 10, color = 'green', label = 'No fumador')

plt.ylabel('Peso al nacer (en libras)')
plt.xlabel('N de observación')
plt.legend()
plt.show()

A simple vista no es muy sorprendente, pero recordemos que estamos usando una regresión para emular una simple comparacion entre grupos. 

Intentemos un modelo un poco más complejo que tenga en cuenta variables la altura de la madre, dado que estaa variable puede estar influenciando el peso del recien nacido.

In [None]:
model_formula="Birthweight ~ smoker + mheight" 
model_complex = ols(formula=model_formula, data = df).fit()
print(model_complex.summary())

In [None]:
from statsmodels.stats.anova import anova_lm 
# importamos un test para comparar ambos modelos, el inicial mas simple y nuestro modelo mas complejo
anova_lm(result,model_complex)

Si el lector lo deseá puede consular el siguiente [post](https://medium.com/@rrfd/f-tests-and-anovas-examples-with-the-iris-dataset-fe7caa3e21d0) explicando mas acerca de este F-Test.
En resumen, nuestro modelo más complejo es mejor para explicar la variabilidad de nuestra variable de interes.

**Veamos que predijo**

In [None]:
plt.figure(figsize=(15,5))

plt.plot(model_complex.predict(df[['smoker','mheight']]), marker = 'd', markersize = 5, linewidth = 0, color = 'gray')

plt.plot(df[df.smoker == 1].Birthweight,  marker = '.', linewidth = 0, markersize = 10,
         color = 'red', label = 'Fumador')

plt.plot(df[df.smoker == 0].Birthweight,  marker = '.', linewidth = 0, markersize = 10,
         color = 'green', label = 'No fumador')

plt.ylabel('Peso al nacer (en libras)')
plt.xlabel('N de observación')
plt.legend()
plt.show()

# Residuos

In [None]:
sns.scatterplot(x = range(0,len(df.Birthweight)),
                y = df.Birthweight - r_model.predict(df['smoker']),
                color = 'blue'
               )


In [None]:
sns.scatterplot(x = range(0,len(df.Birthweight)),
                y = df.Birthweight - r_model.predict(df['smoker']),
                color = 'blue',
                label='simple'
               )

sns.scatterplot(x = range(0,len(df.Birthweight)),
                y = df.Birthweight - model_complex.predict(df[['smoker','mheight']]),
                color = 'cyan',
                label='complex'
               )

plt.hlines(0,0,42, color = 'black')
plt.title('Residuos')
plt.show()

A primera vista esto no nos es muy informativo. El modelo complejo parece estar más cerca de la linea horizontal.
Cuantifiquemoslo.

In [None]:
res_simple = np.abs(df.Birthweight - r_model.predict(df['smoker'])).mean()

res_complex = np.abs(df.Birthweight - model_complex.predict(df[['smoker','mheight']])).mean()

In [None]:
print(f'Mean Error for simple model: {res_simple:.3f}')
print(f'Mean Error for complex model: {res_complex:.3f}')