# Estadística para Data Science: Análisis Exploratorio de Datos.





## Python como calculadora: Números
Podemos usar python como calculadora, ejecutando una línea de código con una expresión aritmética. La sintaxis es simple: los operadores más típicos son +, -, * y / ; y los paréntesis ( ) se pueden usar para agrupar expresiones. Por ejemplo: 


In [None]:
(5 + 2*4)/2 - (6+3)*1.5

El signo igual (=) se usa para asignar un valor a una variable. 

In [None]:
# OJO, python distingue MAYÚSCULAS y minúsculas
porcentaje_IVA = 0.19 
monto_neto = 8000


Podemos ocupar estas variables para calcular y combinar expresiones.

In [None]:
monto_total = monto_neto + monto_neto * porcentaje_IVA 
print(monto_total)

## Medidas de posición o localización
Una variable en una muestra o a nivel poblacional pueden tener muchos valores distintos. Un primer paso, fundamental para explorar un set de datos es obtener un "valor típico" para cada cada variable, es decir, una estimación (para una muestra) o un cálculo (para una población) de una tendencia central.



### Media aritmética
La estimación más típica es el valor medio o promedio (*mean* o *average* en inglés), y en términos simples es la suma de todos los valores dividida por el número de valores. La media muestral está dada por

$$\bar{x} = \frac{1}{n}\sum_{i=1}^n  x_i$$

Supongamos que lanzamos un dado diez veces y obtenemos los siguientes resultados: {1, 2, 6, 6, 1, 3, 5, 4, 3, 3}

Para calcular su media en python, tenemos varios caminos.

In [None]:
# fuerza bruta: el más evidente pero menos eficiente y menos escalable

(1+ 2+ 6+ 6+ 1+ 3+ 5+ 4+ 3+ 3)/10


Un primer nivel de sofisticación: Declarando una variable `a` que almacene los resultados, y ocupando algunas funciones básicas de python.

In [None]:
resultados = [1, 2, 6, 6, 1, 3, 5, 4, 3, 3]
print(sum(resultados))
print(len(resultados))
print(sum(resultados)/len(resultados))

Vamos a importar una primera librería, llamada numpy, para poder hacer un cálculo más simple y generalizable del promedio.

In [None]:
import numpy as np

Luego, definimos una variable como un arreglo de numpy con los resultados de los lanzamientos

In [None]:
r_np = np.array([1, 2, 6, 6, 1, 3, 5, 4, 3, 3])
print(r_np)
print(r_np.sum()) # ocupando el método suma de numpy
print(r_np.size) # size es un atributo, por eso no lleva paréntesis
print(r_np.sum()/r_np.size) 
print(r_np.mean()) # en numpy existe un método mean que calcula directamente el promedio

Vamos ahora a leer un primer dataframe, que es el set de datos que vimos en el powerpoint sobre la muestra de préstamos. Para ello, importaremos la librería pandas, y luego cargaremos este dataset, que está en un archivo csv almacenado en el github del profesor.

In [None]:
import pandas as pd
loan50 = pd.read_csv('https://raw.githubusercontent.com/vmlandae/datasets_eds/main/clase2/loan50.csv')



Corramos una  primera visualización del dataset completo

In [None]:
loan50

En pandas existen muchos métodos y atributos, revisemos rápidamente algunos

In [None]:
loan50.columns # atributo que indica las columnas que posee el data frame

In [None]:
loan50.shape # atributo que indica las cantidad de filas y columnas del data frame

In [None]:
loan50.head(3) 
# Método que muestra las primeras filas del data frame,
# donde el primer argumento es un número que indica la cantidad de filas,
# en este caso tres.

Las columnas de un data frame de pandas son Series. 
Para seleccionar una columna, podemos hacerlo de varias formas

In [None]:

type(loan50.interest_rate) # Forma 1: dataframe.column


In [None]:
type(loan50["interest_rate"]) # Forma 2: brackets cuadrados con el nombre de la columna requerida

Para hacer un subconjunto (subset) de un dataframe seleccionando columnas (variables), ocupamos los brackets cuadrados, ingresando una lista de columnas

In [None]:
amount_income_homeownership = loan50[["loan_amount","total_income", "homeownership"]]
amount_income_homeownership.head()

y/o filas (observaciones)

In [None]:
aih_over30K = amount_income_homeownership[amount_income_homeownership['loan_amount']>30000]
aih_over30K

Podemos usar el método `loc` e `iloc` para filtrar un data frame por  filas (y/o columnas) con `labels` particulares para `loc` y con `locations` para `iloc`

In [None]:
aih_over30K.loc[[21,28]]

In [None]:
aih_over30K.iloc[[0,1]]

In [None]:
# Se puede usar también la siguiente notación
aih_over30K.iloc[:,1] # para seleccionar todas las filas (:) 
#y la columna 1 (es decir la segunda columna, ya que python parte contando desde cero)

In [None]:
# también para la notación inversa.
aih_over30K.iloc[0,:] # para selecc la fila 0 y todas las columnas (:) 


In [None]:
aih_over30K.iloc[[0,1,2,3,4],:] # para sacar la última fila 

Podemos calcular el promedio de la tasa de interés usando el método `mean`

In [None]:
loan50.interest_rate.mean() # 

## Mediana

In [None]:
amount_income_homeownership.loan_amount.median()

## Media y Varianza poblacional y muestral

N = población total

n = población de la muestra

Media poblacional (parametro) :
$$
\mu = \frac{\displaystyle\sum_{i=1}^{N} x^2} {N}
$$

Media muestral (estadígrafo/estadístico):
$$
{\bar x} = \frac{\displaystyle\sum_{i=1}^{n} x_i} {n}
$$

Varianza poblacional (parametro):
$$
\sigma^2 = \frac{\displaystyle\sum_{i=1}^{N} (x_i - \mu)^2} {N}
$$

Estimador de varianza muestral (estadígrafo):
$$
s^2_n =  \frac{\displaystyle\sum_{i=1}^{n} (x_i - {\bar x})^2} {n}
$$

Estimador insesgado de varianza muestral:
$$
s^2 = s^2_{n-1} = \frac{\displaystyle\sum_{i=1}^{n} (x_i - {\bar x})^2} {n-1}
$$

En pandas, el método para calcular la varianza por default lo hace dividiendo por $n-1$. No entraremos (por ahora al menos) en el detalle de por qué este estimador es insesgado, pero si tendremos en cuenta que mientras más grande sea nuestro $n$, la diferencia entre dividir por $n$ o $n-1$ tiene un efecto cada vez más pequeño, que en la gran mayoría de los casos que veremos será irrelevante.

In [None]:
# Varianza insesgada
loan50.interest_rate.var()
# ¿Cómo podríamos corroborar que estamos dividiendo por n-1 en vez de por n, usando otros métodos?


## Desviación estándar



In [None]:
loan50.interest_rate.std()

In [None]:
%matplotlib inline

from pathlib import Path

import pandas as pd
import numpy as np


import seaborn as sns
import matplotlib.pylab as plt


Para leer un archivo csv, ocuparemos la librería Pandas. Esta librería va a ir apareciendo a lo largo de este curso y del curso de programación en python. 
Este archivo podríamos descargarlo y leerlo de manera local, y también existe la posibilidad de leerlo online. 
Ahora, ejecutemos el siguiente trozo de código para leer un primer dataset simple, que está almacenado en mi github.



In [None]:

state = pd.read_csv('https://raw.githubusercontent.com/vmlandae/datasets_eds/main/clase1/state_modificado.csv')
print(state.head(8))




## Dataset state





Vemos que el archivo no se está leyendo correctamente. ¿Por qué será?

In [None]:
state = pd.read_csv('https://raw.githubusercontent.com/vmlandae/datasets_eds/main/clase1/state_modificado.csv', sep=";")
print(state.head(8))

Calcular la media y la mediana para la columna **habitantes** usando un método de pandas.

In [None]:


print(state['habitantes'].mean())



In [None]:
print(state['habitantes'].median())

¿De qué otras formas, con qué otras herramientas podríamos calcular estas medidas?


## Estimaciones de variabilidad

Desviación estándar

In [None]:
print(state['habitantes'].std())

El rango intercuartil

In [None]:
q1 = state.habitantes.quantile(0.25)
q3 = state.habitantes.quantile(0.75)
IQR= q3 - q1
print(IQR)

Varianza

In [None]:
print(state['habitantes'].std())

## Histograma

Vamos a leer un nuevo dataset que tiene como temática la calidad de distintos vinos tintos de la region de Minho en Portugal. Para más información sobre este dataset, ir [acá](https://data.world/uci/wine-quality).


In [None]:
# Leyendo el dataset e inspeccionando dimensiones y el nombre de las columnas
df = pd.read_csv('https://raw.githubusercontent.com/vmlandae/datasets_eds/main/clase2/winequality-red.csv', sep=';')
print(df.shape)
print(df.columns)

In [None]:
# Crear Histograma
# primero creamos los bins, para poder especificarlos
bin_edges = np.arange(0, df['residual sugar'].max() + 1, 1) 
# esto crea un arreglo desde el 0 (argumento 1),
# hasta el máximo de azúcar residual más uno (argumento 2, el máximo es 15 luego el último bin tiene el borde en 16),
# de ancho 1 (argumento 3) 
print(bin_edges)



In [None]:
fig = plt.hist(df['residual sugar'], bins=bin_edges)

# Añadir labels
plt.xlabel('count')
plt.ylabel('residual sugar')
plt.show()

## Scatterplot

Hagamos un scatterplot que muestre el azúcar residual versus el pH de cada vino

In [None]:
# Crear scatterplot
fig = plt.scatter(df['pH'], df['residual sugar'])

# Añadir labels
plt.xlabel('pH')
plt.ylabel('residual sugar')
# Para mostrar el scatterplot
plt.show()

## Scatterplot Matrix

Con esto podemos hacer un set de figuras de histogramas y scatterplots entre variables.

In [None]:
df.columns

In [None]:

fig = sns.pairplot(data=df[['alcohol', 'pH', 'residual sugar', 'quality']], 
                   hue='quality')

plt.xlabel('pH')
plt.ylabel('residual sugar')
plt.show()

## Boxplots

usando matplotlib.pyplot.boxplot:

In [None]:
plt.boxplot(df['alcohol']) #boxplot de la variable alcohol

plt.ylim([8, 16]) # esto fija los límites de los ejes
plt.ylabel('alcohol') # label para el eje y

fig = plt.gca()
fig.axes.get_xaxis().set_ticks([]) # esto es para borrar los ticks en el eje x
plt.show()

## Violin Plots

In [None]:
plt.violinplot(df['alcohol'], [0], 
               points=100, 
               bw_method='scott',
               showmeans=False, 
               showextrema=True, 
               showmedians=True)

plt.ylim([8, 16])
plt.ylabel('alcohol')
fig = plt.gca()
fig.axes.get_xaxis().set_ticks([])
plt.show()