[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1ojeNNUYQVq7OPcdPVWpC7ciivWt9axfV?usp=sharing)

# Módulo Programando Diversidades - Sesión 4 
**Análisis estadístico básico**

*Por: Nicole Rivera*

>En esta sesión trabajaremos con dos conjuntos de datos donde exploraremos algunos métodos para la extracción de información de estos, incluyendo el ajuste de funciones a los datos para hacer una regresión lineal. 


## Parte 1

Usaremos el set de datos [load_boston](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html#sklearn.datasets.load_boston) de la librería [scikit learn](https://scikit-learn.org/stable/) donde podremos encontrar información sobre los precios de las casas en Boston y algunos datos acerca de las mismas, como la tasa de criminalidad per capita, distancia promedio a algunos centros empresariales, entre otros. 

Nos enfocaremos en la extracción de información al explorar los datos y aplicar algunos métodos aprendidos con la librería *Numpy* y su visualización usando *matplotlib.pyplot*

In [None]:
# --- librerías ---#
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston

%matplotlib inline

In [None]:
# --- cargamos el set de datos --- #
X_boston, y_boston = load_boston(return_X_y=True)

In [None]:
X_boston.shape

In [None]:
X_boston[0]

De acuerdo con la documentación a cerca del conjunto de datos, la información de 506 casas está organizada y contiene las siguientes columnas. 

| Columna | Abreviación | Descripción |
| --- | --- | --- |
| 0 | CRIM | tasa de crimen per capita por ciudad |
| 1 | ZN | proporción de terreno residencial dividido en zonas para lotes de más de 25,000 pies cuadrados.  |
| 2 | INDUS | proporción de acres comerciales no minoristas por ciudad |
| 3 | CHAS | Variable ficticia de Charles River (= 1 si el tramo limita con el río; 0 en caso contrario) |
| 4 | NOX | concentración de óxidos nítricos (partes por 10 millones) | 
| 5 | RM | número medio de habitaciones por vivienda |
| 6 | AGE | proporción de unidades ocupadas por sus propietarios construidas antes de 1940 |
| 7 | DIS | distancias ponderadas a cinco centros de empleo de Boston |
| 8 | RAD | índice de accesibilidad a carreteras radiales |
| 9 | TAX | Tasa de impuesto a la propiedad de valor total por $ 10,000 |
| 10 | PTRATIO | Proporción alumno-maestro por ciudad |
| 11 | B100 | (B_k - 0.63)^2 donde B_k es la proporción de personas negras por ciudad |
| 12 | LSTAT | porcentaje estado más bajo de la población |



In [None]:
y_boston[0]

Y, en el `y_boston` tenemos el **valor medio de las viviendas ocupadas por sus propietarios en miles (1000)**, de manera que usando la información en el set `X_boston` podemos estudiar la información al rededor de dichos precios. 

### Primera exploración a los datos

Utilizaremos algunos métodos de *Numpy* para tener una mejor idea de la información que contiene nuestro conjunto de datos.

In [None]:
# --- valores mínimos y máximos --- #
print('valores mínimos por columna de X:', np.amin(X_boston, axis=0))
print(' ')
print('valor mínimo de y:', np.min(y_boston))
print(' ')
print('valores máximos por columna de X:', np.amax(X_boston, axis=0))
print(' ')
print('valor máximo de y:', np.max(y_boston))

In [None]:
# --- promedios y desviación estandar --- # 
print('valores promedio por columna de X:', np.mean(X_boston, axis=0))
print(' ')
print('desviación estandar por columna de X:', np.std(X_boston, axis=0))
print(' ')
print('valor promedio de y:', np.mean(y_boston))
print(' ')
print('desviación estandar de y:', np.std(y_boston))

# --- mediana --- #
print('mediana de y:', np.median(y_boston))

### Primera visualización de los datos

Con el fin de contextualizarnos un poco mejor con respecto a los datos los gráficaremos de diferentes maneras para desarrollar una mejor idea sobre lo que podemos hacer con ellos.

In [None]:
# --- histograma de los precios --- #
plt.figure(figsize=(6, 4))
plt.hist(y_boston, bins=20)
plt.ylabel('frecuencia')
plt.xlabel('precio en miles de dólares')
plt.show()

¿podemos afirmar que los precios tienen una distribución gaussiana?


In [None]:
from scipy.optimize import curve_fit

y, x = np.histogram(y_boston, bins=20)

n = y_boston.size
mean = np.mean(y_boston)
sigma = np.std(y_boston)

def normal_dist(x,a,x0,sigma):
    return a*np.exp(-pow(x-x0, 2)/(2*pow(sigma,2)))

popt,pcov = curve_fit(normal_dist, x[:-1], y, p0=[1,mean,sigma])

In [None]:
plt.plot(x[:-1], y,'b+:',label='datos')
plt.plot(x, normal_dist(x,*popt),'ro:',label='ajuste')
plt.legend()
plt.xlabel('precio en 1000s')
plt.ylabel('frecuencia')
plt.show()

In [None]:
plt.figure(figsize=(6, 4))
plt.hist(y_boston, bins=20, color='lightblue', label='datos')
plt.plot(x, normal_dist(x,*popt),'ro:',label='ajuste')
plt.legend()
plt.ylabel('frecuencia')
plt.xlabel('precio en miles de dólares')
plt.show()

¿Qué podemos decir de los otros datos? 

In [None]:
# --- gráficas de algunos datos sobre las casas --- #
fig, ax = plt.subplots(1, 2, figsize=(10, 4))

fig.suptitle('Información de interés')

ax[0].hist(X_boston[:, 2], bins=10)

ax[1].plot(X_boston[:, 9], y_boston, 'k.')

plt.show()

### Correlación y ajustes de funciones

A partir de la exploración, vamos a estudiar si existe alguna correlación entre la información que se nos otorgó y si podemos ajustar alguna forma funcional. 

In [None]:
np.corrcoef(X_boston[:, 12], y_boston, rowvar=False)

**¿Cuál variable podría tener relacionarse funcionalmente con el valor de las casas?**



In [None]:
# --- graficamos las dependencias encontradas --- #

plt.figure(figsize=(6, 4))
plt.plot(X_boston[:, 12], y_boston, 'c.')
plt.xlabel('caracteristica seleccionada')
plt.ylabel('precio en 1000s')
plt.show()

Uno de los ajustes más conocidos es el de mínimos cuadrados, por eso, usaremos la función `numpy.polyfit` para realizar una regresión lineal de la forma $y = mx + b$. 

In [None]:
np.polyfit?

In [None]:
# --- elegimos el índice de nuestra caracteristica --- #
c_num = 5

In [None]:
# --- ajuste a un polinomio de primer orden --- #
pov_boston, cov_boston = np.polyfit(X_boston[:, c_num], y_boston, 1, cov=True)

In [None]:
# --- creamos datos con nuestro ajuste --- # 
x = np.linspace(3, 9, 30)
y = pov_boston[1] + pov_boston[0]*x

In [None]:
# --- visualizamos nuestro ajuste --- #
plt.figure(figsize=(6, 4))
plt.plot(X_boston[:, c_num], y_boston, 'm.', label='datos')
plt.plot(x, y, 'c--', label='ajuste')
plt.xlabel('caracteristica seleccionada')
plt.ylabel('precion en 1000s')
plt.legend()
plt.show()

In [None]:
cov_boston

**¿Qué hemos aprendido?** [corto compartir](https://docs.google.com/forms/d/e/1FAIpQLSc3T9tii9c1LQ9dXhbu7K7K5KOgWXLFYEBCfuPsv3HKukq9ng/viewform?usp=sf_link)

![image](https://st4.depositphotos.com/36728490/39869/v/600/depositphotos_398698986-stock-illustration-beautiful-young-woman-thinking-and.jpg)

## Parte 2

Descargaremos el [conjunto de datos](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txt) original de Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani (2004) “Least Angle Regression,” Annals of Statistics (with discussion), 407-499. 

Este nuevo set de datos contiene información sobre algunas variables que se midieron a pacientes con diabetes un año antes de la medida de control de la enfermedad. 

El objetivo es aplicar un estudio preliminar a este conjunto de datos y establecer que podemos y que no podemos decir sobre ellos.

[aquí les dejo el link del documento respectivo](https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)

### Explorando los datos

En primer lugar sabemos que los datos contienen la siguiente información:

| Columna | Descripción |
| --- | --- | 
| 0 | Edad en años |
| 1 | Sexo |
| 2 | Índice de masa corporal |
| 3 | Presión arterial promedio |
| 4 | Colesterol sérico total |
| 5 | Lipoproteínas de baja densidad |
| 6 | Lipoproteínas de alta densidad |
| 7 | Colecterol total / HDL |
| 8 | Nivel de triglicéridos en suero* |
| 9 | Nivel de azucar en la sangre |
| 10 | Medida de progresión de la enfermedad |

*Posiblemente en escala logarítmica. 

In [None]:
Datos = np.loadtxt('https://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txt', skiprows=1)

In [None]:
Datos.shape

Separamos los datos en dos conjuntos. 

In [None]:
# --- caracteristicas --- #
X_diabetes = Datos[:, :-1]
# --- respuesta --- #
y_diabetes = Datos[:, -1]

**¿Qué sigue?**