# Proyecto

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import macti.vis

# Biblioteca que contiene funcionalidades para este proyecto
# Cálculo de la media, varianza, covarianza, regresión lineal
# Graficación de boxplots, histogramas, datos dispersos.
from f_estadisticas import *

## Revisando los datos de Anscombe

In [None]:
# Lectura de datos del archivo
datos = pd.read_csv("AnscombeQuartet.csv")

# Transformación a arreglos de numpy
x1 = np.array(datos.x1)
y1 = np.array(datos.y1)
x2 = np.array(datos.x2)
y2 = np.array(datos.y2)
x3 = np.array(datos.x3)
y3 = np.array(datos.y3)
x4 = np.array(datos.x4)
y4 = np.array(datos.y4)

print(f"x1 = {x1}")
print(f"y1 = {y1}")
print(f"x2 = {x2}")
print(f"y2 = {y2}")
print(f"x3 = {x3}")
print(f"y3 = {y3}")
print(f"x4 = {x4}")
print(f"y4 = {y4}")

### Análsis exploratorio

**Valores atípicos**.

In [None]:
# Veamos el conjunto 3 de los datos de Anscombe
plot_boxplots(x3, y3)

Observamos datos atípicos en $y$.

Hagamos la regresión lineal como sigue:

In [None]:
B0, B1, R2, xr, yr = reglin(x3, y3)

Podemos eliminar los valores atípicos usando el [rango intercuartílico](https://es.wikipedia.org/wiki/Rango_intercuart%C3%ADlico). 

Los valores que están fuera del rango formado por el primer cuartil (Q1) y el tercer cuartil (Q3) en una distribución, generalmente 1.5 veces el rango intercuartil por encima o por debajo de estos cuartiles, se consideran atípicos:

**Algoritmo.**
* Calcular: límite inferior = Q1 - 1.5 * IQR. 
* Calcular: límite superior = Q3 + 1.5 * IQR. 
* Cualquier valor que sea menor que el límite inferior o mayor que el límite superior se considera un valor atípico.

La función `elimina_ouliers()` utiliza este algoritmo para eliminar valores atípicos y se usa en la siguiente celda.

In [None]:
x_no, y_no = elimina_outliers(x3, y3, silent=False)

Revisamos el resultado en los boxplots:

In [None]:
plot_boxplots(x_no, y_no)

Realizamos la regresión lineal nuevamente:

In [None]:
B0, B1, R2, xr, yr = reglin(x_no, y_no)

Observa que sin el valor atípico el resultado es *perfecto*.

## Datos: Encuesta Nacional de Salud y Nutrición.

<div class="alert alert-info">

Usaremos un conjunto de datos que proviene de la [Encuesta Nacional de Salud y Nutrición (ENSANUT)](https://ensanut.insp.mx/encuestas/ensanutcontinua2022/descargas.php) y fue integrado y publicado en [Kaggle](https://www.kaggle.com/datasets/frederickfelix/hipertensin-arterial-mxico). Incluye variables biométricas, clínicas y de estilo de vida relevantes para el estudio de enfermedades crónicas como la hipertensión arterial.

- **Variables clave**: Se incluyen indicadores como edad, sexo, actividad física total, hemoglobina glucosilada, glucosa promedio, colesterol LDL y HDL, triglicéridos, masa corporal, medida de cintura, presión arterial y riesgo de hipertensión.

Los datos se encuentran en el archivo `datos.csv`.

</div>

In [None]:
# Lectura de datos
df = pd.read_csv("datos.csv")

# Mostrar los primeros renglones de información.
df.head()

In [None]:
# Mostrar los nombres de las columnas de los datos
df.columns

In [None]:
# Seleccionamos dos variables y las convertimos a arreglos de numpy
x = np.array(df.masa_corporal)
y = np.array(df.resultado_glucosa_promedio)

### Análisis exploratorio.

In [None]:
plot_boxplots(x, y)

### Regresión lineal con todos los datos.

In [None]:
B0, B1, R2, xr, yr = reglin(x, y, xlabel = "masa corporal", ylabel = "glucosa promedio")

**¿Qué puedes decir de estos resultados?**

### Eliminamos valores atípicos.

In [None]:
x_no, y_no = elimina_outliers(x, y, q3=0.85, silent=False)

In [None]:
# Boxplots sin valores atípicos. ¿Qué opinas del resultado?
plot_boxplots(x_no, y_no)

### Regresión lineal sin valores atípicos.

In [None]:
B0, B1, R2, xr, yr = reglin(x_no, y_no, xlabel = "masa corporal", ylabel = "glucosa promedio")

**¿Qué opinas de este resultado?** 

Dibujemos un histograma de los datos de masa corporal.

In [None]:
histograma(x, title = "Masa corporal")

La función `elimina_outliers_manual()` elimina valores definiendo un valor mínimo y un valor máximo en los datos. Veamos la siguiente celda:

In [None]:
y_no, x_no = elimina_outliers_manual(y, x, vmin=10, vmax=60, silent=False)

In [None]:
histograma(x_no, title = "Masa corporal")

**¿Te parece que los datos están mejor ahora?**

In [None]:
# Veamos los boxplots con estos datos.
plot_boxplots(x_no, y_no)

In [None]:
# Regresión lineal con los datos filtrados
B0, B1, R2, xr, yr = reglin(x_no, y_no, xlabel = "masa corporal", ylabel = "glucosa promedio")

**¿Qué opinas de este resultado?**

Eliminemos otros datos y revisemos los boxplots y hagamos la regresión lineal.

In [None]:
x_no, y_no = elimina_outliers_manual(x_no, y_no, vmin=10, vmax=500, silent=False)

In [None]:
plot_boxplots(x_no, y_no)

In [None]:
B0, B1, R2, xr, yr = reglin(x_no, y_no, xlabel = "masa corporal", ylabel = "glucosa promedio")

¿No es suficiente?.

Eliminemos más datos y repitamos el proceso.

In [None]:
x_no, y_no = elimina_outliers_manual(x_no, y_no, vmin=10, vmax=150, silent=False)

In [None]:
B0, B1, R2, xr, yr = reglin(x_no, y_no, xlabel = "masa corporal", ylabel = "glucosa promedio")

**¿Es este un buen resultado?**

## Objetivo.

Realiza un análisis exploratorio de los datos de la ENSANUT. Elije dos variables que te parezcan interesantes. Explica por que elijiste esas variables. Elimina valores atípicos si lo consideras necesario. Realiza una juste mediante una regresión lineal simple. Explica tus resultados. 