## Indique aquí Cédula, Nombres y apellidos

# Trabajo de Estadística Matemáticas

*   Fecha de entrega: 06/12/2024.

El archivo data.csv incluye un número de ejemplos de beneficiarios inscritos en un plan de seguro indicando las características del paciente, así como el total de gastos médicos cargados (charges) al plan para el año calendario.

Las características son:

* Edad (age): un número entero que indica la edad del beneficiario principal (excluyendo los mayores de 64 años, ya que generalmente están cubiertos por el gobierno de Estados Unidos).

* Sexo (sex): el sexo del titular de la póliza, ya sea masculino o femenino.

* Bmi: el índice de masa corporal. El bmi es igual al peso (en kilogramos) divididos por altura (en metros) al cuadrado. Un bmi ideal está en un rango de 18.5 a 24.9.

* Hijos (children): un número entero que indica el número de hijos dependientes cubiertos por el plan de seguro.

* Fumador (smoker): una variable categórica que indica si el asegurado fuma regularmente.
* Región: el lugar de residencia del beneficiario en los Estados Unidos, dividido en cuatro regiones geográficas: noreste, sureste, suroeste o noroeste.

Observe que estas variables pueden estar relacionadas con las facturas de gastos médicos. Por
ejemplo, podríamos esperar que las personas mayores y los fumadores estén en mayor riesgo de
grandes gastos médicos.

## 1. Realice una exploración sobre los datos (estadísticas descriptivas).

In [None]:
## Escriba aquí su repuesta

## 2. Calcule la relación entre las variables (matriz de correlaciones).

In [None]:
## Escriba aquí su repuesta

## 3. Visualice la relación entre las variables (gráficos).

In [None]:
## Escriba aquí su repuesta

## 4. Contraste la hipótesis de que en las 4 regiones se tiene en promedio el mismo índice de masa corporal bmi (Análisis de varianzas).

In [None]:
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import f_regression

data = pd.read_csv("./src/datos_.csv")


X = data[["region"]]
y = data["bmi"]
vec = DictVectorizer(sparse=False)
X = vec.fit_transform(X.to_dict("records"))

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LinearRegression()
model.fit(X_train, y_train)

F_statistic, p_values = f_regression(X, y)

print("F-statistic:", F_statistic)
print("p-values:", p_values)

## 5. Obtenga un modelo lineal que pueda predecir el total de gastos médicos cargados para un beneficiario.

In [None]:
## Escriba aquí su repuesta

## 6. Contraste la hipótesis $H_0: \beta_i=0$ vs $H_1: \beta_i\neq 0$. Donde son los coeficientes del modelo.

In [None]:
import pandas as pd
import statsmodels.formula.api as sm

data = pd.read_csv("./src/datos_.csv")

data = pd.get_dummies(data, columns=["sex", "smoker", "region"], drop_first=True)

model = sm.ols(
    "expenses ~ age + sex_male + bmi + children + smoker_yes + region_northwest + region_southeast + region_southwest",
    data=data,
).fit()

print(model.summary())

significance_level = 0.05

for coefficient in model.pvalues.index:
    p_valor = model.pvalues[coefficient]
    if p_valor < significance_level:
        print(f"\nSe rechaza H0 para el coeficiente de '{coefficient}'.")
        print(
            f"Hay evidencia de que '{coefficient}' tiene un efecto significativo en 'expenses'."
        )
    else:
        print(f"\nNo se rechaza H0 para el coeficiente de '{coefficient}'.")
        print(
            f"No hay suficiente evidencia para afirmar que '{coefficient}' tiene un efecto significativo en 'expenses'."

## 7. Calcule el coeficiente de determinación.

In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder

data = pd.read_csv("./src/lib/datos_.csv")
le = LabelEncoder()

data["sex_aux"] = le.fit_transform(data["sex"])
data["smoker_aux"] = le.fit_transform(data["smoker"])
data["region_aux"] = le.fit_transform(data["region"])


X = data[["age", "sex_aux", "bmi", "children", "smoker_aux", "region_aux"]]
y = data["expenses"]

model = LinearRegression()
model.fit(X, y)

r_squared = model.score(X, y)

print("Coeficiente de determinación:", r_squared)

## 8. Realice un análisis de los residuos.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder


data = pd.read_csv("./src/lib/datos_.csv")
le = LabelEncoder()

data["sex_aux"] = le.fit_transform(data["sex"])
data["smoker_aux"] = le.fit_transform(data["smoker"])
data["region_aux"] = le.fit_transform(data["region"])

X = data[["age", "sex_aux", "bmi", "children", "smoker_aux", "region_aux"]]
y = data["expenses"]

model = LinearRegression()
model.fit(X, y)

y_pred = model.predict(X)
residuals = y - y_pred

plt.scatter(y_pred, residuals)
plt.xlabel("Valores ajustados")
plt.ylabel("Residuos")
plt.title("Gráfico de residuos vs. valores ajustados")
plt.show()

## 9. Incluya una nueva variable al modelo, la interacción entre las variables Fumador y BMI. Calcule el coeficiente de determinación para este modelo. Explique los resultados obtenidos.

In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder

data = pd.read_csv("./src/lib/datos_.csv")
le = LabelEncoder()

data["sex_aux"] = le.fit_transform(data["sex"])
data["smoker_aux"] = le.fit_transform(data["smoker"])
data["region_aux"] = le.fit_transform(data["region"])
data["smoker_bmi"] = data["smoker_aux"] * data["bmi"]

X = data[
    ["age", "sex_aux", "bmi", "children", "smoker_aux", "region_aux", "smoker_bmi"]
]
y = data["expenses"]

model = LinearRegression()

model.fit(X, y)

r_squared = model.score(X, y)
print("Coeficiente de determinación con interacción:", r_squared)