### 🎯 Objetivos Académicos

Al finalizar esta actividad, el estudiante será capaz de:

1. **Detectar y corregir problemas comunes de calidad en un dataset**, como valores nulos, duplicados y atípicos.  
2. **Aplicar técnicas de ingeniería de características** para enriquecer la información contenida en un conjunto de datos.  
3. **Realizar un análisis exploratorio de datos (EDA)** usando herramientas estadísticas y visuales para responder preguntas clave del negocio.  
4. **Formular y poner a prueba hipótesis estadísticas** con base en los datos, interpretando correctamente los resultados y su significancia.


### 🩺 Contexto del Caso

Eres un analista de datos contratado por una aseguradora médica que busca optimizar sus políticas de cobro.  
El equipo directivo quiere entender qué variables influyen más en los cargos médicos (`charges`) y si hay diferencias significativas entre ciertos grupos de personas, como fumadores y no fumadores, o entre regiones del país.  
Tu tarea es explorar los datos de sus clientes y presentar hallazgos clave que guíen futuras decisiones.


### 📁 Descripción del Dataset

El archivo `insurance.csv` contiene información de individuos asegurados, incluyendo sus características personales y el monto cobrado por servicios médicos.


### 📘 Diccionario de Datos

| Variable    | Descripción |
|-------------|-------------|
| `age`       | Edad del beneficiario principal |
| `sex`       | Sexo del contratante del seguro (`male`, `female`) |
| `bmi`       | Índice de masa corporal (peso/altura²) |
| `children`  | Número de hijos/dependientes asegurados |
| `smoker`    | Si la persona fuma (`yes`, `no`) |
| `region`    | Región de residencia (`northeast`, `southeast`, `southwest`, `northwest`) |
| `charges`   | Costo individual de servicios médicos facturado |


In [None]:
import pandas as pd 


In [None]:
# Cargar datos
insurance_url ="https://raw.githubusercontent.com/stedy/Machine-Learning-with-R-datasets/refs/heads/master/insurance.csv"
df=pd.read_csv(insurance_url)
df.head()

In [None]:
df.info()

### 1️⃣ Revisión de calidad de datos

- Verifica la presencia de valores nulos o duplicados.
- Identifica posibles valores atípicos en variables numéricas (`bmi`, `charges`, `age`).
- Comenta si los valores categóricos están bien codificados o requieren limpieza.


### 2️⃣ Ingeniería de características

- Crea una nueva variable `bmi_category` según los rangos oficiales de la OMS:
  - Bajo peso: < 18.5
  - Normal: 18.5–24.9
  - Sobrepeso: 25.0–29.9
  - Obesidad: ≥ 30.0
- Crea una nueva variable `is_parent` que indique si la persona tiene al menos un hijo.
- Crea una variable `age_group` (por ejemplo: `joven` < 30, `adulto` 30–50, `mayor` > 50)


### 3️⃣ Análisis exploratorio

- ¿Cómo varía el costo médico (`charges`) según la región, el hábito de fumar o el sexo?
- ¿Existen diferencias de `charges` entre padres y no padres?
- Realiza tablas de agrupación y pivot tables con:
  - Promedio de `charges` por región y por `smoker`.
  - Conteo de asegurados por `bmi_category` y `sex`.
- Visualizaciones sugeridas:
  - Boxplots de `charges` por `smoker` y `sex`.
  - Histogramas o KDE de distribución de `charges`.
  - Gráficas de barras apiladas por `region` y `bmi_category`.


### 4️⃣ Prueba de hipótesis

**Pregunta**: ¿Existe una diferencia significativa en el promedio de `charges` entre fumadores y no fumadores?

- Hipótesis:
  - H₀: No hay diferencia en los promedios de `charges` entre fumadores y no fumadores.
  - H₁: Hay una diferencia en los promedios de `charges` entre fumadores y no fumadores.
- Aplica una prueba t para muestras independientes (`ttest_ind`).
- Reporta valor de p y concluye con base en un nivel de significancia de 0.05.
