##  <p style="color:purple"> Prueba Práctica – Análisis Exploratorio y Regresión Lineal

<img src="img/zTnvOcb.jpeg" width="800">


### Contexto

Una compañía aseguradora quiere estimar el **importe del seguro médico** que debería cobrar a cada cliente en función de sus características personales.

Tu tarea consiste en realizar un **análisis exploratorio (EDA)**, preparar los datos y construir un **modelo de regresión lineal** capaz de predecir el coste del seguro.

A continuación se describen las variables del dataset:

| Variable     | Descripción                                                                                                          |
| ------------ | -------------------------------------------------------------------------------------------------------------------- |
| **age**      | Edad del beneficiario principal.                                                                                     |
| **sex**      | Género del asegurado: `female` o `male`.                                                                             |
| **bmi**      | Índice de masa corporal (IMC). Permite estimar si el peso es adecuado según la altura. Idealmente entre 18.5 y 24.9. |
| **children** | Número de hijos o personas dependientes cubiertas por el seguro.                                                     |
| **smoker**   | Indica si la persona es fumadora (`yes` / `no`).                                                                     |
| **region**   | Región de residencia del beneficiario en EE. UU.: `northeast`, `southeast`, `southwest`, `northwest`.                |
| **charges**  | Importe anual del seguro médico (variable objetivo).                                                                 |






<div style="background-color:green;color:white">

##  Parte 0: Importación de librerías 

En el siguiente apartado **importa todas las librerías necesarias** para el desarrollo del examen.

Añade un breve comentario indicando para que sirven.

<br>

<div style="background-color:green;color:white">

## Parte 1: Análisis exploratorio (EDA) [3 puntos] 

1. **Carga y visualización inicial del dataset.**

   * Muestra la forma del dataset
   * Muestra las primeras filas
   * Muestra la información general del dataset
   * Indica el número de valores nulos y duplicados.

<br>

In [None]:
# Load the dataset

In [None]:
# Check the shape of the dataset


In [None]:
# Display the first few rows of the dataset


In [None]:
# Get general information about the dataset


In [None]:
# Check for missing values in the dataset   


In [None]:
# Check for duplicate rows in the dataset


<div style="background-color:green;color:white">

2. **Distribución de variables.**

* Muestra las medidas de tendencia central y dispersión (mean, median, std, quantile).
* Detecta posibles outliers mediante boxplots de 
   * age, bmi, children
* Comenta brevemente qué variables presentan valores atípicos o extremos.
* Visualiza los histogramas de las variables numéricas

<br>



In [None]:
# Get descriptive statistics for the dataset


In [None]:
# Visualize boxplots for numerical variables

In [None]:
# Visualize histograms for numerical variables

<div style="background-color:green;color:white">

## Parte 2: Limpieza y preprocesado — 3 puntos

3. **Tratamiento de valores faltantes**

   * Sustituye los valores nulos por la media, mediana o moda según la distribución.
   * Explica por qué no sería apropiado eliminar filas en este caso.

   <br>

In [None]:
# Handling missing values




<div style="background-color:green;color:white">

4. **Codificación de variables categóricas**

   * Convierte sex, smoker y region con *pd.get_dummies* y la opción *drop_first=True* para evitar redundancia.

   <br>

In [None]:

# Categorical variables to be converted 'sex', 'smoker', 'region'


# Convert categorical variables to numeric using one-hot encoding




<div style="background-color:green;color:white">

5. **Normalización**

   * Aplica normalización si aplica con **Z-score** o **Min–Max**.
   * Explica cuándo es recomendable normalizar.

   <br>

<div style="background-color:green;color:white">

6. **Eliminación de outliers**

   Tras detectar los outliers mediante el análisis estadístico y los boxplots, elimina los que consideres inadecuados para el modelo.

    Usar el método IQR (rango intercuartílico) o un filtro por percentiles.
    Justifica tu respuesta

   <br>

In [None]:
# Remove outliers



<div style="background-color:green;color:white">

7. **Correlaciones.**

* Calcula la matriz de correlación y represéntala como mapa de calor.
* Comenta brevemente qué variables parecen más relacionadas con charges.

<br>

In [None]:
# Calculate the correlation matrix only for numerical variables


<div style="background-color:green;color:white">

##  Parte 3: Construcción y evaluación del modelo — 3 puntos

8. **Separación de datos**

   * Divide el dataset en entrenamiento y prueba (80 % / 20 %).

   <br>


<div style="background-color:green;color:white">

9. **Entrenamiento del modelo**

   * Usa el algoritmo de regresion lineal de *sklearn*.
   * Muestra:

     * el **intercepto** (*intercept_*)
     * los **coeficientes** (*coef_*)
     * los nombres de las variables asociadas.

     <br>




In [None]:
# Create the linear regression model



<div style="background-color:green;color:white">

10. Observa los coeficientes obtenidos por tu modelo de regresión lineal.

* ¿Qué variables tienen la mayor influencia positiva y negativa en el precio del seguro?

* Explica brevemente qué significa esto en la práctica (por qué esas variables aumentan o disminuyen el coste).

* Según tu modelo, ¿qué factores parecen tener poca o ninguna influencia en el precio final del seguro?

     <br>

<div style="background-color:green;color:white">

11. **Evaluación**

   * Calcula las métricas:

     * *MAE*, *MSE*, *RMSE*, *R²*

<br>


In [None]:


# Make predictions on the test set



<div style="background-color:green;color:white">

12. Representa en un gráfico *y_test* vs *y_pred*.

<br>


<div style="background-color:green;color:white">

13. Interpretación de los resultados

* ¿Cómo interpretarías los errores MAE y RMSE en el contexto del precio del seguro? 
* ¿Qué nos indica el valor de R² = 0.764 sobre la calidad del modelo?

<br>

<div style="background-color:green;color:white">

##  Parte 4: Predicción — 1 punto

14. Usa el modelo entrenado para predecir el coste del seguro de los siguientes dos clientes ficticios.
Deberás construir un DataFrame con sus características codificadas según las columnas del modelo.


### Cliente 1
* Age: 29
* Sex: Female
* BMI: 23.5
* Children: 1
* Smoker: No
* Region: Southwest
### Cliente 2

* Age: 54
* Sex: Male
* BMI: 31.2
* Children: 3
* Smoker: Yes
* Region: Northwest

<br>

In [None]:
# Example structure for predictions (students must fill values properly)

