# Proyecto final Machine Learning

## Librerías necesarias

In [1]:
import pandas as pd

In [None]:
# Ver el total de columnas del DataFrame
pd.set_option('display.max_columns', None)

## Información del dataframe

Este conjunto de datos proporciona información sobre 100.000 personas, incluyendo datos demográficos, nivel socioeconómico, estado de salud, estilo de vida, planes de seguro y gastos médicos.

Está diseñado para apoyar tareas de aprendizaje automático y modelado estadístico, tales como:

- Predicción de costos médicos anuales (regresión)

- Clasificación de individuos según su nivel de riesgo

- Agrupamiento basado en perfiles de salud y seguro

- Análisis de relaciones entre datos demográficos, factores de salud y costos

El conjunto de datos puede ser útil para la predicción de costos de seguros, la evaluación de riesgos, el análisis de reclamaciones y proyectos de análisis de datos sanitarios.

Tomado de: https://www.kaggle.com/datasets/mohankrishnathalla/medical-insurance-cost-prediction?resource=download

In [2]:
df = pd.read_csv('medical_insurance.csv')

In [4]:
df.head()

Unnamed: 0,person_id,age,sex,region,urban_rural,income,education,marital_status,employment_status,household_size,...,liver_disease,arthritis,mental_health,proc_imaging_count,proc_surgery_count,proc_physio_count,proc_consult_count,proc_lab_count,is_high_risk,had_major_procedure
0,75722,52,Female,North,Suburban,22700.0,Doctorate,Married,Retired,3,...,0,1,0,1,0,2,0,1,0,0
1,80185,79,Female,North,Urban,12800.0,No HS,Married,Employed,3,...,0,1,1,0,0,1,0,1,1,0
2,19865,68,Male,North,Rural,40700.0,HS,Married,Retired,5,...,0,0,1,1,0,2,1,0,1,0
3,76700,15,Male,North,Suburban,15600.0,Some College,Married,Self-employed,5,...,0,0,0,1,0,0,1,0,0,0
4,92992,53,Male,Central,Suburban,89600.0,Doctorate,Married,Self-employed,2,...,0,1,0,2,0,1,1,0,1,0


In [5]:
len(df)

100000

In [7]:
len(df.columns)

54

## Requisitos de tareas y recolección de datos

- Tenemos un **dataframe con 100.000 registros y 54 variables** entre numéricas y categóricas.  
  (Cumple con el requisito de ≥ 5.000 registros y ≥ 10 variables).

- El dataframe proviene de un **contexto profesional realista**, pues simula información de pacientes y seguros, perfecta para problemas de salud y predicción de riesgos.

- **Tarea de regresión**:  
  Podemos predecir sobre:
  - `annual_medical_cost`
  - `annual_premium`
  - `monthly_premium`

  Modelos posibles:
  - Regresión Lineal / Ridge / Lasso  
  - Árboles de Decisión / Random Forest / XGBoost

- **Tarea de clasificación**:  
  Usar como variable objetivo:
  - `is_high_risk` : (0/1, riesgo médico alto)
  - `had_major_procedure` : probabilidad de cirugía mayor 
  - o crear una variable categórica derivada de los costos médicos (por ejemplo, “alto/bajo costo”).  

  Modelos posibles:
  - Logistic Regression
  - Random Forest
  - Support Vector Machine
  - Gradient Boosting  

- **Tarea No supervisado (2)**:  
    - **Clustering**: agrupar pacientes según características de salud o costos (`age`, `bmi`, `smoker`, `income`, etc.).
    - **PCA / t-SNE**: visualizar perfiles o reducir dimensionalidad.
    - **Detección de anomalías**: identificar pacientes con gastos anómalos.


