# Examen final de Desarrollo de Aplicaciones para la Visualización de Datos

Nombre: 

Apellidos:

Tiempo: 2 horas y 30 minutos

## Contexto del ejercicio

Una gran compañía aseguradora de salud desea entender con mayor profundidad los patrones de coste médico, el uso de servicios sanitarios y los factores que determinan el riesgo clínico de sus asegurados.

La empresa cree que ciertos hábitos de vida, condiciones crónicas y características del seguro tienen un fuerte impacto sobre:

- Los costes médicos anuales (annual_medical_cost)
- El total pagado en reclamaciones médicas (total_claims_paid)
- La utilización de servicios médicos, incluyendo consultas, hospitalizaciones y procedimientos
- De que depende de que un asegurado sea clasificado como de alto riesgo (is_high_risk)

La aseguradora sospecha que estos resultados están influenciados por variables relacionadas con:

- Hábitos de vida (bmi, smoker, alcohol, ejercicio…)
- Enfermedades crónicas (diabetes, hipertensión, cardiopatías…)
- Características del seguro (tipo de plan, deducible, copago, calidad del proveedor)

Tu rol será actuar como Analista de Datos, llevando a cabo un análisis que permita identificar patrones significativos y generar recomendaciones accionables para la aseguradora.

## Tareas obligatorias a realizar:

1. Análisis exploratorio con clusterización (mínimo 6 gráficos)
2. Entrena un modelo y explicable, a elegir entre:
    - Clasificación para predecir __is_high_risk__
    - Regresión para predecir __annual_medical_cost__
3. Dashboard con mínimo 4 visualizaciones (3 gráficas + 1 coeficientes)
4. Informe ejecutivo de dos páginas con:
    - Los hallazgos más relevantes del análisis exploratorio
    - Insights principales del modelo predictivo
    - El dashboard con los 4 gráficos más representativos
    - Recomendaciones accionables basadas en los datos

## Entregable y puntuación

Se entregará un informe con la siguiente estructura:

1. Resumen ejecutivo (3 puntos) + dashboard (2 puntos)
2. Gráficas del análisis exploratorio y breve explicación de cada una (3 puntos)
3. Modelo predictivo explicado (2 puntos)

## Entrega del exámen

Subir al siguiente enlace tu informe en **formato PDF**.

https://forms.office.com/e/zPHcGS22x9

En el repo existe un .docx con el formato para entregar el informe.

## Juego de datos

Para realizar este análisis se provee el fichero __medical_insurance.csv__ con las siguientes variables:

**Rows:** 100,000
**Columns:** 54+

| **Categoría**                           | **Variable**                | **Tipo (esperado)** | **Descripción / Significado**                         |
| --------------------------------------- | --------------------------- | ------------------- | ----------------------------------------------------- |
| **Demographics & Socioeconomic**        |                             |                     |                                                       |
|                                         | person_id                   | string/int          | Identificador único de la persona.                    |
|                                         | age                         | int                 | Edad del individuo.                                   |
|                                         | sex                         | category            | Sexo (male/female/other).                             |
|                                         | region                      | category            | Región geográfica donde reside.                       |
|                                         | urban_rural                 | category            | Tipo de zona (urbana vs rural).                       |
|                                         | income                      | float               | Nivel de ingresos anuales.                            |
|                                         | education                   | category            | Nivel educativo alcanzado.                            |
|                                         | marital_status              | category            | Estado civil (single, married, divorced…).            |
|                                         | employment_status           | category            | Situación laboral (employed, unemployed, retired…).   |
|                                         | household_size              | int                 | Número total de personas en el hogar.                 |
|                                         | dependents                  | int                 | Número de dependientes económicos.                    |
| **Lifestyle & Habits**                  |                             |                     |                                                       |
|                                         | bmi                         | float               | Índice de masa corporal.                              |
|                                         | smoker                      | category/bool       | Si la persona es fumadora.                            |
|                                         | alcohol_freq                | category            | Frecuencia de consumo de alcohol.                     |
|                                         | exercise_frequency          | category/int        | Frecuencia de ejercicio semanal.                      |
|                                         | sleep_hours                 | float               | Promedio de horas de sueño diario.                    |
|                                         | stress_level                | int                 | Nivel de estrés percibido (escala ordinal).           |
| **Health & Clinical**                   |                             |                     |                                                       |
|                                         | hypertension                | bool                | Diagnóstico de hipertensión.                          |
|                                         | diabetes                    | bool                | Diagnóstico de diabetes.                              |
|                                         | copd                        | bool                | Enfermedad pulmonar obstructiva crónica.              |
|                                         | cardiovascular              | bool                | Enfermedad cardiovascular.                            |
|                                         | cancer_history              | bool                | Antecedente personal de cáncer.                       |
|                                         | kidney_disease              | bool                | Enfermedad renal crónica.                             |
|                                         | liver_disease               | bool                | Enfermedad hepática crónica.                          |
|                                         | arthritis                   | bool                | Diagnóstico de artritis.                              |
|                                         | mental_health               | bool/category       | Algún trastorno de salud mental reportado.            |
|                                         | chronic_count               | int                 | Número total de enfermedades crónicas diagnosticadas. |
|                                         | systolic_bp                 | int                 | Presión arterial sistólica.                           |
|                                         | diastolic_bp                | int                 | Presión arterial diastólica.                          |
|                                         | ldl                         | float               | Colesterol LDL.                                       |
|                                         | hba1c                       | float               | Hemoglobina glicosilada, indicador de diabetes.       |
|                                         | risk_score                  | float               | Puntuación compuesta de riesgo clínico.               |
|                                         | is_high_risk                | bool                | Indicador de alto riesgo clínico.                     |
| **Healthcare Utilization & Procedures** |                             |                     |                                                       |
|                                         | visits_last_year            | int                 | Visitas médicas en el último año.                     |
|                                         | hospitalizations_last_3yrs  | int                 | Número de hospitalizaciones en 3 años.                |
|                                         | days_hospitalized_last_3yrs | int                 | Días totales hospitalizado en 3 años.                 |
|                                         | medication_count            | int                 | Cantidad de medicamentos activos.                     |
|                                         | proc_imaging                | int                 | Cantidad de estudios de imagen realizados.            |
|                                         | proc_surgery                | int                 | Número de procedimientos quirúrgicos.                 |
|                                         | proc_psycho                 | int                 | Número de consultas/procedimientos de psicología.     |
|                                         | proc_consult_count          | int                 | Número total de consultas médicas.                    |
|                                         | proc_lab                    | int                 | Número de exámenes de laboratorio.                    |
|                                         | had_major                   | bool                | Si tuvo un procedimiento mayor (cirugía importante).  |
| **Insurance & Policy**                  |                             |                     |                                                       |
|                                         | plan_type                   | category            | Tipo de plan (HMO, PPO, etc.).                        |
|                                         | network_tier                | category            | Nivel de red (gold/silver/bronze).                    |
|                                         | deductible                  | float               | Deducible anual del seguro.                           |
|                                         | copay                       | float               | Copago por servicio.                                  |
|                                         | policy_term_years           | int                 | Duración del contrato del seguro.                     |
|                                         | policy_changes_last_2yrs    | int                 | Cambios realizados a la póliza en 2 años.             |
|                                         | provider_quality            | float               | Índice de calidad del proveedor.                      |
| **Medical Costs & Claims**              |                             |                     |                                                       |
|                                         | annual_medical_cost         | float               | Coste médico anual real del paciente.                 |
|                                         | annual_premium              | float               | Prima anual pagada por el paciente.                   |
|                                         | monthly_premium             | float               | Prima mensual pagada.                                 |
|                                         | claims_count                | int                 | Número de reclamaciones realizadas.                   |
|                                         | avg_claim_amount            | float               | Valor promedio por reclamación.                       |
|                                         | total_claims_paid           | float               | Total pagado por la compañía aseguradora.             |

Ejemplos de preguntas que se pueden realizar a los datos:
1. ¿Cómo varía el coste médico anual según edad, sexo y región?
2. ¿Qué relación existe entre hábitos de vida (bmi, smoker, alcohol_freq…) y el coste médico anual?
3. ¿Cuánto más cuesta un paciente de alto riesgo respecto a uno de bajo riesgo?
4. ¿Qué enfermedades crónicas generan mayores costes promedio?
5. ¿Existe relación entre hospitalizaciones y coste total en los últimos 3 años?
6. ¿Qué parámetros clínicos tienen mayor correlación con el coste médico?
7. ¿Qué tipos de seguro están asociados con mayor gasto?
8. ¿Cómo se relacionan los procedimientos médicos con el total pagado en reclamaciones?
9. ¿Qué variables explican mejor los costes según un modelo predictivo?
10. ¿Qué grupos de pacientes comparten patrones similares de riesgo y coste (clustering)?

Nota:
- Se valorará la creatividad en las hipótesis, soluciones y limpieza del código y visualizaciones.

Carga tus librerías

Escribe tu código