# Flu Shot Learning: Predict H1N1 and Seasonal Flu Vaccines

------------------------------------------------------
*Pablo Gradolph Oliva*

*Jaime De Castro Escribano*

*Enric*

*Adrián*

*Ruxi*

------------------------------------------------------

## 1. Introduction

Nuestro objetivo es predecir la probabilidad de que las personas reciban las vacunas contra la gripe H1N1 y la gripe estacional. Específicamente, debemos predecir dos probabilidades: una para la vacuna contra la gripe H1N1 y otra para la vacuna contra la gripe estacional.

Cada fila del conjunto de datos representa a una persona que respondió a la Encuesta nacional sobre la gripe H1N1 2009.

Para esta competición, hay dos variables objetivo:

    - h1n1_vaccine: Si el encuestado recibió la vacuna contra la gripe H1N1.
    - seasonal_vaccine: Si el encuestado recibió la vacuna contra la gripe estacional.

Ambas son variables binarias: 0 = No; 1 = Sí. Algunos encuestados no recibieron ninguna de las vacunas, otros recibieron sólo una y algunos recibieron ambas. Esto se formula como un problema multietiqueta (y no multiclase).

Se proporciona un conjunto de datos con 36 columnas. La primera columna respondent_id es un identificador único y aleatorio. Las 35 características restantes se describen a continuación. Para todas las variables binarias: 0 = No; 1 = Sí.

    - h1n1_concern: Nivel de preocupación por la gripe H1N1.
    0 = Nada preocupado; 1 = Poco preocupado; 2 = Algo preocupado; 3 = Muy preocupado.
    - h1n1_knowledge: Nivel de conocimiento sobre la gripe H1N1.
    0 = Ningún conocimiento; 1 = Poco conocimiento; 2 = Mucho conocimiento.
    - behavioral_antiviral_meds: Ha tomado medicamentos antivirales. (binario)
    - behavioral_avoidance - Ha evitado el contacto cercano con otras personas con síntomas gripales. (binario)
    - behavioral_face_mask: Se ha comprado una mascarilla facial. (binario)
    - behavioral_wash_hands: Se ha lavado las manos con frecuencia o ha utilizado desinfectante para manos. (binario)
    - behavioral_large_gatherings: Ha reducido el tiempo dedicado a las grandes reuniones. (binario)
    - behavioral_outside_home: Ha reducido el contacto con personas ajenas a su hogar. (binario)
    - behavioral_touch_face: Ha evitado tocarse los ojos, la nariz o la boca. (binario)
    - doctor_recc_h1n1: El médico recomendó la vacuna contra la gripe H1N1. (binario)
    - doctor_recc_seasonal: El médico recomendó la vacuna contra la gripe estacional. (binario)
    - chronic_med_condition: Padece alguna de las siguientes afecciones crónicas: asma u otra afección pulmonar, diabetes, afección cardíaca, afección renal, anemia falciforme u otra anemia, afección neurológica o neuromuscular, afección hepática o debilidad del sistema inmunitario causada por una enfermedad crónica o por los medicamentos que toma para una enfermedad crónica. (binario)
    - child_under_6_months: Tiene contacto regular con un niño menor de seis meses. (binario)
    - health_worker: Es un trabajador sanitario. (binario)
    - health_insurance: Tiene seguro médico. (binario)
    - opinion_h1n1_vacc_effective: Opinión del encuestado sobre la eficacia de la vacuna contra la gripe H1N1.
    1 = Nada eficaz; 2 = Poco eficaz; 3 = No lo sé; 4 = Algo eficaz; 5 = Muy eficaz.
    - opinion_h1n1_risk: Opinión del encuestado sobre el riesgo de contraer la gripe H1N1 sin vacunarse.
    1 = Muy bajo; 2 = Algo bajo; 3 = No lo sé; 4 = Algo alto; 5 = Muy alto.
    - opinion_h1n1_sick_from_vacc: Preocupación del encuestado de enfermar por vacunarse contra la gripe H1N1.
    1 = Nada preocupado; 2 = Poco preocupado; 3 = No lo sé; 4 = Algo preocupado; 5 = Muy preocupado.
    - opinion_seas_vacc_effective: Opinión del encuestado sobre la eficacia de la vacuna contra la gripe estacional.
    1 = Nada eficaz; 2 = Poco eficaz; 3 = No lo sé; 4 = Algo eficaz; 5 = Muy eficaz.
    - opinion_seas_risk: Opinión del encuestado sobre el riesgo de contraer la gripe de temporada sin vacunarse.
    1 = Muy baja; 2 = Algo baja; 3 = No lo sé; 4 = Algo alta; 5 = Muy alta.
    - opinion_seas_ick_from_vacc: Preocupación del encuestado de enfermar por vacunarse contra la gripe estacional.
    1 = Nada preocupado; 2 = Poco preocupado; 3 = No lo sé; 4 = Algo preocupado; 5 = Muy preocupado.
    - age_group: Grupo de edad del encuestado.
    - education: Nivel de estudios declarado por el encuestado.
    - race: Raza del encuestado.
    - sex: Sexo del encuestado.
    - income_poverty: Ingresos anuales del hogar del encuestado con respecto a los umbrales de pobreza del censo de 2008.
    - marital_status: Estado civil del encuestado.
    - rent_or_own: Situación de vivienda del encuestado.
    - employment_status: Situación laboral del encuestado.
    - hhs_geo_region: Residencia del encuestado según una clasificación geográfica de 10 regiones definida por el Departamento de Salud y Servicios Humanos de EE.UU.. Los valores se representan como cadenas cortas de caracteres aleatorios.
    - census_msa: Residencia del encuestado dentro de las áreas estadísticas metropolitanas (MSA) definidas por el Censo de EE.UU.
    - household_adults: Número de otros adultos en el hogar, con un código máximo de 3.
    - household_children: Número de niños en el hogar, codificado hasta 3.
    - employment_industry: Tipo de sector en el que trabaja el encuestado. Los valores se representan como cadenas cortas de caracteres aleatorios.
    - employment_occupation: Tipo de ocupación del encuestado. Los valores se representan como cadenas cortas de caracteres aleatorios.

In [64]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 2. Análisis exploratorio de datos y preprocesamiento del dataset

Vamos a realizar el análisis exploratorio de datos y el preprocesamiento para poder llevar a cabo el trabajo. Para ello empezamos cargando el dataset.

In [65]:
df = pd.read_csv('Data/training_set_features.csv')

Veamos las dimensiones. Y algunas características clave del dataset para una primera aproximación al mismo.

In [66]:
print(f'Filas: {df.shape[0]}, Columnas: {df.shape[1]}')

Filas: 26707, Columnas: 36


In [67]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26707 entries, 0 to 26706
Data columns (total 36 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   respondent_id                26707 non-null  int64  
 1   h1n1_concern                 26615 non-null  float64
 2   h1n1_knowledge               26591 non-null  float64
 3   behavioral_antiviral_meds    26636 non-null  float64
 4   behavioral_avoidance         26499 non-null  float64
 5   behavioral_face_mask         26688 non-null  float64
 6   behavioral_wash_hands        26665 non-null  float64
 7   behavioral_large_gatherings  26620 non-null  float64
 8   behavioral_outside_home      26625 non-null  float64
 9   behavioral_touch_face        26579 non-null  float64
 10  doctor_recc_h1n1             24547 non-null  float64
 11  doctor_recc_seasonal         24547 non-null  float64
 12  chronic_med_condition        25736 non-null  float64
 13  child_under_6_mo

In [68]:
print(df.describe())

       respondent_id  h1n1_concern  h1n1_knowledge  behavioral_antiviral_meds  \
count   26707.000000  26615.000000    26591.000000               26636.000000   
mean    13353.000000      1.618486        1.262532                   0.048844   
std      7709.791156      0.910311        0.618149                   0.215545   
min         0.000000      0.000000        0.000000                   0.000000   
25%      6676.500000      1.000000        1.000000                   0.000000   
50%     13353.000000      2.000000        1.000000                   0.000000   
75%     20029.500000      2.000000        2.000000                   0.000000   
max     26706.000000      3.000000        2.000000                   1.000000   

       behavioral_avoidance  behavioral_face_mask  behavioral_wash_hands  \
count          26499.000000          26688.000000           26665.000000   
mean               0.725612              0.068982               0.825614   
std                0.446214              0

## Preprocesamiento

Para la parte de Preprocesamiento vamos a utilizar pipelines, que contengan todo el preprocesamiento. Un pipeline es una herramienta de procesamiento de datos que organiza, automatiza y encadena múltiples pasos del preprocesamiento y modelado en un flujo continuo. Se utiliza comúnmente en proyectos de machine learning para garantizar consistencia, evitar fugas de datos y mejorar la reproducibilidad.

Componentes clave de un pipeline:

    1. Transformadores:
        Son los pasos de preprocesamiento, como:

            - Imputación de valores faltantes.
            - Escalado o normalización de datos.
            - Codificación de variables categóricas.
            - Selección o reducción de características.

    2. Modelo de predicción:
        Es el paso final del pipeline. Puede ser un clasificador o un regresor.

    3. Encadenamiento:
        Todos los pasos del pipeline están conectados. Los datos fluyen secuencialmente desde el primer paso hasta el último.

### Valores faltantes 

Vamos a ver si existen valores faltantes en el dataset y a decidir cómo tratarlos.

In [69]:
print(df.isnull().sum())

respondent_id                      0
h1n1_concern                      92
h1n1_knowledge                   116
behavioral_antiviral_meds         71
behavioral_avoidance             208
behavioral_face_mask              19
behavioral_wash_hands             42
behavioral_large_gatherings       87
behavioral_outside_home           82
behavioral_touch_face            128
doctor_recc_h1n1                2160
doctor_recc_seasonal            2160
chronic_med_condition            971
child_under_6_months             820
health_worker                    804
health_insurance               12274
opinion_h1n1_vacc_effective      391
opinion_h1n1_risk                388
opinion_h1n1_sick_from_vacc      395
opinion_seas_vacc_effective      462
opinion_seas_risk                514
opinion_seas_sick_from_vacc      537
age_group                          0
education                       1407
race                               0
sex                                0
income_poverty                  4423
m

Vemos cómo la mayoría de variables tienen valores faltantes y, además, no contienen precisamente pocos por lo que la decisión no podrá ser eliminar los registros con valores faltantes, sino que habrá que aplicar otras técnicas. 

Algunas variables faltantes pueden ser completadas basándose en información presente en otras columnas, por ejemplo:
Si employment_status es "Unemployed" o "Not in Labor Force", las variables employment_industry y employment_occupation deberían ser asignadas como "Not Applicable" (o un valor similar).

Para variables categóricas que no tienen una relación lógica clara con otras columnas vamos a utilizar la moda porque mantiene la consistencia con las categorías existentes y es útil para variables donde los valores no tienen un rango amplio o continuo.

Para variables numéricas continuas o discretas, elegimos la imputación con la mediana ya que es más robusta que la media si hay valores extremos. Además, el escalado puede ser útil dependiendo del modelo.

In [None]:
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import FunctionTransformer

# Variables con un orden implícito en sus valores
ordinal_cols = ['h1n1_concern', 'h1n1_knowledge', 'opinion_h1n1_vacc_effective', 'opinion_h1n1_risk', 
                'opinion_h1n1_sick_from_vacc', 'opinion_seas_vacc_effective', 'opinion_seas_risk', 'opinion_seas_sick_from_vacc']
ordinal_cols_str = ['age_group', 'education', 'income_poverty']

# Variables binarias con valores 0 o 1
binary_cols = ['behavioral_antiviral_meds', 'behavioral_avoidance', 'behavioral_face_mask', 'behavioral_wash_hands',
               'behavioral_large_gatherings', 'behavioral_outside_home', 'behavioral_touch_face', 'doctor_recc_h1n1',
               'doctor_recc_seasonal', 'chronic_med_condition', 'child_under_6_months', 'health_worker', 'health_insurance']
binary_cols_str = ['sex', 'marital_status', 'rent_or_own']

# Variables categóricas sin orden, como regiones o industrias
nominal_cols_str = ['race', 'employment_status', 'hhs_geo_region', 'census_msa', 'employment_industry', 'employment_occupation']

# Variables numéricas
numeric_cols = ['household_adults', 'household_children']

# Función para manejar valores faltantes específicos
def mark_missing(df):
    df[['employment_industry', 'employment_occupation']] = df[['employment_industry', 'employment_occupation']].mask(
        df['employment_status'].isin(['Not in Labor Force', 'Unemployed']), 'Missing'
    )
    return df

# Mapeos de orden para variables ordinales de texto
ordinal_col_order = {
    'age_group': ['18 - 34 Years', '35 - 44 Years', '55 - 64 Years', '45 - 54 Years', '65+ Years'],
    'education': ['< 12 Years', '12 Years', 'Some College', 'College Graduate'],
    'income_poverty': ['Below Poverty', '<= $75,000, Above Poverty', '> $75,000']
}

# Pipelines para cada tipo de columna
ordinal_numeric_pipeline = Pipeline([
    ('simple_imputer', SimpleImputer(strategy='most_frequent'))
])

ordinal_str_pipeline = Pipeline([
    ('simple_imputer', SimpleImputer(strategy='most_frequent')),
    ('ordinal_encoder', OrdinalEncoder(categories=[ordinal_col_order[col] for col in ordinal_cols_str]))
])

binary_pipeline = Pipeline([
    ('simple_imputer', SimpleImputer(strategy='most_frequent'))
])

binary_str_pipeline = Pipeline([
    ('simple_imputer', SimpleImputer(strategy='most_frequent')),
    ('ordinal_encoder', OrdinalEncoder())
])

nominal_pipeline = Pipeline([
    ('simple_imputer', SimpleImputer(strategy='most_frequent')),
    ('one_hot_encoder', OneHotEncoder(handle_unknown='ignore'))
])

# Preprocesamiento general con ColumnTransformer
column_transformer = ColumnTransformer(
    transformers=[
        ('ordinal_numeric', ordinal_numeric_pipeline, ordinal_cols + numeric_cols),
        ('ordinal_str', ordinal_str_pipeline, ordinal_cols_str),
        ('binary', binary_pipeline, binary_cols),
        ('binary_str', binary_str_pipeline, binary_cols_str),
        ('nominal', nominal_pipeline, nominal_cols_str)
    ],
    remainder='drop'  # Eliminamos columnas no especificadas
)

# Pipeline general
data_preprocessing_pipeline = Pipeline([
    ('handle_missing_employment', FunctionTransformer(mark_missing, validate=False)),
    ('preprocessor', column_transformer)
])

# Aplicar el pipeline al dataset
preprocessed_data = data_preprocessing_pipeline.fit_transform(df)

# Convertir a DataFrame (los nombres generados por OneHotEncoder deben incluirse)
output_columns = (
    ordinal_cols + numeric_cols +
    ordinal_cols_str +
    binary_cols + binary_cols_str +
    list(data_preprocessing_pipeline.named_steps['preprocessor'].transformers_[4][1].named_steps['one_hot_encoder'].get_feature_names_out(nominal_cols_str))
)

preprocessed_df = pd.DataFrame(preprocessed_data, columns=output_columns)

# Guardar el resultado en un archivo CSV
preprocessed_df.to_csv('Data/preprocessed_dataset.csv', index=False)
print("Dataset preprocesado guardado como 'preprocessed_dataset.csv'")

Dataset preprocesado guardado como 'preprocessed_dataset.csv'


In [86]:
print(preprocessed_df.shape)
print(preprocessed_df.isnull().sum())

(26707, 95)
h1n1_concern                      0
h1n1_knowledge                    0
opinion_h1n1_vacc_effective       0
opinion_h1n1_risk                 0
opinion_h1n1_sick_from_vacc       0
                                 ..
employment_occupation_vlluhbov    0
employment_occupation_xgwztkwe    0
employment_occupation_xqwwgdyp    0
employment_occupation_xtkaffoo    0
employment_occupation_xzmlyyjv    0
Length: 95, dtype: int64
