# Flu Shot Learning: Predict H1N1 and Seasonal Flu Vaccines

------------------------------------------------------
*Pablo Gradolph Oliva*

*Jaime De Castro Escribano*

*Enric*

*Adrián*

*Ruxandra Cojocaru*

------------------------------------------------------

## 1. Introduction

Nuestro objetivo es predecir la probabilidad de que las personas reciban las vacunas contra la gripe H1N1 y la gripe estacional. Específicamente, debemos predecir dos probabilidades: una para la vacuna contra la gripe H1N1 y otra para la vacuna contra la gripe estacional.

Cada fila del conjunto de datos representa a una persona que respondió a la Encuesta nacional sobre la gripe H1N1 2009.

Para esta competición, hay dos variables objetivo:

    - h1n1_vaccine: Si el encuestado recibió la vacuna contra la gripe H1N1.
    - seasonal_vaccine: Si el encuestado recibió la vacuna contra la gripe estacional.

Ambas son variables binarias: 0 = No; 1 = Sí. Algunos encuestados no recibieron ninguna de las vacunas, otros recibieron sólo una y algunos recibieron ambas. Esto se formula como un problema multietiqueta (y no multiclase).

Se proporciona un conjunto de datos con 36 columnas. La primera columna respondent_id es un identificador único y aleatorio. Las 35 características restantes se describen a continuación. Para todas las variables binarias: 0 = No; 1 = Sí.

    - h1n1_concern: Nivel de preocupación por la gripe H1N1.
    0 = Nada preocupado; 1 = Poco preocupado; 2 = Algo preocupado; 3 = Muy preocupado.
    - h1n1_knowledge: Nivel de conocimiento sobre la gripe H1N1.
    0 = Ningún conocimiento; 1 = Poco conocimiento; 2 = Mucho conocimiento.
    - behavioral_antiviral_meds: Ha tomado medicamentos antivirales. (binario)
    - behavioral_avoidance - Ha evitado el contacto cercano con otras personas con síntomas gripales. (binario)
    - behavioral_face_mask: Se ha comprado una mascarilla facial. (binario)
    - behavioral_wash_hands: Se ha lavado las manos con frecuencia o ha utilizado desinfectante para manos. (binario)
    - behavioral_large_gatherings: Ha reducido el tiempo dedicado a las grandes reuniones. (binario)
    - behavioral_outside_home: Ha reducido el contacto con personas ajenas a su hogar. (binario)
    - behavioral_touch_face: Ha evitado tocarse los ojos, la nariz o la boca. (binario)
    - doctor_recc_h1n1: El médico recomendó la vacuna contra la gripe H1N1. (binario)
    - doctor_recc_seasonal: El médico recomendó la vacuna contra la gripe estacional. (binario)
    - chronic_med_condition: Padece alguna de las siguientes afecciones crónicas: asma u otra afección pulmonar, diabetes, afección cardíaca, afección renal, anemia falciforme u otra anemia, afección neurológica o neuromuscular, afección hepática o debilidad del sistema inmunitario causada por una enfermedad crónica o por los medicamentos que toma para una enfermedad crónica. (binario)
    - child_under_6_months: Tiene contacto regular con un niño menor de seis meses. (binario)
    - health_worker: Es un trabajador sanitario. (binario)
    - health_insurance: Tiene seguro médico. (binario)
    - opinion_h1n1_vacc_effective: Opinión del encuestado sobre la eficacia de la vacuna contra la gripe H1N1.
    1 = Nada eficaz; 2 = Poco eficaz; 3 = No lo sé; 4 = Algo eficaz; 5 = Muy eficaz.
    - opinion_h1n1_risk: Opinión del encuestado sobre el riesgo de contraer la gripe H1N1 sin vacunarse.
    1 = Muy bajo; 2 = Algo bajo; 3 = No lo sé; 4 = Algo alto; 5 = Muy alto.
    - opinion_h1n1_sick_from_vacc: Preocupación del encuestado de enfermar por vacunarse contra la gripe H1N1.
    1 = Nada preocupado; 2 = Poco preocupado; 3 = No lo sé; 4 = Algo preocupado; 5 = Muy preocupado.
    - opinion_seas_vacc_effective: Opinión del encuestado sobre la eficacia de la vacuna contra la gripe estacional.
    1 = Nada eficaz; 2 = Poco eficaz; 3 = No lo sé; 4 = Algo eficaz; 5 = Muy eficaz.
    - opinion_seas_risk: Opinión del encuestado sobre el riesgo de contraer la gripe de temporada sin vacunarse.
    1 = Muy baja; 2 = Algo baja; 3 = No lo sé; 4 = Algo alta; 5 = Muy alta.
    - opinion_seas_ick_from_vacc: Preocupación del encuestado de enfermar por vacunarse contra la gripe estacional.
    1 = Nada preocupado; 2 = Poco preocupado; 3 = No lo sé; 4 = Algo preocupado; 5 = Muy preocupado.
    - age_group: Grupo de edad del encuestado.
    - education: Nivel de estudios declarado por el encuestado.
    - race: Raza del encuestado.
    - sex: Sexo del encuestado.
    - income_poverty: Ingresos anuales del hogar del encuestado con respecto a los umbrales de pobreza del censo de 2008.
    - marital_status: Estado civil del encuestado.
    - rent_or_own: Situación de vivienda del encuestado.
    - employment_status: Situación laboral del encuestado.
    - hhs_geo_region: Residencia del encuestado según una clasificación geográfica de 10 regiones definida por el Departamento de Salud y Servicios Humanos de EE.UU.. Los valores se representan como cadenas cortas de caracteres aleatorios.
    - census_msa: Residencia del encuestado dentro de las áreas estadísticas metropolitanas (MSA) definidas por el Censo de EE.UU.
    - household_adults: Número de otros adultos en el hogar, con un código máximo de 3.
    - household_children: Número de niños en el hogar, codificado hasta 3.
    - employment_industry: Tipo de sector en el que trabaja el encuestado. Los valores se representan como cadenas cortas de caracteres aleatorios.
    - employment_occupation: Tipo de ocupación del encuestado. Los valores se representan como cadenas cortas de caracteres aleatorios.

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns

# 2. Análisis exploratorio de datos y preprocesamiento del dataset

Vamos a realizar el análisis exploratorio de datos y el preprocesamiento para poder llevar a cabo el trabajo. Para ello empezamos cargando el dataset.

In [3]:
X = pd.read_csv('../Data/training_set_features.csv', index_col="respondent_id")
y = pd.read_csv("../Data/training_set_labels.csv", index_col="respondent_id", usecols=["respondent_id", "h1n1_vaccine", "seasonal_vaccine"])

# Cargar el dataset de prueba para aplicarle el mismo preprocesamiento
test_set_features_submission = pd.read_csv("../Data/test_set_features.csv", index_col="respondent_id")

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
df = X_train

Veamos las dimensiones. Y algunas características clave del dataset para una primera aproximación al mismo.

In [4]:
print(f'Filas: {df.shape[0]}, Columnas: {df.shape[1]}')

Filas: 21365, Columnas: 35


In [15]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 21365 entries, 12230 to 467
Data columns (total 35 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   h1n1_concern                 21292 non-null  float64
 1   h1n1_knowledge               21275 non-null  float64
 2   behavioral_antiviral_meds    21308 non-null  float64
 3   behavioral_avoidance         21197 non-null  float64
 4   behavioral_face_mask         21351 non-null  float64
 5   behavioral_wash_hands        21333 non-null  float64
 6   behavioral_large_gatherings  21294 non-null  float64
 7   behavioral_outside_home      21300 non-null  float64
 8   behavioral_touch_face        21269 non-null  float64
 9   doctor_recc_h1n1             19647 non-null  float64
 10  doctor_recc_seasonal         19647 non-null  float64
 11  chronic_med_condition        20597 non-null  float64
 12  child_under_6_months         20699 non-null  float64
 13  health_worker      

In [16]:
print(df.describe())

       h1n1_concern  h1n1_knowledge  behavioral_antiviral_meds  \
count  21292.000000    21275.000000               21308.000000   
mean       1.617462        1.262280                   0.049183   
std        0.911139        0.617598                   0.216256   
min        0.000000        0.000000                   0.000000   
25%        1.000000        1.000000                   0.000000   
50%        2.000000        1.000000                   0.000000   
75%        2.000000        2.000000                   0.000000   
max        3.000000        2.000000                   1.000000   

       behavioral_avoidance  behavioral_face_mask  behavioral_wash_hands  \
count          21197.000000          21351.000000           21333.000000   
mean               0.725905              0.070489               0.825247   
std                0.446068              0.255974               0.379764   
min                0.000000              0.000000               0.000000   
25%                0.0000

## Preprocesamiento

Para la parte de Preprocesamiento vamos a utilizar pipelines, que contengan todo el preprocesamiento. Un pipeline es una herramienta de procesamiento de datos que organiza, automatiza y encadena múltiples pasos del preprocesamiento y modelado en un flujo continuo. Se utiliza comúnmente en proyectos de machine learning para garantizar consistencia, evitar fugas de datos y mejorar la reproducibilidad.

Componentes clave de un pipeline:

    1. Transformadores:
        Son los pasos de preprocesamiento, como:

            - Imputación de valores faltantes.
            - Escalado o normalización de datos.
            - Codificación de variables categóricas.
            - Selección o reducción de características.

    2. Modelo de predicción:
        Es el paso final del pipeline. Puede ser un clasificador o un regresor.

    3. Encadenamiento:
        Todos los pasos del pipeline están conectados. Los datos fluyen secuencialmente desde el primer paso hasta el último.

### Valores faltantes 

Vamos a ver si existen valores faltantes en el dataset y a decidir cómo tratarlos.

In [6]:
print(df.isnull().sum())

h1n1_concern                      73
h1n1_knowledge                    90
behavioral_antiviral_meds         57
behavioral_avoidance             168
behavioral_face_mask              14
behavioral_wash_hands             32
behavioral_large_gatherings       71
behavioral_outside_home           65
behavioral_touch_face             96
doctor_recc_h1n1                1718
doctor_recc_seasonal            1718
chronic_med_condition            768
child_under_6_months             666
health_worker                    649
health_insurance                9807
opinion_h1n1_vacc_effective      326
opinion_h1n1_risk                316
opinion_h1n1_sick_from_vacc      323
opinion_seas_vacc_effective      372
opinion_seas_risk                418
opinion_seas_sick_from_vacc      432
age_group                          0
education                       1127
race                               0
sex                                0
income_poverty                  3530
marital_status                  1122
r

Vemos cómo la mayoría de variables tienen valores faltantes y, además, no contienen precisamente pocos por lo que la decisión no podrá ser eliminar los registros con valores faltantes, sino que habrá que aplicar otras técnicas. 

Algunas variables faltantes pueden ser completadas basándose en información presente en otras columnas, por ejemplo:
Si employment_status es "Unemployed" o "Not in Labor Force", las variables employment_industry y employment_occupation deberían ser asignadas como "Not Applicable" (o un valor similar).

Para variables categóricas que no tienen una relación lógica clara con otras columnas vamos a utilizar la moda porque mantiene la consistencia con las categorías existentes y es útil para variables donde los valores no tienen un rango amplio o continuo.

Para variables numéricas continuas o discretas, elegimos la imputación con la mediana ya que es más robusta que la media si hay valores extremos. Además, el escalado puede ser útil dependiendo del modelo.

In [5]:
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import FunctionTransformer

# Variables ordinales (numéricas y de texto)
# Estas variables tienen un orden implícito (por ejemplo, nivel de preocupación o educación).
# Se imputan por moda (el valor más frecuente).
ordinal_cols = ['h1n1_concern', 'h1n1_knowledge', 'opinion_h1n1_vacc_effective', 'opinion_h1n1_risk', 
                'opinion_h1n1_sick_from_vacc', 'opinion_seas_vacc_effective', 'opinion_seas_risk', 'opinion_seas_sick_from_vacc']
ordinal_cols_str = ['age_group', 'education', 'income_poverty']

# Variables binarias (numéricas y de texto)
# Estas variables son de tipo binario (sí/no) o representadas como texto (por ejemplo, "Male" o "Female").
# También se imputan por moda.
binary_cols = ['behavioral_antiviral_meds', 'behavioral_avoidance', 'behavioral_face_mask', 'behavioral_wash_hands',
               'behavioral_large_gatherings', 'behavioral_outside_home', 'behavioral_touch_face', 'doctor_recc_h1n1',
               'doctor_recc_seasonal', 'chronic_med_condition', 'child_under_6_months', 'health_worker']
binary_cols_str = ['sex', 'marital_status', 'rent_or_own']

# Variables categóricas nominales (sin orden)
# Estas variables no tienen un orden implícito (por ejemplo, regiones geográficas o estados laborales).
# Se codificarán utilizando OneHotEncoder.
nominal_cols_str = ['race', 'employment_status', 'hhs_geo_region', 'census_msa', 'employment_industry', 'employment_occupation']

# Variables numéricas
# Estas son variables cuantitativas (por ejemplo, número de adultos o niños en el hogar).
numeric_cols = ['household_adults', 'household_children']

# Función personalizada para manejar valores faltantes específicos
# Si el estado laboral es "Not in Labor Force" o "Unemployed", marcamos las columnas
# `employment_industry` y `employment_occupation` con el valor "Missing".
def mark_missing(df):
    df[['employment_industry', 'employment_occupation']] = df[['employment_industry', 'employment_occupation']].mask(
        df['employment_status'].isin(['Not in Labor Force', 'Unemployed']), 'Missing'
    )
    return df

# Mapeos de orden para columnas ordinales en formato de texto
# Esto define el orden explícito de las categorías para columnas como "age_group" y "education".
ordinal_col_order = {
    'age_group': ['18 - 34 Years', '35 - 44 Years', '55 - 64 Years', '45 - 54 Years', '65+ Years'],
    'education': ['< 12 Years', '12 Years', 'Some College', 'College Graduate'],
    'income_poverty': ['Below Poverty', '<= $75,000, Above Poverty', '> $75,000']
}

# Pipeline para columnas ordinales numéricas
# Imputa valores faltantes usando la moda.
ordinal_numeric_pipeline = Pipeline([
    ('simple_imputer', SimpleImputer(strategy='most_frequent'))
])

# Pipeline para columnas ordinales en formato de texto
# Imputa valores faltantes usando la moda y luego codifica las categorías en números según el orden definido.
ordinal_str_pipeline = Pipeline([
    ('simple_imputer', SimpleImputer(strategy='most_frequent')),
    ('ordinal_encoder', OrdinalEncoder(categories=[ordinal_col_order[col] for col in ordinal_cols_str]))
])

# Pipeline para columnas binarias numéricas
# Imputa valores faltantes usando la moda.
binary_pipeline = Pipeline([
    ('simple_imputer', SimpleImputer(strategy='most_frequent'))
])

# Pipeline para columnas binarias en formato de texto
# Imputa valores faltantes usando la moda y las codifica como números (0 y 1).
binary_str_pipeline = Pipeline([
    ('simple_imputer', SimpleImputer(strategy='most_frequent')),
    ('ordinal_encoder', OrdinalEncoder())
])

# Pipeline para columnas categóricas nominales
# Imputa valores faltantes usando la moda y luego las codifica utilizando OneHotEncoder.
nominal_pipeline = Pipeline([
    ('simple_imputer', SimpleImputer(strategy='most_frequent')),
    ('one_hot_encoder', OneHotEncoder(handle_unknown='ignore'))
])

# Preprocesamiento general con ColumnTransformer
# Combina los pipelines definidos para cada tipo de columna.
column_transformer = ColumnTransformer(
    transformers=[
        ('ordinal_numeric', ordinal_numeric_pipeline, ordinal_cols + numeric_cols),
        ('ordinal_str', ordinal_str_pipeline, ordinal_cols_str),
        ('binary', binary_pipeline, binary_cols),
        ('binary_str', binary_str_pipeline, binary_cols_str),
        ('nominal', nominal_pipeline, nominal_cols_str)
    ],
    remainder='drop'  # Eliminamos columnas no especificadas en los transformadores
)

# Pipeline general
# Incluye un paso inicial para manejar casos específicos (mark_missing) y luego aplica el ColumnTransformer.
data_preprocessing_pipeline = Pipeline([
    ('handle_missing_employment', FunctionTransformer(mark_missing, validate=False)),
    ('preprocessor', column_transformer)
])

# Aplicar el pipeline al dataset
# Aplica el pipeline para imputar valores faltantes y realizar las transformaciones.
preprocessed_data = data_preprocessing_pipeline.fit_transform(df)

# Generar los nombres de las columnas para el DataFrame final
# Se incluyen los nombres generados por OneHotEncoder para las columnas nominales.
output_columns = (
    ordinal_cols + numeric_cols +
    ordinal_cols_str +
    binary_cols + binary_cols_str +
    list(data_preprocessing_pipeline.named_steps['preprocessor'].transformers_[4][1].named_steps['one_hot_encoder'].get_feature_names_out(nominal_cols_str)) # Columnas nominales codificadas
)

# Convertir los datos transformados en un DataFrame
preprocessed_df = pd.DataFrame(preprocessed_data, columns=output_columns)

# Crear un índice secuencial para 'respondent_id' que se ha perdido en el proceso y añadirla al DataFrame
respondent_id = pd.Series(range(1, preprocessed_data.shape[0] + 1), name='respondent_id')
preprocessed_df.insert(0, 'respondent_id', respondent_id)

# Guardar el resultado en un archivo CSV
preprocessed_df.to_csv('../Data/Prueba_Ruxi/preprocessed_training_dataset.csv', index=False)
print("Dataset preprocesado guardado como 'preprocessed_training_dataset.csv'")

Dataset preprocesado guardado como 'preprocessed_training_dataset.csv'


In [6]:
print(preprocessed_df.shape)
print(preprocessed_df.isnull().sum())

(21365, 95)
respondent_id                     0
h1n1_concern                      0
h1n1_knowledge                    0
opinion_h1n1_vacc_effective       0
opinion_h1n1_risk                 0
                                 ..
employment_occupation_vlluhbov    0
employment_occupation_xgwztkwe    0
employment_occupation_xqwwgdyp    0
employment_occupation_xtkaffoo    0
employment_occupation_xzmlyyjv    0
Length: 95, dtype: int64


In [9]:
# Aplicar el mismo preprocesamiento al dataset de prueba
test_set_preprocessed = data_preprocessing_pipeline.transform(X_test)

# Generar los nombres de columnas para el DataFrame de prueba
output_columns = (
    ordinal_cols + numeric_cols +
    ordinal_cols_str +
    binary_cols + binary_cols_str +
    list(data_preprocessing_pipeline.named_steps['preprocessor'].transformers_[4][1].named_steps['one_hot_encoder'].get_feature_names_out(nominal_cols_str))
)

# Convertir los datos transformados a un DataFrame
test_set_preprocessed_df = pd.DataFrame(test_set_preprocessed, columns=output_columns, index=X_test.index)

# Añadir respondent_id como columna (ya está en el índice del DataFrame)
test_set_preprocessed_df.reset_index(inplace=True)

# Guardar el DataFrame preprocesado en un archivo CSV
test_set_preprocessed_df.to_csv("../Data/Prueba_Ruxi/preprocessed_test_dataset.csv", index=False)
print("Dataset de prueba preprocesado guardado como 'preprocessed_test_dataset.csv'")


Dataset de prueba preprocesado guardado como 'preprocessed_test_dataset.csv'


In [7]:
# Aplicar el mismo preprocesamiento al dataset de prueba
test_set_preprocessed = data_preprocessing_pipeline.transform(test_set_features_submission)

# Generar los nombres de columnas para el DataFrame de prueba
output_columns = (
    ordinal_cols + numeric_cols +
    ordinal_cols_str +
    binary_cols + binary_cols_str +
    list(data_preprocessing_pipeline.named_steps['preprocessor'].transformers_[4][1].named_steps['one_hot_encoder'].get_feature_names_out(nominal_cols_str))
)

# Convertir los datos transformados a un DataFrame
test_set_preprocessed_df = pd.DataFrame(test_set_preprocessed, columns=output_columns, index=test_set_features_submission.index)

# Añadir respondent_id como columna (ya está en el índice del DataFrame)
test_set_preprocessed_df.reset_index(inplace=True)

# Guardar el DataFrame preprocesado en un archivo CSV
test_set_preprocessed_df.to_csv("../Data/Prueba_Ruxi/preprocessed_submission_dataset.csv", index=False)
print("Dataset de prueba preprocesado guardado como 'preprocessed_submission_datasetset.csv'")

Dataset de prueba preprocesado guardado como 'preprocessed_submission_datasetset.csv'


In [8]:
y_train.to_csv("../Data/Prueba_Ruxi/labels_train_dataset.csv")
print("Dataset de prueba con etiquetas guardado como 'labels_train_dataset.csv'")

y_test.to_csv("../Data/Prueba_Ruxi/labels_test_dataset.csv")
print("Dataset de prueba con etiquetas guardado como 'labels_test_dataset.csv'")

Dataset de prueba con etiquetas guardado como 'labels_train_dataset.csv'
Dataset de prueba con etiquetas guardado como 'labels_test_dataset.csv'
