   # 6 Gestión de nulos

Instalación de Librerías
Instalar las siguientes librerías:

scikit-learn

seaborn

matplotlib

**La visualización es esencial para validar la imputación.**

¿Para qué utilizaremos las herramientas de scikit-learn y los métodos de Pandas en la gestión de valores nulos?
1. Imputación de Valores Nulos con **scikit-lear**n: Aprenderemos cómo utilizar las técnicas de imputación de scikit-learn para llenar los valores nulos con estimaciones razonables, lo que nos permitirá mantener la integridad de nuestros datos.
2. Métodos de Pandas para Limpieza y Eliminación: Exploraremos cómo utilizar métodos específicos de Pandas, como **fillna()** y **dropna()**, para limpiar o eliminar filas y columnas con valores nulos según las necesidades del análisis.

Tipos de nulos

  - NaN (Not a Number): Puede aparecer en columnas numéricas y en algunas columnas de tipo objeto. Pandas utiliza la constante np.nan (importando numpy como np) para representar estos valores.

    - None: A diferencia de NaN, None es una constante de Python y no una representación numérica, por lo que lo podremos encontrar en columnas de tipo objeto.

    - valores especiales de datos: En algunos conjuntos de datos, los valores nulos pueden tener representaciones específicas. Por ejemplo, en un conjunto de datos de encuestas, el valor "NA" o "N/A" podría utilizarse para denotar valores faltantes.

   - Valores vacíos o en blanco: En columnas de texto, es posible que los valores nulos simplemente sean cadenas vacías o espacios en blanco.

     - Valores sentinelas: En algunos casos, se pueden usar valores especiales que actúan como "marcadores" de nulos. Por ejemplo, usar un valor como -1 o 999 para indicar un valor faltante.

  - NaT (Not a Timestamp): Se utilizan para denotar fechas y horas faltantes o desconocidas.

  ##    ¿Qué estrategias tenemos para gestionar los valores nulos?
  1. Eliminación de datos o columnas que incluyan valores nulos: 
 Método drop()
        Eliminar una fila por índice
        df.drop(2, axis=0, inplace=True)

        Eliminar una columna por nombre
        df.drop('columna', axis=1, inplace=True)
 
Método dropna() : Eliminar filas con valores nulos en la columna 'columna'
df.dropna(subset=['columna'], inplace=True)



_________________________________________________________________________

**Métodos de imputación**
Esta estrategia implica reemplazar los valores nulos por valores imputados o estimados. Los métodos de imputación pueden ser simples o complejos, y pueden implicar el uso de estadísticas descriptivas, modelos predictivos o técnicas de interpolación. Los métodos de imputación pueden mejorar la precisión de los modelos de aprendizaje automático y evitar la pérdida de información valiosa. Algunos de los principales métodos para imputar nulos en Pandas son:

 -  Método fillna() de Pandas: 
  **Este método permite rellenar los valores nulos con un valor específico. Puedes utilizar un valor constante, la media, la mediana, la moda u otros valores según tus necesidades.**
    Por ejemplo:
 Rellenar con la media de la columna llamada "columna".
    df['columna'] = df['columna'].fillna(df['columna'].mean())

 Rellenar con un valor constante, en este caso cero
    df['columna'] = df['columna'].fillna(0)

drop(),- Fácil de usar y entender.
-  Clase IterativeImputer: 
- Elimina filas o columnas completas con valores nulos. 
- Puede resultar en la pérdida de información si se eliminan muchas filas o columnas.
- Puede afectar la representatividad de la muestra si se eliminan muchas filas.

 dropna(), 
- Permite eliminar filas o columnas con valores nulos de manera flexible.
- Permite especificar condiciones adicionales para la eliminación.
- Puede resultar en la pérdida de información si se eliminan muchas filas o columnas.
- Puede afectar la representatividad de la muestra si se eliminan muchas filas.

fillna(), - Permite reemplazar los valores nulos con valores específicos, como la media, mediana o moda.
- Permite personalizar el valor de reemplazo según las necesidades.
- La elección del valor de reemplazo puede afectar los resultados del análisis.
- No tiene en cuenta las relaciones entre variables.

SimpleImputer, 
- Permite imputar un mismo valor a todos los registros nulos de una columna.
- Puede utilizar estadísticos como la media, mediana o moda como valor de imputación.
-  No tiene en cuenta las relaciones entre variables.
- No es adecuado para datos categóricos o variables con distribuciones no normales.

KNNImputer, - Utiliza el algoritmo de los k-vecinos más cercanos para imputar valores nulos basándose en los valores de los vecinos más cercanos.
- Puede capturar relaciones no lineales entre variables.
- Requiere un tamaño de muestra suficientemente grande para obtener estimaciones precisas.
- Puede ser computacionalmente costoso para conjuntos de datos grandes.

IterativeImputer, - Utiliza un enfoque iterativo para imputar valores nulos basado en modelos de aprendizaje automático.
- Puede capturar relaciones complejas y no lineales entre variables.
- Requiere un tamaño de muestra suficientemente grande para obtener estimaciones precisas.
- Puede ser computacionalmente costoso para conjuntos de datos grandes.
__________________________________________________________________________________________

-  Clase IterativeImputer: 
    Esta clase es útil cuando los valores faltantes no están completamente aleatorios y existe alguna relación entre las características. Al modelar las relaciones entre las características, puede proporcionar estimaciones más precisas y realistas de los valores faltantes.

    #importamos las librerías que necesitamos
    from sklearn.experimental import enable_iterative_imputer
    from sklearn.impute import IterativeImputer

    imputer = IterativeImputer()
    X_imputed = imputer.fit_transform(X)

   #    Imputaciones Categóricas
   Ya hemos visto que se puede optar por asignar una nueva categoría o utilizar la moda de la variable. La elección entre estas dos opciones depende del contexto y la naturaleza de los datos. Sin embargo, podemos establecer algunas "normas", estas podrían ser:

Si la variable tiene una categoría que es dominante y representa la mayoría de los casos, entonces imputar con la   **moda** puede ser una opción adecuada. Esto es especialmente útil cuando se desea mantener la distribución original de la variable.

Por otro lado, si la variable categórica no tiene una categoría dominante o si la imputación con la moda no es apropiada en el contexto del análisis, se puede considerar asignar una nueva categoría para los valores faltantes. Esto puede ser útil cuando se desea distinguir claramente los valores imputados de los valores observados.

En última instancia, la elección entre imputar con la moda o con una nueva categoría depende del conocimiento del dominio, el propósito del análisis y la interpretación de los resultados. Es importante considerar el impacto de la imputación en los resultados y la validez de las conclusiones.

  # Imputaciones Numéricas
# Imputación de nulos en variables numéricas
        
    Reemplazar con estadísticos (media, moda o mediana), para lo que utilizaremos el .fillna() que hemos aprendido o utilizar el SimpleImputer.

    Reemplazar con modelos estadísticos usando  **IterativeImputer**  o **KNNImputer**


tips que nos pueden ayudar:


1.  Cantidad de valores faltantes: Si la cantidad de valores faltantes es pequeña en comparación con el tamaño total del conjunto de datos, la imputación con la media o la mediana puede ser una opción razonable. Sin embargo, si hay una gran cantidad de valores faltantes, puede ser más adecuado utilizar métodos más sofisticados, como KNNImputer o IterativeImputer.

¿Cuándo hay un gran porcentaje de nulos? No hay una respuesta única a esta pregunta, ya que el porcentaje de valores nulos que se considera "grande" puede variar según el contexto y la naturaleza de los datos. Sin embargo, algunos expertos sugieren que un porcentaje de valores nulos mayor al 5% o 10% del total de los datos puede ser considerado "grande" y puede requerir una atención especial en el proceso de análisis de datos.

2. Distribución de los datos: Es importante analizar la distribución de la variable numérica. Si no hay valores atípicos significativos, la media puede ser una buena opción. Si hay valores atípicos, la mediana puede ser más robusta.

3.    Propósito del análisis: El propósito del análisis también puede influir en la elección del método de imputación. Por ejemplo, si el análisis se centra en la detección de valores atípicos, puede ser preferible utilizar métodos de imputación que preserven la variabilidad de los datos originales, por ejemplo el IterativeImputer y el KNNImputer.

Es el turno de las columnas de age y pdays, para los cuales vamos a usar los métodos IterativeImputer y KNNImputer. Entendamos qué hacen, y cuál es su sintaxis.

 #  Iterative Imputer

El IterativeImputer es una técnica que utiliza un modelo de regresión para estimar los valores faltantes en nuestros datos. La idea aquí es que, en lugar de simplemente reemplazar los valores faltantes con estadísticas simples como la media o la mediana, intentamos predecir estos valores faltantes utilizando información de las otras columnas presentes en el conjunto de datos. Dicho en otras palabras, al utilizar técnicas de regresión, el imputador "adivina" los valores faltantes en función de las relaciones observadas en los datos completos.

Crear una instancia del IterativeImputer
imputer = IterativeImputer(max_iter, random_state)

Ajustar y transformar los datos
data_imputed = imputer.fit_transform(datos)

Donde:
max_iter: Es el número de iteraciones que el imputador utilizará para ajustar los valores faltantes. Cuantas más iteraciones, más precisa será la imputación, pero también más tiempo tardará.

random_state (opcional): Es la semilla para el generador de números aleatorios. Esto nos ayuda a tener resultados reproducibles.

datos: Columna(s) que contienen los valores faltantes.

#    KNN Imputer
El KNNImputer es una técnica que se basa en el algoritmo de vecinos más cercanos (KNN) para llenar los valores faltantes en nuestros datos. En lugar de calcular estadísticas simples, como la media o la mediana, este enfoque encuentra observaciones similares y utiliza sus valores para estimar los valores faltantes.
Vamos a ver cómo usar el KNNImputer en scikit-learn:
Crear una instancia del KNNImputer
imputer = KNNImputer(n_neighbors=n_vecinos)

Ajustar y transformar los datos
data_imputed = imputer.fit_transform(datos)

Donde:

n_neighbors: Es el número de vecinos más cercanos que se utilizarán para estimar los valores faltantes. Cuantos más vecinos, más compleja es la estimación, pero también más precisa.

datos: Columna(s) que contienen los valores faltantes.