# PREPROCESAMIENTO DE DATOS

- ¿Qué es el preprocesamiento de datos?
    * Es una etapa fundamental en cualquier proyecto de ML o Analisis de Datos.
    * Consiste en transformar, limpiar y preparar los datos en bruto para que sean útiles y mantengan cierta calidad.
    * Su objetivo principal de esta etapa es hacer que los datos sean compatibles con los modelos de ML, eliminar el ruido y
    corregir posibles problemas en los registros.
  
- ¿Por qué es importante?
    * Mantiene a raya los datos sucios
    * Para satisfacer los requerimientos necesarios para aplicar un modelo de ML
  
- ¿Situaciones en las que es necesario?
    * Cuando el dataset tiene muchas entradas o registros incorrectos (inconsistentes)
    * Cuando haya muchos valores falantes, lo que afecta a la integridad del análisis
    * Cuando los datos tienen outliers que distorsionan la interpretación de los resultados
    * Cuando sea necesario transformar variables categóricas en numéricas para que los algoritmos puedan usar el dataset
  

  

# ANÁLISIS EXPLORATORIO DE LOS DATOS (EDA)

- ¿Qué es?
  * Es la primera etapa que se realiza despues de cargar el dataset.
  * Su objetivo es obtener una vista general de los datos, explorar sus características y detectar posibles problemas, como valores faltantes o distribuciones extrañas
- ¿Por qué es imporante?
  * Conocer la estructura y naturaleza de los datos
  * Identificar los patrones o relaciones entre las variables
  * Detectar los errores o valores anómalos (outliers)
  * Identificar las variables que son más relevantes para el análisis posterior
- ¿Cuándo debemos hacerlo?
  * Siempre que nosotros recibamos un nuevo conjunto de datos (dataset). Se considera una buena práctica hacerlo antes de aplicar cualquier técnica de modelado, ya que nos permite tomar "decisiones informadas" sobre qué transformaciones necesitamos aplicar a los datos

In [2]:
import pandas as pd
# Cargar el dataset (CSV)
df = pd.read_csv('Dataset/datos_horarios_contaminacion_lima.csv')
df.head() # Muestra los 5 primeros registros del DataFrame

Unnamed: 0,CODIGO ESTACION,ESTACION,ANO,MES,DIA,HORA,PM 10,PM 2.5,SO2,NO2,O3,CO
0,112192,ATE,2010,4,1,0,,,39.8,,,
1,112192,ATE,2010,4,1,1,135.69,,29.9,47.2,,
2,112192,ATE,2010,4,1,2,135.84,,26.5,44.1,,
3,112192,ATE,2010,4,1,3,119.06,,25.9,41.4,,
4,112192,ATE,2010,4,1,4,104.95,,23.3,40.5,,


## RESUMEN ESTADISTICOS DE LOS DATOS

- ¿Qué es un resumen estadístico?
  * Viene a ser un conjunto de medidas que describen las caractéristicas principales de los datos, como la media, mediana, los cuartiles, la desviación estándar, entre otros.
- ¿Por qué es importante?
  * Detectar errores -> En algunas situaciones, los valores máximos o mínimos son muy inusuales, lo que indica posibles errores o outliers.
  * Conocer la dispersión de los datos -> La desviación estándar nos va a indicar que tan dispersos están los datos, lo cual es importante para detectar variables que tienen valores atípicos (no esperados).
  * Conocer la distribución de los datos -> Vamos a poder determinar si los datos siguen una distrubición normal o si están sesgados
- ¿Cuándo debemos utilizarlo?
  * Después de cargar los datos, siempre pero siempre debemos generar un resumen estadístico para detectar las anomalías y tener una idea clara de cómo se distribuyen las variables numéricas

In [10]:
# Vamos a poder conocer los tipos de datos de nuestras columnas
df.dtypes

CODIGO ESTACION      int64
ESTACION            object
ANO                  int64
MES                  int64
DIA                  int64
HORA                 int64
PM 10              float64
PM 2.5             float64
SO2                float64
NO2                float64
O3                 float64
CO                 float64
dtype: object

In [21]:
# Contabilizar la cantidad de filas y columnas en nuestro dataset (DataFrame)
print(df.shape) 

(703056, 12)


In [22]:
print(len(df)) # Cantidad de filas/registros en el dataset

703056


In [23]:
print(df.count()) # Contabilizar los valores no nulos por cada columna

CODIGO ESTACION    703056
ESTACION           703056
ANO                703056
MES                703056
DIA                703056
HORA               703056
PM 10              496684
PM 2.5             339972
SO2                294280
NO2                351254
O3                 348702
CO                 321351
dtype: int64


In [27]:
# Contabilizar la frecuencia de cada valor único en una columna
print(df['ESTACION'].value_counts())

ESTACION
ATE                        92064
SAN BORJA                  90600
CAMPO DE MARTE             89136
SANTA ANITA                81528
VILLA MARIA DEL TRIUNFO    76704
SAN MARTIN DE PORRES       57000
CARABAYLLO                 57000
PUENTE PIEDRA              56784
SAN JUAN DE LURIGANCHO     56640
HUACHIPA                   45600
Name: count, dtype: int64


In [6]:
resumen = df.describe() # Solo incluye columnas numéricas
print(resumen)

       CODIGO ESTACION            ANO            MES            DIA  \
count    703056.000000  703056.000000  703056.000000  703056.000000   
mean     112068.923124    2015.932819       6.517615      15.739763   
std         344.972229       2.653019       3.387901       8.800307   
min      111286.000000    2010.000000       1.000000       1.000000   
25%      112192.000000    2014.000000       4.000000       8.000000   
50%      112194.000000    2016.000000       7.000000      16.000000   
75%      112233.000000    2018.000000       9.000000      23.000000   
max      112267.000000    2020.000000      12.000000      31.000000   

                HORA          PM 10         PM 2.5            SO2  \
count  703056.000000  496684.000000  339972.000000  294280.000000   
mean       11.500000      79.102144      26.354007      12.522626   
std         6.922191      54.458541      17.696484      13.214153   
min         0.000000       5.000000       1.730000       0.100000   
25%         5.7

In [11]:
resumen_all = df.describe(include='all') # Incluye columnas numéricas y categóricas
print(resumen_all)

        CODIGO ESTACION ESTACION            ANO            MES            DIA  \
count     703056.000000   703056  703056.000000  703056.000000  703056.000000   
unique              NaN       10            NaN            NaN            NaN   
top                 NaN      ATE            NaN            NaN            NaN   
freq                NaN    92064            NaN            NaN            NaN   
mean      112068.923124      NaN    2015.932819       6.517615      15.739763   
std          344.972229      NaN       2.653019       3.387901       8.800307   
min       111286.000000      NaN    2010.000000       1.000000       1.000000   
25%       112192.000000      NaN    2014.000000       4.000000       8.000000   
50%       112194.000000      NaN    2016.000000       7.000000      16.000000   
75%       112233.000000      NaN    2018.000000       9.000000      23.000000   
max       112267.000000      NaN    2020.000000      12.000000      31.000000   

                 HORA      

# DETECCIÓN Y MANEJO DE VALORES FALTANTES

- ¿Qué son los valores faltantes?
  * Son aquellos casos en los que no tenemos datos disponibles en ciertas celdas o registros.
  * Se representan comúnmente como NaN (Not a Number) en pandas
- ¿Por qué es importante manejarlos?
  * Porque estos puedes alterar el análisis, ya que muchos algoritmos no los aceptan o los tratan como ceros, lo que puede llevar a conclusiones erróneas
  * Si es que no se tratan correctamente, pueden hacer que un modelo predictivo sea inexacto (de falsos resultados)
- ¿Cuándo debemos hacerlo?
  * Este paso es crucial antes de entrenar cualquier modelo o realizar análisis estadísticos, ya que la presencia de muchos valores nulos puede influir negativamente en los resultados

In [17]:
# isnull() -> Genera un DataFrame del mismo tamaño que el original, donde cada celda contiene True si el valor es nulo (NaN)
#             y False en caso contrario
missing_values = df.isnull()
missing_values.head()

Unnamed: 0,CODIGO ESTACION,ESTACION,ANO,MES,DIA,HORA,PM 10,PM 2.5,SO2,NO2,O3,CO
0,False,False,False,False,False,False,True,True,False,True,True,True
1,False,False,False,False,False,False,False,True,False,False,True,True
2,False,False,False,False,False,False,False,True,False,False,True,True
3,False,False,False,False,False,False,False,True,False,False,True,True
4,False,False,False,False,False,False,False,True,False,False,True,True


In [41]:
missing_values = df.isnull().sum()
print(missing_values)

CODIGO ESTACION         0
ESTACION                0
ANO                     0
MES                     0
DIA                     0
HORA                    0
PM 10              206372
PM 2.5             363084
SO2                408776
NO2                351802
O3                 354354
CO                 381705
dtype: int64


# ELIMINACIÓN DE COLUMNAS CON MUCHOS VALORES FALTANTES

- ¿Qué significa eliminar columnas?
  * Si una columna tiene un porcentaje muy alto en valores faltantes, puede que no aporte información útil al análisis y que mantenerla nos genere ruido en los datos. En ese tipo de casos es mejor eliminar la columna
- ¿Por qué es importante?
  * Mantener columnas con demasiados valores falantes puede sesgar los resultados y complicar el análisis posterior. Es mejor enfocarse en las columnas que aporten suficiente información
- ¿Cuándo debemos hacerlo?
  * Cuando una columna tiene más del 50-70% de valores faltantes del total de registros, generalmente no es útil mantenerla en el análisis

In [42]:
# Calculamos el porcentaje de valores faltantes en cada columna
missing_porcentages = df.isnull().mean() * 100
print(missing_porcentages)

CODIGO ESTACION     0.000000
ESTACION            0.000000
ANO                 0.000000
MES                 0.000000
DIA                 0.000000
HORA                0.000000
PM 10              29.353565
PM 2.5             51.643681
SO2                58.142737
NO2                50.038973
O3                 50.401959
CO                 54.292261
dtype: float64


In [43]:
# Definir un umbral de eliminación (58%)
umbral = 58
# columnas_eliminar = missing_porcentages[missing_porcentages>umbral] -> Muestra las columnas que superan el umbral y sus valores
columnas_eliminar = missing_porcentages[missing_porcentages>umbral].index # -> Solo muestra las columnas que superan el umbral
print(columnas_eliminar)

Index(['SO2'], dtype='object')


In [44]:
# Eliminar las columnas que superen el umbral de valores faltantes especificado
data_cleaned_step1 = df.drop(columns=columnas_eliminar)
data_cleaned_step1.head()

Unnamed: 0,CODIGO ESTACION,ESTACION,ANO,MES,DIA,HORA,PM 10,PM 2.5,NO2,O3,CO
0,112192,ATE,2010,4,1,0,,,,,
1,112192,ATE,2010,4,1,1,135.69,,47.2,,
2,112192,ATE,2010,4,1,2,135.84,,44.1,,
3,112192,ATE,2010,4,1,3,119.06,,41.4,,
4,112192,ATE,2010,4,1,4,104.95,,40.5,,


In [45]:
missing_values_step1 = data_cleaned_step1.isnull().sum()
print(missing_values_step1)

CODIGO ESTACION         0
ESTACION                0
ANO                     0
MES                     0
DIA                     0
HORA                    0
PM 10              206372
PM 2.5             363084
NO2                351802
O3                 354354
CO                 381705
dtype: int64


# ELIMINACIÓN DE FILAS CON DATOS CRÍTICOS FALTANTES

- ¿Qué son los datos críticos?
  * En un dataset, algunas variables son más importantes que otras. En este caso, los columnas relacionadas con contaminantes (PM10, PM2.5, NO2, O3) se consideran críticas porque son las variables clave del análisis
- ¿Por qué es importante?
  * Si una fila no tiene datos en ninguna de estas columnas críticas, esa fila aporta poco valor al análisis. Por lo tanto, eliminamos las filas que carecen completamente de información en estas columnas
- ¿Cuándo debemos hacerlo?
  * Debemos eliminar las filas cuando no contienen información crítica y los valores faltantes no pueden ser imputados (rellenados) de manera fiable

In [46]:
# Definimos las columnas críticas
columnas_criticas = ['PM 10', 'PM 2.5', 'NO2', 'O3', 'CO']

In [48]:
# Eliminar las filas donde todas las columnas críticas tengan valores faltantes
data_cleaned_step2 = data_cleaned_step1.dropna(subset=columnas_criticas, how='all')
data_cleaned_step2.head()

Unnamed: 0,CODIGO ESTACION,ESTACION,ANO,MES,DIA,HORA,PM 10,PM 2.5,NO2,O3,CO
1,112192,ATE,2010,4,1,1,135.69,,47.2,,
2,112192,ATE,2010,4,1,2,135.84,,44.1,,
3,112192,ATE,2010,4,1,3,119.06,,41.4,,
4,112192,ATE,2010,4,1,4,104.95,,40.5,,
5,112192,ATE,2010,4,1,5,84.92,,39.0,,


In [50]:
missing_values_step2 = data_cleaned_step2.isnull().sum()
print(missing_values_step2)

CODIGO ESTACION         0
ESTACION                0
ANO                     0
MES                     0
DIA                     0
HORA                    0
PM 10               88196
PM 2.5             244908
NO2                233626
O3                 236178
CO                 263529
dtype: int64


In [52]:
data_cleaned_step2.shape

(584880, 11)

- ¿Por qué es útil este enfoque?
  * Precisión -> La eliminación de solo las filas que no aportan ninguna información relevante en las columnas mas importantes es necesaria para mantener la integridad del dataset (dataframe) a evaluar
  * Conservación de Datos -> Este enfoque ejecutado es más conservador que eliminar filas de manera indiscrimnada. Estamos solo elimando aquellas columnas que son completamente inútiles para el análisis, y esto ayuda a preservar la mayor cantidad posible de información relevante

# INPUTACIÓN DE VALORES FALTANTES NUMÉRICOS

- ¿Qué es la imputación de valores faltantes?
  * La imputación es el proceso de sustituir los valores faltantes en un dataset (dataframe) por valores estimados o calculados.
  * Esto se hace con el fin de evitar eliminar filas completas y conservar la mayor cantidad de datos posibles
- ¿Por qué es importante?
  * Muchos algoritmos no pueden manejar valores faltantes, por lo que la imputación es crucial para asegurar que los modelos funcionen correctamente
  * La mediana se utiliza en lugar de la media para la imputación cuando estamos frente a outliers.
  * Se utilizaría la media si trabajaramos con valores atípicos muy altos o bajos, lo cual distorsiona la imputación
- ¿Cuándo debemos aplicarlo?
  * La imputación es apropiada cuando el porcentaje de valores faltantes es moderado (generalmente menos del 50%) y no queremos perder mucha información al eliminar filas o columnas

In [53]:
# Calculamos el porcentaje de valores faltantes en cada columna
missing_porcentages_step3 = data_cleaned_step2.isnull().mean() * 100
print(missing_porcentages_step3)

CODIGO ESTACION     0.000000
ESTACION            0.000000
ANO                 0.000000
MES                 0.000000
DIA                 0.000000
HORA                0.000000
PM 10              15.079333
PM 2.5             41.873205
NO2                39.944262
O3                 40.380591
CO                 45.056935
dtype: float64


In [59]:
# IMPUTACIÓN CON LA MEDIANA
columnas_numericas = ['PM 10', 'NO2', 'O3']

In [64]:
# Hacemos una copia del Dataframe para preservar el dataframe del step2
data_cleaned_step3 = data_cleaned_step2.copy()
data_cleaned_step3.head()

Unnamed: 0,CODIGO ESTACION,ESTACION,ANO,MES,DIA,HORA,PM 10,PM 2.5,NO2,O3,CO
1,112192,ATE,2010,4,1,1,135.69,,47.2,,
2,112192,ATE,2010,4,1,2,135.84,,44.1,,
3,112192,ATE,2010,4,1,3,119.06,,41.4,,
4,112192,ATE,2010,4,1,4,104.95,,40.5,,
5,112192,ATE,2010,4,1,5,84.92,,39.0,,


In [66]:
print(data_cleaned_step3['O3'].median())

9.7


In [67]:
for column in columnas_numericas:
    data_cleaned_step3[column] = data_cleaned_step3[column].fillna(data_cleaned_step3[column].median())
#   data_cleaned_step3['PM 10'] = data_cleaned_step3['PM 10'].fillna(data_cleaned_step3['PM 10'].median())
#   x = x + x^2

In [68]:
data_cleaned_step3.head()

Unnamed: 0,CODIGO ESTACION,ESTACION,ANO,MES,DIA,HORA,PM 10,PM 2.5,NO2,O3,CO
1,112192,ATE,2010,4,1,1,135.69,,47.2,9.7,
2,112192,ATE,2010,4,1,2,135.84,,44.1,9.7,
3,112192,ATE,2010,4,1,3,119.06,,41.4,9.7,
4,112192,ATE,2010,4,1,4,104.95,,40.5,9.7,
5,112192,ATE,2010,4,1,5,84.92,,39.0,9.7,


In [69]:
print(data_cleaned_step3['O3'].median())

9.7


- ¿Qué otras alternativas podríamos utilizar para la imputación?
  * Media: Se usa cuando los datos tienen una distrubición normal (simétrica)
  * Moda: Es útil para imputar variables categóricas
  * Imputación basa en modelos: Se puede utilizar KNN (K-Nearest Neighbors) o regresión para imputar valores, donde los valores se predicen en función de otras variables