# Limpieza de Datos
En este notebook, se realiza la limpieza del dataset [Global Air Pollution][kaggle]


[kaggle]: https://www.kaggle.com/datasets/hasibalmuzdadid/global-air-pollution-dataset

### **Objetivos**

1. Identificación de valores nulos
2. Eliminación y/o reemplazo de valores nulos
3. Identificación y eliminación de valores duplicados
4. Generación del nuevo dataset tratado

### Importación de Librerías

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

### Cargando el Dataset

In [2]:
df = pd.read_csv("../data/global_air_pollution.csv")

### Búsqueda de valores NaN
A continuación se presenta la cantidad de valores nulos por cada columna.

In [3]:
df.isna().sum()

Country               427
City                    1
AQI Value               0
AQI Category            0
CO AQI Value            0
CO AQI Category         0
Ozone AQI Value         0
Ozone AQI Category      0
NO2 AQI Value           0
NO2 AQI Category        0
PM2.5 AQI Value         0
PM2.5 AQI Category      0
dtype: int64

Solamente dos variables del dataset presentan valores nulos:
- La variable `Country` presenta 427.
- La variable `City` presenta 1.

### Tratamiento de Valores Nulos

#### Reemplazo de Valores Nulos por la Moda en la Columna Country

Para abordar el tratamiento de valores nulos, en el caso de columna `Country` la mejor opción es reemplazar estos valores por la moda en lugar de eliminarlos.

La eliminación es más adecuada cuando los valores faltantes son pocos y no representan un porcentaje considerable del dataset. Pero cuando hay una cantidad significativa de datos faltantes, suele ser una mejor opción para evitar perder información valiosa, el relleno de la información, en este caso con los valores más frecuentes.

Si eliminamos los 427 registros, estaríamos sacrificando una parte del dataset que, aunque tenga valores faltantes en `Country`, puede tener información valiosa en otras columnas, como los índices de calidad del aire (AQI) y las ciudades.

In [4]:
moda = df['Country'].mode()[0]
df['Country'] = df['Country'].fillna(moda)

#### Eliminación de Valores Nulos Columna City


In [5]:
df.dropna(subset=['City'], inplace=True)

#### Búsqueda y Eliminación de Registros Duplicados

Se procede a identificar y eliminar las filas duplicadas para asegurar que cada registro en el dataset sea único y evitar algún tipo de sesgo.

In [6]:
print(f'Cantidad de filas duplicadas: {df.duplicated().sum()}')

df.drop_duplicates(inplace=True)
print(f'Número de filas duplicadas después de la limpieza: {df.duplicated().sum()}')

Cantidad de filas duplicadas: 0
Número de filas duplicadas después de la limpieza: 0


#### Normalización de Texto
Se pretende eliminar espacios al principio y final de los valores de la columna `Country` y dejar el texto uniforme

In [7]:
df['Country'] = df['Country'].str.strip()

#### Dataset limpio

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 23462 entries, 0 to 23462
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Country             23462 non-null  object
 1   City                23462 non-null  object
 2   AQI Value           23462 non-null  int64 
 3   AQI Category        23462 non-null  object
 4   CO AQI Value        23462 non-null  int64 
 5   CO AQI Category     23462 non-null  object
 6   Ozone AQI Value     23462 non-null  int64 
 7   Ozone AQI Category  23462 non-null  object
 8   NO2 AQI Value       23462 non-null  int64 
 9   NO2 AQI Category    23462 non-null  object
 10  PM2.5 AQI Value     23462 non-null  int64 
 11  PM2.5 AQI Category  23462 non-null  object
dtypes: int64(5), object(7)
memory usage: 2.3+ MB


#### Generación del Dataset Limpio

In [9]:
df.to_csv('../data/dataset_clean.csv', index=False)