## *Beijing air quality* [dataset](https://archive.ics.uci.edu/ml/machine-learning-databases/00501/PRSA2017_Data_20130301-20170228.zip)

In [1]:
# Importamos librerias necesarias 
import requests
import zipfile # para poder descomprimir el archivo
import io
import os
import pandas as pd

In [2]:
# La siguiente es la URL que nos direcciona a los archivos
URL = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00501/PRSA2017_Data_20130301-20170228.zip'

# Creamos carpeta para guardar los datos
os.makedirs('./beijing', exist_ok=True)

# Descargamos el archivo
response = requests.get(URL)

# Creamos un objeto zipfile
zip = zipfile.ZipFile(io.BytesIO(response.content))

# Extraemos los archivos
zip.extractall('./beijing')

In [3]:
# Creamos un dataframe vacio
df = pd.DataFrame()

# Iteramos sobre los archivos de la carpeta beijing y los leemos con pandas
for file in os.listdir('./beijing/PRSA_Data_20130301-20170228'):
    if file.endswith('.csv'):
        df = pd.concat([df, pd.read_csv('./beijing/PRSA_Data_20130301-20170228/' + file)])


In [4]:
# Vamos a determinar el tipo de dato que tenemos
df.dtypes

No           int64
year         int64
month        int64
day          int64
hour         int64
PM2.5      float64
PM10       float64
SO2        float64
NO2        float64
CO         float64
O3         float64
TEMP       float64
PRES       float64
DEWP       float64
RAIN       float64
wd          object
WSPM       float64
station     object
dtype: object

In [5]:
# Controlamos los datos nulos.
df.isnull().sum()

No             0
year           0
month          0
day            0
hour           0
PM2.5       8739
PM10        6449
SO2         9021
NO2        12116
CO         20701
O3         13277
TEMP         398
PRES         393
DEWP         403
RAIN         390
wd          1822
WSPM         318
station        0
dtype: int64

In [6]:
# Vemos que porcentaje representan para saber si se pueden remplazar por media, moda y mediana respectivamente.
df.isnull().sum()/len(df)*100

No         0.000000
year       0.000000
month      0.000000
day        0.000000
hour       0.000000
PM2.5      2.076916
PM10       1.532674
SO2        2.143937
NO2        2.879497
CO         4.919813
O3         3.155421
TEMP       0.094589
PRES       0.093401
DEWP       0.095777
RAIN       0.092688
wd         0.433018
WSPM       0.075576
station    0.000000
dtype: float64

In [7]:

# Como son pequeños los % de los valores nulos ponemos reemplazar los float, por la media de la columna,
# los int por la mediana y los objetos por la moda con la siguiente funcion

def impute_missing_values(df):
    for col in df.columns:
        if df[col].dtype == 'float64':
            df[col] = df[col].fillna(df[col].mean())
        elif df[col].dtype == 'object':
            df[col] = df[col].fillna(df[col].mode()[0])
        else:
            df[col] = df[col].fillna(df[col].median())
    return df

df = impute_missing_values(df)

In [8]:
# Controlamos que no queden valores nulos
df.isnull().sum()

No         0
year       0
month      0
day        0
hour       0
PM2.5      0
PM10       0
SO2        0
NO2        0
CO         0
O3         0
TEMP       0
PRES       0
DEWP       0
RAIN       0
wd         0
WSPM       0
station    0
dtype: int64

In [9]:
# Controlamos si hay valores duplicados
df.duplicated().sum()

0