## Air Quality Analytics

In [1]:
# Importa Bibliotecas.
import numpy as np
import pandas as pd
import seaborn as seb
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn import preprocessing, metrics, linear_model
from sklearn.neighbors import KNeighborsClassifier
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Carrega Dataset.
df_Air_Quality_UCI = pd.read_csv("AirQualityUCI.csv", encoding = 'utf-8', delimiter = ';') 

In [3]:
# Análise exploratória dos dados.
df_Air_Quality_UCI.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9471 entries, 0 to 9470
Data columns (total 17 columns):
Date             9357 non-null object
Time             9357 non-null object
CO(GT)           9357 non-null object
PT08.S1(CO)      9357 non-null float64
NMHC(GT)         9357 non-null float64
C6H6(GT)         9357 non-null object
PT08.S2(NMHC)    9357 non-null float64
NOx(GT)          9357 non-null float64
PT08.S3(NOx)     9357 non-null float64
NO2(GT)          9357 non-null float64
PT08.S4(NO2)     9357 non-null float64
PT08.S5(O3)      9357 non-null float64
T                9357 non-null object
RH               9357 non-null object
AH               9357 non-null object
Unnamed: 15      0 non-null float64
Unnamed: 16      0 non-null float64
dtypes: float64(10), object(7)
memory usage: 1.2+ MB


In [4]:
df_Air_Quality_UCI.describe()

Unnamed: 0,PT08.S1(CO),NMHC(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),Unnamed: 15,Unnamed: 16
count,9357.0,9357.0,9357.0,9357.0,9357.0,9357.0,9357.0,9357.0,0.0,0.0
mean,1048.990061,-159.090093,894.595276,168.616971,794.990168,58.148873,1391.479641,975.072032,,
std,329.83271,139.789093,342.333252,257.433866,321.993552,126.940455,467.210125,456.938184,,
min,-200.0,-200.0,-200.0,-200.0,-200.0,-200.0,-200.0,-200.0,,
25%,921.0,-200.0,711.0,50.0,637.0,53.0,1185.0,700.0,,
50%,1053.0,-200.0,895.0,141.0,794.0,96.0,1446.0,942.0,,
75%,1221.0,-200.0,1105.0,284.0,960.0,133.0,1662.0,1255.0,,
max,2040.0,1189.0,2214.0,1479.0,2683.0,340.0,2775.0,2523.0,,


In [5]:
df_Air_Quality_UCI.head()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH,Unnamed: 15,Unnamed: 16
0,10/03/2004,18.00.00,26,1360.0,150.0,119,1046.0,166.0,1056.0,113.0,1692.0,1268.0,136,489,7578,,
1,10/03/2004,19.00.00,2,1292.0,112.0,94,955.0,103.0,1174.0,92.0,1559.0,972.0,133,477,7255,,
2,10/03/2004,20.00.00,22,1402.0,88.0,90,939.0,131.0,1140.0,114.0,1555.0,1074.0,119,540,7502,,
3,10/03/2004,21.00.00,22,1376.0,80.0,92,948.0,172.0,1092.0,122.0,1584.0,1203.0,110,600,7867,,
4,10/03/2004,22.00.00,16,1272.0,51.0,65,836.0,131.0,1205.0,116.0,1490.0,1110.0,112,596,7888,,


In [6]:
# Limpa valores nulos.
df_Air_Quality_UCI = df_Air_Quality_UCI.dropna()

## 1. Existe alguma relação entre a concentração de CO ao decorrer do dia?

In [7]:
# Trata as colunas "Time" e "CO(GT)" para a análise.
df_Air_Quality_UCI["Time"] = df_Air_Quality_UCI["Time"].str[0:2]
df_Air_Quality_UCI["CO(GT)"] = pd.to_numeric(df_Air_Quality_UCI["CO(GT)"].str.replace(",","."))

# Limpa missings ocultos.
df_Air_Quality_UCI = df_Air_Quality_UCI[df_Air_Quality_UCI["CO(GT)"] > 0]

# Renomeia Colunas
df_Air_Quality_UCI = df_Air_Quality_UCI.rename(columns = {"Time": "Hora", "CO(GT)":"Concentração de CO (mg/m³)"}) 

In [8]:
# Cria gráfico de barras com relação entre "Hora" e "CO".
plt.figure(figsize=(16, 6))
seb.barplot(x="Hora", y="Concentração de CO (mg/m³)", data=df_Air_Quality_UCI[["Hora","Concentração de CO (mg/m³)"]], estimator=np.mean)

ValueError: min() arg is an empty sequence

<Figure size 1152x432 with 0 Axes>

## Portanto, existe relação entre a concentração de CO durante o dia, cujos "horários de pico" repercutem em mais concentração de CO.

## 2.Existe alguma relação entre a concentração de CO entre os dias da semana?

In [9]:
# Cria a coluna "Dia da Semana" apartir da coluna "Date" para a análise.
df_Air_Quality_UCI["weekday"] = pd.to_datetime( df_Air_Quality_UCI["Date"]).dt.weekday_name

# Cria função para traduzir Dias da Semana.
def Traduz_Dia_Semana(weekday_name):
    switcher = {
        
        "Monday": "1.Segunda",
        "Tuesday": "2.Terça",
        "Wednesday": "3.Quarta",
        "Thursday": "4.Quinta",
        "Friday":  "5.Sexta",
        "Saturday": "6.Sábado",
        "Sunday": "7.Domingo"
    }
    return switcher.get(weekday_name)

# Traduz dias da Semana
df_Air_Quality_UCI["weekday"] = df_Air_Quality_UCI["weekday"].apply(lambda x: Traduz_Dia_Semana(x))

# Ordena pelo dia da semana.
df_Air_Quality_UCI.sort_values(by=["weekday"], inplace=True)

# Trata ordenação do dia da semana.
df_Air_Quality_UCI["Dia da Semana"] = df_Air_Quality_UCI["weekday"].apply(lambda x: x[2:])

In [10]:
# Cria gráfico de barras com relação entre "Dia da Semana" e "CO".
plt.figure(figsize=(16, 6))
seb.barplot(x="Dia da Semana", y="Concentração de CO (mg/m³)", data=df_Air_Quality_UCI[["Dia da Semana","Concentração de CO (mg/m³)"]], estimator=np.mean)

ValueError: min() arg is an empty sequence

<Figure size 1152x432 with 0 Axes>

## Portanto, existe relação entre a concentração de CO e os dias da Semana, dos quais o fim de semana tem concentração menor de CO.

## 3.Existe alguma relação entre temperatura, humidade relativa do ar e concentração de CO?

In [11]:
# Trata as colunas "T" e "RH" para a análise.
df_Air_Quality_UCI[["T","RH"]] = df_Air_Quality_UCI[["T","RH"]].apply(lambda x: pd.to_numeric(x.str.replace(",",".")))


In [12]:
# Renomeia Colunas
df_Air_Quality_UCI = df_Air_Quality_UCI.rename(columns = {"T": "Temperatura em °C", "RH":"Humidade Relativa (%)"}) 

In [13]:
# Cria gráfico de barras com relação entre "Temperatura" e "CO".
plt.figure(figsize=(16, 6))
seb.barplot(x="Temperatura em °C", y="Concentração de CO (mg/m³)", data=df_Air_Quality_UCI[["Temperatura em °C","Concentração de CO (mg/m³)"]], estimator=np.mean)

ValueError: min() arg is an empty sequence

<Figure size 1152x432 with 0 Axes>

## Portanto, parece não existir relação entre a concentração de CO e a temperatura. já que as variações de CO apresentam-se em todos os niveis de Temperatura.

In [14]:
# Cria gráfico de barras com relação entre "Humidade Relativa" e "CO".
plt.figure(figsize=(16, 6))
seb.barplot(x="Humidade Relativa (%)", y="Concentração de CO (mg/m³)", data=df_Air_Quality_UCI[["Humidade Relativa (%)","Concentração de CO (mg/m³)"]], estimator=np.mean)

ValueError: min() arg is an empty sequence

<Figure size 1152x432 with 0 Axes>

## Portanto, parece existir relação entre a concentração de CO e a Humidade Relativa, mas somente quando há elevada humidade relativa, também com maior concentração de CO.

## 4. Predição utilizando o modelo KNN.

In [15]:
# Verificando as correlações.
df_Air_Quality_UCI.corr()

Unnamed: 0,Concentração de CO (mg/m³),PT08.S1(CO),NMHC(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),Unnamed: 15,Unnamed: 16
Concentração de CO (mg/m³),,,,,,,,,,,
PT08.S1(CO),,,,,,,,,,,
NMHC(GT),,,,,,,,,,,
PT08.S2(NMHC),,,,,,,,,,,
NOx(GT),,,,,,,,,,,
PT08.S3(NOx),,,,,,,,,,,
NO2(GT),,,,,,,,,,,
PT08.S4(NO2),,,,,,,,,,,
PT08.S5(O3),,,,,,,,,,,
Unnamed: 15,,,,,,,,,,,


In [16]:
df_Air_Quality_UCI[["PT08.S2(NMHC)","PT08.S5(O3)"]].corr()

Unnamed: 0,PT08.S2(NMHC),PT08.S5(O3)
PT08.S2(NMHC),,
PT08.S5(O3),,


## Baseado nas correlações fortes verificadas, escolho o Titânio/Hora como variável independente e o Óxido de Índio/Hora como variável alvo da predição.

In [26]:
# Separa apenas colunas da predição.
df_titanio_Indio = df_Air_Quality_UCI[["PT08.S2(NMHC)","PT08.S5(O3)"]]

In [27]:
# Renomeia Colunas
df_titanio_Indio = df_titanio_Indio.rename(columns = {"PT08.S2(NMHC)": "Titânio/Hora", "PT08.S5(O3)":"Óxido de Índio/Hora"}) 

In [28]:
# Divide o dataset entre treino e teste. (70% treino e 30% teste)
x_train, x_test, y_train, y_test = train_test_split(df_titanio_Indio["Titânio/Hora"], df_titanio_Indio["Óxido de Índio/Hora"], test_size=0.3)

In [29]:
# Preprocessamento dos dados.
label_encod = preprocessing.LabelEncoder()

x_train = label_encod.fit_transform(x_train).reshape(-1, 1)
y_train = label_encod.fit_transform(y_train).reshape(-1, 1)

x_test = label_encod.fit_transform(x_test).reshape(-1, 1)
y_test = label_encod.fit_transform(y_test).reshape(-1, 1)

In [30]:
# Instancia modelo KNN do sklearn.
knn = KNeighborsClassifier(n_neighbors=3)

In [25]:
# Treina o modelo.
knn.fit(x_train, y_train)

ValueError: Found array with 0 sample(s) (shape=(0, 1)) while a minimum of 1 is required.

In [23]:
# Utiliza modelo treinado para a predição.
y_pred = knn.predict(x_test)

ValueError: Found array with 0 sample(s) (shape=(0, 1)) while a minimum of 1 is required.

In [1434]:
print("Acurácia KNN: %.1f %%" % (metrics.accuracy_score(y_test, y_pred)*100))

Acurácia KNN: 5.5 %


## A acurácia do modelo KNN para estes dados é baixa, pois buscando os n=3 mais próximos, como melhor caso, ainda assim a acurácia é em torno de 5%

## 5.Predição utilizando o modelo de regressão Linear para a mesma análise feita pelo KNN.

In [1435]:
# Instancia modelo de Regressão Linear do sklearn.
reg_lin = linear_model.LinearRegression()

In [1436]:
# Treina o modelo.
reg_lin.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

In [1437]:
# Utiliza modelo treinado para a predição.
y_pred = reg_lin.predict(x_test)

In [1438]:
print("Acurácia Regressão Linear: %.1f %%" % (reg_lin.score(y_test, y_pred)*100))

Acurácia Regressão Linear: 45.1 %


## A Acurácia do modelo de Regressão Linear para os mesmos dados de treino e teste é regular, em torno de 45%, demonstrando que a correlação dos dados é mais linear.