![](images/ds_rural.png)

# Módulo 4

## Aplicações de Aprendizado de Máquina

### Índice de precipitação pluvial no Brazil

In [None]:
# importando as bibliotecas
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import seaborn as sns 
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn import metrics
%matplotlib inline

In [None]:
# leitura dos dados
clima_data = pd.read_csv('data/weather.csv', delimiter=',')
clima_data.head()

In [None]:
# dimensao da matriz (dataframe)
clima_data.shape

In [None]:
# Estatisticas basicas
clima_data.describe()

In [None]:
# Criando a matriz de exemplos x caracteristicas
XC = clima_data.iloc[:,0]
# Criando o vetor objetivo
yc =clima_data.iloc[:,1]
# verificando as dimensoes dos vetores
print(XC.head())
print(yc.head())

In [None]:
# visualizar os dados antes de aplicar o algoritmo
plt.scatter(XC, yc, color='red',marker='o',alpha=0.5,label='Temperatura Máxima')
plt.title('TMIN vs TMAX')  
plt.xlabel('TMIN')  
plt.ylabel('TMAX') 
plt.legend()
plt.show()

In [None]:
# visualizar a temperatura media maxima
plt.figure(figsize=(10,5))
plt.tight_layout()
sns.distplot(clima_data['MaxTemp']);

In [None]:
# unifirmizando os valores: x = independente, y=dependente
X = clima_data['MinTemp'].values.reshape(-1,1)
y = clima_data['MaxTemp'].values.reshape(-1,1)
#print(X)

In [None]:
# split: particionando os conjuntos: treinamento = 80% e teste = 20%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
# instanciar o metodo de regressao e treinar o algoritmo
lr = LinearRegression()  
lr.fit(X_train, y_train) # treinamento do algorritmo

In [None]:
# encontrar as intersecoes
print(lr.intercept_)
# calcular a inclinacao da reta
print(lr.coef_)

In [None]:
# linha reta
#yy = (lr_coef_[0])*xx + lr.intercep_ 

In [None]:
# fazer predicoes
y_pred = lr.predict(X_test)

In [None]:
# comparacao temperatura atual e temperatura prognosticada
df = pd.DataFrame({'Atual': y_test.flatten(), 'Predição': y_pred.flatten()})
df

In [None]:
# visualização de dados antes de aplicar o algoritmo
xx = np.arange(0,74)
plt.figure(figsize=(7,5))
plt.plot(xx,df['Atual'],'or',label='Atual')
plt.plot(xx,df['Predição'],'ob',label='Predição')
plt.legend()
plt.show()

In [None]:
# visualizar os resultados amostra de 15 registros (amostra muito grande)
df1 = df.head(15)
df1.plot(kind='bar',figsize=(16,10))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')
plt.show()

In [None]:
# linha reta com dados de teste
plt.scatter(X_test, y_test,  color='blue',alpha=0.5)
plt.plot(X_test, y_pred, color='red', linewidth=2)
plt.show()

In [None]:
# Avaliar o desempenho do algoritmo
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))  
print('MSE:', metrics.mean_squared_error(y_test, y_pred))  
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
print('R2_score:', metrics.r2_score(y_test, y_pred))

---
Prof. [Jorge Zavaleta](zavaleta@pet-si.ufrrj.br), Sergio Serra - Macário Costa.