# Índice
1. [Introdução](#introduction)
2. [Lendo os dados](#reading)   
3. [Visão Geral](#visao)    
 3.1. [Mapas de Calor](#seaborn)
4. [Pré Processamento](#processing)   
5. [Ensemble Regressors](#ensemble)  
 5.1. [AdaBoostRegressor](#adaBoostRegressor)
6. [Referências](#references)

## 1. Introdução <a name="introduction"></a>
<p>Este <i>dataset</i> contém dados meteorológicos do Aeroporto Internacional de Raleigh Durham retirados do serviço da Web do NOAA.</p>

## 2. Lendo os Dados <a name="reading"></a>

In [1]:
import pandas as pd

# As colunas estão separadas pelo símbolo ';' #. 
weather_history = pd.read_csv('rdu-weather-history.csv', parse_dates=['date'], sep=';')

## 3. Visão geral <a name="visao"></a>
<p>O <i>dataset</i> contém informação sobre dados meteorológicos do Aeroporto Internacional de Raleigh Durham, desde 2007. Possui dados como temperaturas mínimas e máximas, volume de chuva, velocidade do vento e etc.</p>   
</p>Visualizando as primeiras cinco entradas do DataFrame:</p>    

In [2]:
weather_history.head()

Unnamed: 0,date,temperaturemin,temperaturemax,precipitation,snowfall,snowdepth,avgwindspeed,fastest2minwinddir,fastest2minwindspeed,fastest5secwinddir,...,drizzle,snow,freezingrain,smokehaze,thunder,highwind,hail,blowingsnow,dust,freezingfog
0,2009-10-03,55.0,82.0,0.0,0.0,0.0,2.91,240.0,16.11,230.0,...,No,No,No,No,No,No,No,No,No,No
1,2009-10-10,59.0,79.0,0.02,0.0,0.0,7.83,220.0,17.0,220.0,...,No,No,No,No,No,No,Yes,No,No,No
2,2009-10-14,46.9,61.0,0.14,0.0,0.0,8.72,40.0,14.99,50.0,...,Yes,No,No,No,No,No,Yes,No,No,No
3,2009-10-17,45.0,57.9,0.0,0.0,0.0,6.26,30.0,14.09,40.0,...,No,No,No,No,No,No,No,No,No,No
4,2009-10-29,48.0,68.0,0.0,0.0,0.0,5.82,80.0,14.99,70.0,...,No,No,No,No,No,No,No,No,No,No


In [3]:
# Número de entradas
print("Número de linhas do dataset:", weather_history.shape[0])

print("\n\nResumo estatístico do DataFrame:")
weather_history.describe()

('N\xc3\xbamero de linhas do dataset:', 4137)


Resumo estatístico do DataFrame:


Unnamed: 0,temperaturemin,temperaturemax,precipitation,snowfall,snowdepth,avgwindspeed,fastest2minwinddir,fastest2minwindspeed,fastest5secwinddir,fastest5secwindspeed
count,4136.0,4136.0,4136.0,4135.0,4136.0,4134.0,4135.0,4135.0,4118.0,4118.0
mean,50.540063,72.017021,0.12663,0.012965,0.017384,5.860614,172.541717,15.957151,177.056824,21.80161
std,16.229527,16.530515,0.371318,0.195214,0.213953,2.958446,94.603272,5.270319,96.850988,7.096004
min,4.1,23.2,0.0,0.0,0.0,0.0,10.0,4.92,10.0,6.93
25%,37.0,60.1,0.0,0.0,0.0,3.58,80.0,12.97,90.0,17.0
50%,52.0,73.9,0.0,0.0,0.0,5.37,210.0,14.99,210.0,21.03
75%,64.9,86.0,0.04,0.0,0.0,7.61,240.0,18.12,240.0,25.05
max,80.1,105.1,6.45,6.69,5.91,19.01,360.0,59.95,360.0,86.12


In [4]:
weather_history.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4137 entries, 0 to 4136
Data columns (total 28 columns):
date                    4137 non-null datetime64[ns]
temperaturemin          4136 non-null float64
temperaturemax          4136 non-null float64
precipitation           4136 non-null float64
snowfall                4135 non-null float64
snowdepth               4136 non-null float64
avgwindspeed            4134 non-null float64
fastest2minwinddir      4135 non-null float64
fastest2minwindspeed    4135 non-null float64
fastest5secwinddir      4118 non-null float64
fastest5secwindspeed    4118 non-null float64
fog                     4137 non-null object
fogheavy                4137 non-null object
mist                    4137 non-null object
rain                    4137 non-null object
fogground               4137 non-null object
ice                     4137 non-null object
glaze                   4137 non-null object
drizzle                 4137 non-null object
snow                

## 3.1 Utilizando a função Seaborn de mapas de calor <a name="seaborn"></a>
<p>Seaborn é uma biblioteca em python para criação de visualizações estatísticas.</p>
<p>O método ```.corr() ```, calcula o <b>coeficiente de correlação de Pearson</b> entre todos os pares de colunas numéricas do DataFrame.</p>
<p>Interpretando o coeficiente:
- 0.9 para mais ou para menos indica uma correlação muito forte.
- 0.7 a 0.9 positivo ou negativo indica uma correlação forte.
- 0.5 a 0.7 positivo ou negativo indica uma correlação moderada.
- 0.3 a 0.5 positivo ou negativo indica uma correlação fraca.
- 0 a 0.3 positivo ou negativo indica uma correlação desprezível.

In [5]:
import seaborn as sns; sns.set()
import matplotlib.pyplot as plt

plt.figure(figsize=(18,10))
weather_map = sns.heatmap(weather_history.corr(), annot=True, square=True, cmap="YlGnBu", linewidths=.3)


## 4. Pré-processamento dos dados <a name="processing"></a>

In [6]:
# Substituindo as string por números binários -- No = 0.0 e Yes = 1.0

weather_history = weather_history.replace('No', 0.0)
weather_history = weather_history.replace('Yes', 1.0)

In [7]:
# Verificando a soma dos valores nulos em cada feature

weather_history.isnull().sum()

date                     0
temperaturemin           1
temperaturemax           1
precipitation            1
snowfall                 2
snowdepth                1
avgwindspeed             3
fastest2minwinddir       2
fastest2minwindspeed     2
fastest5secwinddir      19
fastest5secwindspeed    19
fog                      0
fogheavy                 0
mist                     0
rain                     0
fogground                0
ice                      0
glaze                    0
drizzle                  0
snow                     0
freezingrain             0
smokehaze                0
thunder                  0
highwind                 0
hail                     0
blowingsnow              0
dust                     0
freezingfog              0
dtype: int64

In [8]:
from sklearn.preprocessing import Imputer
import numpy as np

#Substituindo os valores nulos pela média dos valores referentes a feature
imputer = Imputer(missing_values=np.nan, strategy='median', axis=0)
weather_history[['temperaturemin']] = imputer.fit_transform(weather_history[['temperaturemin']])
weather_history[['temperaturemax']] = imputer.fit_transform(weather_history[['temperaturemax']])
weather_history[['precipitation']] = imputer.fit_transform(weather_history[['precipitation']])
weather_history[['snowfall']] = imputer.fit_transform(weather_history[['snowfall']])
weather_history[['snowdepth']] = imputer.fit_transform(weather_history[['snowdepth']])
weather_history[['avgwindspeed']] = imputer.fit_transform(weather_history[['avgwindspeed']])
weather_history[['fastest2minwinddir']] = imputer.fit_transform(weather_history[['fastest2minwinddir']])
weather_history[['fastest2minwindspeed']] = imputer.fit_transform(weather_history[['fastest2minwindspeed']])
weather_history[['fastest5secwinddir']] = imputer.fit_transform(weather_history[['fastest5secwinddir']])
weather_history[['fastest5secwindspeed']] = imputer.fit_transform(weather_history[['fastest5secwindspeed']])

weather_history.isnull().sum()

date                    0
temperaturemin          0
temperaturemax          0
precipitation           0
snowfall                0
snowdepth               0
avgwindspeed            0
fastest2minwinddir      0
fastest2minwindspeed    0
fastest5secwinddir      0
fastest5secwindspeed    0
fog                     0
fogheavy                0
mist                    0
rain                    0
fogground               0
ice                     0
glaze                   0
drizzle                 0
snow                    0
freezingrain            0
smokehaze               0
thunder                 0
highwind                0
hail                    0
blowingsnow             0
dust                    0
freezingfog             0
dtype: int64

## 5. Ensemble Regressors  <a name="ensemble"></a> 

O *Ensemble Regressor* é uma técnica que tem o objetivo de combinar modelos de regressão de forma a obter melhores resultados na predição dos valores desejados.
Existem duas famílias de combinações de modelos de regressão.
Uma delas é conhecida por buscar melhores resultados para as predições por meio do cálculo da média das predições de cada modelo de regressão utilizado como entrada para o algorítimo.
A outra é conhecida por reforçar um único modelo de classificação ou regressão de modo a reduzir a diferença entre os valores reais e os valores previstos pelo modelo.

### 5.1 AdaBoostRegressor  <a name="adaBoostRegressor"></a> 
O *AdaBoostRegressor* (*Adaptative Boost Regressor*), é um algorítimo que pertence à família dos algorítimos de reforço.
Sua função é realizar a aplicação dos dados em um conjunto definido de cópias de um modelo de regressão. Após cada previsão feita por uma dessas cópias, o algorítimo define um peso nos dados para a predição a ser realizada pela próxima cópia.
Basicamente aumenta o peso das predições com maior erro, fazendo com que elas sejam priorizadas na próxima cópia do modelo.
Ao final é considerada uma combinação de todas as cópias para se obter um modelo mais complexo e preciso.

O AdaBoostRegressor não é um modelo de regressão em si, mas se utiliza de modelos já definidos. Costuma ser mais efetivo na tarefa de fazer com que modelos fracos se tornem mais complexos e poderosos, melhorando seus resultados.

Observamos um exemplo disso utilizando o DecisionTreeRegressor, que apresentou um resultado fraco.

In [9]:
from sklearn.model_selection import train_test_split

X = weather_history.drop('temperaturemin', axis=1)
X = X.drop('date', axis=1)

y = weather_history['temperaturemin']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state=42)

In [10]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score

decisionTree = DecisionTreeRegressor(max_depth=1)
score = cross_val_score(decisionTree, X_test, y_test, cv=5).mean()
print('Decision Tree test score: ', score)

('Decision Tree test score: ', 0.6251720940474498)


In [11]:
from sklearn.ensemble import AdaBoostRegressor

rng = np.random.RandomState(1)
adaBoost = AdaBoostRegressor(decisionTree, n_estimators=10, random_state=rng)
score = cross_val_score(adaBoost, X_test, y_test, cv=5).mean()
print('Boosted Decision Tree test score: ', score)

('Boosted Decision Tree test score: ', 0.6972134106255706)


Neste caso o DecisionTreeRegressor com profundidade máxima igual a 1 teve um resultado fraco, com score aproximadamente igual a 0.60.  
O adaBoostRegressor aumentou este score em cerca de 0.1, por meio da execução e adaptação de 10 cópias do decisionTreeRegressor.

## 6. Referências  <a name="references"></a>  

> [Coeficiente de correlação de Pearson](https://pt.wikipedia.org/wiki/Coeficiente_de_correla%C3%A7%C3%A3o_de_Pearson#Refer%C3%AAncias)  
> [Ensemble methods](http://scikit-learn.org/stable/modules/ensemble.html)