# AceleraDev DataScience

## Setup

kaggle: House Prices Advanced regression techniques

## ML Canvas

### Qual é a proposta de valor?
O que é esperado do modelo, para que ele servirá, para quem servirá.

Ex: Prever o preço do imóvel com base nas variáveis x,y,z

### Para que tipo de decisões o modelo será usado?

Será necessário calcular de quanto em quanto tempo?

### Quais são minhas fontes de dados?

- Que tipos de fontes?
- São internas? Externas?
- Nacional, Internacional?
- Como os dados serão coletados?
- Qual a complexidade de obter os dados?

As fontes não precisar ser fixas, é possível incluir remover fontes no decorrer do desenvolvimento, mas é necessário fazer uma discussão inicial

### Discussão de modelos

- Levanta mento de modelos, métodos, técnicas.

### Avaliações prévias

Métodos e métricas para avaliar o sistema antes dele ser empregado.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [None]:
df = pd.read_csv("train.csv")

## O cientista deve enter absolutamente tudo sobre os dados
O que significa cada coluna e os valores que elas trazem.

In [None]:
df.columns

In [None]:
df.describe()

In [None]:
df.dtypes

In [None]:
cons = pd.DataFrame({'colunas':df.columns, 'tipo':df.dtypes,'missing':df.isna().sum(),'size':df.shape[0], 'unicos':df.nunique()})
cons['percentual'] = round(cons['missing']/cons['size'], 2)
cons

In [None]:
cons.percentual.plot.hist(bins=5)

In [None]:
print('Quantidade de colunas com ATÈ 20% dos dados faltantes: ', cons[cons.percentual < 0.2].shape[0])
print('Quantidade de colunas com 0% dos dados faltantes: ', cons[cons.percentual == 0].shape[0])

In [None]:
cons[cons.percentual == 0].tipo.value_counts()

In [None]:
cons['completa'] = cons['percentual'].apply(lambda x: 'completa' if x == 0  else 'faltante')
cons

In [None]:
df = df[cons[cons.completa == 'completa'].colunas]

In [None]:
df

In [None]:
colunas_numericas = list(cons[(cons['tipo'] != 'object') & (cons['completa'] == 'completa')]['colunas'])

In [None]:
for coluna in colunas_numericas:
    print(coluna)
    df[coluna].plot.hist(bins=50, log=True)
    plt.show()

In [None]:
plt.figure(figsize=(20,20))
sns.heatmap(df[colunas_numericas].corr().round(2), annot=True)

In [None]:
correlacionadas=['GarageArea', 'GarageCars', 'GrLivArea', 'OverallQual']

In [None]:
colunas_numericas.remove('Id')

In [None]:
df = df[colunas_numericas]

In [None]:
y_train = df['SalePrice']

In [None]:
x_train = df.drop(columns='SalePrice')

In [None]:
from yellowbrick.features import Rank1D
visualizer = Rank1D(algorithm='shapiro')
visualizer.fit(x_train, y_train)
visualizer.transform(x_train)
visualizer.show()

In [None]:
from yellowbrick.features import PCA

visualizer = PCA(scale=True, proj_features=True, projection=2)
visualizer.fit_transform(x_train[correlacionadas], y_train)
visualizer.show()

In [None]:
from yellowbrick.target import FeatureCorrelation

features = list(x_train.columns)

visualizer = FeatureCorrelation(labels=features)
visualizer.fit(x_train, y_train)
visualizer.show()

# Treinando o modelo

In [None]:
from sklearn.linear_model import LinearRegression

reg = LinearRegression()

reg.fit(x_train, y_train)

In [None]:
colunas_treinamento = x_train.columns

X_test = pd.read_csv('test.csv')
y_test = pd.read_csv('sample_submission.csv')

In [None]:
y_test = y_test['SalePrice']

In [None]:
X_test = X_test[colunas_treinamento].fillna(df[colunas_treinamento].mean())

In [None]:
y_pred = reg.predict(X_test)

In [None]:
from sklearn.metrics import mean_squared_error

In [None]:
erro_normal = mean_squared_error(y_pred = y_pred, y_true=y_test)

In [None]:
erro_normal

In [None]:
sns.scatterplot(y_pred, y_test)

## Aplicando o Feature Selection

In [None]:
from sklearn.feature_selection import RFE

In [None]:
rfe= RFE(reg)

In [None]:
rfe.fit(x_train, y_train)

In [None]:
pd.DataFrame({'coluna': x_train.columns, 'bool':rfe.get_support(), 'coeficientes':pd.Series(reg.coef_)})

In [None]:
X_train_importance = rfe.transform(x_train)
X_test_importance = rfe.transform(X_test)

In [None]:
reg.fit(X_train_importance, y_train)

In [None]:
y_pred_imp = reg.predict(X_test_importance)

In [None]:
erro_imp = mean_squared_error(y_pred=y_pred_imp, y_true=y_test)

In [None]:
erro_imp

In [None]:
from yellowbrick.model_selection import RFECV

In [None]:
visualizer = RFECV(reg)
visualizer.fit(x_train, y_train)
visualizer.show()

## Aplicando PCA

In [None]:
from sklearn.decomposition import PCA

In [None]:
pca = PCA(0.95)

In [None]:
pca.fit(x_train)

In [None]:
pca.explained_variance_ratio_

In [None]:
x_train_pca = pca.transform(x_train)
X_test_pca = pca.transform(X_test)

In [None]:
reg = LinearRegression()
reg.fit(x_train_pca, y_train)

In [None]:
y_pred_pca = reg.predict(X_test_pca)

In [None]:
erro_pca = mean_squared_error(y_pred=y_pred_pca, y_true=y_test)

In [None]:
erro_pca

In [None]:
pd.DataFrame({'erro':[erro_normal, erro_imp, erro_pca]}).plot(kind='bar', log=True)