## Previsão de Preço de Laptop / Laptop Price Forecast

**Objetivo**: Seu objetivo, como Cientista de Dados da Amazon, é Desenvolver um Sistema que possa prever um preço provisório de um laptop, com base na configuração desejada pelo usuário. Isso servirá como um Balisador para definição de quais configurações devem ser priorizadas na escolha do Laptop por parte do Cliente.

---------------------------------------------------------------------------
**Objective**: your objective, as Amazon Data Scientist, is to develop a provisional system to predict the of a laptop, based on the configuration desired by the user. This will serve as a Beacon for defining which settings should be prioritized when choosing the Laptop by the Customer.

## Análise exploratória de dados / Exploratory data analysis

### Colunas do Dataset / Dataset Columns

In [None]:
# Importando as Bibliotecas
# Importing the Libraries
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import r2_score,mean_absolute_error
from sklearn.ensemble import RandomForestRegressor

**Company**: Fabricante ou marca / brand (Apple, HP, lenovo, Asus)

---------------------------------------------------------------------------
**TypeName**: Tipo laptop / Laptop Type (Ultrabook, Mackbook, 2 in 1 convertible, notebook)

---------------------------------------------------------------------------
**Ram**: Memória RAM / RAM memory (4gb, 8gb, 16gb, 32gb)

---------------------------------------------------------------------------
**Weight**: Peso (Kg)

---------------------------------------------------------------------------
**Touchscreen**: Se possui / If it owns (Sim/Não / Yes/No)

---------------------------------------------------------------------------
**Price**: Preço (Em Reais(Brazilian currency))

---------------------------------------------------------------------------
**Ips**: Tecnologia de redes / Network technology (Sim/Não / Yes/No)

---------------------------------------------------------------------------
**ppi**: Pixels por polegadas / Pixels per inch (220) 

---------------------------------------------------------------------------
**Cpu_brand** Fabricante ou marca do processador / processor brand (Intel I7, Intel I5,  Other Intel Processor)

---------------------------------------------------------------------------
**HDD**: HD gigabyte  (500GB)

---------------------------------------------------------------------------
**SSD**: SSD megabyte  (256GB)

---------------------------------------------------------------------------
**Gpu_brand**: Marca da placa de video / Video Card brand (Nvidia)

---------------------------------------------------------------------------
**Os**: Sistema Operacional / Operational System ( windows, Others/No OS/Linux, Mac)


In [None]:
# Instalação do pacote de relatório automatizado para analise de dados
# Instaling the automated reporting package for data analysis
!pip install dataprep

In [None]:
# Conectando com os dados
# Data Connecting 
df = pd.read_csv('data.csv', delimiter=';')
df

In [None]:
# Relatório Automatizado
# Automated Report
from dataprep.eda import create_report
create_report(df)

## Pré-Processamento dos Dados / Data pre-processing

In [None]:
# Variáveis explicativas
# Explanatory variables
X = df.drop(columns=['Price'])

In [None]:
# Classe / O que queremos prever
# Target / What we want to predict
y = np.log(df['Price'])

### Alguns testes com o test_size e a random state para ver qual se sai melhor com o meu modelo
### Some tests with test_size and random state to see which one works best with my model


- R2 score 0.9091915379824
- MAE 0.15052603283795518
 - test_size=0.22,random_state=7
 ---------------------------------------------
- R2 score 0.9145226769778227
- MAE 0.14801615001618848
 - test_size=0.21,random_state=7
 -------------------------------------------
- R2 score 0.9156235861402156
- MAE 0.14764715063561304
 - test_size = 0.20, random_state = 7
 ---------------------------------------------
- R2 score 0.9168877460053753
- MAE 0.1439709364900349              - O Ganhador / The Winner
 - test_size=0.19,random_state=7
--------------------------------------------
- R2 score 0.9149143673731063
- MAE 0.1466489470816401
 - test_size=0.18,random_state=7
 --------------------------------------------
- R2 score 0.9123834335574939
- MAE 0.14691635148390247
 - test_size=0.17,random_state=7) 
 --------------------------------------------
- R2 score 0.9108143414466527
- MAE MAE 0.14904559077796425
 - test_size=0.16,random_state=7)-

In [None]:
# Separação dos dados de treinamento e teste do algoritimo (maquina preditiva)
# Separation of training and testing data from the algorithm (predictive machine)
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.19,random_state=7)

In [None]:
# Informação do Dataframe
# Dataframe information
df.info()

In [None]:
# Transformando variáveis object em numéricas
# Transforming object variables to numeric variables
step1 = ColumnTransformer(transformers=[
        ('col_tnf', OneHotEncoder(handle_unknown='ignore', sparse=False),[0,1,7,10,11])],
         remainder='passthrough')

## Criação da maquina preditiva / Creation of predctive machine

#### Fazendo testes a/b para melhorar meu modelo
    - Começando com modelo sem os hiperparametros
---------------------------------------------------------------------------------------------------------------------
#### Doing a/b tests to improve my model
    - Starting with model without the hyperparameters

In [None]:
# Criando a Máquina Preditiva com  algoritimo regressor
# Creating the Predictive Machine with a regressor algorithm
step2 = RandomForestRegressor()

## Pipeline: Automatizando Processamento de Dados e Machine Learning

In [None]:
# Automatizando o pré-processamento com a criação da maquina preditiva em uma etapa
# automating pre-processing creating the predictive machine in one step 
pipe= Pipeline([

# Processamento de Dados: Transformação das variáveis object em númericas
# Data processin: Variable transforming, object to numeric
('step1',step1), 

# Criação da maquina preditiva com Machine Learning (Algoritimo RandomForest)
# Creating the predictive machine with machine learning(RandomForest algorithm)
('step2',step2)

])

In [None]:
# Treinamento com os dados de treino
# Training with training data
pipe.fit(X_train,y_train)

In [None]:
# Novas Predições com os Dados de teste
# New predictions with test data
y_pred = pipe.predict(X_test)

##  Avaliação da Máquina Preditiva / Predictive Machine Assessment

In [None]:
# Utilizando  a métrica R2
# Using the R2 metric
print('R2 score',r2_score(y_test,y_pred))

In [None]:
# Utilizando a métrica MAE
# Using the MAE metric
print('MAE',mean_absolute_error(y_test,y_pred))

- Criando um novo pipeline para descobrir os melhores hiperparametros, com o GridSearchCV

- Creating a new pipeline to search for the best hiperparameters, with GridSearchCV

In [None]:
sorted(pipe.get_params().keys())

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
# n_estimators: Número de árvores que serao criadas na floresta
# n_estimators: Number of the trees that will be created in the forest
n_estimators=[180, 190, 200, 210]

# random_state: Cria semente aleatorias para replicar os resultados
# random_state: Create a random seed to replicate the results
random_state=[5, 6, 7, 8]

# max_depth: Profundidade máxima da arvore
# max_depth: The max tree depth
max_depth=[15, 20, 25, 30]

# min_sample_split: Número de amostras minimas para considerar um nó para a divisão
# min_sample_split: Minimum sample number to consider a node for the division
min_samples_split = [2, 5, 10, 15]

# min_sample_leaf: Número de amostras minimas no nivel folha
# min_sample_leaf: Minimum number of samples at the sheet level
min_samples_leaf = [1, 5, 10, 15]

# bootstrap: Se as amostras de bootstrap são usadas ao construir árvores. Se False, todo o conjunto de dados é usado para construir cada árvore.
# bootstrap: Whether bootstrap samples are used when building trees. If False, the whole dataset is used to build each tree.
bootstrap = ['True', 'False']

In [None]:
# Definindo um dicionarios para receber os parametros e valores
# Defining a dictionary to receive parameters and values
grid_param = dict(step2__n_estimators=n_estimators,
                  step2__random_state=random_state,
                  step2__max_depth=max_depth,
                  step2__min_samples_split=min_samples_split,
                  step2__min_samples_leaf=min_samples_leaf,
                  step2__bootstrap=bootstrap
                  )
grid_param

In [None]:
grid = GridSearchCV(pipe, grid_param)

In [None]:
grid.fit(X_train, y_train)

In [None]:
grid.cv_results_

In [None]:
grid.best_params_

In [None]:
# Criando a Máquina Preditiva com  algoritimo regressor
# Creating a predictive machine with regressor algorithm
step2 = RandomForestRegressor(bootstrap='True',
                              max_depth=15,
                              min_samples_leaf=1,
                              min_samples_split=2,
                              n_estimators=200,
                              random_state=5
                             )

In [None]:
# Automatizando o pré-processamento com a criação da maquina preditiva em uma etapa
# Automating pre-processing creating the predictive machine in one step 
pipe= Pipeline([

# Processamento de Dados: Transformação das variáveis object em númericas
# Data processin: Variable transforming, object to numeric
('step1',step1), 

# Criação da MP com Machine Learning (Algoritimo RF)
# Creating the predictive machine with machine learning (RandomForest algorithm)
('step2',step2)

])

In [None]:
# Treinamento com os dados de treino
# Training with training data
pipe.fit(X_train,y_train)

In [None]:
# Novas Predições com os Dados de teste
# New predictions with data test
y_pred = pipe.predict(X_test)

In [None]:
print('MAE',mean_absolute_error(y_test,y_pred))

In [None]:
print('R2 score',r2_score(y_test,y_pred))

In [None]:
# Exportando dados para Fase de implementação
# Exporting Data for Implementation Phase
df.to_csv("data_mp.csv", index=False)

In [None]:
# Salvando a maquina preditiva para implementaçãp (deploy)
# Saving the predictive machine for deployment (deploy)
import pickle
df.to_csv("data_mp.csv", index=False)
pickle.dump(pipe,open('MP.pkl','wb'))