#Machine Learning
###Exemplo de modelo de regress√£o p/ previs√£o de pre√ßos de venda de carros usados
* Este tutorial foi inspirado no treinamento de Cientista de Dados do [MS Learn](https://docs.microsoft.com/en-us/learn/). Algumas partes foram traduzidas para facilitar o entendimento, por√©m sugiro fortemente que todos realizem o treinamento oficial para um aprendizado mais aprofundado das t√©cnicas que ser√£o demonstradas aqui.

Fique a vontade para utilizar e adaptar conforme sua necessidade (ou divertimento üòé).

### Neste tutorial faremos uma [regress√£o linear simples](https://pt.wikipedia.org/wiki/Regress%C3%A3o_linear_simples) em que o objetivo ser√° prever o PRE√áO (y) de venda de um determinado modelo de ve√≠culo se baseando em algumas vari√°veis de entrada (X) 

A base de dados utilizada pode ser obtida no [link](https://github.com/lfbraz/machine-learning-tutorial/blob/master/datasets/dataset-carros-usados.csv) e foi baseada na vers√£o [original](https://databricksdemostore.blob.core.windows.net/data/02.02/UsedCars.csv) disponibilizada pela Databricks, em que foi adaptada e traduzida para Portugu√™s-Brasil.

##Importar base de dados
Utilizarei o [Azure Databricks](https://azure.microsoft.com/pt-br/services/databricks/) para treino do modelo, por√©m este tutorial pode ser utilizado com qualquer plataforma (sendo necess√°rio apenas que o m√©todo de importa√ß√£o seja adaptado).

Realizamos o download do dataset utilizando a biblioteca [`requests`](https://pypi.org/project/requests/).

In [4]:
import requests

filename = "dataset-carros-usados.csv"
url = "https://raw.githubusercontent.com/lfbraz/machine-learning-tutorial/master/datasets/{}".format(filename)
output_local_file_path = "/tmp/{}".format(filename)
output_dbfs_file_path = "/data/{}".format(filename)

print('Fazendo o download de: {} para o diret√≥rio {}'.format(url, output_local_file_path))

# Baixar e persistir o arquivo
file = requests.get(url)
open(output_local_file_path, 'wb').write(file.content)

# Copiar para a estrutura de arquivos do Databricks
dbutils.fs.cp("file:{}".format(output_local_file_path), "dbfs:{}".format(output_dbfs_file_path) )

print('Arquivo copiado de: {} para o diret√≥rio dbfs {}'.format(output_local_file_path, output_dbfs_file_path))

##Ler o arquivo .csv em um Spark DataFrame
Por quest√µes de performance, vamos ler o arquivo .csv utilizando um [DataFrame do Spark](https://spark.apache.org/docs/latest/sql-programming-guide.html).

Utilizaremos as segmentos op√ß√µes: <br/>
<br/>
* format: CSV
* inferSchema: true / Permite que os tipos de dados sejam automaticamente inferidos
* header: true / Primeira linha ser√° entendida como o cabe√ßalho
* sep: ";" / Ser√° utilizado como delimitador de colunas o car√°cter ";"
* load: path / O caminho do arquivo que ser√° carregado

In [6]:
file_type = "csv"
infer_schema = "true"
first_row_is_header = "true"
delimiter = ";"

carros_usados = spark.read.format(file_type) \
                     .option("inferSchema", infer_schema) \
                     .option("header", first_row_is_header) \
                     .option("sep", delimiter) \
                     .load(output_dbfs_file_path)

## Visualiza√ß√£o dos Dados

A tabela de carros usados possui os seguintes campos:<br/>
<br/>
* **PRECO**: Pre√ßo de venda do ve√≠culo (vari√°vel target / previs√£o)
* **IDADE_ANOS**: N√∫mero de anos desde a data de fabrica√ß√£o do ve√≠culo
* **KM**: N√∫mero de kilometros rodados pelo ve√≠culo
* **TIPO_COMBUSTIVEL**: Tipo de combust√≠vel utilizado
* **[HP](https://en.wikipedia.org/wiki/Horsepower)**: Medida de pot√™ncia do ve√≠culo
* **COR_METALICA**: Indica se o ve√≠culo possui cor met√°lica (1 para sim e 0 para n√£o). Pode indicar maior valoriza√ß√£o
* **AUTOMATICO**: Indica se o ve√≠culo √© autom√°tico (1 para sim e 0 para n√£o)
* **[CC](https://pt.wikipedia.org/wiki/Cilindrada)**: Cilindradas do ve√≠culo
* **QTD_PORTAS**: N√∫mero de portas do ve√≠culo
* **PESO_KG**: Peso em quilograma do ve√≠culo

Com o comando `display(carros_usados)` podemos analisar o DataFrame

In [8]:
carros_usados.show(n=5)

Com o [Azure Databricks](https://azure.microsoft.com/pt-br/services/databricks/) assim que executamos o Display do DataFrame podemos na pr√≥pria c√©lula indicar os tipos de gr√°ficos que queremos visualizar (clicando no icone gr√°fico abaixo do DataFrame e em `PlotOptions`).

Abaixo √© poss√≠vel com o comando `Display` exibir uma visualiza√ß√£o por Tipo de Combust√≠vel e Pre√ßo (utilizando 30 `bins` [n√∫mero de colunas] ) alterando-se o `Plot Options` (somente dispon√≠vel para Azure Databricks).

In [10]:
#display(carros_usados)

Tamb√©m podemos utilizar outras bibliotecas para an√°lise gr√°fica como o `matplotlib` ou `seaborn`. Neste caso pode-se converter o DataFrame Spark para um DataFrame Pandas (com isso a performance pode ser degradada).

Abaixo um [histograma](https://pt.wikipedia.org/wiki/Histograma) gerado a partir do pre√ßo de venda do ve√≠culo utilizando o matplotlib a partir de um [DataFrame do Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html).

In [12]:
import matplotlib.pyplot as plt
%matplotlib inline 

display(carros_usados.toPandas().plot(kind='hist', y='PRECO'))

# Criando uma regress√£o linear simples

Podemos iniciar investigando se a idade do ve√≠culo pode influenciar seu pre√ßo de venda.

In [15]:
carros_usados_pd = carros_usados.toPandas()

fig, ax = plt.subplots()

# Populate the figure
plt.scatter(carros_usados_pd['IDADE_ANOS'], carros_usados_pd['PRECO'])

# Set various labels
plt.title('Pre√ßo dos carros usados como uma fun√ß√£o da idade')
plt.ylabel('Pre√ßo [R$]')
plt.xlabel('Idade [Meses]')

# Extras?
plt.grid() # Turn plot-grid on

# Show figure
display(fig)

Repare que quanto maior a idade do ve√≠culo menor o seu pre√ßo de venda (make sense??).

Geralmente quando falamos em Machine Learning (aprendizado de m√°quina) estamos pensando em uma tarefa espec√≠fica. No nosso caso, a tarefa b√°sica 
√© a de **prever o pre√ßo de venda de um ve√≠culo** utilizando para isso dados hist√≥ricos de vendas de outros ve√≠culos.

Regress√£o Linear √© uma das primeiras t√©cnicas estat√≠sticas aprendidas para previs√£o de dados que se comportam de forma linear üôÑ. <br/><br/>
E o que isso significa ? Basicamente estamos falando que quando uma vari√°vel cresce (ou diminui) outra vari√°vel tamb√©m t√™m o mesmo comportamento, como por exemplo, o **PRE√áO** do ve√≠culo com a sua **IDADE** em meses (que acabamos de analisar de forma gr√°fica).

Este comportamento, para os mais entendidos, √© feito atrav√©s da famosa equa√ß√£o \\(y = ax + b\\).

No exemplo dado estamos falando apenas na rela√ß√£o de duas vari√°veis (PRE√áO e IDADE), por√©m a ideia √© utilizar diferentes vari√°veis no mesmo modelo linear.

Neste tipo de situa√ß√£o (que √© a mais comum) a visualiza√ß√£o √© mais complexa pois a previs√£o n√£o se dar√° por uma √∫nica reta (mas sim por hiperplanos üò≥). Quem quiser entender mais sobre isso, recomendo o v√≠deo [Regress√£o Linear M√∫ltipla](https://drive.google.com/file/d/1MKIO-oe8mtz92rlZp3eZJIYVmQSpW0Pi/view) de uma aula dada no IME/USP sobre o assunto.

## Tratamento dos dados
Antes de aplicarmos um modelo de Regress√£o Linear precisamos primeiramente tratar os dados que ser√£o ENTRADA do modelo, isto √©, precisaremos limpar, padronizar e enriquecer os dados que ser√£o utilizados para treinamento do modelo.

In [18]:
carros_usados.show(n=5)

O primeiro ponto importante √© analisarmos se existem valores faltantes para cada uma das colunas que ser√£o utilizadas no modelo. 

Repare que existem valores `null` (faltantes) no conjunto de dados analisado. Podemos checar estes valores atrav√©s do comando abaixo:

In [20]:
from pyspark.sql.functions import isnan, when, col

for c in carros_usados.columns:
  carros_usados.where(col(c).isNull()).show()

Existem diversas t√©cnicas de tratamento de valores faltantes (substitui√ß√£o pela m√©dia, moda, etc). Para simplificarmos, o processo vamos simplesmente remover toda a linha em que seja encontrado algum valor faltante.

In [22]:
carros_usados = carros_usados.na.drop()

Outro ponto importante √© analisarmos o *TIPO* das vari√°veis de entrada. Repare que a vari√°vel **TIPO_COMBUSTIVEL** √© uma vari√°vel categ√≥rica em formato TEXTO e quando falamos em modelos de aprendizado de m√°quina precisamos que todas as vari√°veis de *INPUT* sejam de alguma forma retratadas de forma num√©rica. Desta forma, o modelo (que nada mais √© do que uma express√£o matem√°tica, muitas vezes extremamente complexa) conseguir√° utilizar os dados de forma apropriada.

Para tratamento da vari√°vel utilizaremos as t√©cnicas `StringIndexer` e `OneHotEncoder` que permitem representar as var√≠aveis categ√≥ricas em um formato vetorial bin√°rio. 

Com a `StringIndexer` representaremos as var√≠aveis categ√≥ricas de forma num√©rica (ex: GASOLINA=0, DIESEL=1, etc).

In [25]:
from pyspark.ml.feature import StringIndexer, OneHotEncoderEstimator, VectorAssembler

indexer = StringIndexer(inputCol='TIPO_COMBUSTIVEL', outputCol='TIPO_COMBUSTIVEL_index')
indexed = indexer.fit(carros_usados).transform(carros_usados)
indexed.show()

Repare que foi adicionada uma nova coluna chamada **TIPO_COMBUSTIVEL_index** com a representa√ß√£o num√©rica mencionada.

Tamb√©m vamos utilizar a t√©cnica de `OneHotEncoder` para transforma√ß√£o vetorial bin√°ria da vari√°vel que foi indexada (uma lista mais completa das t√©cnicas pode ser encontrada no [link](https://spark.apache.org/docs/latest/ml-features.html) ). Para otimiza√ß√£o deste processo ainda n√£o vamos executar as transforma√ß√µes, vamos criar `Stages` (est√°gios de processamento das transforma√ß√µes) que ser√£o posteriormente colocadas em um `Pipeline`).

In [27]:
encoder = OneHotEncoderEstimator(inputCols=["TIPO_COMBUSTIVEL_index"],
                                 outputCols=["TIPO_COMBUSTIVEL_vetor"])

stages = [indexer, encoder]

A vari√°vel `stages` cont√©m os est√°gios de `StringIndexer` e `OneHotEncoder`, al√©m deles utilizaremos tamb√©m a t√©cnica de `VectorAssembler` para consolidar todas as vari√°veis (features) que ser√£o utilizadas para treinamento do modelo e adicionaremos mais este est√°gio na vari√°vel `stages`.

In [29]:
colunas_treino = ['IDADE_ANOS', 'KM', 'HP', 'COR_METALICA', 'AUTOMATICO', 'CC', 'QTD_PORTAS', 'PESO_KG', 'TIPO_COMBUSTIVEL_vetor']

assembler = VectorAssembler(inputCols=colunas_treino, outputCol="features")
stages += [assembler]

Com os est√°gios de tratamento j√° definidos podemos agora aplicar as transforma√ß√µes em um [`Pipeline`](https://spark.apache.org/docs/latest/api/python/pyspark.ml.html?highlight=onehotencoder#pyspark.ml.Pipeline).

In [31]:
from pyspark.ml import Pipeline
  
partialPipeline = Pipeline().setStages(stages)
pipelineModel = partialPipeline.fit(carros_usados)
DF_preparado = pipelineModel.transform(carros_usados)

In [32]:
DF_preparado.show(n=5)

Em conjunto com as outras vari√°veis do DataFrame temos agora a coluna `features` que cont√©m um consolidado vetorial de todas as vari√°veis que devem ser utilizadas para treinamento do modelo (j√° com as transforma√ß√µes realizadas em um Pipeline).

Com os dados preparados devemos agora dividir o conjunto de dados entre dados de treino (utilizado para treinar o modelo) e testes (utilizado para avaliar a performance do modelo). Utilizaremos a propor√ß√£o de 80% para treino e 20% para teste.

In [35]:
treino, teste = DF_preparado.randomSplit([0.8, 0.2])


Com isso, finalmente üòÜ podemos ent√£o realizar o treinamento de um modelo de Regress√£o Linear Simples.

In [37]:
from pyspark.ml.regression import LinearRegression


model = LinearRegression(featuresCol = 'features', labelCol='PRECO').fit(treino)

Com o modelo treinado podemos analisar as m√©tricas de Erro quadr√°tico m√©dio [RSME](https://en.wikipedia.org/wiki/Root-mean-square_deviation) e o [R¬≤](https://en.wikipedia.org/wiki/Coefficient_of_determination) para verificarmos a qualidade do estimador utilizado.

In [39]:
relatorio_treino = model.summary

print("RMSE: %f" % relatorio_treino.rootMeanSquaredError)
print("r2: %f" % relatorio_treino.r2)

Agora podemos tamb√©m utilizar o modelo para fazer as predi√ß√µes na base de teste

## Predi√ß√µes na base TESTE

In [42]:
predicoes = model.transform(teste)

predicoes.show(n=5)

## Podemos agora analisar os resultados do RMSE e R¬≤ das predi√ß√µes

In [44]:
test_result = model.evaluate(teste)
print("RMSE = %g" % test_result.rootMeanSquaredError)
print("r2 = %g" % test_result.r2)

### Podemos comparar graficamente o "ERRO" das predi√ß√µes realizadas com rela√ß√£o ao valor real de PRE√áO.

In [46]:
from sklearn import metrics

fig, ax = plt.subplots()

y_pred = predicoes.toPandas().prediction
y_test = predicoes.toPandas().PRECO

# Make a list of all the errors in the test-dataset:
errors = (y_pred - y_test)

### Populate the figure
# Plot the test-data:
plt.scatter(teste.toPandas().PRECO, errors, color='red', edgecolors='black')

# Set various labels
plt.ylabel('ERROS')
plt.xlabel('PRE√áO')

plt.title('Erros em $ por Pre√ßo')

# Extras?
plt.grid() # Turn plot-grid on
plt.legend()

# Show figure
display(fig)

##Persistir o modelo

Para ser poss√≠vel a reutiliza√ß√£o do modelo treinado podemos persisti-lo para que possa ser carregado posteriormente (sem a necessidade de re-treinamento).

Na Azure podemos utilizar o [ADLS (Azure Data Lake Storage)](https://azure.microsoft.com/en-us/services/storage/data-lake-storage/) para persistir os modelos gerados em containers criados no Data Lake. Para isso, podemos "montar" o container utilizando uma chave de criptografia, fazendo com que o ADLS apare√ßa como uma nova pasta no Databricks. No [link](https://github.com/lfbraz/azure-databricks/blob/master/notebooks/read-from-adls.ipynb) temos mais explica√ß√µes de como realizar este processo. 

Neste tutorial vamos persistir o modelo para um diret√≥rio previamente montado. Caso voc√™ n√£o esteja utilizando o Databricks, basta utilizar um diret√≥rio local (ou equivalente a plataforma que estiver utilizando).

In [49]:
NOME_MODELO = 'modelo_regressao_linear.model'
model.save('/mnt/models/{}'.format(NOME_MODELO))