# Bases de Machine Learning

## O que é Machine Learning?

Alguém tem alguma ideia de como funciona um modelo preditivo?

Alguns exemplos para tornar mais concreto possíveis lógicas de funcionamento:

- como prever se uma dada ação na Bolsa de Valores irá subir ou descer amanhã?

- como escolher a ação mais adequada para controlar um veículo autônomo em função do que ele percebe do mundo em volta de si?

- amanhã irá chover?

- qual das milhões de transações que uma operadora de cartão de crédito está recebendo nesse segundo corresponde a fraudes e deveriam ser bloqueadas?

- considerando uma centena de processos judiciais, de que trata cada um deles se você só tem acesso ao conteúdo textual de suas peças?


Ou uma pergunta mais simples ainda: 
> **Quanto deveria custar uma casa?**  
> Dadas as características de uma casa (área útil, endereço, número de cômodos, qualidade de acabamentos, etc.) como estimar o seu valor de mercado?

Pense no que seria necessário para que você conseguisse formular um bom palpite.
E se agora você desejasse automatizar esse processo, como faria? Como comunicar para a máquina o processo decisional envolvido na formulação desse palpite?

Todos esses elementos fazem parte de Machine Learning: a "arte" de ensinar a máquina a reconhecer padrões em observações, que possam ser generalizadas para previsões de características de novas observações.

## Exemplo concreto para estimativa de valor de um imóvel

Captura de tela de oferta do site Wimóveis: 
https://www.wimoveis.com.br/propriedades/clnw-110-111-noroeste-1-quarto-1-vaga-37-m-sup2-2951056060.html
![](https://i.imgur.com/yV3Zqw8.png)

Qual o seu palpite quanto ao valor esperado desse imóvel? 
Como fazer para estimar esse valor?

Escreva abaixo seu palpite e o que você considerou para chegar nessa estimativa:

In [None]:
import numpy as np

# O que você escrever na célula de código depois de um símbolo '#' não será executado pelo computador
# 
#

5

In [None]:
# Lista agora as variáveis que lhe parecem mais importantes para estimar esse valor
# localização: bairro
# metragem
#
#

In [None]:
# Ordene a lista acima da variável que lhe parece mais importante até a que lhe parece menos importante
#
#
#
#

In [None]:
# Como você faria para atribuir um valor monetário de contribuição para o preço total para cada uma dessas variáveis?
# Por exemplo: possuir uma área útil maior tem mais valor 
# então vou multiplicar a área útil por R$ 10.000,00 para ter uma estimativa de custo do apartamento
# Liste abaixo o valor que você daria para cada variável de destaque que apontou acima
#
#
#
#

In [None]:
# Como avaliar se os valores que você chutou para cada variável são bons?
# Ou como estimar automaticamente esses valores para cada item de característica do imóvel?
#
#
#
#

Captura de tela de outra oferta do site Wimóveis: 
https://www.wimoveis.com.br/propriedades/cobertura-no-via-parque-noroeste-2944165550.html
![](https://i.imgur.com/esx19p5.png)


In [None]:
# com base nas estimativas de valor associado a cada variável anterior, estime qual seria o valor desse imóvel:
#
#

## Automação da construção do modelo anterior

Agora se tivermos que realizar as melhores previsões possíveis para centenas de imóveis, com grande variedade de tamanhos, bairros, número de quarto, banheiros, vagas, suítes, idades de construção, etc. Como encontrar os pesos ótimos para cada variável que permite ter o menor erro possível em nossas previsões?

Como avaliar esse erro? Ou seja como avaliar a qualidade de um modelo?


Vamos continuar com esse modelo que começamos intuitivamente acima e que se chama "regressão linear".
Consideraremos que o preço de um imóvel é uma soma ponderada de suas características (área, número de quartos, de banheiros, etc.) sendo que esse peso ou valor associado a essa característica é um parâmetro interno do modelo, que não conhecemos de antemão, mas vamos descobrir com base em dados de vendas passadas de outros imóveis!

\begin{equation}
Preço = ValorPonderadoMetroQuadrado * área + ValorPonderadoNúmeroQuartos * númeroQuartos + ...
\end{equation}

Essa equação acima seria o nosso modelo, muito simples, de soma ponderada das características. Agora, como descobrir esses fatores de ponderação?

Uma animação para sugerir uma resposta, para o caso mais simples de uma única variável indepedente X e uma variável dependente y. Nesse caso a equação fica:
\begin{equation}
y = a * X + b
\end{equation}

![](https://miro.medium.com/max/1400/1*tXBtjkYLd01c25EbnXCvow.gif)


Então precisamos de dados de transações imobiliárias passadas para conseguir estimar o valor desses pesos da equação.
Onde obter esses dados? O Wimóveis não facilita nossa obtenção desses dados! Seria viável extrair esses dados do site utilizando técnicas de web scraping, que fogem do nosso escopo no momento.

Outra abordagem é de utilizar uma base de dados já pronta!
Dados de venda de imóveis da cidade de Boston, já embutida na nossa biblioteca de machine learning:
https://scikit-learn.org/stable/datasets/index.html#boston-house-prices-dataset



In [1]:
from sklearn.datasets import load_boston

In [5]:
boston = load_boston()
type(boston)

sklearn.utils.Bunch

In [4]:
import pandas as pd

In [6]:
df = pd.DataFrame(boston.data, columns=boston.feature_names)

In [7]:
df

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.0900,1.0,296.0,15.3,396.90,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.90,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.90,5.33
...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0.0,0.573,6.593,69.1,2.4786,1.0,273.0,21.0,391.99,9.67
502,0.04527,0.0,11.93,0.0,0.573,6.120,76.7,2.2875,1.0,273.0,21.0,396.90,9.08
503,0.06076,0.0,11.93,0.0,0.573,6.976,91.0,2.1675,1.0,273.0,21.0,396.90,5.64
504,0.10959,0.0,11.93,0.0,0.573,6.794,89.3,2.3889,1.0,273.0,21.0,393.45,6.48


In [8]:
print(boston.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [9]:
# Queremos prever a variável dependente de preço:
boston.target

array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 18.7, 16. , 22.2, 25. , 33. , 23.5,
       19.4, 22. , 17.4, 20.9, 24.2, 21.7, 22.8, 23.4, 24.1, 21.4, 20. ,
       20.8, 21.2, 20.3, 28. , 23.9, 24.8, 22.9, 23.9, 26.6, 22.5, 22.2,
       23.6, 28.7, 22.6, 22. , 22.9, 25. , 20.6, 28.4, 21.4, 38.7, 43.8,
       33.2, 27.5, 26.5, 18.6, 19.3, 20.1, 19.5, 19.5, 20.4, 19.8, 19.4,
       21.7, 22.8, 18.8, 18.7, 18.5, 18.3, 21.2, 19.2, 20.4, 19.3, 22. ,
       20.3, 20.5, 17.3, 18.8, 21.4, 15.7, 16.2, 18. , 14.3, 19.2, 19.6,
       23. , 18.4, 15.6, 18.1, 17.4, 17.1, 13.3, 17.8, 14. , 14.4, 13.4,
       15.6, 11.8, 13.8, 15.6, 14.6, 17.8, 15.4, 21

In [10]:
# importamos um modelo de regressão linear da biblioteca sklearn
from sklearn.linear_model import LinearRegression

In [11]:
lr = LinearRegression()

In [12]:
lr.fit(X=df, y=boston.target)

LinearRegression()

In [13]:
# O que falta para esse código funcionar? O que seria a variável X para avaliar o modelo?
X=df
y=boston.target
lr.score(X, y)

0.7406426641094094

In [14]:
lr.predict(df.iloc[0:3])

array([30.00384338, 25.02556238, 30.56759672])

In [15]:
# Outra intuição de como prever um resultado: comparando com outros casos similares!
# KNN ou K nearest neighbors: k vizinhos mais próximos
from sklearn.neighbors import KNeighborsRegressor

In [16]:
KNeighborsRegressor(n_neighbors=5).fit(X, y).score(X,y)

0.716098217736928

In [17]:
KNeighborsRegressor(n_neighbors=2).fit(X, y).score(X,y)

0.8562711854960806

In [18]:
KNeighborsRegressor(n_neighbors=1).fit(X, y).score(X,y)

1.0

*Como interpretar os resultados acima?*

Como garantir que o seu modelo **generalize** e não apenas **decore** resultados?


Podemos treinar o modelo com alguns dados, mas avaliá-lo sobre novos dados, não utilizados durante o treinamento!

In [19]:
from sklearn.model_selection import train_test_split

In [20]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

In [21]:
KNeighborsRegressor(n_neighbors=1).fit(X_train, y_train).score(X_test,y_test)

0.4179206827765607

In [22]:
KNeighborsRegressor(n_neighbors=2).fit(X_train, y_train).score(X_test,y_test)

0.5554646251776688

In [23]:
KNeighborsRegressor(n_neighbors=5).fit(X_train, y_train).score(X_test,y_test)

0.6473640882039258

In [25]:
# Interpretar?

# E como fica a generalização do nosso modelo de regressão linear?
LinearRegression().fit(X_train, y_train).score(X_test, y_test)

0.6687594935356278

## Regressão em novo dataset

Agora é a sua vez! Veja as possibilidades de dataset de regressão da lista do sklearn e siga os mesmos passos que fizemos acima, para construir e interpretar um modelo de regressão linear sobre esses dados: https://scikit-learn.org/stable/datasets/index.html

Escolhemos analisar o conjunto de dados de diabetes: `diabetes dataset`


In [None]:
from sklearn.datasets import load_diabetes

In [None]:
diabetes = load_diabetes()

In [None]:
diabetes

{'DESCR': '.. _diabetes_dataset:\n\nDiabetes dataset\n----------------\n\nTen baseline variables, age, sex, body mass index, average blood\npressure, and six blood serum measurements were obtained for each of n =\n442 diabetes patients, as well as the response of interest, a\nquantitative measure of disease progression one year after baseline.\n\n**Data Set Characteristics:**\n\n  :Number of Instances: 442\n\n  :Number of Attributes: First 10 columns are numeric predictive values\n\n  :Target: Column 11 is a quantitative measure of disease progression one year after baseline\n\n  :Attribute Information:\n      - Age\n      - Sex\n      - Body mass index\n      - Average blood pressure\n      - S1\n      - S2\n      - S3\n      - S4\n      - S5\n      - S6\n\nNote: Each of these 10 feature variables have been mean centered and scaled by the standard deviation times `n_samples` (i.e. the sum of squares of each column totals 1).\n\nSource URL:\nhttps://www4.stat.ncsu.edu/~boos/var.select/

In [None]:
print(diabetes.DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - Age
      - Sex
      - Body mass index
      - Average blood pressure
      - S1
      - S2
      - S3
      - S4
      - S5
      - S6

Note: Each of these 10 feature variables have been mean centered and scaled by the standard deviation times `n_samples` (i.e. the sum of squares of each column totals 1).

Source URL:
https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

For more information see:
Bra

In [None]:
# Agora é com vocês! Escrevam (ou copiem/adaptem) código para construir seus modelos de previsão:

# 1.importar seus dados de diabetes nas variáveis independentes 'X' e dependente 'y':
# Mapear os dados diabetes.data e diabetes.target nessas variáveis X e y


NameError: ignored

In [None]:
# 2. divida os dados entre treino e teste, com as variáveis de nomes X_train, y_train, X_test, y_test


In [None]:
# 3. instancie, treine (ajuste) e avalie o desempenho de um modelo de k vizinhos mais próximos (KNeighborsRegressor) 
# Pode testar com números diferentes de vizinhos e descobrir qual o tamanho da vizinhança que gera os melhores resultados


In [None]:
# 4. instancie, treine (ajuste) e avalie o desempenho de um modelo de regressão linear (LinearRegression)


In [None]:
# Vamnos interpretar mais em detalhes o modelo de regressão linear que treinamos:

pesos = pd.DataFrame({'Variável': diabetes.feature_names, 'Coeficientes': lr.coef_})
pesos

In [None]:
# Prever resultados
y_pred = lr.predict(X_test)

In [None]:
# Gráfico de resíduos (diferença entre a predição e o valor verdadeiro esperado)
import matplotlib.pyplot as plt
plt.figure(figsize=(15,4))
plt.scatter(y_pred,y_test-y_pred)
plt.title("Gráfico de resíduos")
plt.xlabel("Valor previsto")
plt.ylabel("Resíduos")
plt.show()

In [None]:
plt.figure(figsize=(10,4))
plt.hist(y_test-y_pred, bins= 11)
plt.title("Histograma de resíduos")
plt.show()

In [None]:
## Gráfico QQ
from statsmodels.graphics.gofplots import qqplot_2samples

qqplot_2samples(y_test,y_pred,line='45')
plt.title("Gráfico QQ")
plt.xlabel("Quantis de valores observados")
plt.ylabel("Quantis de valores previstos")
plt.show()

## Conclusões

Agora você tem primeiras noções do que é Machine Learning e pode prever resultados numéricos que dependam de outras variáveis, treinando modelos simples como KNN ou regressão linear!

E em outras situações mais complexas? Se os seus dados além de serem numéricos também utilizarem dados categóricos (por exemplo, sexo ou estado de residência) ou textuais? 
É possível adaptar o código utilizado acima, transformando esses outros tipos de dados em numéricos (encoding) ou ainda utilizar outros modelos mais complexos, como árvores de decisão ou Random Forest.
Há vários outros elementos técnicos essenciais para que o modelo que você for treinar tenha um melhor desempenho: balanceamento dos seus dados de treinamento, lidando com dados faltantes, combinando diversos modelos em um novo modelo híbrido (ensemble), automatizando a otimização do seu modelo procurando os melhores híper-parâmetros que controlam o modelo durante o treinamento e, sobretudo, como interpretar o modelo treinado, extraindo insights úteis para o negócio, como convencer os gestores de que as previsões do modelo são de alta qualidade e confiáveis e que podem ser utilizadas no suporte à decisão?

Tudo isso e muito mais você poderá aprofundar ao longo do curso de ML!