<a href="https://colab.research.google.com/github/willamydias/mestrado/blob/main/ML_na_Pr%C3%A1tica_primeiras_no%C3%A7%C3%B5es.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Bases de Machine Learning ou Aprendizado de Máquina

## O que é Machine Learning?

Essencialmente: construção de modelos preditivos.

Mas o que são modelos preditivos e como funcionam?

Primeiros exemplos para tornar mais concreto possíveis princípios de funcionamento:

- como prever se uma dada ação na bolsa de valores irá fechar em alta ou em baixa amanhã?

- como escolher a ação mais adequada para controlar um veículo autônomo em função do que ele percebe do mundo em volta de si?

- amanhã irá chover?

- qual das milhões de transações que uma operadora de cartão de crédito está recebendo nesse segundo corresponde a fraudes e deveriam ser bloqueadas?

- considerando um lote com milhares de processos judiciais, de que trata cada um deles se você só tem acesso ao conteúdo textual de suas peças?


Vamos começar com um modelo bem simples, numa área de conhecimento que quase todos já têm alguma experiência: 
> **Quanto vale a sua casa?**  
> Dadas as características de uma casa (localização, área útil, número de cômodos, qualidade de acabamentos, etc.) como estimar o seu valor de mercado?

Pense no que seria necessário para que você conseguisse formular um bom palpite.

E se agora você desejasse automatizar esse processo, como faria? Como comunicar para a máquina o processo decisional envolvido na formulação desse palpite?

Todos esses elementos fazem parte de Machine Learning: a "arte" de ensinar a máquina a reconhecer padrões em observações já conhecidas, que possam ser generalizadas para previsões de características de novas observações.

## Exemplo concreto para estimativa de valor de um imóvel

Captura de tela de oferta do site Wimóveis: 
https://www.wimoveis.com.br/propriedades/clnw-110-111-noroeste-1-quarto-1-vaga-37-m-sup2-2951056060.html
![](https://i.imgur.com/yV3Zqw8.png)

Qual o seu palpite quanto ao valor esperado desse imóvel? 
Como fazer para estimar esse valor?

Escreva abaixo seu palpite e o que você considerou para chegar nessa estimativa:

In [None]:
# O que escrevermos em uma célula de código (como essa aqui) depois de um símbolo '#' não será executado pelo computador
# 
#

In [None]:
# Liste agora as variáveis que lhe parecem mais importantes para estimar esse valor (da mais importante para a menos importante):
# 
#
#
#

Intuitivamente, cada uma dessas características do imóvel influencia seu valor. Mas quanto? De que  forma? Como se dá a interação entre essas características?

In [None]:
# Vamos começar híper simplificando o problema: considere que você só saiba a área útil do imóvel e mais nada sobre ele.
# Como faria então para estimar seu valor?
#
#


In [None]:
# Que informações você precisa para tornar sua estimativa mais confiável (ainda considerando apenas a área útil)?
#
#

In [None]:
## Vamos agora adicionar mais uma informação importante sobre o imóvel: localização/bairro (além da área útil)
# Como você faria para atribuir um valor monetário de contribuição para o preço total para cada uma dessas duas variáveis?
# Essas contribuições são independentes ou não?
# Você conseguiria produzir uma fórmula ou uma tabela de valores para poder calcular qualquer combinação de localização e área?
#
#
#
#

In [None]:
# Escreva abaixo o "peso" que você daria para cada uma das duas variáveis numa fórmula de soma ponderada:
# Preço = (peso_área * área_útil) + (peso_bairro * ranking_bairro)
# peso_área = ?
# peso_bairro = ?

In [None]:
# Como avaliar se os valores que você estimou para cada peso são bons? 
#
# - como estimar automaticamente esses pesos para cada item de característica do imóvel?
# - o que seriam os "melhores pesos possíveis"? E como encontrá-los sistematicamente?
#
#
#

### Aplicação na previsão de outro imóvel

Captura de tela de outra oferta do site Wimóveis: 
https://www.wimoveis.com.br/propriedades/cobertura-no-via-parque-noroeste-2944165550.html
![](https://i.imgur.com/esx19p5.png)


In [None]:
# Com base nas estimativas de peso associado a cada variável anterior, estime qual seria o valor desse imóvel:
#
#
# - Como saber qual a qualidade/confiabilidade das previsões desse modelo?

## Automação da construção do modelo anterior

Agora se tivermos que realizar as melhores previsões possíveis para centenas de imóveis, com grande variedade de tamanhos, bairros, número de quarto, banheiros, vagas, suítes, idades de construção, etc. Como encontrar os pesos ótimos para cada variável que permite ter o menor erro possível em nossas previsões?

Como avaliar esse erro? Ou seja como avaliar a qualidade de um modelo?


Vamos continuar com esse modelo que abordamos intuitivamente acima e que se chama "regressão linear" (para quem se lembra da matemática da faculdade).

Consideraremos que o preço de um imóvel é uma soma ponderada de suas características (área, número de quartos, de banheiros, etc.) sendo que cada um desses pesos ou valor associado a essa característica é um parâmetro interno do modelo, que não conhecemos de antemão, mas que vamos descobrir com base em dados de vendas passadas de outros imóveis!

\begin{equation}
Preço = ValorPonderadoMetroQuadrado * área + ValorPonderadoNúmeroQuartos * númeroQuartos + ...
\end{equation}

Essa equação acima seria o nosso modelo (ou fórmula, que relaciona a variável dependente que queremos prever, com as variáveis independentes de que dispomos), muito simples, de soma ponderada das características. Agora, como descobrir sistematicamente esses fatores de ponderação?

Uma animação para sugerir uma resposta, para o caso mais simples de uma única variável indepedente X e uma variável dependente y. Nesse caso a equação fica:
\begin{equation}
y = a * X + b
\end{equation}

![](https://miro.medium.com/max/1400/1*tXBtjkYLd01c25EbnXCvow.gif)


Então precisamos de dados de transações imobiliárias passadas para conseguir estimar o valor desses pesos da equação.

Onde obter esses dados? O Wimóveis não facilita nossa obtenção desses dados! Seria viável extrair esses dados do site utilizando técnicas de web scraping, que fogem do nosso escopo no momento.

Outra abordagem seria utilizar uma base de dados já pronta!
Utilizaremos dados de venda de imóveis da cidade de Boston, já embutida na nossa biblioteca de machine learning **scikit-learn**:
https://scikit-learn.org/stable/datasets/index.html#boston-house-prices-dataset



In [None]:
from sklearn.datasets import load_boston

In [None]:
boston = load_boston()

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(boston.data, columns=boston.feature_names)

In [None]:
df

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.0900,1.0,296.0,15.3,396.90,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.90,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.90,5.33
...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0.0,0.573,6.593,69.1,2.4786,1.0,273.0,21.0,391.99,9.67
502,0.04527,0.0,11.93,0.0,0.573,6.120,76.7,2.2875,1.0,273.0,21.0,396.90,9.08
503,0.06076,0.0,11.93,0.0,0.573,6.976,91.0,2.1675,1.0,273.0,21.0,396.90,5.64
504,0.10959,0.0,11.93,0.0,0.573,6.794,89.3,2.3889,1.0,273.0,21.0,393.45,6.48


In [None]:
print(boston.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [None]:
# Queremos prever a variável dependente de preço:
boston.target

array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 18.7, 16. , 22.2, 25. , 33. , 23.5,
       19.4, 22. , 17.4, 20.9, 24.2, 21.7, 22.8, 23.4, 24.1, 21.4, 20. ,
       20.8, 21.2, 20.3, 28. , 23.9, 24.8, 22.9, 23.9, 26.6, 22.5, 22.2,
       23.6, 28.7, 22.6, 22. , 22.9, 25. , 20.6, 28.4, 21.4, 38.7, 43.8,
       33.2, 27.5, 26.5, 18.6, 19.3, 20.1, 19.5, 19.5, 20.4, 19.8, 19.4,
       21.7, 22.8, 18.8, 18.7, 18.5, 18.3, 21.2, 19.2, 20.4, 19.3, 22. ,
       20.3, 20.5, 17.3, 18.8, 21.4, 15.7, 16.2, 18. , 14.3, 19.2, 19.6,
       23. , 18.4, 15.6, 18.1, 17.4, 17.1, 13.3, 17.8, 14. , 14.4, 13.4,
       15.6, 11.8, 13.8, 15.6, 14.6, 17.8, 15.4, 21

In [None]:
# importamos um modelo de regressão linear da biblioteca sklearn
from sklearn.linear_model import LinearRegression

In [None]:
lr = LinearRegression()

In [None]:
# Mapeamos nossos dados em variáveis independentes: características de cada localidade
# e variável dependente: preço médio dos imóveis nessa localidade
X=df
y=boston.target

In [None]:
# Treinamos o modelo
lr.fit(X, y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [None]:
# Agora, estimamos a qualidade do modelo, enquanto percental da variabilidade dos dados explicada pelo modelo (R2)
lr.score(X, y)

0.7406426641094095

In [None]:
# Com o modelo treinado, podemos facilmente fazer novas previsões
# Por exemplo, prevendo os valores para os três primeiros imóveis dos nossos dados:
lr.predict(df.iloc[0:3])

array([30.00384338, 25.02556238, 30.56759672])

In [None]:
# Comparando com os valores corretos
boston.target[0:3]

array([24. , 21.6, 34.7])

Os resultados parecem bons. Mas como saber se não teria uma abordagem melhor? Talvez modelizando esse mesmo problema com uma "fórmula" ou relação entre as variáveis que seja diferente da simples soma ponderada da regressão linear?

Imagem formas alternativas de estimar o valor do imóvel, que não seja dando um valor para cada características...

Intuitivamente, uma outra abordagem poderia ser procurar nos seus dados quais os imóveis mais parecidos com aquele que queremos prever!


In [None]:
# Outra intuição de como prever um resultado: comparando com outros casos similares!
# KNN ou K nearest neighbors: k vizinhos mais próximos
from sklearn.neighbors import KNeighborsRegressor

In [None]:
KNeighborsRegressor(n_neighbors=5).fit(X, y).score(X,y)

0.716098217736928

In [None]:
KNeighborsRegressor(n_neighbors=2).fit(X, y).score(X,y)

0.8562711854960806

In [None]:
KNeighborsRegressor(n_neighbors=1).fit(X, y).score(X,y)

1.0

*Como interpretar os resultados acima?*

Como garantir que o seu modelo **generalize** e não apenas **decore** resultados?


Podemos treinar o modelo com alguns dados, mas avaliá-lo sobre novos dados, não utilizados durante o treinamento!

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

In [None]:
KNeighborsRegressor(n_neighbors=1).fit(X_train, y_train).score(X_test,y_test)

0.41792068277656075

In [None]:
KNeighborsRegressor(n_neighbors=2).fit(X_train, y_train).score(X_test,y_test)

0.5554646251776688

In [None]:
KNeighborsRegressor(n_neighbors=5).fit(X_train, y_train).score(X_test,y_test)

0.6473640882039258

In [None]:
# Interpretar?

# E como fica a generalização do nosso modelo de regressão linear?
LinearRegression().fit(X_train, y_train).score(X_test, y_test)

0.6687594935356307

## Regressão em novo dataset

Agora é a sua vez! Veja as possibilidades de dataset de regressão da lista do sklearn e siga os mesmos passos que fizemos acima, para construir e interpretar um modelo de regressão linear sobre esses dados: https://scikit-learn.org/stable/datasets/index.html

Escolhemos analisar o conjunto de dados de diabetes: `diabetes dataset`


In [None]:
from sklearn.datasets import load_diabetes

In [None]:
diabetes = load_diabetes()

In [None]:
diabetes

{'DESCR': '.. _diabetes_dataset:\n\nDiabetes dataset\n----------------\n\nTen baseline variables, age, sex, body mass index, average blood\npressure, and six blood serum measurements were obtained for each of n =\n442 diabetes patients, as well as the response of interest, a\nquantitative measure of disease progression one year after baseline.\n\n**Data Set Characteristics:**\n\n  :Number of Instances: 442\n\n  :Number of Attributes: First 10 columns are numeric predictive values\n\n  :Target: Column 11 is a quantitative measure of disease progression one year after baseline\n\n  :Attribute Information:\n      - Age\n      - Sex\n      - Body mass index\n      - Average blood pressure\n      - S1\n      - S2\n      - S3\n      - S4\n      - S5\n      - S6\n\nNote: Each of these 10 feature variables have been mean centered and scaled by the standard deviation times `n_samples` (i.e. the sum of squares of each column totals 1).\n\nSource URL:\nhttps://www4.stat.ncsu.edu/~boos/var.select/

In [None]:
print(diabetes.DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - Age
      - Sex
      - Body mass index
      - Average blood pressure
      - S1
      - S2
      - S3
      - S4
      - S5
      - S6

Note: Each of these 10 feature variables have been mean centered and scaled by the standard deviation times `n_samples` (i.e. the sum of squares of each column totals 1).

Source URL:
https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

For more information see:
Bra

In [None]:
# Agora é com vocês! Escrevam (ou copiem/adaptem) código para construir seus modelos de previsão:

# 1.importar seus dados de diabetes nas variáveis independentes 'X' e dependente 'y':
# Mapear os dados diabetes.data e diabetes.target nessas variáveis X e y


In [None]:
# 2. divida os dados entre treino e teste, com as variáveis de nomes X_train, X_test, y_train, y_test


In [None]:
# 3. instancie, treine (ajuste) e avalie o desempenho de um modelo de k vizinhos mais próximos (KNeighborsRegressor) 
# Pode testar com números diferentes de vizinhos e descobrir qual o tamanho da vizinhança que gera os melhores resultados


In [None]:
# 4. instancie, treine (ajuste) e avalie o desempenho de um modelo de regressão linear (LinearRegression)


Viram como a estrutura  do código para gerar os modelos para os dados de diabetes é praticamente idêntica ao código que utilizamos para prever o preço de imóveis?

Isso é um dos maiores atrativos de ML: extrema  flexibilidade de aplicação nas mais diversas situações e capacidade de extrair o conhecimento específico de uma área diretamente a partir de seus dados, sem requerer conhecimento de especialista para realizar uma modelagem básica e obter primeiros resultados relevantes.

É claro que ter mais conhecimento do negócio é uma vantagem que pode ser aproveitada no processo de modelagem.

Agora procuraremos interpretar rapidamente o modelo treinado.

In [None]:
# Vamnos interpretar mais em detalhes o modelo de regressão linear que treinamos:

pesos = pd.DataFrame({'Variável': diabetes.feature_names, 'Coeficientes': lr.coef_})
pesos

ValueError: ignored

In [None]:
# Prever resultados
y_pred = lr.predict(X_test)

In [None]:
# Gráfico de resíduos (diferença entre a predição e o valor verdadeiro esperado)
import matplotlib.pyplot as plt
plt.figure(figsize=(15,4))
plt.scatter(y_pred,y_test-y_pred)
plt.title("Gráfico de resíduos")
plt.xlabel("Valor previsto")
plt.ylabel("Resíduos")
plt.show()

In [None]:
plt.figure(figsize=(10,4))
plt.hist(y_test-y_pred, bins= 11)
plt.title("Histograma de resíduos")
plt.show()

In [None]:
## Gráfico QQ
from statsmodels.graphics.gofplots import qqplot_2samples

qqplot_2samples(y_test,y_pred,line='45')
plt.title("Gráfico QQ")
plt.xlabel("Quantis de valores observados")
plt.ylabel("Quantis de valores previstos")
plt.show()

## Conclusões

Agora você tem primeiras noções do que é Machine Learning e pode prever resultados numéricos que dependam de outras variáveis, treinando modelos simples como KNN ou regressão linear!

E em outras situações mais complexas? Se os seus dados além de serem numéricos também utilizarem dados categóricos (por exemplo: bairro, sexo ou estado de residência) ou dados textuais (por exemplo uma descrição em português das características do imóvel ou do quadro clínico do paciente de diabetes)? 

É possível adaptar o código utilizado acima, transformando esses outros tipos de dados em dados numéricos (processo de codificação ou encoding) ou ainda utilizar outros modelos mais complexos, como árvores de decisão, Random Forest, Gradient Boosted Machines ou redes neurais.

Há vários outros elementos técnicos essenciais para que o modelo que você for treinar tenha um melhor desempenho: balancear os seus dados de forma equilibrada entre as diversas classes, lidar com dados faltantes, combinar diversos modelos em um novo modelo híbrido (ensemble), automatizar a otimização do seu modelo procurando os melhores híper-parâmetros que controlam o modelo durante o treinamento e, sobre tudo, como interpretar o modelo treinado, extraindo insights úteis para o negócio, como convencer os gestores de que as previsões do modelo são de alta qualidade e confiáveis e que podem ser utilizadas no suporte à decisão.

Tudo isso e muito mais você poderá aprofundar ao longo do curso de ML!

Espero que seu interesse por Machine Learning tenha sido despertado e queira mergulhar pra valer nesse universo fascinante da IA aplicada!

Boa continuação e espero revê-los mais pra frente.

**PERGUNTAS?**