## Aprendizagem de máquina

### Objetivos

  - Avaliar os conceitos de aprendizado de maquina aprendidos no curso


# Desafio

Você foi contratado por uma empresa inovadora do ramo imobiliario como `QuintoAndar, Loft, Terraz, grupo Zap (ZAP, Viva Real, DataZAP, FipeZAP, SuaHouse, Geoimóvel, Sub100 e Conecta Imobi) ou Imobi Conference`. O seu desafio está no apio à tomada de decisão baseada em dados (empresa data driven). 

Nesse sentido, use a base de dados **aptos.csv** para realizar a descoberta do conhecimento e responder a pergunta: 

**`Quanto vale um apartamento de 72m2 com 2 quartos, 2 vagas, reformado no Centro?`**


### Orientações

Siga as instruções, completando e construindo os algoritmos necessários.

Nas celulas` Seu Código aqui...` significa que é necessário realizar a implementação de algum código. Utilize quantos blocos(células) julgar necessário para criar o código.

Nas celulas `Responda` significa que é nessário uma resposta clara e objetiva (pode ser por texto, código, gráfico, imagem...) para a pergunta.

## Rubrica para avaliação
    
Os critérios de avaliação do projeto segue conforme a rubrica.

- R1: Exploração de Dados (Até 2 pontos)
- R2: Análise Descritiva de Dados (Até 2 pontos)
- R3: Desenvolvimento do Modelo (Até 2 pontos)
- R4: Treinamento e Teste do Modelo (Até 2 pontos)
- R5: Conclusões Finais (Até 2 pontos)

**Nota_final = R1 + R2 + R3 + R4 + R5**

In [123]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

%matplotlib inline

# 1. Exploração de Dados

Carregue o dataset e faça uma inspeção nas 15 primeiras linhas para identificação básica dos atributos.


In [90]:
tabela = pd.read_csv('aptos.csv', sep=',')

In [None]:
tabela.head(15)

In [None]:
tabela.info()

In [93]:
tabela = tabela.dropna(axis=0)

### `Pergunta:` Apresente uma breve descrição do significado de cada atributo:






**Resposta:**

-   Metros: Tamanho em metros quadrados do apartamento
-   Valor: Valor do apartamento
-   Quartos: Número de quartos do apartamento
-   Reformado: Validação de se o apartamento foi reformado (entre 1 e 0)
-   Bairro: Nome do bairro onde se encontra o apartamento

**Pergunta:** Cite 2 cenários que podem fazer sentido na leitura dos dados apresentados.

**Resposta:**

1.  Eu acho que o tamanho em metros do apartamento possui presença majoritária no valor do mesmo.
2.  Eu acho que o atributo Bairro funcionam como forte indicador do valor do apartamento.

## 2. Análise descritiva de dados

Faça uma análise exploratória dos dados. Utilize-se de gráficos e tabelas auxiliares, faça correlações entre os atributos.... Com o objetivo validar as afirmações levantadas acima.

In [95]:
tabela['bairro'] = tabela['bairro'].astype("string")

In [62]:
tabela1 = tabela.drop(columns=['bairro', 'reformado'])
tabela2 = tabela.drop(columns=['reformado'])

In [None]:
sns.heatmap(data=tabela1.corr(), annot=True)

In [None]:
fig, axes = plt.subplots(figsize=(22, 10), dpi=80)
fig.suptitle('Relação entre Bairro e Valor')

sns.boxplot(data=tabela2,
            linewidth=0.7,
            x='bairro',
            y='valor'
            )

axes.set(xlabel='Bairro', ylabel='Valor')

### __(BONUS: 1 ponto extra.)__ Análise de Outliers
*Esse é um ponto extra, faça se quiser...

Realize a análise e o tratamento de **outliers**, como referência para estudo:

* [link1](https://machinelearningmastery.com/model-based-outlier-detection-and-removal-in-python/)
* [link2](https://towardsdatascience.com/4-machine-learning-techniques-for-outlier-detection-in-python-21e9cfacb81d)
* [link3](https://minerandodados.com.br/tratando-outliers-python/)

**Pergunta:** Foram localizados outliers? Qual o método de análise adotado? Se existe, como os dados foram tratados (foram removidos ou mantidos)? 

## 3. Desenvolvimento do Modelo

**Pergunta:** O conjunto de dados indica a aplicação de qual modelo de aprendizagem de maquina para determinação do valor de um imóvel? Por que ? 

**Resposta:**

Aprendizado supervisionado, porque desta forma é possível utilizar parte dos dados de forma à treinar o algoritmo de inteligência artificial, e outra parte à testar sua precisão preditiva.


**Pergunta:** Qual a técnica sugerida para este projeto?

**Resposta:**

Regressão, porque um algoritmo de regressão é capaz de predizer um valor, desta forma posso utilizá-lo para prever um dado numérico, como o valor de um imóvel.

**Pergunta:** Escolha 2 modelos de algoritmos para testar a performance de cada um deles.

**Resposta:**

1. Regressão Linear
2. Árvore de Regressão

__(BONUS: 1 ponto extra.)__ **Pergunta:** Explique como cada algoritmo funciona.


**Resposta:**

1. O algoritimo de regressão linear projeta matematicamente uma linha usando como base os dados conhecidos e usa a linha para prever dados desconhecidos.
2. O algoritmo de ávore de regressão busca dividir um conjunto de dados em subgrupos, ajustando uma constante para cada subgrupo e utiliza-a para prever dados em um subgrupo.

## 4. Treinamento e teste do modelo

Crie um subset dos dados apenas com os atributos que serão utilizados para o treinameno e teste do modelo. Divida o subset em conjunto de treinamento e teste.

Faça o treinamento e teste dos 2 algoritmos escolhidos. Utilize uma métrica (ex. R2-score, RMSE e MAE...) para avaliar a performance dos modelos.

### Algoritmo 1

In [119]:
x1 = tabela.drop(columns=['valor', 'bairro'])
y1 = tabela['valor']

x1_train, x1_test, y1_train, y1_test = train_test_split(x1, y1, test_size = 0.2, random_state = 2)

In [None]:
LR = LinearRegression()

LR.fit(x1_train, y1_train)

In [121]:
y1_predicao = LR.predict(x1_test)

In [None]:
R2_1 = r2_score(y_true = y1_test,      
              y_pred = y1_predicao) 
print('R2: ', R2_1)

### Algoritmo 2

In [130]:
x2 = tabela.drop(columns=['valor', 'bairro'])
y2 = tabela['valor']

x2_train, x2_test, y2_train, y2_test = train_test_split(x2, y2, test_size = 0.2, random_state = 99)

In [None]:
DTR = tree.DecisionTreeRegressor()

DTR.fit(x2_train, y2_train)

In [132]:
y2_predicao = DTR.predict(x2_test)

In [None]:
R2_2 = r2_score(y_true = y2_test,      
              y_pred = y2_predicao) 
print('R2: ', R2_2)

Sumarize na tabela abaixo os resultados obtidos para os conjuntos de dados de treino e de teste

**Resposta:**

|    | algoritmo1 | algoritmo2 |
|:---:|:---:|:---:|
| treino | X | X |
| teste  | X | X |

**Pergunta:** Qual dos algoritmos obteve um resultado melhor? Justifique

**Resposta:** O algoritmo 1, usando a regressão linear, obteve um resultado melhor, porque a árvore de decisão possui alta variação, então poucas alterações em seu treino podem resultar em grandes mudanças em seus nós finais, deixando-as assim com uma precisão preditiva menor. 

In [147]:
centro = tabela.loc[tabela['bairro']=='Centro']

x3 = centro
x3 = x3.drop(columns=['bairro', 'valor'])

y3 = centro
y3 = y3['valor']

x3_train, x3_test, y3_train, y3_test = train_test_split(x3, y3, test_size = 0.2, random_state = 456)

In [None]:
LR3 = LinearRegression()

LR3.fit(x3_train, y3_train)

In [149]:
y3_predicao = LR3.predict(x3_test)

In [None]:
R2_3 = r2_score(y_true = y3_test,      
              y_pred = y3_predicao) 
print('R2: ', R2_3)

## Modelo de produção: Teste com novos dados

Use seu modelo treinado para determinar: 

**`Quanto vale um apartamento de 72m2 com 2 quartos, 2 vagas, reformado no Centro?`**

In [None]:
dado = pd.DataFrame({
    'metros': [72],
    'quartos': [2],
    'vagas': [2],
    'reformado': [1.0]
})

pred_Final = LR3.predict(dado)
print(pred_Final)

## 6. Conclusões finais

Ufa!!... Chegamos ao final. Parabéns! De forma simplificada e completa, passamos por todas as etapas de um projeto de aprendizado de maquina. Outras etapas podem ser adicionadas no tratamento dos dados e desenvolvimento do modelo.


**Pergunta:**: O modelo desenvolvido obteve um resultado satisfatório? Justifique:

**Resposta**: Acredito que sim, eu preferi fazer três algoritmos, para deixá-los separados por função, já que a última pergunta exigia o valor de um apartamento com certas informações e em um bairro específico, então eu fiz dois capazes de preditar o valor, sem considerar o bairro, e um treinado para analisar e prever o valor do apartamento em apenas um bairro. 

**Pergunta:**: O que faria diferente para melhorar resultado obtido? Justifique:

**Resposta**: Acredito que consegui um desempenho suficiente na prova em geral, então não mudaria nada.




