## Aprendizagem de máquina

### Objetivos

  - Avaliar os conceitos de aprendizado de maquina aprendidos no curso


# Desafio

Você foi contratado por uma empresa inovadora do ramo imobiliario como `QuintoAndar, Loft, Terraz, grupo Zap (ZAP, Viva Real, DataZAP, FipeZAP, SuaHouse, Geoimóvel, Sub100 e Conecta Imobi) ou Imobi Conference`. O seu desafio está no apio à tomada de decisão baseada em dados (empresa data driven). 

Nesse sentido, use a base de dados **aptos.csv** para realizar a descoberta do conhecimento e responder a pergunta: 

**`Quanto vale um apartamento de 72m2 com 2 quartos, 2 vagas, reformado no Centro?`**


### Orientações

Siga as instruções, completando e construindo os algoritmos necessários.

Nas celulas` Seu Código aqui...` significa que é necessário realizar a implementação de algum código. Utilize quantos blocos(células) julgar necessário para criar o código.

Nas celulas `Responda` significa que é nessário uma resposta clara e objetiva (pode ser por texto, código, gráfico, imagem...) para a pergunta.

## Rubrica para avaliação
    
Os critérios de avaliação do projeto segue conforme a rubrica.

- R1: Exploração de Dados (Até 2 pontos)
- R2: Análise Descritiva de Dados (Até 2 pontos)
- R3: Desenvolvimento do Modelo (Até 2 pontos)
- R4: Treinamento e Teste do Modelo (Até 2 pontos)
- R5: Conclusões Finais (Até 2 pontos)

**Nota_final = R1 + R2 + R3 + R4 + R5**

In [None]:
# Giovanna Sousa Pereira de Lima RM94767

# 1. Exploração de Dados

Carregue o dataset e faça uma inspeção nas 15 primeiras linhas para identificação básica dos atributos.


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('aptos.csv', sep=',')

In [None]:
df.head(15)

In [None]:
df.dropna(axis = 0, inplace = True)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 0 entries
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   metros     0 non-null      float64
 1   valor      0 non-null      float64
 2   quartos    0 non-null      int64  
 3   vagas      0 non-null      float64
 4   reformado  0 non-null      float64
 5   bairro     0 non-null      float64
dtypes: float64(5), int64(1)
memory usage: 0.0 bytes


**Resposta:**

-   Metros: quantide de metros no imóvel 
-   Valor: preço do imóvel
-   Quartos: quantidade de quartos no imóvel
-   Vagas: numero de vagas presente no imóvel
-   Reformado: se o imóvel foi ou não reformado
-   Bairro: local onde o imóvel está localizado 

**Pergunta:** Cite 2 cenários que podem fazer sentido na leitura dos dados apresentados.

Exemplo: 
- Eu acho que o preço da gasolina sobe com o preço do petróleo. 
- Eu acho que na média homens são mais altos que mulheres na mesma faixa etaria.  

**Resposta:**

1.  Eu acho que o valor do imóvel aumenta se houver mais quartos.
2.  Eu acho que quanto mais perto do centro da cidade maior o valor do imóvel.

## 2. Análise descritiva de dados

Faça uma análise exploratória dos dados. Utilize-se de gráficos e tabelas auxiliares, faça correlações entre os atributos.... Com o objetivo validar as afirmações levantadas acima.

In [None]:
df.head(15)

Unnamed: 0,metros,valor,quartos,vagas,reformado,bairro


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 0 entries
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   metros     0 non-null      float64
 1   valor      0 non-null      float64
 2   quartos    0 non-null      int64  
 3   vagas      0 non-null      float64
 4   reformado  0 non-null      float64
 5   bairro     0 non-null      float64
dtypes: float64(5), int64(1)
memory usage: 0.0 bytes


In [None]:
df.shape

(0, 6)

In [None]:
print(df.groupby('metros').size())

Series([], dtype: int64)


In [None]:
plt.figure(figsize=(17,10))
sns.heatmap(df.corr(), annot=True, cmap = 'Greens')

In [None]:
# explorar matrix de correlação de outra forma (mesma da anterior)
correlation_matrix = df.corr().round(2)
 
fig, ax = plt.subplots(figsize=(10,10))    
sns.heatmap(data=correlation_matrix, annot=True, linewidths=.5, ax=ax)

In [None]:
df.describe()

Unnamed: 0,metros,valor,quartos,vagas,reformado,bairro
count,0.0,0.0,0.0,0.0,0.0,0.0
mean,,,,,,
std,,,,,,
min,,,,,,
25%,,,,,,
50%,,,,,,
75%,,,,,,
max,,,,,,


In [None]:
import plotly.express as px

In [None]:
sns.boxplot(x='quartos', y='valor', data=df)

In [None]:
sns.histplot(data=df)

In [None]:
sns.histplot(data=df, x="valor", hue="quartos")

In [None]:
grouped_df = df.groupby('quartos')['valor'].mean()
fig, ax = plt.subplots()
ax.bar(grouped_df.index, grouped_df.values)
plt.show()
print(grouped_df)

In [None]:
sns.histplot(data=df, x="valor", hue="bairro")

In [None]:
sns.boxplot(x='valor', y='bairro', data=df)
plt.title('')

### __(BONUS: 1 ponto extra.)__ Análise de Outliers
*Esse é um ponto extra, faça se quiser...

Realize a análise e o tratamento de **outliers**, como referência para estudo:

* [link1](https://machinelearningmastery.com/model-based-outlier-detection-and-removal-in-python/)
* [link2](https://towardsdatascience.com/4-machine-learning-techniques-for-outlier-detection-in-python-21e9cfacb81d)
* [link3](https://minerandodados.com.br/tratando-outliers-python/)

**Pergunta:** Foram localizados outliers? Qual o método de análise adotado? Se existe, como os dados foram tratados (foram removidos ou mantidos)? 

In [None]:
q1 = df.quantile(0.25)
q3 = df.quantile(0.75)
iqr = q3 - q1
df_sem_outliers = df[(df > (q1 - 1.5 * iqr)) & (df < (q3 + 1.5 * iqr))]

In [None]:
df_sem_outliers.to_csv('aptos.csv', index=False)

In [None]:
sns.boxplot(x=df['metros'])
plt.show()

In [None]:
sns.histplot(x=df['metros'], bins=20, kde=True)
plt.show()

sns.histplot(x=df_sem_outliers['metros'], bins=20, kde=True)
plt.show()

## 3. Desenvolvimento do Modelo

**Pergunta:** O conjunto de dados indica a aplicação de qual modelo de aprendizagem de maquina para determinação do valor de um imóvel? Por que ? 

**Resposta:**

    [ ] Aprendizado por reforço
    [x] Aprendizado supervisionado
    [ ] Aprendizado não supervisionado

    Por que? Pois o aprendizado supervisionado é um tipo de aprendizado de máquina que envolve a criação de um modelo com base em dados rotulados, prevendo-o para novos dados. Com base nesses dados ele iria prever descrições futuras, com as já existentes.

**Pergunta:** Qual a técnica sugerida para este projeto?

**Resposta:**

    [x] Regressão
    [ ] Classificação
    [ ] Clusterização

**Pergunta:** Escolha 2 modelos de algoritmos para testar a performance de cada um deles.

**Resposta:**

1. algoritimo ... Regressão Linear
2. algoritimo ... Random Forest

__(BONUS: 1 ponto extra.)__ **Pergunta:** Explique como cada algoritmo funciona.


**Resposta:**

1. O algoritmo de regressão linear do Scikit-learn é baseado no método dos mínimos quadrados ordinários (OLS), que é uma técnica estatística utilizada para estimar os parâmetros desconhecidos de um modelo de regressão.
2. Random Forest é um algoritmo de aprendizado supervisionado no qual múltiplas árvores de decisão (Decision Trees) são construídas e combinadas para obter uma previsão mais precisa e robusta. É um algoritmo popular usado na solução de uma variedade de problemas de aprendizado de máquina, como classificação de imagens, reconhecimento de fala e detecção de anomalias, entre outros.

## 4. Treinamento e teste do modelo

Crie um subset dos dados apenas com os atributos que serão utilizados para o treinameno e teste do modelo. Divida o subset em conjunto de treinamento e teste.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [None]:
df_subset = df[['metros', 'quartos', 'vagas', 'reformado', 'valor']]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df_subset.drop('valor', axis=1), df_subset['valor'], test_size=0.3, random_state=42)

In [None]:
print(f'Conjunto de treinamento: {len(X_train)} amostras')
print(f'Conjunto de teste: {len(X_test)} amostras')

Faça o treinamento e teste dos 2 algoritmos escolhidos. Utilize uma métrica (ex. R2-score, RMSE e MAE...) para avaliar a performance dos modelos.

### Algoritmo 1 - Regressão Linear

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [None]:
model = LinearRegression()
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)

In [None]:
r2 = r2_score(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared=False)
mae = mean_absolute_error(y_test, y_pred)

In [None]:
print(f"R-squared: {r2:.2f}")
print(f"Root mean squared error: {rmse:.2f}")
print(f"Mean absolute error: {mae:.2f}")

In [None]:
y_predTrain = model.predict(X_train)

In [None]:
r2Train = r2_score(y_train, y_predTrain)
rmse2 = mean_squared_error(y_train, y_predTrain, squared=False)
mae2 = mean_absolute_error(y_train, y_predTrain)

In [None]:
print(f"R-squared: {r2Train:.2f}")
print(f"Root mean squared error: {rmse2:.2f}")
print(f"Mean absolute error: {mae2:.2f}")

### Algoritmo 2 - Random Forest

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

In [None]:
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)

In [None]:
r2 = r2_score(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared=False)
mae = mean_absolute_error(y_test, y_pred)

In [None]:
print(f"R-squared: {r2:.2f}")
print(f"Root mean squared error: {rmse:.2f}")
print(f"Mean absolute error: {mae:.2f}")

In [None]:
y_predTrain = model.predict(X_train)

In [None]:
r2Train = r2_score(y_train, y_predTrain)
rmse2 = mean_squared_error(y_train, y_predTrain, squared=False)
mae2 = mean_absolute_error(y_train, y_predTrain)

In [None]:
print(f"R-squared: {r2Train:.2f}")
print(f"Root mean squared error: {rmse2:.2f}")
print(f"Mean absolute error: {mae2:.2f}")

Sumarize na tabela abaixo os resultados obtidos para os conjuntos de dados de treino e de teste

**Resposta:**

|    | algoritmo1 | algoritmo2 |
|:---:|:---:|:---:|
| treino |76.34|85.18 |
| teste  | 62.64 |37.18|

**Pergunta:** Qual dos algoritmos obteve um resultado melhor? Justifique

**Resposta:**

## Modelo de produção: Teste com novos dados

Use seu modelo treinado para determinar: 

**`Quanto vale um apartamento de 72m2 com 2 quartos, 2 vagas, reformado no Centro?`**

In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression

In [None]:
X = df[['metros', 'quartos', 'vagas', 'reformado']]
y = df['valor']

In [None]:
model = LinearRegression()

In [None]:
model.fit(X, y)

In [None]:
# estimar o preço do apartamento de 72m2 com 2 quartos, 2 vagas, reformado no Centro
apartamento = pd.DataFrame({
    'metros': [72],
    'quartos': [2],
    'vagas': [2],
    'reformado': [1],
})

In [None]:
valor = model.predict(apartamento)[0]

print(f'O apartamento está valendo: R$ {valor:.2f}')

## 6. Conclusões finais

Ufa!!... Chegamos ao final. Parabéns! De forma simplificada e completa, passamos por todas as etapas de um projeto de aprendizado de maquina. Outras etapas podem ser adicionadas no tratamento dos dados e desenvolvimento do modelo.


**Pergunta:**: O modelo desenvolvido obteve um resultado satisfatório? Justifique:

**Resposta**: Muito, consegui realizar com clareza e com os objetivos esperados 

**Pergunta:**: O que faria diferente para melhorar resultado obtido? Justifique:

**Resposta**: Melhoraria os desafios para ganhar pontos extras  




