#  **Introdu√ß√£o**


Este projeto tem como objetivo a constru√ß√£o e implementa√ß√£o de um modelo de machine learning para previs√£o de dados, utilizando o algoritmo Random Forest Regressor. O modelo √© treinado a partir de um conjunto de dados contendo vari√°veis relevantes para a predi√ß√£o, garantindo um processo robusto de aprendizado e an√°lise.

O fluxo do projeto abrange todas as etapas essenciais para a cria√ß√£o de um modelo preditivo *eficiente*, incluindo:


Avalia√ß√£o do desempenho: S√£o utilizadas m√©tricas como **Erro Absoluto M√©dio (MAE)** e **Erro Quadr√°tico M√©dio (MSE)** para validar a precis√£o do modelo.
Salvamento do modelo: O modelo treinado √© armazenado para possibilitar previs√µes futuras com novos dados.

#  **Etapas do Projeto**

1.   Coleta e prepara√ß√£o dos dados: Os dados s√£o obtidos de um reposit√≥rio online e passam por um processo de limpeza e normaliza√ß√£o para garantir sua qualidade.
2.   Divis√£o entre treino e teste: O conjunto de dados √© separado para permitir a avalia√ß√£o do desempenho do modelo.
3. Treinamento do modelo: O Random Forest Regressor √© treinado para aprender padr√µes e rela√ß√µes entre as vari√°veis preditoras e o alvo.
4. Avalia√ß√£o do desempenho: S√£o utilizadas m√©tricas como Erro Absoluto M√©dio (MAE) e Erro Quadr√°tico M√©dio (MSE) para validar a precis√£o do modelo.
5. Salvamento do modelo: O modelo treinado √© armazenado para possibilitar previs√µes futuras com novos dados.


# Notebook de Machine Learning - Previs√£o com Random Forest

## Passo 1: Configura√ß√µes Iniciais

### Importar Bibliotecas
Importamos as bibliotecas necess√°rias para manipula√ß√£o de dados, visualiza√ß√£o e Machine Learning.

In [None]:
# Bibliotecas Padr√£o do Python
import requests

# Bibliotecas para Manipula√ß√£o de Dados
import pandas as pd
import numpy as np

# Bibliotecas para Visualiza√ß√£o
import matplotlib.pyplot as plt
import seaborn as sns

# Bibliotecas para Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Biblioteca para Salvamento do Modelo
import joblib

### Configurar exibi√ß√£o do pandas

In [None]:
pd.options.display.max_columns = None
pd.options.display.float_format = "{:,.2f}".format

## Passo 2: Coletar os Dados
Faz o download de um arquivo CSV de um reposit√≥rio do GitHub e o l√™ como um DataFrame do Pandas.


### Download do arquivo .csv

<p>Faz o download do arquivo direto do reposit√≥rio</p>

In [None]:
%%capture
!wget "https://raw.githubusercontent.com/maiagia/modelo_b3/main/arquivos/massadados_comtarget.csv"

### Carregar dados no DataFrame

In [None]:
# L√™ o arquivo CSV baixado e armazena os dados em um DataFrame
vBase = pd.read_csv("massadados_comtarget.csv")

## Passo 3: Explorar os Dados
Visualizamos a estrutura e estat√≠sticas b√°sicas dos dados.

### Visualizar base

In [None]:
vBase.head(4)

### Informa√ß√µes

In [None]:
vBase.info()

### Estat√≠stica Descritiva

In [None]:
vBase.describe().T

### Pairplot

In [None]:
%matplotlib inline
sns.pairplot(vBase)
plt.show()

## Passo 4: Pr√©-processamento

### Normaliza√ß√£o dos dado

## Passo 4: Separar as Vari√°veis para Treinamento
Realiza o pr√©-processamento dos dados, incluindo a sele√ß√£o de features, normaliza√ß√£o e divis√£o entre conjunto de treino e teste para um modelo de machine learning.

In [None]:
# Sele√ß√£o das features e do target
X = df[['QTD_TEORICA', 'QTD_TEORICA_TOTAL', 'QTD_REDUTOR', 'VAL_PARTICIPACAO_ACUMULADA_SETOR']]
y = df['VAL_PARTICIPACAO_SETOR']

# Normaliza√ß√£o das features usando StandardScaler
X[X.columns] = StandardScaler().fit_transform(X[X.columns])

# Divis√£o dos dados em treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Exibe o tamanho dos conjuntos gerados
print(f"Tamanho do treino: {X_train.shape}, Tamanho do teste: {X_test.shape}")


## Passo 5: Treinar o Modelo
Cria, treina e ajusta um modelo de regress√£o usando RandomForestRegressor, um algoritmo de aprendizado de m√°quina baseado em m√∫ltiplas √°rvores de decis√£o.

In [None]:
# Cria√ß√£o do modelo RandomForestRegressor
model = RandomForestRegressor(n_estimators=100, random_state=42)

# Treinamento do modelo com os dados de treino
model.fit(X_train, y_train)


## Passo 6: Avaliar o Modelo
Avalia o desempenho do modelo treinado, gerando previs√µes sobre os dados de teste e calculando m√©tricas de erro para medir sua precis√£o.

In [None]:
# Fazer previs√µes no conjunto de teste
y_pred = model.predict(X_test)

# Calcular m√©tricas de erro para avaliar o modelo
mae = mean_absolute_error(y_test, y_pred)  # Erro absoluto m√©dio
mse = mean_squared_error(y_test, y_pred)  # Erro quadr√°tico m√©dio
rmse = np.sqrt(mse)  # Raiz do erro quadr√°tico m√©dio

# Exibir as m√©tricas
print(f"MAE: {mae}")
print(f"MSE: {mse}")
print(f"RMSE: {rmse}")

# Exibir as previs√µes geradas
y_pred


## Passo 7: Salvar o Modelo
Salva o modelo treinado em um arquivo para que possa ser reutilizado posteriormente sem necessidade de um novo treinamento.

In [None]:
# Salvar o modelo treinado em um arquivo
joblib.dump(model, "modelo_b3.pkl")

## Passo 8: Fazer uma Previs√£o
Cria um conjunto de novos dados e usa o modelo treinado para fazer previs√µes sobre eles.

In [None]:
# # Baixar o arquivo CSV usando wget
!wget "https://raw.githubusercontent.com/maiagia/modelo_b3/main/arquivos/massadedados_semtarget.csv"

# # Carregar no Pandas
novo_dado = df = pd.read_csv("massadedados_semtarget.csv")

# # Aplicar a mesma padroniza√ß√£o usada no treino
novo_dado = StandardScaler().fit_transform(novo_dado)

# # Fazer previs√µes
previsao = model.predict(novo_dado)
print(f"Previs√£o: {previsao}")


In [None]:
# Criar DataFrame com previs√µes
df_previsoes = pd.DataFrame(novo_dado, columns=['QTD_TEORICA', 'QTD_TEORICA_TOTAL', 'QTD_REDUTOR', 'VAL_PARTICIPACAO_ACUMULADA_SETOR'])
df_previsoes['Previs√£o'] = previsao

# Exibir DataFrame com previs√µes
print("üìä Dashboard de Previs√µes:")
display(df_previsoes)

# Criar gr√°fico de dispers√£o: Valores previstos vs. QTD_TEORICA
plt.figure(figsize=(8, 5))
sns.scatterplot(x=df_previsoes['QTD_TEORICA'], y=df_previsoes['Previs√£o'], marker="o", label="Previsto")
plt.xlabel("Quantidade Te√≥rica")
plt.ylabel("Previs√£o do Modelo")
plt.title("Correla√ß√£o entre Quantidade Te√≥rica e Previs√£o")
plt.legend()
plt.show()

# Criar gr√°fico de linha para mostrar tend√™ncias das previs√µes
plt.figure(figsize=(8, 5))
sns.lineplot(x=df_previsoes.index, y=df_previsoes['Previs√£o'], marker="o", label="Previsto")
plt.xlabel("√çndice dos Dados")
plt.ylabel("Valor Previsto")
plt.title("Evolu√ß√£o das Previs√µes do Modelo")
plt.legend()
plt.show()

# **Conclus√£o sobre o Modelo**

O modelo apresenta um **bom desempenho considerando a natureza dos dados**, que possuem uma distribui√ß√£o com valores relativamente pr√≥ximos.

Os **resultados das m√©tricas de erro s√£o baixos**, com um **MAE de 0.0417**, indicando que, em m√©dia, as previs√µes est√£o muito pr√≥ximas dos valores reais. Al√©m disso, o **MSE de 0.0101 e RMSE de 0.1006** demonstram que o modelo tem uma boa capacidade de aprendizado sobre os padr√µes dos dados.

A an√°lise gr√°fica mostra que o modelo conseguiu capturar **tend√™ncias recorrentes** dentro do conjunto analisado, com previs√µes est√°veis e coerentes com a estrutura da base. Isso refor√ßa sua **consist√™ncia e confiabilidade para cen√°rios com caracter√≠sticas semelhantes.**