#  **Introdução**


Este projeto tem como objetivo a construção e implementação de um modelo de machine learning para previsão de dados, utilizando o algoritmo Random Forest Regressor. O modelo é treinado a partir de um conjunto de dados contendo variáveis relevantes para a predição, garantindo um processo robusto de aprendizado e análise.

O fluxo do projeto abrange todas as etapas essenciais para a criação de um modelo preditivo *eficiente*, incluindo:


Avaliação do desempenho: São utilizadas métricas como **Erro Absoluto Médio (MAE)** e **Erro Quadrático Médio (MSE)** para validar a precisão do modelo.
Salvamento do modelo: O modelo treinado é armazenado para possibilitar previsões futuras com novos dados.

#  **Etapas do Projeto**

1.   Coleta e preparação dos dados: Os dados são obtidos de um repositório online e passam por um processo de limpeza e normalização para garantir sua qualidade.
2.   Divisão entre treino e teste: O conjunto de dados é separado para permitir a avaliação do desempenho do modelo.
3. Treinamento do modelo: O Random Forest Regressor é treinado para aprender padrões e relações entre as variáveis preditoras e o alvo.
4. Avaliação do desempenho: São utilizadas métricas como Erro Absoluto Médio (MAE) e Erro Quadrático Médio (MSE) para validar a precisão do modelo.
5. Salvamento do modelo: O modelo treinado é armazenado para possibilitar previsões futuras com novos dados.


# Notebook de Machine Learning - Previsão com Random Forest

## Passo 1: Configurações Iniciais

### Importar Bibliotecas
Importamos as bibliotecas necessárias para manipulação de dados, visualização e Machine Learning.

In [None]:
# Bibliotecas Padrão do Python
import requests

# Bibliotecas para Manipulação de Dados
import pandas as pd
import numpy as np

# Bibliotecas para Visualização
import matplotlib.pyplot as plt
import seaborn as sns

# Bibliotecas para Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Biblioteca para Salvamento do Modelo
import joblib

### Configurar exibição do pandas

In [None]:
pd.options.display.max_columns = None
pd.options.display.float_format = "{:,.2f}".format

## Passo 2: Coletar os Dados
Faz o download de um arquivo CSV de um repositório do GitHub e o lê como um DataFrame do Pandas.


### Download do arquivo .csv

<p>Faz o download do arquivo direto do repositório</p>

In [None]:
%%capture
!wget "https://raw.githubusercontent.com/maiagia/modelo_b3/main/arquivos/massadados_comtarget.csv"

### Carregar dados no DataFrame

In [None]:
# Lê o arquivo CSV baixado e armazena os dados em um DataFrame
vBase = pd.read_csv("massadados_comtarget.csv")

## Passo 3: Explorar os Dados
Visualizamos a estrutura e estatísticas básicas dos dados.

### Visualizar base

In [None]:
vBase.head(4)

### Informações

In [None]:
vBase.info()

### Estatística Descritiva

In [None]:
vBase.describe().T

### Pairplot

In [None]:
%matplotlib inline
sns.pairplot(vBase)
plt.show()

## Passo 4: Pré-processamento

### Normalização dos dado

## Passo 4: Separar as Variáveis para Treinamento
Realiza o pré-processamento dos dados, incluindo a seleção de features, normalização e divisão entre conjunto de treino e teste para um modelo de machine learning.

In [None]:
# Seleção das features e do target
X = df[['QTD_TEORICA', 'QTD_TEORICA_TOTAL', 'QTD_REDUTOR', 'VAL_PARTICIPACAO_ACUMULADA_SETOR']]
y = df['VAL_PARTICIPACAO_SETOR']

# Normalização das features usando StandardScaler
X[X.columns] = StandardScaler().fit_transform(X[X.columns])

# Divisão dos dados em treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Exibe o tamanho dos conjuntos gerados
print(f"Tamanho do treino: {X_train.shape}, Tamanho do teste: {X_test.shape}")


## Passo 5: Treinar o Modelo
Cria, treina e ajusta um modelo de regressão usando RandomForestRegressor, um algoritmo de aprendizado de máquina baseado em múltiplas árvores de decisão.

In [None]:
# Criação do modelo RandomForestRegressor
model = RandomForestRegressor(n_estimators=100, random_state=42)

# Treinamento do modelo com os dados de treino
model.fit(X_train, y_train)


## Passo 6: Avaliar o Modelo
Avalia o desempenho do modelo treinado, gerando previsões sobre os dados de teste e calculando métricas de erro para medir sua precisão.

In [None]:
# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular métricas de erro para avaliar o modelo
mae = mean_absolute_error(y_test, y_pred)  # Erro absoluto médio
mse = mean_squared_error(y_test, y_pred)  # Erro quadrático médio
rmse = np.sqrt(mse)  # Raiz do erro quadrático médio

# Exibir as métricas
print(f"MAE: {mae}")
print(f"MSE: {mse}")
print(f"RMSE: {rmse}")

# Exibir as previsões geradas
y_pred


## Passo 7: Salvar o Modelo
Salva o modelo treinado em um arquivo para que possa ser reutilizado posteriormente sem necessidade de um novo treinamento.

In [None]:
# Salvar o modelo treinado em um arquivo
joblib.dump(model, "modelo_b3.pkl")

## Passo 8: Fazer uma Previsão
Cria um conjunto de novos dados e usa o modelo treinado para fazer previsões sobre eles.

In [None]:
# # Baixar o arquivo CSV usando wget
!wget "https://raw.githubusercontent.com/maiagia/modelo_b3/main/arquivos/massadedados_semtarget.csv"

# # Carregar no Pandas
novo_dado = df = pd.read_csv("massadedados_semtarget.csv")

# # Aplicar a mesma padronização usada no treino
novo_dado = StandardScaler().fit_transform(novo_dado)

# # Fazer previsões
previsao = model.predict(novo_dado)
print(f"Previsão: {previsao}")


In [None]:
# Criar DataFrame com previsões
df_previsoes = pd.DataFrame(novo_dado, columns=['QTD_TEORICA', 'QTD_TEORICA_TOTAL', 'QTD_REDUTOR', 'VAL_PARTICIPACAO_ACUMULADA_SETOR'])
df_previsoes['Previsão'] = previsao

# Exibir DataFrame com previsões
print("📊 Dashboard de Previsões:")
display(df_previsoes)

# Criar gráfico de dispersão: Valores previstos vs. QTD_TEORICA
plt.figure(figsize=(8, 5))
sns.scatterplot(x=df_previsoes['QTD_TEORICA'], y=df_previsoes['Previsão'], marker="o", label="Previsto")
plt.xlabel("Quantidade Teórica")
plt.ylabel("Previsão do Modelo")
plt.title("Correlação entre Quantidade Teórica e Previsão")
plt.legend()
plt.show()

# Criar gráfico de linha para mostrar tendências das previsões
plt.figure(figsize=(8, 5))
sns.lineplot(x=df_previsoes.index, y=df_previsoes['Previsão'], marker="o", label="Previsto")
plt.xlabel("Índice dos Dados")
plt.ylabel("Valor Previsto")
plt.title("Evolução das Previsões do Modelo")
plt.legend()
plt.show()

# **Conclusão sobre o Modelo**

O modelo apresenta um **bom desempenho considerando a natureza dos dados**, que possuem uma distribuição com valores relativamente próximos.

Os **resultados das métricas de erro são baixos**, com um **MAE de 0.0417**, indicando que, em média, as previsões estão muito próximas dos valores reais. Além disso, o **MSE de 0.0101 e RMSE de 0.1006** demonstram que o modelo tem uma boa capacidade de aprendizado sobre os padrões dos dados.

A análise gráfica mostra que o modelo conseguiu capturar **tendências recorrentes** dentro do conjunto analisado, com previsões estáveis e coerentes com a estrutura da base. Isso reforça sua **consistência e confiabilidade para cenários com características semelhantes.**