## Aluno: Caio Dib Laronga
## Prontuário: Gu3042294
## Disciplina: Aprendizado de Máquina


In [None]:
#importações
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import GradientBoostingRegressor, AdaBoostRegressor, RandomForestRegressor, BaggingRegressor, StackingRegressor
from sklearn.neighbors import KNeighborsRegressor



<h1 style="color:gray;">Especificando os tipos dos atributos ao abrir o DataFrame, observa-se que "vendas" está no formato brasileiro (vírgula) e classificada como <i>object</i>, exigindo tratamento.</h1>


In [None]:
#Ao todo temos 6 atributos
tipos_de_dados = {
    'ANO': int,
    'MÊS': str,  
    'GRANDE REGIÃO': str,
    'UNIDADE DA FEDERAÇÃO': str,
    'PRODUTO': str,
    'VENDAS': float #passo direto como float ao abrir  
} 


In [None]:
df = pd.read_csv('vendas-combustiveis-m3-1990-2024.csv', sep=';',  dtype=tipos_de_dados, decimal=',')


<h1 style="color:gray;">Dataframe Original</h1>


In [None]:
df

<h1 style="color:gray;">Análise Exploratória</h1


### -Nota-se uma desigualdade de vendas por região

In [None]:
df.groupby('GRANDE REGIÃO')['VENDAS'].sum().plot(kind='bar', title='Distribuição de Vendas por Região')


### -Nota-se uma desigualdade na distribuição de vendas

In [None]:
vendas_por_produto_regiao = df.groupby(['GRANDE REGIÃO', 'PRODUTO'])['VENDAS'].sum().unstack()
vendas_por_produto_regiao.plot(kind='bar', stacked=True, figsize=(10, 6), title='Vendas por Combustível e Região')


In [None]:
print(f'Colunas do DataFrame Original:\n\n{df.columns}')

In [None]:
df.info()

In [None]:
df.isnull().sum()

In [None]:
df.nunique()

In [None]:
df.dtypes

In [None]:
df.duplicated().sum()

In [None]:
produtos_unicos = df['PRODUTO'].unique()

print(produtos_unicos)


<h1 style="color:gray;">Contando a ocorrência de cada valor</h1>


In [None]:
conta_produtos = df['PRODUTO'].value_counts()
conta_produtos

In [None]:
conta_produtos = df['PRODUTO'].value_counts()
conta_produtos

In [None]:
conta_vendas = df['VENDAS'].value_counts()
conta_vendas

In [None]:
conta_ano = df['ANO'].value_counts()
conta_ano

### Legenda de Cores

Cada região será representada por uma cor:
| Dataframe       | Cor            | Amostra de Cor              |
|--------------|------------------ |-----------------------------|
| Original      | Cinza            | ![#808080](https://via.placeholder.com/15/808080/000000?text=+) |
| Sudeste       | Roxa             | ![#800080](https://via.placeholder.com/15/800080/000000?text=+) |
| Nordeste      | Laranja          | ![#FFA500](https://via.placeholder.com/15/FFA500/000000?text=+) |
| Norte            | Vermelho       | ![#FF0000](https://via.placeholder.com/15/FF0000/FF0000?text=+) |
| Centro-Oeste     | Amarelo        | ![#FFFF00](https://via.placeholder.com/15/FFFF00/FFFF00?text=+) |
| Sul              | Azul           | ![#0000FF](https://via.placeholder.com/15/0000FF/0000FF?text=+) |

<h1 style="color:gray;">Quebrando o Dataframe original por regiões</h1>
<ul style="color:gray;">
    <li>Como os dataframes fragmentados são parte de um todo, a análise exploratória é válida para seus fragmentos.</li>
</ul>


In [None]:
df_sudeste = df.loc[df['GRANDE REGIÃO'] == 'REGIÃO SUDESTE']
df_norte = df.loc[df['GRANDE REGIÃO'] == 'REGIÃO NORTE']
df_nordeste = df.loc[df['GRANDE REGIÃO'] == 'REGIÃO NORDESTE']
df_sul = df.loc[df['GRANDE REGIÃO'] == 'REGIÃO SUL']
df_centro_oeste = df.loc[df['GRANDE REGIÃO'] == 'REGIÃO CENTRO-OESTE']

<h1 style="color:purple;">Pré- processamento - Região Sudeste</h1>


In [None]:
media_vendas_sudeste = df_sudeste['VENDAS'].mean()

print(f"Média de vendas na Região Sudeste: {media_vendas_sudeste:.2f} m³")


In [None]:
df_sudeste

<h1 style="color:purple;">Explorando e entendendo a média de vendas total da Região Sudeste</h1>


<h1 style="color:purple;">Dividindo o DF Sudeste em categórico e numérico</h1>


In [None]:
df_categorico_sudeste = df_sudeste.select_dtypes(include=['object'])
df_numerico_sudeste = df_sudeste.select_dtypes(include=['number'])

<h1 style="color:purple;">Sudeste - Categórico</h1>


In [None]:
df_categorico_sudeste

In [None]:
print(f'Sudeste  - Colunas do DataFrame Categórico:\n\n{df_categorico_sudeste.columns}')

<h1 style="color:purple;">Sudeste - Numérico</h1>


In [None]:
df_numerico_sudeste

In [None]:
print(f'Sudeste  - Colunas do DataFrame Numérico:\n\n{df_numerico_sudeste.columns}')

<h1 style="color:purple;">Transformando variáveis categóricas</h1>


<h1 style="color:purple;">One-Hot Encoding para PRODUTO, GRANDE REGIÃO,UNIDADE DE FEDERAÇÃO, MÊS</h1>


In [None]:
# One-Hot Encoding para PRODUTO e outras categorias
df_sudeste = df_sudeste.drop(columns=["GRANDE REGIÃO"])

df_sudeste = pd.get_dummies(df_sudeste  , columns=['PRODUTO'], drop_first=False)
#df_sudeste = pd.get_dummies(df_sudeste , columns=['GRANDE REGIÃO'], drop_first=False)
df_sudeste = pd.get_dummies(df_sudeste , columns=['UNIDADE DA FEDERAÇÃO'], drop_first=False)
df_sudeste = pd.get_dummies(df_sudeste , columns=['MÊS'], drop_first=False)

In [None]:
df_sudeste

In [None]:
print(f'Sudeste  - Colunas transformadas:\n\n{df_sudeste.columns}')

In [None]:
df_sudeste

<h1 style="color:purple;">Outliers</h1>


In [None]:
sns.boxplot(x=df_sudeste['VENDAS'])

plt.title('Boxplot de Vendas - Região Sudeste')
plt.xlabel('Vendas')
plt.show()


<h1 style="color:purple;">Removendo outliers utlizando o método IQR</h1>


In [None]:
#Remoção de Outliers

df_sudeste_sem_outliers = df_sudeste.copy()

Q1 = df['VENDAS'].quantile(0.25)  
Q3 = df['VENDAS'].quantile(0.75)  
IQR = Q3 - Q1 


limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR


df_sudeste_sem_outliers = df_sudeste_sem_outliers[
    (df_sudeste_sem_outliers['VENDAS'] >= limite_inferior) & 
    (df_sudeste_sem_outliers['VENDAS'] <= limite_superior)
]

# 
#print("Limite Inferior:", limite_inferior)
#print("Limite Superior:", limite_superior)



In [None]:
print("DataFrame sem outliers - Sudeste")
df_sudeste_sem_outliers #chamar df_sem_outliers caso precise

In [None]:
sns.boxplot(x=df_sudeste_sem_outliers['VENDAS'])

plt.title('Boxplot de Vendas Após Remoção de Outliers- Região Sudeste')
plt.xlabel('Vendas')
plt.show()


<h1 style="color:purple;"> Calcular a matriz de correlação (sem gráfico)</h1>


<h2 style="color:purple;">Sem outliers - Correlação</h2>


In [None]:
# Calcular a matriz de correlação SEM outliers
corr_matrix = df_sudeste_sem_outliers.corr()

print("Sudeste - Top 10 correlações com VENDAS (sem outliers):\n")
print(corr_matrix['VENDAS'].sort_values(ascending=False).head(10))

print("\nSudeste - Top 10 correlações negativas com VENDAS(sem outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).tail(10))


<h2 style="color:purple;">Com outliers - Correlação</h2>


In [None]:
# Calcular a matriz de correlação Com outliers
corr_matrix = df_sudeste.corr()

print("Top 10 correlações com VENDAS (com outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).head(10))

print("\nTop 10 correlações negativas com VENDAS(com outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).tail(10))


<h2 style="color:purple;">Treinamento</h2>


<h2 style="color:purple;">Regressão Linear</h2>


In [None]:
%%time

# Variáveis com maior correlação 
#PRODUTO_GLP                            0.325491
#PRODUTO_ÓLEO DIESEL                    0.273362
#UNIDADE DA FEDERAÇÃO_RIO DE JANEIRO    0.234099
#PRODUTO_GASOLINA C                     0.230837
#PRODUTO_ETANOL HIDRATADO               0.172300

X = df_sudeste_sem_outliers[['PRODUTO_GLP', 
        'PRODUTO_ÓLEO DIESEL', 
        'UNIDADE DA FEDERAÇÃO_RIO DE JANEIRO', 
        'PRODUTO_GASOLINA C',  
        'PRODUTO_ETANOL HIDRATADO']]  


y = df_sudeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

predicao = model.predict(X_test)

mse = mean_squared_error(y_test, predicao)
r2 = r2_score(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)

print("\nSudeste - Regressão Linear - Métricas sem outliers\n")
print(f'Erro Quadrático Médio (MSE): {mse}')
print(f'Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%')
print(f'Root Mean Squared Error (RMSE): {rmse:.2f}')
print(f'Mean Absolute Error (MAE): {mae:.2f}\n')

print(f'Tempo decorrido:')


#print(f"Tamanho de predicao: {len(predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")

<h2 style="color:purple;">Árvore Decisão</h2>


In [None]:
%%time
#árvore de decisão
X = df_sudeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_sudeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

dtree = DecisionTreeRegressor(criterion='squared_error')
dtree.fit(X_train, y_train)

predicao = dtree.predict(X_test)


mse = mean_squared_error(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)

print(f"Sudeste - Árvore de decisão - Sem Outliers:\n")

print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")


#print(f"Tamanho de predicao: {len(predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")



<h2 style="color:purple;">Floresta Aleatória</h2>


In [None]:
%%time
# Floresta Aleatória
X = df_sudeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_sudeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

rfc = RandomForestRegressor(n_estimators=100)
rfc.fit(X_train, y_train)

rfc_predicao = rfc.predict(X_test)

mse = mean_squared_error(y_test, rfc_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, rfc_predicao)
r2 = r2_score(y_test, rfc_predicao)

print(f"Sudeste - Floresta Aleatória - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")

#print(f"Tamanho de rfc_predicao: {len(rfc_predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")

<h1 style="color:purple;">Floresta Aleatória</h1>


In [None]:
%%time
# Floresta Aleatória
X = df_sudeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_sudeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

rfc = RandomForestRegressor(n_estimators=100)
rfc.fit(X_train, y_train)

rfc_predicao = rfc.predict(X_test)

mse = mean_squared_error(y_test, rfc_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, rfc_predicao)
r2 = r2_score(y_test, rfc_predicao)

print(f"Sudeste - Floresta Aleatória - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")

#print(f"Tamanho de rfc_predicao: {len(rfc_predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")

<h1 style="color:purple;">Gradient Boosting Regressor</h1>
<p style="color:black;">Os parâmetros do modelo foram ajustados para <strong>n_estimators=200</strong> e <strong>max_depth=6</strong>, a fim de alcançar uma melhor performance, reduzindo os erros de previsão e aumentando a precisão do modelo.</p>


In [None]:
%%time

X = df_sudeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_sudeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

gbr = GradientBoostingRegressor(n_estimators=200, learning_rate=0.1, max_depth=6, random_state=42)

gbr.fit(X_train, y_train)

gbr_predicao = gbr.predict(X_test)

mse = mean_squared_error(y_test, gbr_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, gbr_predicao)
r2 = r2_score(y_test, gbr_predicao)

print(f"Sudeste - Gradient Boosting - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")


<h1 style="color:purple;">Ada Boost</h1>
<p style="color:black;">
O AdaBoost, por padrão, usa árvores de decisão bem simples, com profundidade máxima (<strong>max_depth</strong>) de apenas <strong>1</strong>. Isso acaba sendo um problema para o nosso dataset, porque ele não consegue capturar padrões mais complexos. Para melhorar, seria necessário ajustar o modelo base, mas mesmo assim o AdaBoost pode não ser a melhor escolha para esse caso.</p>


In [None]:
%%time

X = df_sudeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_sudeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

adaboost = AdaBoostRegressor(n_estimators=200, learning_rate=0.1, random_state=42)

adaboost.fit(X_train, y_train)

adaboost_predicao = adaboost.predict(X_test)

mse = mean_squared_error(y_test, adaboost_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, adaboost_predicao)
r2 = r2_score(y_test, adaboost_predicao)

print(f"Sudeste - AdaBoost - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")



<h1 style="color:purple;">Bagging Regressor</h1>


In [None]:
%%time
#BaggingRegressor

X = df_sudeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_sudeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# dependendo da versão do sklearn, ao inves de ser base estimator é só estimator
bagging = BaggingRegressor(estimator=DecisionTreeRegressor(criterion='squared_error'), 
                           n_estimators=100, 
                           random_state=42)

bagging.fit(X_train, y_train)

predicao = bagging.predict(X_test)

mse = mean_squared_error(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)

print(f"Região Sudeste - Bagging Regressor - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")



<h1 style="color:purple;">KNN</h1>


In [None]:
%%time
#KNN
X = df_sudeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_sudeste_sem_outliers['VENDAS']  

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

knn_regressor = KNeighborsRegressor(n_neighbors=5)  # Usando 5 vizinhos como padrão

knn_regressor.fit(X_train, y_train)

predicao = knn_regressor.predict(X_test)

mse = mean_squared_error(y_test, predicao)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)
print(f"Região Sudeste - KNN - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")




<h1 style="color:orange;">Pré- processamento - Região Nordeste</h1>


In [None]:
media_vendas_nordeste = df_nordeste['VENDAS'].mean()

print(f"Média de vendas na Região Nordeste: {media_vendas_nordeste:.2f} m³")


In [None]:
df_nordeste

<h1 style="color:orange;">Dividindo o DF Nordeste em categórico e numérico</h1>


In [None]:
df_categorico_nordeste = df_nordeste.select_dtypes(include=['object'])
df_numerico_nordeste= df_nordeste.select_dtypes(include=['number'])

<h1 style="color:orange;">Nordeste - Categórico</h1>


In [None]:
df_categorico_nordeste

In [None]:
print(f'Nordeste  - Colunas do DataFrame Categórico:\n\n{df_categorico_nordeste.columns}')

<h1 style="color:orange;">Nordeste - Numérico</h1>


In [None]:
df_numerico_nordeste

In [None]:
print(f'Nordeste  - Colunas do DataFrame Numérico:\n\n{df_numerico_nordeste.columns}')

<h1 style="color:orange;">Transformando variáveis categóricas</h1>


<h1 style="color:orange;">One-Hot Encoding para PRODUTO, GRANDE REGIÃO,UNIDADE DE FEDERAÇÃO, MÊS</h1>


In [None]:
# One-Hot Encoding para PRODUTO e outras categorias
df_nordeste = df_nordeste.drop(columns=["GRANDE REGIÃO"])

df_nordeste = pd.get_dummies(df_nordeste  , columns=['PRODUTO'], drop_first=False)
#df_nordeste = pd.get_dummies(df_nordestee , columns=['GRANDE REGIÃO'], drop_first=False)
df_nordeste = pd.get_dummies(df_nordeste , columns=['UNIDADE DA FEDERAÇÃO'], drop_first=False)
df_nordeste = pd.get_dummies(df_nordeste , columns=['MÊS'], drop_first=False)

In [None]:
df_nordeste

In [None]:
print(f'Nordeste  - Colunas transformadas:\n\n{df_nordeste.columns}')

<h1 style="color:orange;">Outliers</h1>


In [None]:
sns.boxplot(x=df_nordeste['VENDAS'])

plt.title('Boxplot de Vendas - Região Nordeste')
plt.xlabel('Vendas')
plt.show()


<h1 style="color:orange;">Removendo outliers utlizando o método IQR</h1>


In [None]:
#Remoção de Outliers

df_nordeste_sem_outliers = df_nordeste.copy()

Q1 = df['VENDAS'].quantile(0.25)  
Q3 = df['VENDAS'].quantile(0.75)  
IQR = Q3 - Q1 


limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR


df_nordeste_sem_outliers = df_nordeste_sem_outliers[
    (df_nordeste_sem_outliers['VENDAS'] >= limite_inferior) & 
    (df_nordeste_sem_outliers['VENDAS'] <= limite_superior)
]

# 
#print("Limite Inferior:", limite_inferior)
#print("Limite Superior:", limite_superior)



In [None]:
print("DataFrame sem outliers - Nordeste")
df_nordeste_sem_outliers #chamar df_sem_outliers caso precise

In [None]:
sns.boxplot(x=df_nordeste_sem_outliers['VENDAS'])

plt.title('Boxplot de Vendas Após Remoção de Outliers- Região Nordeste')
plt.xlabel('Vendas')
plt.show()


<h1 style="color:orange;"> Calcular a matriz de correlação (sem gráfico)</h1>


<h2 style="color:orange;">Sem outliers - Correlação</h2>


In [None]:
# Calcular a matriz de correlação SEM outliers
corr_matrix = df_nordeste_sem_outliers.corr()

print("Nordeste - Top 10 correlações com VENDAS (sem outliers):\n")
print(corr_matrix['VENDAS'].sort_values(ascending=False).head(10))

print("\nNordeste - Top 10 correlações negativas com VENDAS(sem outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).tail(10))


<h2 style="color:orange;">Com outliers - Correlação</h2>


In [None]:
# Calcular a matriz de correlação SEM outliers
corr_matrix = df_nordeste.corr()

print("Top 10 correlações com VENDAS (com outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).head(10))

print("\nTop 10 correlações negativas com VENDAS(com outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).tail(10))


<h2 style="color:orange;">Treinamento</h2>


<h2 style="color:orange;">Regressão Linear</h2>


In [None]:
%%time

# Variáveis com maior correlação - Nordeste 
#PRODUTO_ÓLEO DIESEL                0.394997
#PRODUTO_GASOLINA C                 0.356973
#UNIDADE DA FEDERAÇÃO_BAHIA         0.238015
#PRODUTO_GLP                        0.222259

X = df_nordeste_sem_outliers[['PRODUTO_ÓLEO DIESEL', 
        'PRODUTO_GASOLINA C', 
        'UNIDADE DA FEDERAÇÃO_BAHIA', 
        'PRODUTO_GLP']]  


y = df_nordeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

predicao = model.predict(X_test)

mse = mean_squared_error(y_test, predicao)
r2 = r2_score(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)

print("\nNordeste - Regressão Linear - Métricas sem outliers\n")
print(f'Erro Quadrático Médio (MSE): {mse}')
print(f'Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%')
print(f'Root Mean Squared Error (RMSE): {rmse:.2f}')
print(f'Mean Absolute Error (MAE): {mae:.2f}\n')

print(f'Tempo decorrido:')


#print(f"Tamanho de predicao: {len(predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")

<h2 style="color:orange;">Árvore Decisão</h2>


In [None]:
%%time
#árvore de decisão
X = df_nordeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_nordeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

dtree = DecisionTreeRegressor(criterion='squared_error')
dtree.fit(X_train, y_train)

predicao = dtree.predict(X_test)


mse = mean_squared_error(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)

print(f"Nordeste - Árvore de decisão - Sem Outliers:\n")

print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")


#print(f"Tamanho de predicao: {len(predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")



<h2 style="color:orange;">Floresta Aleatória</h2>


In [None]:
%%time
# Floresta Aleatória
X = df_nordeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_nordeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

rfc = RandomForestRegressor(n_estimators=100)
rfc.fit(X_train, y_train)

rfc_predicao = rfc.predict(X_test)

mse = mean_squared_error(y_test, rfc_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, rfc_predicao)
r2 = r2_score(y_test, rfc_predicao)

print(f"Nordeste - Floresta Aleatória - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")

#print(f"Tamanho de rfc_predicao: {len(rfc_predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")

<h1 style="color:orange;">Gradient Boosting Regressor</h1>


In [None]:
%%time

X = df_nordeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_nordeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

gbr = GradientBoostingRegressor(n_estimators=200, learning_rate=0.1, max_depth=6, random_state=42)

gbr.fit(X_train, y_train)

gbr_predicao = gbr.predict(X_test)

mse = mean_squared_error(y_test, gbr_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, gbr_predicao)
r2 = r2_score(y_test, gbr_predicao)

print(f"Nordeste - Gradient Boosting - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")


<h1 style="color:orange;">Ada Boost</h1>


In [None]:
%%time

X = df_nordeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_nordeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

adaboost = AdaBoostRegressor(n_estimators=200, learning_rate=0.1, random_state=42)

adaboost.fit(X_train, y_train)

adaboost_predicao = adaboost.predict(X_test)

mse = mean_squared_error(y_test, adaboost_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, adaboost_predicao)
r2 = r2_score(y_test, adaboost_predicao)

print(f"Nordeste - AdaBoost - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")



<h1 style="color:orange;">Bagging Regressor</h1>


In [None]:
%%time
#BaggingRegressor

X = df_nordeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_nordeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# dependendo da versão do sklearn, ao inves de ser base estimator é só estimator
bagging = BaggingRegressor(estimator=DecisionTreeRegressor(criterion='squared_error'), 
                           n_estimators=100, 
                           random_state=42)

bagging.fit(X_train, y_train)

predicao = bagging.predict(X_test)

mse = mean_squared_error(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)

print(f"Região Nordeste - Bagging Regressor - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")



<h1 style="color:orange;">KNN</h1>


In [None]:
%%time
#KNN
X = df_nordeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_nordeste_sem_outliers['VENDAS']  

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

knn_regressor = KNeighborsRegressor(n_neighbors=5)  # Usando 5 vizinhos como padrão

knn_regressor.fit(X_train, y_train)

predicao = knn_regressor.predict(X_test)

mse = mean_squared_error(y_test, predicao)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)
print(f"Região Nordeste - KNN - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")




<h1 style="color:red;">Pré- processamento - Região Norte</h1>


<h1 style="color:red;">Explorando e entendendo a média de vendas total da Região Norte</h1>


In [None]:
media_vendas_norte = df_norte['VENDAS'].mean()

print(f"Média de vendas na Região Norte: {media_vendas_norte:.2f} m³")


In [None]:
df_norte

<h1 style="color:red;">Dividindo o DF Norte em categórico e numérico</h1>


In [None]:
df_categorico_norte = df_norte.select_dtypes(include=['object'])
df_numerico_norte = df_norte.select_dtypes(include=['number'])

<h1 style="color:red;">Norte - Categórico</h1>


In [None]:
df_categorico_norte

In [None]:
print(f'Norte  - Colunas do DataFrame Categórico:\n\n{df_categorico_norte.columns}')

<h1 style="color:red;">Norte - Numérico</h1>


In [None]:
df_numerico_norte

In [None]:
print(f'Norte  - Colunas do DataFrame Numérico:\n\n{df_numerico_norte.columns}')

<h1 style="color:red;">Transformando variáveis categóricas</h1>


<h1 style="color:red;">One-Hot Encoding para PRODUTO, GRANDE REGIÃO,UNIDADE DE FEDERAÇÃO, MÊS</h1>


In [None]:
# One-Hot Encoding para PRODUTO e outras categorias
df_norte = df_norte.drop(columns=["GRANDE REGIÃO"])

df_norte = pd.get_dummies(df_norte  , columns=['PRODUTO'], drop_first=False)
#df_norte = pd.get_dummies(df_norte , columns=['GRANDE REGIÃO'], drop_first=False)
df_norte = pd.get_dummies(df_norte , columns=['UNIDADE DA FEDERAÇÃO'], drop_first=False)
df_norte = pd.get_dummies(df_norte , columns=['MÊS'], drop_first=False)

In [None]:
df_norte

In [None]:
print(f'Norte  - Colunas transformadas:\n\n{df_norte.columns}')

<h1 style="color:red;">Outliers</h1>


In [None]:
sns.boxplot(x=df_norte['VENDAS'])

plt.title('Boxplot de Vendas - Região Norte')
plt.xlabel('Vendas')
plt.show()


<h1 style="color:red;">Removendo outliers utlizando o método IQR</h1>


In [None]:
#Remoção de Outliers

df_norte_sem_outliers = df_norte.copy()

Q1 = df['VENDAS'].quantile(0.25)  
Q3 = df['VENDAS'].quantile(0.75)  
IQR = Q3 - Q1 


limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR


df_norte_sem_outliers  = df_norte_sem_outliers [
    (df_norte_sem_outliers['VENDAS'] >= limite_inferior) & 
    (df_norte_sem_outliers['VENDAS'] <= limite_superior)
]

# 
#print("Limite Inferior:", limite_inferior)
#print("Limite Superior:", limite_superior)



In [None]:
print("DataFrame sem outliers - Norte")
df_norte_sem_outliers #chamar df_sem_outliers caso precise

In [None]:
sns.boxplot(x=df_norte_sem_outliers['VENDAS'])

plt.title('Boxplot de Vendas Após Remoção de Outliers- Região Norte')
plt.xlabel('Vendas')
plt.show()


<h1 style="color:red;"> Calcular a matriz de correlação (sem gráfico)</h1>


<h2 style="color:red;">Sem outliers - Correlação</h2>


In [None]:
# Calcular a matriz de correlação SEM outliers
corr_matrix = df_norte_sem_outliers.corr()

print("Norte - Top 10 correlações com VENDAS (sem outliers):\n")
print(corr_matrix['VENDAS'].sort_values(ascending=False).head(10))

print("\nNorte - Top 10 correlações negativas com VENDAS(sem outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).tail(10))


<h2 style="color:red;">Com outliers - Correlação</h2>


In [None]:
# Calcular a matriz de correlação SEM outliers
corr_matrix = df_norte.corr()

print("Top 10 correlações com VENDAS (com outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).head(10))

print("\nTop 10 correlações negativas com VENDAS(com outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).tail(10))


<h2 style="color:red;">Treinamento</h2>


<h2 style="color:red;">Regressão Linear</h2>


In [None]:
%%time

# Variáveis com maior correlação 
#PRODUTO_ÓLEO DIESEL              0.499512
#UNIDADE DA FEDERAÇÃO_PARÁ        0.236958
#PRODUTO_GASOLINA C               0.200205
#UNIDADE DA FEDERAÇÃO_AMAZONAS    0.185904

X = df_norte_sem_outliers[['PRODUTO_ÓLEO DIESEL', 
        'UNIDADE DA FEDERAÇÃO_PARÁ', 
        'PRODUTO_GASOLINA C', 
        'UNIDADE DA FEDERAÇÃO_AMAZONAS']]  


y = df_norte_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

predicao = model.predict(X_test)

mse = mean_squared_error(y_test, predicao)
r2 = r2_score(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)

print("\nNorte - Regressão Linear - Métricas sem outliers\n")
print(f'Erro Quadrático Médio (MSE): {mse}')
print(f'Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%')
print(f'Root Mean Squared Error (RMSE): {rmse:.2f}')
print(f'Mean Absolute Error (MAE): {mae:.2f}\n')

print(f'Tempo decorrido:')


#print(f"Tamanho de predicao: {len(predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")

<h2 style="color:red;">Árvore Decisão</h2>


In [None]:
%%time
#árvore de decisão
X = df_norte_sem_outliers.drop(columns=['VENDAS']) 
y = df_norte_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

dtree = DecisionTreeRegressor(criterion='squared_error')
dtree.fit(X_train, y_train)

predicao = dtree.predict(X_test)


mse = mean_squared_error(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)

print(f"norte - Árvore de decisão - Sem Outliers:\n")

print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")


#print(f"Tamanho de predicao: {len(predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")



<h2 style="color:red;">Floresta Aleatória</h2>


In [None]:
%%time
# Floresta Aleatória
X = df_norte_sem_outliers.drop(columns=['VENDAS']) 
y = df_norte_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

rfc = RandomForestRegressor(n_estimators=100)
rfc.fit(X_train, y_train)

rfc_predicao = rfc.predict(X_test)

mse = mean_squared_error(y_test, rfc_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, rfc_predicao)
r2 = r2_score(y_test, rfc_predicao)

print(f"Norte - Floresta Aleatória - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")

#print(f"Tamanho de rfc_predicao: {len(rfc_predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")

<h1 style="color:red;">Gradient Boosting Regressor</h1>


In [None]:
%%time

X = df_norte_sem_outliers.drop(columns=['VENDAS']) 
y = df_norte_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

gbr = GradientBoostingRegressor(n_estimators=200, learning_rate=0.1, max_depth=6, random_state=42)

gbr.fit(X_train, y_train)

gbr_predicao = gbr.predict(X_test)

mse = mean_squared_error(y_test, gbr_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, gbr_predicao)
r2 = r2_score(y_test, gbr_predicao)

print(f"Norte - Gradient Boosting - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")


<h1 style="color:red;">Ada Boost</h1>


In [None]:
%%time

X = df_norte_sem_outliers.drop(columns=['VENDAS']) 
y = df_norte_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

adaboost = AdaBoostRegressor(n_estimators=200, learning_rate=0.1, random_state=42)

adaboost.fit(X_train, y_train)

adaboost_predicao = adaboost.predict(X_test)

mse = mean_squared_error(y_test, adaboost_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, adaboost_predicao)
r2 = r2_score(y_test, adaboost_predicao)

print(f"Norte - AdaBoost - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")



<h1 style="color:red;">Bagging Regressor</h1>


In [None]:
%%time
#BaggingRegressor

X = df_norte_sem_outliers.drop(columns=['VENDAS']) 
y = df_norte_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# dependendo da versão do sklearn, ao inves de ser base estimator é só estimator
bagging = BaggingRegressor(estimator=DecisionTreeRegressor(criterion='squared_error'), 
                           n_estimators=100, 
                           random_state=42)

bagging.fit(X_train, y_train)

predicao = bagging.predict(X_test)

mse = mean_squared_error(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)

print(f"Região Norte - Bagging Regressor - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")



<h1 style="color:red;">KNN</h1>


In [None]:
%%time
#KNN
X = df_norte_sem_outliers.drop(columns=['VENDAS']) 
y = df_norte_sem_outliers['VENDAS']  

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

knn_regressor = KNeighborsRegressor(n_neighbors=5)  # Usando 5 vizinhos como padrão

knn_regressor.fit(X_train, y_train)

predicao = knn_regressor.predict(X_test)

mse = mean_squared_error(y_test, predicao)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)
print(f"Região Sudeste - KNN - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")




<h1 style="color:yellow;">Pré- processamento - Região Centro-Oeste</h1>


<h1 style="color:yellow;">Explorando e entendendo a média de vendas total da Região Centro-Oeste</h1>


In [None]:
media_vendas_centro_oeste = df_centro_oeste['VENDAS'].mean()

print(f"Média de vendas na Região Centro-Oeste: {media_vendas_centro_oeste:.2f} m³")


In [None]:
df_centro_oeste

<h1 style="color:yellow;">Dividindo o DF Centro-Oeste em categórico e numérico</h1>


In [None]:
df_categorico_centro_oeste= df_centro_oeste.select_dtypes(include=['object'])
df_numerico_centro_oeste = df_centro_oeste.select_dtypes(include=['number'])

<h1 style="color:yellow;">Centro-Oeste - Categórico</h1>


In [None]:
df_categorico_centro_oeste

In [None]:
print(f'Centro-Oeste  - Colunas do DataFrame Categórico:\n\n{df_categorico_centro_oeste.columns}')

<h1 style="color:yellow;">Centro-Oeste - Numérico</h1>


In [None]:
df_numerico_centro_oeste

In [None]:
print(f'Centro-Oeste  - Colunas do DataFrame Numérico:\n\n{df_numerico_centro_oeste.columns}')

<h1 style="color:yellow;">Transformando variáveis categóricas</h1>


<h1 style="color:yellow;">One-Hot Encoding para PRODUTO, GRANDE REGIÃO,UNIDADE DE FEDERAÇÃO, MÊS</h1>


In [None]:
# One-Hot Encoding para PRODUTO e outras categorias
df_centro_oeste = df_centro_oeste.drop(columns=["GRANDE REGIÃO"])

df_centro_oeste = pd.get_dummies(df_centro_oeste  , columns=['PRODUTO'], drop_first=False)
#df_df_centro_oeste = pd.get_dummies(df_centro_oeste , columns=['GRANDE REGIÃO'], drop_first=False)
df_centro_oeste= pd.get_dummies(df_centro_oeste , columns=['UNIDADE DA FEDERAÇÃO'], drop_first=False)
df_centro_oeste = pd.get_dummies(df_centro_oeste , columns=['MÊS'], drop_first=False)

In [None]:
df_centro_oeste

In [None]:
print(f'Centro-Oeste  - Colunas transformadas:\n\n{df_centro_oeste.columns}')

<h1 style="color:yellow;">Outliers</h1>


In [None]:
sns.boxplot(x=df_sudeste['VENDAS'])

plt.title('Boxplot de Vendas - Região Centro-Oeste')
plt.xlabel('Vendas')
plt.show()


<h1 style="color:yellow;">Removendo outliers utlizando o método IQR</h1>


In [None]:
#Remoção de Outliers

df_centro_oeste_sem_outliers = df_centro_oeste.copy()

Q1 = df['VENDAS'].quantile(0.25)  
Q3 = df['VENDAS'].quantile(0.75)  
IQR = Q3 - Q1 


limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR


df_centro_oeste_sem_outliers = df_centro_oeste_sem_outliers[
    (df_centro_oeste_sem_outliers['VENDAS'] >= limite_inferior) & 
    (df_centro_oeste_sem_outliers['VENDAS'] <= limite_superior)
]

 
#print("Limite Inferior:", limite_inferior)
#print("Limite Superior:", limite_superior)



In [None]:
print("DataFrame sem outliers - Centro-Oeste")
df_centro_oeste_sem_outliers #chamar df_sem_outliers caso precise

In [None]:
sns.boxplot(x=df_centro_oeste_sem_outliers['VENDAS'])

plt.title('Boxplot de Vendas Após Remoção de Outliers- Região Centro-Oeste')
plt.xlabel('Vendas')
plt.show()


<h1 style="color:yellow;"> Calcular a matriz de correlação (sem gráfico)</h1>


<h2 style="color:yellow;">Sem outliers - Correlação</h2>


In [None]:
# Calcular a matriz de correlação SEM outliers
corr_matrix = df_centro_oeste_sem_outliers.corr()

print("Centro-Oeste - Top 10 correlações com VENDAS (sem outliers):\n")
print(corr_matrix['VENDAS'].sort_values(ascending=False).head(10))

print("\nCentro-Oeste - Top 10 correlações negativas com VENDAS(sem outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).tail(10))


<h2 style="color:yellow;">Com outliers - Correlação</h2>


In [None]:
# Calcular a matriz de correlação COM outliers
corr_matrix = df_centro_oeste.corr()

print("Top 10 correlações com VENDAS (com outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).head(10))

print("\nTop 10 correlações negativas com VENDAS(com outliers):")
print(corr_matrix['VENDAS'].sort_values(ascending=False).tail(10))


<h2 style="color:yellow;">Treinamento</h2>


<h2 style="color:yellow;">Regressão Linear</h2>


In [None]:
%%time

# Variáveis com maior correlação Centro-Oeste 
#PRODUTO_GASOLINA C                       0.492214
#PRODUTO_ÓLEO DIESEL                      0.378516
#UNIDADE DA FEDERAÇÃO_GOIÁS               0.129818
#PRODUTO_GLP                              0.102549

X = df_centro_oeste_sem_outliers[['PRODUTO_GASOLINA C', 
        'PRODUTO_ÓLEO DIESEL', 
        'UNIDADE DA FEDERAÇÃO_GOIÁS', 
        'PRODUTO_GASOLINA C',  
        'PRODUTO_GLP']]  


y = df_centro_oeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

predicao = model.predict(X_test)

mse = mean_squared_error(y_test, predicao)
r2 = r2_score(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)

print("\nCentro-Oeste - Regressão Linear - Métricas sem outliers\n")
print(f'Erro Quadrático Médio (MSE): {mse}')
print(f'Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%')
print(f'Root Mean Squared Error (RMSE): {rmse:.2f}')
print(f'Mean Absolute Error (MAE): {mae:.2f}\n')

print(f'Tempo decorrido:')


#print(f"Tamanho de predicao: {len(predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")

<h2 style="color:yellow;">Árvore Decisão</h2>


In [None]:
%%time
#árvore de decisão
X = df_centro_oeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_centro_oeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

dtree = DecisionTreeRegressor(criterion='squared_error')
dtree.fit(X_train, y_train)

predicao = dtree.predict(X_test)


mse = mean_squared_error(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)

print(f"Centro-Oeste - Árvore de decisão - Sem Outliers:\n")

print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")


#print(f"Tamanho de predicao: {len(predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")



<h2 style="color:yellow;">Floresta Aleatória</h2>


In [None]:
%%time
# Floresta Aleatória
X = df_centro_oeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_centro_oeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

rfc = RandomForestRegressor(n_estimators=100)
rfc.fit(X_train, y_train)

rfc_predicao = rfc.predict(X_test)

mse = mean_squared_error(y_test, rfc_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, rfc_predicao)
r2 = r2_score(y_test, rfc_predicao)

print(f"Centro-Oeste - Floresta Aleatória - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")

#print(f"Tamanho de rfc_predicao: {len(rfc_predicao)}")
#print(f"Tamanho de y_test: {len(y_test)}")

<h1 style="color:yellow;">Gradient Boosting Regressor</h1>
<p style="color:black;">Os parâmetros do modelo foram ajustados para <strong>n_estimators=300</strong> e <strong>max_depth=6</strong>, a fim de alcançar uma melhor performance, reduzindo os erros de previsão e aumentando a precisão do modelo.</p>


In [None]:
%%time

X = df_centro_oeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_centro_oeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

gbr = GradientBoostingRegressor(n_estimators=300, learning_rate=0.1, max_depth=6, random_state=42)

gbr.fit(X_train, y_train)

gbr_predicao = gbr.predict(X_test)

mse = mean_squared_error(y_test, gbr_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, gbr_predicao)
r2 = r2_score(y_test, gbr_predicao)

print(f"Centro-Oeste - Gradient Boosting - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")


<h1 style="color:yellow;">Ada Boost</h1>


In [None]:
%%time

X = df_centro_oeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_centro_oeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

adaboost = AdaBoostRegressor(n_estimators=200, learning_rate=0.1, random_state=42)

adaboost.fit(X_train, y_train)

adaboost_predicao = adaboost.predict(X_test)

mse = mean_squared_error(y_test, adaboost_predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, adaboost_predicao)
r2 = r2_score(y_test, adaboost_predicao)

print(f"Centro-Oeste - AdaBoost - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")



<h1 style="color:yellow;">Bagging Regressor</h1>


In [None]:
%%time
#BaggingRegressor

X = df_centro_oeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_centro_oeste_sem_outliers['VENDAS']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# dependendo da versão do sklearn, ao inves de ser base estimator é só estimator
bagging = BaggingRegressor(estimator=DecisionTreeRegressor(criterion='squared_error'), 
                           n_estimators=100, 
                           random_state=42)

bagging.fit(X_train, y_train)

predicao = bagging.predict(X_test)

mse = mean_squared_error(y_test, predicao)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)

print(f"Região Centro-Oeste - Bagging Regressor - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")



<h1 style="color:yellow;">KNN</h1>


In [None]:
%%time
#KNN
X = df_centro_oeste_sem_outliers.drop(columns=['VENDAS']) 
y = df_centro_oeste_sem_outliers['VENDAS']  

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

knn_regressor = KNeighborsRegressor(n_neighbors=5)  # Usando 5 vizinhos como padrão

knn_regressor.fit(X_train, y_train)

predicao = knn_regressor.predict(X_test)

mse = mean_squared_error(y_test, predicao)
mae = mean_absolute_error(y_test, predicao)
r2 = r2_score(y_test, predicao)
print(f"Região Centro-Oeste - KNN - Sem Outliers:\n")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f} -> {r2 * 100:.2f}%\n")
print(f"Tempo decorrido:\n")


