In [1]:
import pandas as pd

# Carregando o Dataset
file_path = 'data/cerveja.csv'
data = pd.read_csv(file_path)
data.head()


Unnamed: 0,Data,Temperatura Media (C),Temperatura Minima (C),Temperatura Maxima (C),Precipitacao (mm),Final de Semana,Consumo de cerveja (litros)
0,2015-01-01,273,239,325,0,0.0,25.461
1,2015-01-02,2702,245,335,0,0.0,28.972
2,2015-01-03,2482,224,299,0,1.0,30.814
3,2015-01-04,2398,215,286,12,1.0,29.799
4,2015-01-05,2382,21,283,0,0.0,28.9


In [2]:
data.shape

(941, 7)

O conjunto de dados contém as seguintes colunas:

**Data:** Data de registro.

**Temperatura Média (C):** Temperatura média diária em graus Celsius.

**Temperatura Mínima (C):** Temperatura mínima diária em graus Celsius.

**Temperatura Máxima (C):** Temperatura máxima diária em graus Celsius.

**Precipitação (mm):** Quantidade de precipitação diária em milímetros.

**Final de Semana:** Indicação de se o dia foi um final de semana (0 para dias de semana, 1 para finais de semana).

**Consumo de cerveja (litros):** Quantidade de cerveja consumida, em litros.

In [3]:
# Verificando os tipos de dados e valores únicos na coluna
data['Consumo de cerveja (litros)'].unique(), data['Consumo de cerveja (litros)'].dtypes


(array([25.461, 28.972, 30.814, 29.799, 28.9  , 28.218, 29.732, 28.397,
        24.886, 37.937, 36.254, 25.743, 26.99 , 31.825, 25.724, 29.938,
        37.69 , 30.524, 29.265, 35.127, 29.13 , 25.795, 21.784, 28.348,
        31.088, 21.52 , 29.972, 22.603, 22.696, 26.845, 27.03 , 32.057,
        24.097, 31.655, 24.738, 19.95 , 22.821, 28.893, 29.926, 24.062,
        21.137, 26.805, 26.389, 24.219, 30.231, 24.968, 25.343, 17.399,
        21.392, 22.922, 24.567, 30.943, 30.825, 25.692, 26.959, 25.366,
        22.784, 26.241, 26.467, 27.475, 28.749, 24.146, 22.988, 30.3  ,
        22.654, 29.09 , 24.619, 20.016, 23.042, 22.933, 22.409, 21.281,
        28.844, 32.872, 20.903, 26.275, 20.167, 23.628, 24.213, 28.631,
        25.855, 21.406, 21.617, 22.401, 27.989, 24.974, 29.76 , 26.116,
        25.85 , 24.925, 21.979, 22.116, 24.867, 33.45 , 32.713, 22.356,
        21.004, 23.362, 20.298, 24.862, 30.505, 25.07 , 22.62 , 22.001,
        23.469, 21.735, 21.593, 33.822, 28.028, 24.304, 31.108, 

In [4]:
# Verificando se há valores ausentes no conjunto de dados
missing_data = data.isnull().sum()

# Remover valores ausentes (se houver)
data_cleaned = data.dropna()

# Conferir novamente se há valores ausentes após o tratamento
missing_data_after_cleaning = data_cleaned.isnull().sum()

# Exibir as informações de dados faltantes
print("Dados faltantes antes do tratamento:")
print(missing_data)

print("\nDados faltantes após o tratamento:")
print(missing_data_after_cleaning)

# Verificar se o índice de dados foi corretamente ajustado após a limpeza
data_cleaned.reset_index(drop=True, inplace=True)

# Exibir as primeiras linhas dos dados limpos
print(data_cleaned.head())



Dados faltantes antes do tratamento:
Data                           576
Temperatura Media (C)          576
Temperatura Minima (C)         576
Temperatura Maxima (C)         576
Precipitacao (mm)              576
Final de Semana                576
Consumo de cerveja (litros)    576
dtype: int64

Dados faltantes após o tratamento:
Data                           0
Temperatura Media (C)          0
Temperatura Minima (C)         0
Temperatura Maxima (C)         0
Precipitacao (mm)              0
Final de Semana                0
Consumo de cerveja (litros)    0
dtype: int64
         Data Temperatura Media (C) Temperatura Minima (C)  \
0  2015-01-01                  27,3                   23,9   
1  2015-01-02                 27,02                   24,5   
2  2015-01-03                 24,82                   22,4   
3  2015-01-04                 23,98                   21,5   
4  2015-01-05                 23,82                     21   

  Temperatura Maxima (C) Precipitacao (mm)  Final de

In [5]:
# Verificando todas as colunas que podem conter valores numéricos com vírgulas em vez de pontos

data_cleaned['Temperatura Media (C)'] = data_cleaned['Temperatura Media (C)'].astype(str).str.replace(',', '.').astype(float)
data_cleaned['Temperatura Minima (C)'] = data_cleaned['Temperatura Minima (C)'].astype(str).str.replace(',', '.').astype(float)
data_cleaned['Temperatura Maxima (C)'] = data_cleaned['Temperatura Maxima (C)'].astype(str).str.replace(',', '.').astype(float)
data_cleaned['Precipitacao (mm)'] = data_cleaned['Precipitacao (mm)'].astype(str).str.replace(',', '.').astype(float)
data_cleaned['Consumo de cerveja (litros)'] = data_cleaned['Consumo de cerveja (litros)'].astype(str).str.replace(',', '.').astype(float)

# Verificando se a conversão foi realizada corretamente
data_cleaned.dtypes


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_cleaned['Temperatura Media (C)'] = data_cleaned['Temperatura Media (C)'].astype(str).str.replace(',', '.').astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_cleaned['Temperatura Minima (C)'] = data_cleaned['Temperatura Minima (C)'].astype(str).str.replace(',', '.').astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guid

Unnamed: 0,0
Data,object
Temperatura Media (C),float64
Temperatura Minima (C),float64
Temperatura Maxima (C),float64
Precipitacao (mm),float64
Final de Semana,float64
Consumo de cerveja (litros),float64


In [6]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Selecionando as features (X) e o target (y)
X = data_cleaned[['Temperatura Media (C)', 'Temperatura Minima (C)', 'Temperatura Maxima (C)', 'Precipitacao (mm)', 'Final de Semana']]
y = data_cleaned['Consumo de cerveja (litros)']

# Dividindo os dados em conjuntos de treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de Regressão Linear
model = LinearRegression()

# Treinando o modelo com os dados de treino
model.fit(X_train, y_train)

# Fazendo previsões com os dados de teste
y_pred = model.predict(X_test)

# Avaliando o modelo com o erro quadrático médio
rmse = mean_squared_error(y_test, y_pred, squared=False)

rmse




2.387352465229385

In [7]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

# Criando outros modelos: Árvore de Decisão e Random Forest
decision_tree_model = DecisionTreeRegressor(random_state=42)
random_forest_model = RandomForestRegressor(random_state=42)

# Treinando o modelo de Árvore de Decisão
decision_tree_model.fit(X_train, y_train)
y_pred_tree = decision_tree_model.predict(X_test)

# Treinando o modelo de Random Forest
random_forest_model.fit(X_train, y_train)
y_pred_forest = random_forest_model.predict(X_test)

from sklearn.metrics import mean_squared_error

# Avaliando o desempenho de cada modelo usando root mean squared error diretamente
rmse_linear = mean_squared_error(y_test, y_pred, squared=False)
rmse_tree = mean_squared_error(y_test, y_pred_tree, squared=False)
rmse_forest = mean_squared_error(y_test, y_pred_forest, squared=False)

# Comparação dos resultados de RMSE
model_comparison = pd.DataFrame({
    'Modelo': ['Regressão Linear', 'Árvore de Decisão', 'Random Forest'],
    'RMSE': [rmse_linear, rmse_tree, rmse_forest]
})

# Exibir a comparação
print(model_comparison)


              Modelo      RMSE
0   Regressão Linear  2.387352
1  Árvore de Decisão  3.506488
2      Random Forest  2.690781




A Regressão Linear apresentou o melhor desempenho entre os modelos testados, seguida pela Random Forest. A Árvore de Decisão teve o pior desempenho com um erro maior.

In [8]:
# Exportando os dados tratados para um arquivo CSV
output_file_path = 'data/dados_tratados_cerveja.csv'
data_cleaned.to_csv(output_file_path, index=False)

output_file_path

'data/dados_tratados_cerveja.csv'