In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Adiciona banco de dados

In [3]:
df = pd.read_csv('ethereum_price.csv', thousands=',').replace(
    {'Price': '[$,]'}, {'Price': ''}, regex=True
    ).astype({'Price': 'float'})

# Visualizando as primeiras linhas


In [4]:
print(df.head())


           Date    Price     Open     High      Low     Vol. Change %
0  Mar 08, 2023  1553.49  1561.79  1569.70  1548.98  498.57K   -0.53%
1  Mar 07, 2023  1561.78  1565.84  1580.95  1536.31  460.10K   -0.26%
2  Mar 06, 2023  1565.84  1564.36  1581.13  1555.43  322.16K    0.09%
3  Mar 05, 2023  1564.37  1566.73  1587.95  1556.84  313.01K   -0.15%
4  Mar 04, 2023  1566.73  1569.45  1577.02  1550.10  247.02K   -0.14%


# Visualizando informações sobre as colunas


In [5]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2555 entries, 0 to 2554
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Date      2555 non-null   object 
 1   Price     2555 non-null   float64
 2   Open      2555 non-null   float64
 3   High      2555 non-null   float64
 4   Low       2555 non-null   float64
 5   Vol.      2555 non-null   object 
 6   Change %  2555 non-null   object 
dtypes: float64(4), object(3)
memory usage: 139.9+ KB
None


# Descrevendo as estatísticas básicas das variáveis numéricas


In [6]:
print(df.describe())


             Price         Open         High          Low
count  2555.000000  2555.000000  2555.000000  2555.000000
mean    892.548841   891.966955   922.027190   857.857425
std    1116.662557  1116.738625  1151.409264  1076.342150
min       6.700000     6.680000     7.320000     5.860000
25%     150.580000   150.130000   156.815000   144.965000
50%     310.380000   309.820000   318.900000   295.440000
75%    1362.700000  1358.755000  1398.580000  1311.590000
max    4808.380000  4808.340000  4864.060000  4715.430000


# Verificando a correlação entre as variáveis


In [7]:
print(df.corr(numeric_only=True))


          Price      Open      High       Low
Price  1.000000  0.998089  0.999075  0.999057
Open   0.998089  1.000000  0.999318  0.998485
High   0.999075  0.999318  1.000000  0.998367
Low    0.999057  0.998485  0.998367  1.000000


# Separando os dados em treino e teste


In [8]:
X = df[['Open', 'High', 'Low']]  # Variáveis independentes
y = df['Price']  # Variável dependente
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
  )

# Treinando o modelo


In [9]:
model = LinearRegression()
model.fit(X_train, y_train)

# Fazendo previsões para os dados de teste


In [10]:
y_pred = model.predict(X_test)


# Métricas de qualidade


In [11]:
mse = mean_squared_error(y_test, y_pred)  # cálculo do erro quadrático médio
# MSE mede a média dos erros quadráticos
# entre os valores previstos e os valores reais

r2 = r2_score(y_test, y_pred)  # cálculo do R²
# R² é uma medida que indica a proporção da
# variância da variável dependente explicada pelo modelo

# exibição dos resultados das métricas de qualidade para avaliar o desempenho do modelo.

In [12]:
print(f'MSE: {mse:.2f}\nR2: {r2:.2f}')


MSE: 747.95
R2: 1.00
