# Estrategia de gestión en protocolos DeFi - Lido (Staking)

### Objetivo general: 

Ayudar a un inversor a identificar la mejor estrategia de gestión de su cartera para maximizar su retorno esperado, más allá de la variación del precio de ETH, en este caso, enfocado en el staking de ETH en el protocolo de Lido.

### Desafío principal: 

El desafío está en identificar qué tipo de modelo es el más interesante dadas las características del fenómeno a modelar.¶

### ¿Cuál es el nivel de soporte que nos puede proporcionar un modelo de machine learning para la gestión estratégica de las carteras en DeFi?

# PARTE I: Procesamiento de los datos

- Fuentes de datos:

    - Binance → precios históricos de ETH (ETH-USDT) diarios.

    - Public data collector for ETH Staking Rewards based on the https://beaconcha.in API (https://github.com/xh3b4sd/eth-staking-rewards?tab=readme-ov-file) → APR diario real de Lido → "rewards.csv"

- Período de análisis: últimos 5 años (aprox. 1825 días, desde 2020-12-06 hasta 2025-12-04).

1. CARGAR DATOS DE APR DE LIDO

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import requests
import time

In [2]:
df = pd.read_csv('rewards.csv')

2. EXPLORACIÓN Y PREPARACIÓN DE LOS DATOS

In [3]:
# Revisamos los primeros datos de nuestro dataset
df.head()

Unnamed: 0,date,apr
0,2020-12-01T00:00:00Z,0.174025
1,2020-12-02T00:00:00Z,0.179092
2,2020-12-03T00:00:00Z,0.180985
3,2020-12-04T00:00:00Z,0.180307
4,2020-12-05T00:00:00Z,0.177675


In [4]:
# Convertir fecha a datetime
df['date'] = pd.to_datetime(df['date'])

# Ordenar por fecha
df = df.sort_values('date').reset_index(drop=True)

In [5]:
# Quitar timezone del APR (tiene Z = UTC)
df['date'] = df['date'].dt.tz_localize(None)

In [6]:
df.head()

Unnamed: 0,date,apr
0,2020-12-01,0.174025
1,2020-12-02,0.179092
2,2020-12-03,0.180985
3,2020-12-04,0.180307
4,2020-12-05,0.177675


In [7]:
print(f"\n Período de datos: {df['date'].min().date()} hasta {df['date'].max().date()}")
print(f" Total de días: {len(df)}")
print(f"\n Primeras filas del dataset:")
print(df.head(10))
print(f"\n Estadísticas descriptivas del APR:")
print(df['apr'].describe())


 Período de datos: 2020-12-01 hasta 2025-12-03
 Total de días: 1829

 Primeras filas del dataset:
        date       apr
0 2020-12-01  0.174025
1 2020-12-02  0.179092
2 2020-12-03  0.180985
3 2020-12-04  0.180307
4 2020-12-05  0.177675
5 2020-12-06  0.175716
6 2020-12-07  0.169835
7 2020-12-08  0.167845
8 2020-12-09  0.166910
9 2020-12-10  0.165639

 Estadísticas descriptivas del APR:
count    1829.000000
mean        0.048288
std         0.022369
min         0.025413
25%         0.032276
50%         0.044743
75%         0.054560
max         0.180985
Name: apr, dtype: float64


3. INGENIERIA DE FEATURES

In [8]:
df_features = df.copy()
    
# 2.1 APR en porcentaje
df_features['apr_pct'] = df_features['apr']*100

# 2.2 Retorno diario
df_features['daily_return'] = (1 + df_features['apr'])**(1/365) - 1

# Lags APR
lag_periods = [1,3,7,14,30,60]
for lag in lag_periods:
    df_features[f'apr_lag_{lag}'] = df_features['apr'].shift(lag)

# Rolling APR
rolling_windows = [7,14,30,60]
for window in rolling_windows:
    df_features[f'apr_roll_mean_{window}'] = df_features['apr'].rolling(window).mean()
    df_features[f'apr_roll_std_{window}'] = df_features['apr'].rolling(window).std()

# Retornos acumulados del PASADO (features): cómo se comportó Lido en los últimos 7, 14 y 30 días
for past in [7,14,30,60]:
    df_features[f'past_{past}d_return'] = (1 + df_features['daily_return']).rolling(past).apply(np.prod, raw=True) - 1

# 2.4 Variables temporales
df_features['day_of_week'] = df_features['date'].dt.dayofweek
df_features['month'] = df_features['date'].dt.month
df_features['quarter'] = df_features['date'].dt.quarter
df_features['day_of_year'] = df_features['date'].dt.dayofyear
df_features['is_weekend'] = (df_features['day_of_week'] >= 5).astype(int)

# Tendencia temporal: días desde el inicio
df_features['days_since_start'] = (df_features['date'] - df_features['date'].min()).dt.days

# 2.5 Target futuro: retorno acumulado 7 días (el retorno que obtendría si hiciera staking durante los próximos 7 días.)
horizon = 7
df_features['target_7d_return'] = (
    (1 + df_features['daily_return'])       # convierte APR diario en factor multiplicativo
    .shift(-horizon)                        # mueve todos los valores 7 días hacia arriba, es decir, ahora la fila de hoy “apunta” a los 7 días futuros
    .rolling(window=horizon)                # calcula el producto acumulado de 7 días consecutivos
    .apply(np.prod, raw=True)               
    - 1                                     # convierte de factor multiplicativo a retorno neto
)
# lo paso a %
df_features['target_7d_return_pct'] = df_features['target_7d_return'] * 100

In [9]:
# Eliminar NaN
df_features = df_features.dropna().reset_index(drop=True)
print(f"Filas después de limpiar: {len(df_features)}")

Filas después de limpiar: 1762


In [10]:
# Verificar valores faltantes
print(df_features.isnull().sum())

date                    0
apr                     0
apr_pct                 0
daily_return            0
apr_lag_1               0
apr_lag_3               0
apr_lag_7               0
apr_lag_14              0
apr_lag_30              0
apr_lag_60              0
apr_roll_mean_7         0
apr_roll_std_7          0
apr_roll_mean_14        0
apr_roll_std_14         0
apr_roll_mean_30        0
apr_roll_std_30         0
apr_roll_mean_60        0
apr_roll_std_60         0
past_7d_return          0
past_14d_return         0
past_30d_return         0
past_60d_return         0
day_of_week             0
month                   0
quarter                 0
day_of_year             0
is_weekend              0
days_since_start        0
target_7d_return        0
target_7d_return_pct    0
dtype: int64


In [64]:
# Exportar dataset final con features y target

df_features.to_csv("df_staking.csv", index=False)

In [11]:
# Estadísticas clave
print("\nEstadísticas APR (%):")
print(f"  Promedio: {df_features['apr_pct'].mean():.2f}%")
print(f"  Mediana: {df_features['apr_pct'].median():.2f}%")
print(f"  Mínimo:   {df_features['apr_pct'].min():.2f}%")
print(f"  Máximo:   {df_features['apr_pct'].max():.2f}%")
print(f"  Desv. estándar: {df_features['apr_pct'].std():.2f}%")


Estadísticas APR (%):
  Promedio: 4.54%
  Mediana: 4.43%
  Mínimo:   2.58%
  Máximo:   10.09%
  Desv. estándar: 1.55%
