# üìä An√°lisis descriptivo del Conjunto de Datos
Antes de llevar a cabo el desarrollo de los modelos de clasificaci√≥n mediante redes neuronales, es necesario efectuar un **an√°lisis exploratorio de los datos y su correcta depuraci√≥n**. En esta etapa adecuaremos el conjunto de datos para la fase de modelizaci√≥n posterior, asegur√°ndonos de que no haya observaciones incoherentes ni valores at√≠picos o perdidos que puedan afectar la calidad de los modelos.

In [1]:
# =============================================================================
# LIBRERIAS
# =============================================================================

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import pickle
import pandas as pd
import os

In [2]:
# Cargamos las funciones que vamos a utilizar
from utils.FuncionesMineria import *

## üîπ 1. Importaci√≥n del conjunto de datos
El primer paso consiste en cargar el conjunto de datos en nuestro entorno de trabajo. Estos datos est√°n almacenados en un archivo CSV llamado `btc_historical_data.csv`, cuya creaci√≥n y obtenci√≥n se explican en el notebook `01_feature_engineering.ipynb`. Para ello, se utiliza el siguiente fragmento de c√≥digo:

In [3]:
# Importamos CSV

df_bitcoin = pd.read_csv('../01_data_preparation/data/btc_historical_data.csv')                         
df_bitcoin

Unnamed: 0,Open time,Open,High,Low,Close,Volume,Quote asset volume,Number of trades,Taker buy base asset volume,Taker buy quote asset volume,...,transaction_rate,market_cap_usd,average_block_size,market_price_usd,exchange_volume_usd,average_confirmation_time,hash_rate,difficulty,miners_revenue,total_transaction_fees
0,2017-10-05,4208.59,4355.00,4110.00,4292.43,779.138638,3.295533e+06,9158.0,351.042019,1.483037e+06,...,2.791667,7.120069e+10,1.018034,4211.55,2.127088e+08,111.082550,6.983443e+06,1.123863e+12,7.562751e+06,160.344240
1,2017-10-06,4318.99,4417.00,4292.00,4369.00,506.529176,2.212035e+06,6546.0,226.148177,9.881066e+05,...,2.866667,7.255732e+10,0.920436,4318.58,2.057251e+08,31.514477,8.882940e+06,1.123863e+12,9.444311e+06,149.021202
2,2017-10-07,4369.00,4479.50,4312.56,4423.00,297.597500,1.302533e+06,4804.0,145.313076,6.371469e+05,...,2.550000,7.216553e+10,0.836508,4369.57,1.915422e+08,20.892141,8.827072e+06,1.123863e+12,9.178387e+06,108.215564
3,2017-10-08,4425.00,4658.00,4425.00,4640.00,518.462004,2.347356e+06,7580.0,280.094854,1.268661e+06,...,2.666667,7.419533e+10,0.764420,4439.46,1.281929e+08,20.239779,1.016789e+07,1.123863e+12,1.098203e+07,111.796475
4,2017-10-09,4640.00,4889.98,4550.00,4786.95,646.463145,3.040509e+06,10372.0,350.756559,1.654275e+06,...,3.283333,7.648983e+10,0.921536,4605.66,2.516054e+08,23.698470,8.994675e+06,1.123863e+12,1.016728e+07,149.340987
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2872,2025-08-16,117342.04,117898.99,117143.98,117380.66,6393.681170,7.517194e+08,1179842.0,2995.228650,3.521588e+08,...,2.975000,2.344190e+12,1.665970,117419.50,3.855598e+08,8.231568,9.780076e+08,1.294352e+14,5.629125e+07,2.989912
2873,2025-08-17,117380.66,118575.00,117172.21,117405.01,5898.641920,6.956292e+08,1177563.0,2804.731130,3.307994e+08,...,2.658333,2.352079e+12,1.523959,117484.12,1.547407e+08,5.932923,9.780076e+08,1.294352e+14,5.711806e+07,2.540358
2874,2025-08-18,117405.01,117543.75,114640.14,116227.05,17741.469250,2.053300e+09,3345487.0,7647.218200,8.850528e+08,...,3.316667,2.305944e+12,1.562829,117455.50,1.693708e+08,10.626850,9.908761e+08,1.294352e+14,5.770019e+07,3.392547
2875,2025-08-19,116227.05,116725.69,112732.58,112872.94,18065.420860,2.065005e+09,3291170.0,8609.360780,9.840874e+08,...,3.283333,2.294257e+12,1.739986,116251.12,4.406906e+08,12.908552,8.621909e+08,1.294352e+14,4.993566e+07,3.270740


## üîπ 2. Asignaci√≥n correcta de los tipos de variables
Una vez que tenemos disponible el conjunto de datos, el siguiente paso consiste en evaluar el tipo de variable que ha sido asignado a cada columna. Esta verificaci√≥n es esencial para asegurarnos de que los datos se interpreten correctamente. Por ejemplo, es importante que las fechas est√©n en formato `datetime`, los valores num√©ricos como `float` o `int`, y las variables categ√≥ricas como `object` o `category`.

In [4]:
# Comprobamos el tipo de formato de las variables
for col, dtype in df_bitcoin.dtypes.items():
    print(f"{col}: {dtype}")

Open time: object
Open: float64
High: float64
Low: float64
Close: float64
Volume: float64
Quote asset volume: float64
Number of trades: float64
Taker buy base asset volume: float64
Taker buy quote asset volume: float64
Target: int64
SMA_20: float64
Close_SMA_ratio_20: float64
SMA_50: float64
Close_SMA_ratio_50: float64
EMA_20: float64
Close_EMA_ratio_20: float64
EMA_50: float64
Close_EMA_ratio_50: float64
MACD: float64
MACD_signal: float64
MACD_diff: float64
PSAR: float64
KAMA_10: float64
Close_KAMA_ratio: float64
RSI_7: float64
RSI_14: float64
WR_7: float64
WR_14: float64
STOCH_K_7: float64
STOCH_D_7: float64
STOCH_K_14: float64
STOCH_D_14: float64
ROC_5: float64
ROC_10: float64
ROC_14: float64
MOM_5: float64
MOM_10: float64
dRSI_7: float64
dRSI_14: float64
dROC_5: float64
dROC_10: float64
dROC_14: float64
dMOM_5: float64
dMOM_10: float64
BB_high_10: float64
BB_low_10: float64
BB_mid_10: float64
BB_width_10: float64
BB_percent_10: float64
BB_high_20: float64
BB_low_20: float64
BB_mid_

> üëâ Todas las variables del conjunto de datos presentan un tipo de dato correctamente asignado, con excepci√≥n de dos casos: la variable **`Open time`**, que ha sido interpretada como tipo `object` cuando deber√≠a ser `datetime`, y la variable objetivo **`Target`**, que ha sido asignada como tipo `int64` cuando, por su naturaleza categ√≥rica, deber√≠a ser `object`.

En consecuencia, procedemos a realizar las conversiones correspondientes:

In [5]:
# Asignamos el tipo correcto a la variable Open time

df_bitcoin['Open time'] = pd.to_datetime(df_bitcoin['Open time'], format='%Y-%m-%d')
df_bitcoin['Target'] = df_bitcoin['Target'].astype(str)

for col in ['Open time', 'Target']:
    print(f"{col}: {df_bitcoin.dtypes[col]}")

Open time: datetime64[ns]
Target: object


Por otro lado, es relevante considerar que, si alguna variable cuantitativa dispone de un n√∫mero de valores distintos inferior a 10, se recomienda tratarla como una variable cualitativa. Con este fin, nos apoyaremos en la funci√≥n **`cuentaDistintos()`**, que verifica cu√°ntos valores distintos posee cada una de las variables cuantitativas:

In [6]:
# Cuenta el n√∫mero de valores distintos de cada una de las variables num√©ricas de un DataFrame
df_distintos = cuentaDistintos(df_bitcoin)

# Luego filtramos las columnas con 10 o menos valores distintos
filtrado = df_distintos[df_distintos['Distintos'] <= 10]

filtrado

Unnamed: 0,Columna,Distintos


> üëâ Si analizamos el resultado, observamos que todas las variables cuantitativas que componen nuestro dataset cuentan con m√°s de diez valores diferentes. En consecuencia, no ser√° necesario realizar la conversi√≥n en ning√∫n caso. 

## üîπ 3. An√°lisis Exploratorio

### üìà An√°lisis de la variables cat√©goricas
Comenzamos con el an√°lisis descriptivo b√°sico de las variables categ√≥ricas que participan en el conjunto de datos con la funci√≥n **`analizar_variables_categoricas()`**. Esta mide la frecuencia correspondiente de cada una de las categor√≠as, lo que nos capacita para revisar que todas ellas est√©n correcta y suficientemente representadas:

In [7]:
# Frecuencias de los valores en las variables categ√≥ricas
analizar_variables_categoricas(df_bitcoin)

{'Target':       n        %
 1  1482  0.51512
 0  1395  0.48488}

> üëâ La variable objetivo `Target` presenta dos categor√≠as claramente definidas: `1` y `0`, con una distribuci√≥n relativamente equilibrada (51.5% y 48.5%, respectivamente). Esto indica que las categor√≠as est√°n correctamente asignadas y bien representadas.

### üìà An√°lisis de la variables num√©ricas
Del mismo modo, se presenta un an√°lisis descriptivo de las num√©ricas que participan en el *dataset*. Con el objetivo de facilitar el estudio, se ha dividido el conjunto de datos en varios subconjuntos diferenciados:

-  **Variables de mercado**: Este grupo incluye las variables relacionadas con el comportamiento del mercado financiero, todas de tipo `float64`:
   - `Open`
   - `High`
   - `Low`
   - `Close`
   - `Volume`
   - `Quote asset volume`
   - `Number of trades`
   - `Taker buy base asset volume`
   - `Taker buy quote asset volume`
- **Indicadores t√©cnicos**: Cada grupo de indicadores t√©cnicos tendr√° su subconjunto correspondiente (*tendencia*, *momentum*, *volatilidad* y *volumen*)
- **Variables de la blockchain**: Incluye aquellas variables que provienen directamente de la actividad en la red blockchain.
Esta segmentaci√≥n permite realizar un an√°lisis m√°s enfocado y eficiente, adaptando las t√©cnicas estad√≠sticas y de modelado a la naturaleza de cada grupo de variables.



In [8]:
# =============================================================================
# Funci√≥n para calcular descriptivos
# =============================================================================

def calcular_descriptivos(df):
    """
    Calcula estad√≠sticas descriptivas para cada columna num√©rica de un DataFrame.

    Args:
        df (DataFrame): El DataFrame que contiene los datos num√©ricos.

    Returns:
        DataFrame: Un DataFrame transpuesto con estad√≠sticas como media, desviaci√≥n est√°ndar,
                   asimetr√≠a, curtosis y rango para cada variable num√©rica.
    """
    # Estad√≠sticas b√°sicas
    descriptivos = df.describe().T

    # A√±adir asimetr√≠a, curtosis y rango
    for col in df.select_dtypes(include=[np.number]).columns:
        descriptivos.loc[col, "Asimetria"] = df[col].skew()
        descriptivos.loc[col, "Kurtosis"] = df[col].kurtosis()
        descriptivos.loc[col, "Rango"] = np.ptp(df[col].dropna().values)

    return descriptivos


In [9]:
# =============================================================================
# Obtenemos conjuntos de datos
# =============================================================================

# DF con variables de mercado
df_mercado = df_bitcoin.loc[:, 'Open':'Taker buy quote asset volume']

# DF con indicadores t√©cnicos de tendencia
df_ta_tendencia = df_bitcoin.loc[:, 'SMA_20':'Close_KAMA_ratio']

# DF con indicadores t√©cnicos de momentum
df_ta_momentum = df_bitcoin.loc[:, 'RSI_7':'dMOM_10']

# DF con indicadores t√©cnicos de volatilidad
df_ta_volatilidad = df_bitcoin.loc[:, 'BB_high_10':'DC_width_20']

# DF con indicadores t√©cnicos de volumen
df_ta_volumen = df_bitcoin.loc[:, 'OBV':'Vol_ratio_50']

# DF con variables de blockchain
df_blockchain = df_bitcoin.loc[:, 'mempool_size':'total_transaction_fees']

#### üìù An√°lisis variables de mercado

In [10]:
calcular_descriptivos(df_mercado)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,Asimetria,Kurtosis,Rango
Open,2877.0,33295.25,29151.53,3211.71,9162.21,23940.2,48887.59,123306.4,1.129221,0.44985,120094.7
High,2877.0,34038.55,29666.22,3276.5,9343.82,24599.59,50125.0,124474.0,1.112252,0.395009,121197.5
Low,2877.0,32506.29,28629.27,3156.26,8913.0,23502.25,47088.0,118920.9,1.150004,0.517365,115764.7
Close,2877.0,33333.51,29185.59,3211.72,9170.0,23954.05,48891.0,123306.4,1.129112,0.448125,120094.7
Volume,2877.0,65553.41,78198.09,297.5975,26641.43,41858.16,68806.69,760705.4,3.50456,16.194875,760407.8
Quote asset volume,2877.0,1786236000.0,1965746000.0,1302533.0,381103300.0,1161659000.0,2487562000.0,17465310000.0,2.324403,8.311877,17464000000.0
Number of trades,2877.0,1798643.0,2130512.0,4804.0,410902.0,1075177.0,2151711.0,15223590.0,2.310291,6.271161,15218780.0
Taker buy base asset volume,2877.0,32572.42,38921.13,145.3131,13365.95,20896.43,34276.92,374775.6,3.531787,16.39994,374630.3
Taker buy quote asset volume,2877.0,883205600.0,977285900.0,637146.9,190003700.0,566907900.0,1237800000.0,8783916000.0,2.363032,8.619077,8783279000.0


##### üîé Interpretaci√≥n

Poner aqui analisis mercado

#### üìù An√°lisis indicadores t√©cnicos

##### ‚û°Ô∏è An√°lisis indicadores t√©cnicos tendencia

In [11]:
calcular_descriptivos(df_ta_tendencia)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,Asimetria,Kurtosis,Rango
SMA_20,2877.0,32960.720747,28750.488054,3500.0485,9169.0465,23406.8575,48369.591,118285.3255,1.119416,0.427407,114785.277
Close_SMA_ratio_20,2877.0,1.013166,0.094159,0.558114,0.96322,1.007506,1.062101,1.662698,0.398184,2.801291,1.104583
SMA_50,2877.0,32372.667366,28033.357371,3619.3346,8928.3434,23439.258,47334.4906,115995.4954,1.096579,0.363146,112376.1608
Close_SMA_ratio_50,2877.0,1.035241,0.165368,0.523741,0.939448,1.014424,1.130186,2.101538,0.819759,3.052582,1.577797
EMA_20,2877.0,32961.786255,28706.461067,3500.410645,9102.315058,23427.53833,48155.505951,117530.557655,1.116111,0.417392,114030.14701
Close_EMA_ratio_20,2877.0,1.010694,0.080732,0.574306,0.967827,1.006692,1.052948,1.574461,0.245108,2.967469,1.000155
EMA_50,2877.0,32389.947371,27941.780857,3678.001925,8936.834608,23555.486903,47069.073819,115049.562152,1.092847,0.357824,111371.560227
Close_EMA_ratio_50,2877.0,1.027886,0.141333,0.548204,0.943721,1.015095,1.105389,1.961296,0.760556,2.876248,1.413092
MACD,2877.0,273.733667,1417.098968,-5073.278718,-360.853466,58.237124,761.255203,7019.055192,0.769461,3.080244,12092.33391
MACD_signal,2877.0,272.934275,1348.793817,-4435.851793,-330.054777,54.58259,758.663445,6402.010447,0.763575,2.832589,10837.86224


##### üîé Interpretaci√≥n

Poner aqui analisis ta tendencia

##### ‚û°Ô∏è An√°lisis indicadores t√©cnicos momentum

In [12]:
calcular_descriptivos(df_ta_momentum)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,Asimetria,Kurtosis,Rango
RSI_7,2877.0,52.882299,18.102692,4.439907,39.536221,51.926155,65.768979,98.00688,0.100681,-0.512852,93.566973
RSI_14,2877.0,52.815384,13.800325,10.497797,43.403208,51.623454,62.029643,93.460719,0.220706,-0.189965,82.962922
WR_7,2877.0,-45.490302,28.123555,-99.72088,-70.677592,-43.631453,-20.01212,-0.122164,-0.139242,-1.275807,99.598716
WR_14,2877.0,-45.167787,28.476128,-99.751156,-70.591843,-43.74677,-18.489164,-0.088272,-0.12915,-1.275138,99.662884
STOCH_K_7,2877.0,54.509698,28.123555,0.27912,29.322408,56.368547,79.98788,99.877836,-0.139242,-1.275807,99.598716
STOCH_D_7,2877.0,54.523042,24.728068,4.317959,33.339017,55.383606,77.444141,98.242361,-0.123262,-1.223969,93.924402
STOCH_K_14,2877.0,54.832213,28.476128,0.248844,29.408157,56.25323,81.510836,99.911728,-0.12915,-1.275138,99.662884
STOCH_D_14,2877.0,54.852702,26.650127,2.54184,30.736525,56.218308,79.768334,98.155984,-0.12689,-1.320529,95.614144
ROC_5,2877.0,0.900404,8.095187,-45.986456,-3.187474,0.505118,4.895205,52.424102,0.129256,2.580233,98.410559
ROC_10,2877.0,1.855557,11.910966,-46.15961,-4.60774,0.959207,7.459075,72.010363,0.509949,2.358158,118.169973


##### üîé Interpretaci√≥n

Poner aqui analisis ta momentum

##### ‚û°Ô∏è An√°lisis indicadores t√©cnicos volatilidad

In [13]:
calcular_descriptivos(df_ta_volatilidad)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,Asimetria,Kurtosis,Rango
BB_high_10,2877.0,35380.966466,30447.197171,3506.587946,9757.119654,25549.424213,52601.540158,123678.848949,1.067005,0.252371,120172.261002
BB_low_10,2877.0,30936.04881,27602.898217,2962.598491,8275.661297,22434.789383,44826.742643,116769.698122,1.194176,0.671009,113807.099631
BB_mid_10,2877.0,33158.507638,28982.531494,3358.474,9167.569,23743.971,48655.081,118504.732,1.124953,0.440026,115146.258
BB_width_10,2877.0,4444.917656,4237.343958,103.403025,1220.419676,2885.243415,6796.842993,29790.407368,1.502215,2.572317,29687.004343
BB_percent_10,2877.0,0.53234,0.315796,-0.225344,0.274177,0.540691,0.793387,1.23055,-0.082114,-0.946733,1.455894
BB_high_20,2877.0,36177.998102,30820.018393,3637.401,10095.176281,26320.362892,55388.067875,124134.265631,1.035279,0.160732,120496.86463
BB_low_20,2877.0,29743.443392,26842.907608,2928.349272,7804.987485,21120.074042,43072.5278,116672.98626,1.223666,0.768575,113744.636988
BB_mid_20,2877.0,32960.720747,28750.488054,3500.0485,9169.0465,23406.8575,48369.591,118285.3255,1.119416,0.427407,114785.277
BB_width_20,2877.0,6434.55471,5870.961753,217.462423,1882.203185,4272.804285,9704.810269,38159.504642,1.518769,3.02348,37942.042219
BB_percent_20,2877.0,0.542392,0.337396,-0.514776,0.282993,0.551004,0.815407,1.527677,-0.105932,-0.680659,2.042453


##### üîé Interpretaci√≥n

Poner aqui analisis ta volatilidad

##### ‚û°Ô∏è An√°lisis indicadores t√©cnicos volumen

In [14]:
calcular_descriptivos(df_ta_volumen)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,Asimetria,Kurtosis,Rango
OBV,2877.0,585988.0,1823265.0,-4242190.0,-611814.9,-70031.1,1828557.0,4760994.0,0.706962,-0.648308,9003184.0
CMF_20,2877.0,0.07571064,0.1284597,-0.3142845,-0.016298,0.0715077,0.1622061,0.4500244,0.074843,-0.304946,0.7643088
MFI_14,2877.0,51.95953,17.4033,3.465104,39.70992,51.47964,63.37444,100.0,0.105796,-0.341611,96.5349
ADL,2877.0,6546086.0,4546016.0,3195.411,1541108.0,8064424.0,10743950.0,12790940.0,-0.202352,-1.544273,12787740.0
OBV_diff,2877.0,-175.1814,102047.3,-760705.4,-40989.24,5898.642,42505.45,699360.9,-0.035131,9.301517,1460066.0
OBV_roc_5,2877.0,-0.03612316,8.223816,-337.6824,-0.06897725,-0.002407916,0.06735448,231.835,-16.328198,1217.077391,569.5173
OBV_ma20,2877.0,587603.1,1813595.0,-2596717.0,-601915.3,-77647.58,1786566.0,4639306.0,0.727048,-0.673984,7236022.0
OBV_ma_cross,2877.0,-1615.085,244168.3,-2227947.0,-65686.78,2392.418,77648.64,1881258.0,-0.506261,15.422339,4109204.0
CMF_diff,2877.0,-6.227456e-05,0.04344443,-0.1630574,-0.02867593,0.000214847,0.02761641,0.1826868,0.006286,0.270189,0.3457443
CMF_zscore,2877.0,-0.005404546,1.246786,-3.618682,-1.002224,-0.009590469,0.9869746,3.504066,0.015537,-0.809542,7.122749


##### üîé Interpretaci√≥n

Poner aqui analisis ta volumen

#### üìù An√°lisis variables de *blockchain*

In [15]:
calcular_descriptivos(df_blockchain)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,Asimetria,Kurtosis,Rango
mempool_size,2877.0,41030670.0,59339800.0,287169.5,1637650.0,7640796.0,68418720.0,381070400.0,2.113291,5.529574,380783200.0
transaction_rate,2877.0,3.472132,0.8284501,1.45,3.008333,3.416667,3.866667,8.8,1.166307,4.129961,7.35
market_cap_usd,2877.0,642154100000.0,581472200000.0,55201960000.0,164570000000.0,458872000000.0,920729300000.0,2406473000000.0,1.172646,0.567545,2351271000000.0
average_block_size,2877.0,1.293924,0.3250181,0.4314518,1.053092,1.264695,1.583604,2.524785,0.252795,-0.26609,2.093334
market_price_usd,2877.0,33304.7,29153.29,3231.91,9164.62,23953.77,48897.65,123359.4,1.129149,0.450103,120127.5
exchange_volume_usd,2877.0,357594800.0,372874300.0,17222760.0,132297200.0,242874100.0,431885300.0,4956850000.0,3.29636,18.999473,4939627000.0
average_confirmation_time,2877.0,181.4436,852.4585,3.503122,18.76061,40.76106,98.10156,25809.73,17.045955,404.160694,25806.23
hash_rate,2877.0,272925300.0,261102900.0,5426063.0,84033180.0,159954200.0,406464500.0,1084829000.0,1.145534,0.144572,1079403000.0
difficulty,2877.0,37626550000000.0,35801690000000.0,1123863000000.0,11890590000000.0,21724130000000.0,54150140000000.0,129435200000000.0,1.116996,0.02011,128311400000000.0
miners_revenue,2877.0,28009670.0,15783560.0,4666604.0,15186000.0,24404910.0,39946760.0,107755900.0,0.712198,-0.230897,103089300.0


##### üîé Interpretaci√≥n

Poner analisis variables blockchain

## üîπ 4. An√°lisis de valores at√≠picos *(outliers)*
Se denominan datos at√≠picos (*outliers*) a aquellas observaciones cuyos valores distan mucho del resto de valores de la variable. Estos pueden ser originados por un error en la entrada de datos, un error en la codificaci√≥n o pueden ocurrir como consecuencia de un acontecimiento espor√°dico. Los datos at√≠picos representan un problema y tienen una gran influencia en los resultados si los modelos no son robustos, debido a ello, es necesario analizarlos y tratarlos. 

A continuaci√≥n, **calculamos la proporci√≥n de valores at√≠picos** para cada una de las variables num√©ricas. En este caso, tambi√©n se realizar√° el estudio sobre los subconjuntos creados previamente para facilitar el an√°lisis:

> üëâ **Nota**: Es importante destacar que, por definici√≥n, el n√∫mero de datos at√≠picos ha de ser peque√±o pues, de lo contrario, no podr√°n ser considerados como at√≠picos. En esta instancia, establecemos como criterio que **la proporci√≥n de valores at√≠picos no exceda el 10%** para ser clasificados de dicha manera.

#### üìù *Outliers* en variables de mercado

In [16]:
{x: atipicosAmissing(df_mercado[x])[1] / len(df_mercado) for x in df_mercado.columns}

{'Open': 0.0,
 'High': 0.0,
 'Low': 0.0,
 'Close': 0.0,
 'Volume': 0.03962460896767466,
 'Quote asset volume': 0.004171011470281543,
 'Number of trades': 0.010427528675703858,
 'Taker buy base asset volume': 0.03962460896767466,
 'Taker buy quote asset volume': 0.0045185957594716716}

##### üîé Interpretaci√≥n
- `Open`, `High`, `Low`, `Close` = 0.0 ‚Üí No disponemos de valores at√≠picos en los precios.
- `Volumen` (‚âà 3.96%) y `Taker buy base asset volume` (‚âà 3.96%) ‚Üí Un ~4% de los d√≠as tiene vol√∫menes que destacan como at√≠picos. Esto es bastante esperable en BTC, dado que hay eventos con picos enormes de actividad.
- `Quote asset volume` (‚âà 0.42%) y `Taker buy quote asset volume` (‚âà 0.45%) ‚Üí Proporci√≥n muy baja, menos del 1%.
- `Number of trades` (‚âà 1.04%) ‚Üí Coherente con jornadas de alt√≠sima volatilidad con picos de operaciones.

> üëâ Como ninguna variable excede el l√≠mite establecido, se conservar√°n los valores originales.

#### üìù *Outliers* en indicadores t√©cnicos
##### ‚û°Ô∏è Indicadores t√©cnicos tendencia

In [17]:
{x: atipicosAmissing(df_ta_tendencia[x])[1] / len(df_ta_tendencia) for x in df_ta_tendencia.columns}

{'SMA_20': 0.0,
 'Close_SMA_ratio_20': 0.005213764337851929,
 'SMA_50': 0.0,
 'Close_SMA_ratio_50': 0.005213764337851929,
 'EMA_20': 0.0,
 'Close_EMA_ratio_20': 0.004866180048661801,
 'EMA_50': 0.0,
 'Close_EMA_ratio_50': 0.005213764337851929,
 'MACD': 0.018421967327076814,
 'MACD_signal': 0.017726798748696558,
 'MACD_diff': 0.014946124435175531,
 'PSAR': 0.0,
 'KAMA_10': 0.0,
 'Close_KAMA_ratio': 0.0010427528675703858}

##### üîé Interpretaci√≥n
- `SMA_20`, `SMA_50`, `EMA_20`, `EMA_50`, `PSAR`, `KAMA_10` ‚Üí 0% de *outliers*.
- **Ratios Close Media**: La proporci√≥n de valores at√≠picos es muy bajo, en torno al 1%. Esto parece indicar que el precio solo se dev√≠a "mucho" de la media en algunos d√≠as (d√≠as con movimientos extremos de precio).
  - `Close_SMA_ratio_20`: ~0.52%
  - `Close_SMA_ratio_50`: ~0.52%
  - `Close_EMA_ratio_20`: ~0.49%
  - `Close_EMA_ratio_50`: ~0.52%
  - `Close_KAMA_ratio`: ~0.10%
- **`MACD`**: Este es el indicador con mayor presencia de *outliers*. Esto tiene sentido debido a que se trata de un indicador hibr√≠do, ya que no solo mide la direcci√≥n de la tendencia, sino tambi√©n la fuerza de ese movimiento (*momentum*). En el √°mbito de las criptomonedas, el *momentum* en ocasiones suele ser explosivo.
    - `MACD`: ~1.84%
    - `MACD_signal`: ~1.77%
    - `MACD_diff`: ~1.49%

> üëâ Como ninguna variable excede el l√≠mite establecido, se conservar√°n los valores originales. Adem√°s, eliminar estos datos podr√≠a implicar la p√©rdida de se√±ales valiosas que reflejan cambios extremos en la tendencia, los cuales son especialmente relevantes para el an√°lisis.

##### ‚û°Ô∏è Indicadores t√©cnicos momentum

In [18]:
{x: atipicosAmissing(df_ta_momentum[x])[1] / len(df_ta_momentum) for x in df_ta_momentum.columns}

{'RSI_7': 0.0,
 'RSI_14': 0.0,
 'WR_7': 0.0,
 'WR_14': 0.0,
 'STOCH_K_7': 0.0,
 'STOCH_D_7': 0.0,
 'STOCH_K_14': 0.0,
 'STOCH_D_14': 0.0,
 'ROC_5': 0.0045185957594716716,
 'ROC_10': 0.005561348627042058,
 'ROC_14': 0.006604101494612443,
 'MOM_5': 0.020507473062217587,
 'MOM_10': 0.017726798748696558,
 'dRSI_7': 0.0031282586027111575,
 'dRSI_14': 0.0072992700729927005,
 'dROC_5': 0.0045185957594716716,
 'dROC_10': 0.005908932916232186,
 'dROC_14': 0.009732360097323601,
 'dMOM_5': 0.021202641640597843,
 'dMOM_10': 0.025721237400069517}

##### üîé Interpretaci√≥n
- `RSI` (7 y 14), `Williams %R` (7 y 14), `Stochastic K/D` (7 y 14) ‚Üí 0% de *outliers*.
- **`ROC` (Rate of Change)**: La proporci√≥n de valores at√≠picos es inferior al 1%. Se observa que, a medida que el periodo analizado se extiende, aumenta el n√∫mero de outliers. Esto es l√≥gico, ya que un mayor intervalo temporal conlleva una mayor probabilidad de variaciones significativas.
    - `ROC_5`: ~0.45%
    - `ROC_10`: ~0.55%
    - `ROC_14`: ~0.66%
- **Momentum Simple (`MOM`)**: Mayor presencia de valores at√≠picos ~2%. Esto es comprensible, ya que el indicador refleja la diferencia entre el precio actual y el pasado. Al no estar normalizado, tiende a mostrar valores elevados durante movimientos extremos del activo.
    - `MOM_5`: ~2.05%
    - `MOM_10`: ~1.77%
- **Diferencias de indicadores (`dRSI`, `dROC`, `dMOM`)**: Se observa una mayor presencia de valores at√≠picos, especialmente en el indicador `dMOM`. Esto se debe a que, al calcular diferencias, se amplifican los movimientos bruscos del activo.
    - `dRSI_7`: ~0.31%
    - `dRSI_14`: ~0.73%
    - `dROC_5`: ~0.45%
    - `dROC_10`: ~0.59%
    - `dROC_14`: ~0.97%
    - `dMOM_5`: ~2.12%
    - `dMOM_10`: ~2.57%
      
> üëâ Como ninguna variable excede el l√≠mite establecido, se conservar√°n los valores originales. El √∫nico caso que podr√≠a presentar cierta sensibilidad es el de `MOM`/`dMOM`, ya que los valores at√≠picos reflejan fuertes shocks en el mercado. Sin embargo, no se eliminar√°n, dado que estos outliers representan precisamente los movimientos m√°s relevantes. No obstante, podr√≠a ser conveniente considerar su escalado o aplicar alguna transformaci√≥n para mejorar su interpretaci√≥n en la fase de modelizaci√≥n.

##### ‚û°Ô∏è Indicadores t√©cnicos volatilidad

In [19]:
{x: atipicosAmissing(df_ta_volatilidad[x])[1] / len(df_ta_volatilidad) for x in df_ta_volatilidad.columns}

{'BB_high_10': 0.0,
 'BB_low_10': 0.0,
 'BB_mid_10': 0.0,
 'BB_width_10': 0.0006951685783802572,
 'BB_percent_10': 0.0,
 'BB_high_20': 0.0,
 'BB_low_20': 0.0,
 'BB_mid_20': 0.0,
 'BB_width_20': 0.0,
 'BB_percent_20': 0.0,
 'ATR_14': 0.0,
 'ATR_20': 0.0,
 'KC_high_10': 0.0,
 'KC_low_10': 0.0,
 'KC_mid_10': 0.0,
 'KC_width_10': 0.0,
 'KC_high_20': 0.0,
 'KC_low_20': 0.0,
 'KC_mid_20': 0.0,
 'KC_width_20': 0.0,
 'DC_high_20': 0.0,
 'DC_low_20': 0.0,
 'DC_mid_20': 0.0,
 'DC_width_20': 0.0}

##### üîé Interpretaci√≥n
Comprobamos que todos los indicadores de volatilidad est√°n libres de *outliers*, con la √∫nica excepci√≥n de `BB_width_10`, cuya proporci√≥n de valores at√≠picos es m√≠nima (~0.07%) y puede considerarse despreciable.

> üëâ A diferencia de los indicadores t√©cnicos de *momentum*, los indicadores de volatilidad presentan una din√°mica mucho m√°s suave, ya que se basan en medias m√≥viles, rangos y el ATR (Average True Range). Asimismo, no exceden el l√≠mite establecido y se conservar√°n los valores originales.

##### ‚û°Ô∏è Indicadores t√©cnicos volumen

In [20]:
{x: atipicosAmissing(df_ta_volumen[x])[1] / len(df_ta_volumen) for x in df_ta_volumen.columns}

{'OBV': 0.0,
 'CMF_20': 0.0,
 'MFI_14': 0.0,
 'ADL': 0.0,
 'OBV_diff': 0.026068821689259645,
 'OBV_roc_5': 0.0667361835245047,
 'OBV_ma20': 0.0,
 'OBV_ma_cross': 0.023635731664928744,
 'CMF_diff': 0.0,
 'CMF_zscore': 0.0,
 'MFI_diff': 0.0003475842891901286,
 'MFI_zscore': 0.0,
 'ADL_diff': 0.02537365311087939,
 'ADL_roc_5': 0.08411539798401112,
 'Vol_SMA20': 0.06360792492179354,
 'Vol_SMA50': 0.0740354535974974,
 'Vol_ratio_20': 0.001737921445950643,
 'Vol_ratio_50': 0.003475842891901286}

##### üîé Interpretaci√≥n
- `OBV`, `OBV_ma20`, `CMF_20`, `CMF_diff`, `CMF_zscore`, `MFI_14`, `MFI_diff`, `MFI_zscore`, `ADL`, `Vol_ratio_20`, `Vol_ratio_50` ‚Üí 0% de *outliers*.
- **Diferencias respecto a valores previos** (`OBV_diff`, `OBV_ma_cross`, `ADL_diff`): presentan entre un 2% y 3% de valores at√≠picos. Esto ocurre porque al calcular diferencias se amplifican los movimientos bruscos de volumen.
    - `OBV_diff`: ~2.6%
    - `OBV_ma_cross`: ~2.3%
    - `ADL_diff`: ~2.5%
- Indicadores basados en cambios porcentuales y medias de volumen (`OBV_roc_5`, `ADL_roc_5`, `Vol_SMA20`, `Vol_SMA50`): mayor presencia de *outliers*, entre 6% y 8%. ambos pueden verse distorsionados por picos anormales en el volumen y los ROC, adem√°s, son sensibles a denominadores peque√±os.
    - `OBV_roc_5`: ~6.6%
    - `ADL_roc_5`: ~8.4%
    - `Vol_SMA20`: ~6.3%
    - `Vol_SMA50`: ~7.4%
      
> üëâ La mayor√≠a de los indicadores de volumen son robustos y no presentan *outliers* (`OBV`, `CMF`, `MFI`, `ADL`). Los que muestran cierta sensibilidad (`OBV_diff`, `ADL_diff`) reflejan cambios puntuales y, aunque generan algo de ruido, representan reacciones naturales a shocks de mercado. Los casos m√°s problem√°ticos son los indicadores porcentuales (`ROC`) y las medias largas de volumen (`Vol_SMA`), que concentran hasta un 8% de at√≠picos. No obstante, estos valores extremos son informativos (picos de volumen), por lo que no deber√≠an eliminarse, aunque s√≠ puede ser √∫til escalar o transformar estas variables para que no dominen en los futuros modelos. Por lo tanto, se conservar√°n los valores originales para dichas variables.

#### üìù *Outliers* en variables *blockchain*

In [21]:
{x: atipicosAmissing(df_blockchain[x])[1] / len(df_blockchain) for x in df_blockchain.columns}

{'mempool_size': 0.011817865832464372,
 'transaction_rate': 0.0003475842891901286,
 'market_cap_usd': 0.0,
 'average_block_size': 0.0,
 'market_price_usd': 0.0,
 'exchange_volume_usd': 0.009384775808133473,
 'average_confirmation_time': 0.07021202641640598,
 'hash_rate': 0.0,
 'difficulty': 0.0,
 'miners_revenue': 0.0,
 'total_transaction_fees': 0.047966631908237745}

##### üîé Interpretaci√≥n
- `market_cap_usd`, `average_block_size`, `market_price_usd`, `hash_rate`, `difficulty`, `miners_revenue` ‚Üí 0% de *outliers*.
- `transaction_rate`: ~0.03% de outliers. Los picos de actividad en la red podr√≠an explicar la presencia de valores extremos en este caso, aunque la proporci√≥n es muy baja e incluso despreciable.
- `exchange_volume_usd`: ~0.94% de outliers. En este contexto, los valores at√≠picos pueden estar asociados a incrementos repentinos de actividad en los *exchanges*. Esto suele coincidir con *shocks* de mercado (entrada/salida masiva de capital).
- `mempool_size`: ~1.18% de outliers. Refleja acumulaciones at√≠picas de transacciones no confirmadas. Estos picos suelen corresponder a congesti√≥n de red (cuando la demanda de transacciones excede la capacidad de los bloques).
- `total_transaction_fees`: ~4.8% de outliers. Es la segunda variable que m√°s valores at√≠picos manifiesta. Esto es esperable, ya que las *fees* son muy sensibles a la congesti√≥n de la red y pueden dispararse en momentos de alta demanda.

> **Nota**: En *blockchain*, las *fees* (comisiones) son el pago que los usuarios hacen para que sus transacciones sean incluidas en un bloque por los mineros (o validadores).

- `average_confirmation_time`: ~7.0% de outliers. Es la variable con mayor proporci√≥n de valores at√≠picos. El tiempo de confirmaci√≥n puede dispararse en momentos de saturaci√≥n de la red o ca√≠das temporales de *hash rate*. Por tanto, aunque los valores extremos reflejan fen√≥menos reales, aportan bastante variabilidad.

> **Nota**: Una ca√≠da temporal de *hash rate* significa que la potencia de c√≥mputo total que los mineros aportan a la red blockchain disminuye de forma repentina durante un periodo corto. Causas comunes: cortes de energ√≠a, prohibiciones/regulaciones en un pa√≠s, ca√≠da de la rentabilidad.

> üëâ Como ninguna variable excede el l√≠mite establecido, se conservar√°n los valores originales. La mayor√≠a de m√©tricas *blockchain* son estables y no presentan outliers (`market cap`, `difficulty`, `hash_rate`, etc.). Los indicadores m√°s ruidosos son `total_transaction_fees` (‚âà5%) y `average_confirmation_time` (‚âà7%). En ambos casos, los *outliers* reflejan episodios de congesti√≥n o ineficiencia en la red. Aunque representan ruido estad√≠stico, conviene no eliminarlos, ya que son se√±ales clave de estr√©s en la *blockchain*.

## üîπ 5. An√°lisis de valores perdidos
Al igual que los valores at√≠picos, la presencia de datos faltantes ha de ser analizada y abordada, ya que pueden reducir el n√∫mero de observaciones v√°lidas para los procedimientos estad√≠sticos. Asimismo, si la presencia de valores perdidos no es aleatoria, y se deciden eliminar estas observaciones, se puede incurrir en un mayor sesgo en los modelos. Inicialmente, verificamos si existe valores perdidos en las variables de nuestro conjunto de datos:

In [35]:
# =============================================================================
# Comprobamos si nuestro conjunto de datos tiene valores perdidos
# =============================================================================

df_missings = df_bitcoin.isna().sum().reset_index()
df_missings.columns = ['columna', 'n_missing']

print(df_missings)
print('')
print('------------------------------------------')
print('')

# Luego filtramos las columnas que tienen valores faltantes
filtrado = df_missings[df_missings['n_missing'] > 0]

filtrado

                      columna  n_missing
0                   Open time          0
1                        Open          0
2                        High          0
3                         Low          0
4                       Close          0
..                        ...        ...
93  average_confirmation_time          0
94                  hash_rate          0
95                 difficulty          0
96             miners_revenue          0
97     total_transaction_fees          0

[98 rows x 2 columns]

------------------------------------------



Unnamed: 0,columna,n_missing


> üëâ Verificamos que el dataset no contiene valores faltantes. Por lo tanto, no ser√° necesario aplicar ninguna t√©cnica de imputaci√≥n o tratamiento de datos ausentes.