## Importación de Datos

In [None]:
ruta = '/content/drive/MyDrive/TOG/IDI III/Datos/'
df = pd.read_excel(ruta+"datos_klines.xlsx")

Visualización de 'datos'

In [None]:
df.head()

Nombrar las columnas

In [None]:
df.columns = ['Open_time','Open','High','Low','Close',
                'Volume','Close_time','Quote_asset_volume',
                'Number_of_trades','Taker_buy_base_asset_volume',
                'Taker_buy_quote_asset_volume','Ignore','Response']

Información de 'data'

In [None]:
df.info()

## Conversión 'unix'

In [None]:
df['Open_time'] = pd.to_datetime(df['Open_time'], unit='ms', origin='unix')
df['Close_time'] = pd.to_datetime(df['Close_time'], unit='ms',origin='unix')

## Análisis Exploratorio

Definición de los parámetros de los gráficos

In [None]:
plt.rcParams.update({'font.size': 11, 'figure.figsize': (20, 13)})
plt.style.use('ggplot')

### ¿Cómo están distribuidos los datos?

In [None]:
df.hist()

Con la información que se tiene hasta el momento podemos determinar lo siguiente:
- 'Open_time' y 'Close_time' se comportan de la misma manera como pudiera esperarse ya que únicamente son "timestamps"
- 'Open' y 'Close',siendo valores de precio de apertura y cierre por hora, comparten la misma figura de su distribución. Esto es debido a que el precio de Cierre en la hora t será el mismo precio que el de apertura en el tiempo t+1
- Las distribuciones de 'High' y 'Low' son bastante parecidas pero se alcanza a percibir una diferencia alrededor de los valores de 1800 en el eje x
- 3 distribuciones son bastante similares (a simple vista no se encuentran diferencias significativas) 'Number of trades', 'Taker buy base asset volume', 'taker buy quote asset volume'
- La variable 'Ignore' siempre se encuentra en los mismos valores
- La variable de respuesta (subida o bajada de precio) presenta frecuencias similares

### Simetría y Curtosis

In [None]:
df.skew()

In [None]:
df.kurt()

In [None]:
sns.countplot(x='Response', data=df)
plt.title('Distribución de la Variable Objetivo')
plt.show()

Se puede visualizar variables altamente correlacionadas entre sí.

### Visualización de Datos

¿Cómo se comporta el precio de apertura a lo largo del tiempo?

In [None]:
df.plot(kind='scatter', x='Open_time', y='Open', s=32, alpha=.8)
plt.gca().spines[['top', 'right',]].set_visible(False)

Se observa que incrementa el precio y por algunos periodos de tiempo permanece entre un rango, baja el valor y luego vuelve a iniciar el mismo ciclo. A grandes rasgos se observa que el precio de apertura esta en crecimiento.

¿Cómo se comporta el precio de apertura a comparación de el precio Alto a lo largo del tiempo?

In [None]:
df.plot(kind='scatter', x='Open', y='High', s=32, alpha=.8)
plt.gca().spines[['top', 'right',]].set_visible(False)

Se aprecia que en muchas partes el precio de Apertura y el precio Alto es el mismo.

¿Cómo se comporta el precio de Alto a comparación del precio Bajo a lo largo del tiempo?

In [None]:
df.plot(kind='scatter', x='High', y='Low', s=32, alpha=.8)
plt.gca().spines[['top', 'right',]].set_visible(False)

Se observa que en muchas ocaciones el precio Alto es igual al precio Bajo.

¿Cómo se comporta el precio de Bajo a comparación del precio de Cierre a lo largo del tiempo?

In [None]:
df.plot(kind='scatter', x='Low', y='Close', s=32, alpha=.8)
plt.gca().spines[['top', 'right',]].set_visible(False)

Se presenta el mismo fenómeno que en las visualizaciones pasadas, hay precios que son iguales en distintos tiempos.

¿Cómo se vería la concentración de Volumen con respecto al precio de Cierre?

In [None]:
df.plot(kind='scatter', x='Close', y='Volume', s=32, alpha=.8)
plt.gca().spines[['top', 'right',]].set_visible(False)

Se observa que hay volumenes menores entre los precios de 1500 y 2000.

### ¿Cómo cambiaría las visualizaciones si agregaramos variables/características tomando en cuenta la fecha?

Dividiendo 'Open Time'

In [None]:
df.set_index('Open_time', inplace = True)

Día de la Semana

In [None]:
df['day_of_week'] = df.index.dayofweek

Hora del Día

In [None]:
df['hour_of_day'] = df.index.hour

Mes

In [None]:
df['month'] = df.index.month

¿Qué día de la semana, hora del día y mes tiene más registros de subida de precios?

In [None]:
df_up = df[df['Response'] == 1]
df_down = df[df['Response'] == 0]

In [None]:
sns.countplot(x='day_of_week', data=df_up, order=df_up['day_of_week'].value_counts().index)
plt.title('Frecuencia de Días de la Semana donde el Precio Sube')
plt.xlabel('Día de la Semana')
plt.ylabel('Frecuencia')
plt.show()

sns.countplot(x='hour_of_day', data=df_up, order=df_up['hour_of_day'].value_counts().index)
plt.title('Frecuencia de Horas del Día donde el Precio Sube')
plt.xlabel('Hora del Día')
plt.ylabel('Frecuencia')
plt.show()

sns.countplot(x='month', data=df_up, order=df_up['month'].value_counts().index)
plt.title('Frecuencia de Mes del Año donde el Precio Sube')
plt.xlabel('Mes')
plt.ylabel('Frecuencia')
plt.show()

Se aprecia que los días 6 y 4 tienen una frecuencia de subida de precio mayor a los demás días de la semana. Las horas con mayor frecuencia de subida de precio es desde las 17 horas hasta las 23, de acuerdo con los datos utilizados. Por último, se observa que los meses que tienen mayor frecuencia de subida de precios son el mes 1 y el 6.

¿Qué día de la semana, hora del día y mes tiene menos registros de subida de precios?

In [None]:
sns.countplot(x='day_of_week', data=df_down, order=df_down['day_of_week'].value_counts().index)
plt.title('Frecuencia de Días de la Semana donde el Precio Baja')
plt.xlabel('Día de la Semana')
plt.ylabel('Frecuencia')
plt.show()

sns.countplot(x='hour_of_day', data=df_down, order=df_down['hour_of_day'].value_counts().index)
plt.title('Frecuencia de Horas del Día donde el Precio Baja')
plt.xlabel('Hora del Día')
plt.ylabel('Frecuencia')
plt.show()

sns.countplot(x='month', data=df_down, order=df_down['month'].value_counts().index)
plt.title('Frecuencia de Horas del Día donde el Precio Baja')
plt.xlabel('Mes')
plt.ylabel('Frecuencia')
plt.show()

Se aprecia que los días 5 y 0 tienen una frecuencia de bajada de precio mayor a los demás días de la semana. Las horas con menor frecuencia de subida de precio es desde las 13 horas hasta las 16 y con un periodo también bajo a las 5. Por último, se observa que los meses que tienen mayor frecuencia de bajada de precios son el mes 7 y el 8.

### ¿Qué pudieramos observar si empezamos a crear nuevas características a partir de operaciones con las columnas ya existentes?

¿Pudiera impactar el rango entre el valor máximo y el mínimo dentro de una misma hora?

In [None]:
df['daily_range'] = df['High'] - df['Low']

In [None]:
sns.boxplot(x='Response', y='daily_range', data=df)
plt.title('Comparación de Daily Range para Subidas y Bajadas')
plt.xlabel('Precio Sube (1) o Baja (0)')
plt.ylabel('Daily Range')
plt.show()

En la gráfica anterior se puede observar que los gráficos de caja son similares. No se puede observar a simple vista alguna diferencia que la que pudieramos inferir.

In [None]:
df['buy_sell_ratio'] = df['Taker_buy_base_asset_volume'] / df['Taker_buy_quote_asset_volume']

In [None]:
sns.boxplot(x='Response', y='buy_sell_ratio', data=df)
plt.title('Comparación de Buy/Sell Ratio para Subidas y Bajadas')
plt.xlabel('Precio Sube (1) o Baja (0)')
plt.ylabel('Buy/Sell Ratio')
plt.show()

En la gráfica anterior se puede observar que los gráficos de caja son similares. No se puede observar a simple vista alguna diferencia que la que pudieramos inferir.

Volumen promedio

In [None]:
win_size = 24

In [None]:
df['Average_Volume'] = df['Volume'].rolling(window= win_size).mean()

In [None]:
df['Relative_Volume'] = df['Volume'] / df['Average_Volume']

In [None]:
df.columns

In [None]:
df.describe()

Se tomarán los valores del 50% para determinar si es alto o bajo, si es mayor al 50% se asignara un '1' de lo contrario '0'

Valores Altos o Bajos (1,0) en 'Open', 'High', 'Low', 'Close', Volume','Quote_asset_volume', 'Number_of_trades','Taker_buy_base_asset_volume' y 'Taker_buy_quote_asset_volume'

In [None]:
median_open = df['Open'].median()
median_high = df['High'].median()
median_low = df['Low'].median()
median_close = df['Close'].median()
median_volume = df['Volume'].median()
median_quote = df['Quote_asset_volume'].median()
median_number = df['Number_of_trades'].median()
median_base = df['Taker_buy_base_asset_volume'].median()
median_asset = df['Taker_buy_quote_asset_volume'].median()

open_range = []
high_range = []
low_range = []
close_range = []
volume_range = []
quote_range = []
number_range = []
base_range = []
asset_range = []

for i in df['Open']:
  if i > median_open:
    open_range.append(1)
  else:
    open_range.append(0)

df['Open_range'] = open_range

for i in df['High']:
  if i > median_high:
    high_range.append(1)
  else:
    high_range.append(0)

df['High_range'] = high_range

for i in df['Low']:
  if i > median_low:
    low_range.append(1)
  else:
    low_range.append(0)

df['Low_range'] = low_range

for i in df['Close']:
  if i > median_close:
    close_range.append(1)
  else:
    close_range.append(0)

df['Close_range'] = close_range

for i in df['Volume']:
  if i > median_volume:
    volume_range.append(1)
  else:
    volume_range.append(0)

df['Volume_range'] = volume_range

for i in df['Quote_asset_volume']:
  if i > median_quote:
    quote_range.append(1)
  else:
    quote_range.append(0)

df['Quote_range'] = quote_range

for i in df['Number_of_trades']:
  if i > median_number:
    number_range.append(1)
  else:
    number_range.append(0)

df['Number_range'] = number_range

for i in df['Taker_buy_base_asset_volume']:
  if i > median_base:
    base_range.append(1)
  else:
    base_range.append(0)

df['Base_range'] = base_range

for i in df['Taker_buy_quote_asset_volume']:
  if i > median_asset:
    asset_range.append(1)
  else:
    asset_range.append(0)

df['Asset_range'] = asset_range

In [None]:
df.describe()

### Correlación

In [None]:
df_corr = df.drop('Ignore', axis = 1)
correlation_matrix = df_corr.corr()


sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)
plt.title('Matriz de Correlación')
plt.show()

Es evidente que algunas variables tienen alta correlación entre sí tales como:
- 'Open'
- 'High'
- 'Low'
- 'Close'

Así como también:
- 'Volume'
- 'Quote_asset_volume'
- 'Number_of_trades'
- 'Taker_buy_base_volume'
- 'Taker_buy_quote_asset_volume'