# Cryptocurrency Market Efficiency

Este cuaderno está orientado a la documentación de los cálculos.

## Librerías

In [1]:
import pandas as pd
import numpy as np
import glob
import openpyxl

## Lectura de ejemplo

Dado que se van a analizar las hipótesis de eficiencia de los mercados de criptomonedas, se va a limitar el tamaño del _DataFrame_. En concreto, se van a conservar las columnas _time_ y _PriceUSD_, relativas a la fecha y al precio en dólares, respectivamente. Esto con el objetivo de calcular las rentabilidades.

In [2]:
BTC = pd.read_csv("csv221022/btc.csv",
                  sep = ",",
                  header = 0,
                  usecols = ["time","PriceUSD"],
                  parse_dates= ["time"])
BTC

Unnamed: 0,time,PriceUSD
0,2009-01-03,
1,2009-01-04,
2,2009-01-05,
3,2009-01-06,
4,2009-01-07,
...,...,...
5037,2022-10-19,19132.154425
5038,2022-10-20,19033.376024
5039,2022-10-21,19174.876349
5040,2022-10-22,19207.628508


In [None]:
# Concatenar los dos dataframes en uno solo
result = pd.merge(df1, df2, on="time", how="outer", suffixes=("btc", "xtz"))

# Mostrar el dataframe final
print(result)

         time      btc           xtz
0  2010-02-23      1.0           NaN
1  2018-11-11  16000.0  1.2977941496
2  2017-07-05      NaN          1,58


In [None]:
XTZ = pd.read_csv("csv221022/xtz.csv",
                  sep = ",",
                  header = 0,
                  usecols = ["time","PriceUSD"],
                  parse_dates= ["time"])
XTZ

Unnamed: 0,time,PriceUSD
0,2017-06-25,
1,2017-06-26,
2,2017-06-27,
3,2017-06-28,
4,2017-06-29,
...,...,...
2009,2022-12-25,0.785139
2010,2022-12-26,0.793922
2011,2022-12-27,0.770762
2012,2022-12-28,0.735801


## Generar una lista de nombres de los activos, a partir de los archivos csv

In [None]:
path = "csv221022/"
csvs = sorted(glob.glob(path + "*.csv"))
nombres = [element.replace("csv221022/", "") for element in csvs]
nombres = [element.replace(".csv", "") for element in nombres]

## Lectura de todos los csv

Añadir una linea de codigo al bucle que consiga modificar el nombre del ultimo elemento añadido a la lista a través de corchetes y un replace

In [None]:
dataframes_list = []
for i in range(len(nombres)):
    temp_df = pd.read_csv(filepath_or_buffer = "csv221022/"+nombres[i]+".csv",
                          header = 0,
                          sep = ",",
                          parse_dates = ["time"])
    dataframes_list.append(temp_df)
    

  exec(code_obj, self.user_global_ns, self.user_ns)


In [None]:
#Calcula el número de columna que coincida con PriceUSD en el df concreto del loop for anterior
len(temp_df.columns=="PriceUSD")


112

### Comprobar si existe la columna "PriceUSD" en todos los CSV

In [None]:
dataframes_list = []
boo = []
longli = []
archli = []
for i in range(len(nombres)):
    temp_df = pd.read_csv(filepath_or_buffer = "csv221022/"+nombres[i]+".csv",
                          header = 0,
                          sep = ",")
    if "PriceUSD" in temp_df.columns:
            boo1 = "True"
            longi = len(temp_df.columns == "PriceUSD")
            longli.append(longi)
            archi = nombres[i]
            boo.append(boo1)
            archli.append(archi)
    else:
            boo1 = "False"
            boo.append(boo1)
            longi = "NaN"
            longli.append(longi)
            archi = nombres[i]
            archli.append(archi)
            
    dataframes_list.append(temp_df)
df = pd.DataFrame({
    "Existe":boo,
    "Nombre":archli,
    "Posición":longli})
df

Unnamed: 0,Existe,Nombre,Posición
0,True,1inch,112
1,True,aave,112
2,False,abbc,
3,False,abt,
4,False,aca,
...,...,...,...
578,True,zec,132
579,False,zen,
580,False,zil,
581,False,zks,


### Creación del _Dataframe_ final

El siguiente fragmento de código crea dos listas, _dflistcompleto_ y _dflistpriceusd_, y utiliza un bucle _for_ para iterar a través de una lista de nombres obtenidos anteriormente. Dentro del bucle, se lee un archivo CSV utilizando la función _read_csv_ de la librería Pandas y se almacena el resultado en un _dataframe_ temporal llamado _temp_df_.

Luego, se comprueba si la columna "PriceUSD" está presente en el dataframe temporal con la instrucción _if_ "PriceUSD" en _temp_df.columns_. Si dicha columna está presente, se lee de nuevo el archivo CSV, pero esta vez sólo se incluyen las columnas "time" y "PriceUSD" utilizando el argumento _usecols_. El resultado se almacena en otro _dataframe_ temporal llamado _temp_df_priceusd_, y se renombra la columna "PriceUSD" con el nombre que se encuentra en la lista de nombres. Finalmente, se añade el dataframe temporal a la lista _dflistpriceusd_. Si la columna "PriceUSD" no está presente en el _dataframe_ temporal, se salta el resto del bucle con la instrucción _continue_.

Por último, se añade el dataframe temporal original a la lista _dflistcompleto_. Al finalizar el bucle, ambas listas contendrán dataframes leídos de archivos CSV con nombres específicos.

In [None]:
dflistcompleto = []
dflistpriceusd = []
for i in range(len(nombres)):
    temp_df = pd.read_csv(filepath_or_buffer = "csv221022/" + nombres[i] + ".csv",
                          header = 0,
                          sep = ",")
    if "PriceUSD" in temp_df.columns:
        temp_df_priceusd = pd.read_csv(filepath_or_buffer = "csv221022/" + nombres[i] + ".csv",
                          header = 0,
                          usecols = ["time", "PriceUSD"],
                          sep = ",")
        temp_df_priceusd.rename(columns = {'PriceUSD': nombres[i]}, inplace = True)
        dflistpriceusd.append(temp_df_priceusd)
        temp_df_priceusd.set_index("time")
        #temp_df_priceusd.drop(columns = "time")
    else:
        continue
    dflistcompleto.append(temp_df)
    

#df_merged = pd.concat(dflistpriceusCambios gitignored, sort=False)


  exec(code_obj, self.user_global_ns, self.user_ns)


In [None]:
df_priceusd = pd.concat(dflistpriceusd, axis = 0, join = "outer")


### Comprobar valor máximo, posición en la lista y nombre del activo

In [None]:
maslargo = []
for i in range(len(dflistpriceusd)):
    maximo = len(dflistpriceusd[i])
    maslargo.append(maximo)
print(["Longitud de cada elemento de la lista:", maslargo, 
       "Valor máximo:", max(maslargo), 
       "Posición en la lista:", maslargo.index(max(maslargo)),
       "Nombre del activo:", nombres[maslargo.index(max(maslargo))]
       ])

['Longitud de cada elemento de la lista:', [737, 827, 1924, 1298, 824, 2055, 923, 2041, 1980, 2004, 657, 1511, 5109, 1893, 1212, 1031, 1507, 870, 1998, 1143, 3267, 2517, 3276, 3309, 948, 1856, 1838, 2009, 348, 2354, 2710, 1349, 2002, 2265, 2082, 2240, 1445, 1573, 1116, 1360, 1794, 1383, 603, 1935, 1929, 1318, 1318, 1931, 1763, 1705, 4102, 3174, 1963, 1349, 2468, 2359, 1316, 2004, 1574, 1222, 2023, 846, 1796, 2036, 1999, 1907, 1729, 1825, 961, 2631, 1008, 1738, 2021, 1755, 882, 856, 847, 1909, 302, 1762, 1086, 837, 1610, 1324, 3288, 1857, 3006, 1353, 3276, 1497, 1843, 905, 1991, 1087, 2831, 3061, 3178, 3650, 2014, 3004, 896, 2254, 1967], 'Valor máximo:', 5109, 'Posición en la lista:', 12, 'Nombre del activo:', 'aioz']


### Comprobar la longitud del dataframe

In [None]:
print(df_priceusd.count())

time     187266
1inch       733
aave        810
ada        1854
algo       1286
          ...  
xtz        1643
xvg        1916
yfi         887
zec        2252
zrx        1966
Length: 104, dtype: int64


### Cambiar formato a fecha

In [None]:
# Renombrar columna
df_priceusd.rename(index = str, columns = {"time": "Time"}, inplace = True)

# Cambiar el DType de la columna "Time"
#df_priceusd['Time'] = pd.to_datetime(df_priceusd['Time'])

# Cambiar el formato de la fecha de YYY-MM-DD a DD-MM-YYYY (%y/%m/%d)
#df_priceusd['Time'] = df_priceusd["Time"].dt.strftime('%d-%m-%Y')

# Ordenar las fechas de forma ascendente MAL
#df_priceusd.sort_values(by = "Time", ascending = True, inplace = False)
df_priceusd.sort_values(by = "Time", key = pd.to_datetime)

In [None]:
df_priceusd

Unnamed: 0,Time,1inch,aave,ada,algo,alpha,ant,bal,bat,bch,...,xaut,xem,xlm,xmr,xrp,xtz,xvg,yfi,zec,zrx
0,2020-12-23,,,,,,,,,,...,,,,,,,,,,
1,2020-12-24,,,,,,,,,,...,,,,,,,,,,
2,2020-12-25,,,,,,,,,,...,,,,,,,,,,
3,2020-12-26,1.619328,,,,,,,,,...,,,,,,,,,,
4,2020-12-27,1.072350,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1962,2022-12-25,,,,,,,,,,...,,,,,,,,,,0.163819
1963,2022-12-26,,,,,,,,,,...,,,,,,,,,,0.163823
1964,2022-12-27,,,,,,,,,,...,,,,,,,,,,0.160283
1965,2022-12-28,,,,,,,,,,...,,,,,,,,,,0.153643


### Exportar _dataframe_ final a XLSX

In [None]:
df_priceusd.to_excel("dataframefinal.xlsx", index = False)

In [None]:
# Lista con los datos para crear los dataframes
my_list = dflistpriceusd

df_list = []

# Nombres de las columnas
column_names = nombres

# Bucle para separar los elementos de la lista en dataframes individuales
contador = 0
for element in my_list:
    df = pd.DataFrame(element, columns = ["time", "priceusd"])
    df.rename(index = str, columns = {"priceusd": nombres[contador]}, inplace = True)
    contador = contador + 1
    df_list.append(df)

# Mostrar los dataframes separados
for df in df_list:
    print("df", df)

df            time  1inch
0    2020-12-23    NaN
1    2020-12-24    NaN
2    2020-12-25    NaN
3    2020-12-26    NaN
4    2020-12-27    NaN
..          ...    ...
732  2022-12-25    NaN
733  2022-12-26    NaN
734  2022-12-27    NaN
735  2022-12-28    NaN
736  2022-12-29    NaN

[737 rows x 2 columns]
df            time  aave
0    2020-09-24   NaN
1    2020-09-25   NaN
2    2020-09-26   NaN
3    2020-09-27   NaN
4    2020-09-28   NaN
..          ...   ...
822  2022-12-25   NaN
823  2022-12-26   NaN
824  2022-12-27   NaN
825  2022-12-28   NaN
826  2022-12-29   NaN

[827 rows x 2 columns]
df             time  abbc
0     2017-09-23   NaN
1     2017-09-24   NaN
2     2017-09-25   NaN
3     2017-09-26   NaN
4     2017-09-27   NaN
...          ...   ...
1919  2022-12-25   NaN
1920  2022-12-26   NaN
1921  2022-12-27   NaN
1922  2022-12-28   NaN
1923  2022-12-29   NaN

[1924 rows x 2 columns]
df             time  abt
0     2019-06-11  NaN
1     2019-06-12  NaN
2     2019-06-13  NaN
3     2019-

In [None]:
df_merged = pd.concat(objs = df_list, axis = 0, join = "outer")
df_merged

Unnamed: 0,time,1inch,aave,abbc,abt,aca,ach,ada,adx,ae,...,ceek,cel,celo,celr,cfx,chat,chess,chf,chr,chsb
0,2020-12-23,,,,,,,,,,...,,,,,,,,,,
1,2020-12-24,,,,,,,,,,...,,,,,,,,,,
2,2020-12-25,,,,,,,,,,...,,,,,,,,,,
3,2020-12-26,,,,,,,,,,...,,,,,,,,,,
4,2020-12-27,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1962,2022-12-25,,,,,,,,,,...,,,,,,,,,,
1963,2022-12-26,,,,,,,,,,...,,,,,,,,,,
1964,2022-12-27,,,,,,,,,,...,,,,,,,,,,
1965,2022-12-28,,,,,,,,,,...,,,,,,,,,,
