# Cryptocurrency Market Efficiency

Este cuaderno está orientado a la documentación de los cálculos.

## Librerías

In [22]:
import pandas as pd
import numpy as np
import glob
import openpyxl

## Lectura de ejemplo

Dado que se van a analizar las hipótesis de eficiencia de los mercados de criptomonedas, se va a limitar el tamaño del _DataFrame_. En concreto, se van a conservar las columnas _time_ y _PriceUSD_, relativas a la fecha y al precio en dólares, respectivamente. Esto con el objetivo de calcular las rentabilidades.

In [3]:
BTC = pd.read_csv("csv221022/btc.csv",
                  sep = ",",
                  header = 0,
                  usecols = ["time","PriceUSD"],
                  parse_dates= ["time"])
BTC

Unnamed: 0,time,PriceUSD
0,2009-01-03,
1,2009-01-04,
2,2009-01-05,
3,2009-01-06,
4,2009-01-07,
...,...,...
5037,2022-10-19,19132.154425
5038,2022-10-20,19033.376024
5039,2022-10-21,19174.876349
5040,2022-10-22,19207.628508


## Generar una lista de nombres de los activos, a partir de los archivos csv

In [4]:
path = "csv221022/"
csvs = sorted(glob.glob(path + "*.csv"))
nombres = [element.replace("csv221022/", "") for element in csvs]
nombres = [element.replace(".csv", "") for element in nombres]

## Lectura de todos los csv

Añadir una linea de codigo al bucle que consiga modificar el nombre del ultimo elemento añadido a la lista a través de corchetes y un replace

In [5]:
dataframes_list = []
for i in range(len(nombres)):
    temp_df = pd.read_csv(filepath_or_buffer = "csv221022/"+nombres[i]+".csv",
                          header = 0,
                          sep = ",",
                          parse_dates = ["time"])
    dataframes_list.append(temp_df)
    

In [6]:
#Calcula el número de columna que coincida con PriceUSD en el df concreto del loop for anterior
len(temp_df.columns=="PriceUSD")


110

### Comprobar si existe la columna "PriceUSD" en todos los CSV

In [7]:
dataframes_list = []
boo = []
longli = []
archli = []
for i in range(len(nombres)):
    temp_df = pd.read_csv(filepath_or_buffer = "csv221022/"+nombres[i]+".csv",
                          header = 0,
                          sep = ",")
    if "PriceUSD" in temp_df.columns:
            boo1 = "True"
            longi = len(temp_df.columns=="PriceUSD")
            archi = nombres[i]
            boo.append(boo1)
            longli.append(longi)
            archli.append(archi)
    else:
            boo1 = "False"
            boo.append(boo1)
            longi = 0
            longli.append(longi)
            archi = nombres[i]
            archli.append(archi)
            
    dataframes_list.append(temp_df)
df = pd.DataFrame({
    "Existe":boo,
    "Posición":longli,
    "Activo":archli})
df

Unnamed: 0,Existe,Posición,Activo
0,True,110,1inch
1,True,110,aave
2,False,0,aca
3,False,0,ach
4,True,122,ada
...,...,...,...
349,False,0,ygg
350,True,130,zec
351,False,0,zen
352,False,0,zks


### Creación del _Dataframe_ final

El siguiente fragmento de código crea dos listas, _dflistcompleto_ y _dflistpriceusd_, y utiliza un bucle _for_ para iterar a través de una lista de nombres obtenidos anteriormente. Dentro del bucle, se lee un archivo CSV utilizando la función _read_csv_ de la librería Pandas y se almacena el resultado en un _dataframe_ temporal llamado _temp_df_.

Luego, se comprueba si la columna "PriceUSD" está presente en el dataframe temporal con la instrucción _if_ "PriceUSD" en _temp_df.columns_. Si dicha columna está presente, se lee de nuevo el archivo CSV, pero esta vez sólo se incluyen las columnas "time" y "PriceUSD" utilizando el argumento _usecols_. El resultado se almacena en otro _dataframe_ temporal llamado _temp_df_priceusd_, y se renombra la columna "PriceUSD" con el nombre que se encuentra en la lista de nombres. Finalmente, se añade el dataframe temporal a la lista _dflistpriceusd_. Si la columna "PriceUSD" no está presente en el _dataframe_ temporal, se salta el resto del bucle con la instrucción _continue_.

Por último, se añade el dataframe temporal original a la lista _dflistcompleto_. Al finalizar el bucle, ambas listas contendrán dataframes leídos de archivos CSV con nombres específicos.

In [8]:
dflistcompleto = []
dflistpriceusd = []
for i in range(len(nombres)):
    temp_df = pd.read_csv(filepath_or_buffer = "csv221022/" + nombres[i] + ".csv",
                          header = 0,
                          sep = ",")
    if "PriceUSD" in temp_df.columns:
        temp_df_priceusd = pd.read_csv(filepath_or_buffer = "csv221022/" + nombres[i] + ".csv",
                          header = 0,
                          usecols = ["time", "PriceUSD"],
                          sep = ",")
        temp_df_priceusd.rename(columns={'PriceUSD': nombres[i]}, inplace=True)
        dflistpriceusd.append(temp_df_priceusd)
        #temp_df_priceusd.set_index("time")
        #temp_df_priceusd.drop(columns = "time")
    else:
        continue
    dflistcompleto.append(temp_df)
    

df_merged = pd.concat(dflistpriceusd, sort=False)


In [13]:
df_merged

Unnamed: 0,time,1inch,aave,ada,algo,alpha,ant,bal,bat,bch,...,xaut,xem,xlm,xmr,xrp,xtz,xvg,yfi,zec,zrx
0,2020-12-23,,,,,,,,,,...,,,,,,,,,,
1,2020-12-24,,,,,,,,,,...,,,,,,,,,,
2,2020-12-25,,,,,,,,,,...,,,,,,,,,,
3,2020-12-26,1.619328,,,,,,,,,...,,,,,,,,,,
4,2020-12-27,1.072350,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1895,2022-10-19,,,,,,,,,,...,,,,,,,,,,0.243361
1896,2022-10-20,,,,,,,,,,...,,,,,,,,,,0.242808
1897,2022-10-21,,,,,,,,,,...,,,,,,,,,,0.240972
1898,2022-10-22,,,,,,,,,,...,,,,,,,,,,0.242306


### Comprobar valor máximo, posición en la lista y nombre del activo

In [None]:
maslargo = []
for i in range(len(dflistpriceusd)):
    maximo = len(dflistpriceusd[i])
    maslargo.append(maximo)
print([maslargo, 
       "Valor máximo:", max(maslargo), 
       "Posición en la lista:", maslargo.index(max(maslargo)),
       "Nombre del activo:", nombres[maslargo.index(max(maslargo))]
       ])

### Comprobar la longitud del dataframe

In [15]:
print(df_merged.count())

Time     181389
1inch       666
aave        743
ada        1787
algo       1219
          ...  
xtz        1576
xvg        1849
yfi         820
zec        2185
zrx        1899
Length: 105, dtype: int64


### Cambiar formato a fecha

In [16]:
# Renombrar columna
df_merged.rename(index = str, columns = {"time": "Time"}, inplace = True)

# Cambiar el DType de la columna "Time"
df_merged['Time'] = pd.to_datetime(df_merged['Time'], errors='coerce')

# Cambiar el formato de la fecha de YYY-MM-DD a DD-MM-YYYY (%y/%m/%d)
df_merged['Time'] = df_merged["Time"].dt.strftime('%d/%m/%Y')

### Exportar _dataframe_ final a XLSX

In [23]:
df_merged.to_excel("dataframefinal.xlsx", index=False)