# Cryptocurrency Market Efficiency

Este cuaderno está orientado a la documentación de los cálculos.

## Librerías

In [1]:
import pandas as pd
import numpy as np
import glob

## Lectura de ejemplo

Dado que se van a analizar las hipótesis de eficiencia de los mercados de criptomonedas, se va a limitar el tamaño del _DataFrame_. En concreto, se van a conservar las columnas _time_ y _PriceUSD_, relativas a la fecha y al precio en dólares, respectivamente. Esto con el objetivo de calcular las rentabilidades.

In [2]:
BTC = pd.read_csv("csv221022/btc.csv",
                  sep = ",",
                  header = 0,
                  usecols = ["time","PriceUSD"],
                  parse_dates= ["time"])
BTC

Unnamed: 0,time,PriceUSD
0,2009-01-03,
1,2009-01-04,
2,2009-01-05,
3,2009-01-06,
4,2009-01-07,
...,...,...
5037,2022-10-19,19132.154425
5038,2022-10-20,19033.376024
5039,2022-10-21,19174.876349
5040,2022-10-22,19207.628508


## Generar una lista de nombres de los activos, a partir de los archivos csv

In [3]:
path = "csv221022/"
csvs = sorted(glob.glob(path + "*.csv"))
nombres = [element.replace("csv221022/", "") for element in csvs]
nombres = [element.replace(".csv", "") for element in nombres]

## Lectura de todos los csv

Añadir una linea de codigo al bucle que consiga modificar el nombre del ultimo elemento añadido a la lista a través de corchetes y un replace

In [4]:
dataframes_list = []
for i in range(len(nombres)):
    temp_df = pd.read_csv(filepath_or_buffer = "csv221022/"+nombres[i]+".csv",
                          header = 0,
                          sep = ",",
                          parse_dates = ["time"])
    dataframes_list.append(temp_df)
    

In [5]:
#Calcula el número de columna que coincida con PriceUSD en el df concreto del loop for anterior
len(temp_df.columns=="PriceUSD")


110

### Comprobar si existe la columna "PriceUSD" en todos los CSV

In [6]:
dataframes_list = []
boo = []
longli = []
archli = []
for i in range(len(nombres)):
    temp_df = pd.read_csv(filepath_or_buffer = "csv221022/"+nombres[i]+".csv",
                          header = 0,
                          sep = ",")
    if "PriceUSD" in temp_df.columns:
            boo1 = "True"
            longi = len(temp_df.columns=="PriceUSD")
            archi = nombres[i]
            boo.append(boo1)
            longli.append(longi)
            archli.append(archi)
    else:
            boo1 = "False"
            boo.append(boo1)
            longi = 0
            longli.append(longi)
            archi = nombres[i]
            archli.append(archi)
            
    dataframes_list.append(temp_df)
df = pd.DataFrame({
    "Existe":boo,
    "Posición":longli,
    "Activo":archli})
df

Unnamed: 0,Existe,Posición,Activo
0,True,110,1inch
1,True,110,aave
2,False,0,aca
3,False,0,ach
4,True,122,ada
...,...,...,...
349,False,0,ygg
350,True,130,zec
351,False,0,zen
352,False,0,zks


### Dropear columnas del DataFrame que no tengan la columna PriceUSD

In [7]:
type(dataframes_list)

list

Hacer un bucle loop que compruebe si existe la columna PriceUSD en el elemento de dataframes_list y guardarla o dropear el caso contrario con pop()[i]

### Creación de las listas

En este punto se crean dos listas de dataframes diferentes. En una de ellas se encuentran todos los dataframes, incluyendo aquellos activos que no tienen la columna "PriceUSD". Esta lista es _dflistcompleto_. 

En cambio, la lista que solo tiene los activos que incluyen la columna "PriceUSD" se denomina _dflistpriceusd_.

Finalmente, la creación de una lista vacía _nombresprice_ permite agregar el nombre del activo del bloque _if "PriceUSD" in temp..._ a la lista vacía, por lo que coincidirán con la lista _dflistpriceusd_.

In [8]:

dflistcompleto = []
dflistpriceusd = []
for i in range(len(nombres)):
    temp_df = pd.read_csv(filepath_or_buffer = "csv221022/" + nombres[i] + ".csv",
                          header = 0,
                          sep = ",")
    if "PriceUSD" in temp_df.columns:
        temp_df_priceusd = pd.read_csv(filepath_or_buffer = "csv221022/" + nombres[i] + ".csv",
                          header = 0,
                          usecols = ["time", "PriceUSD"],
                          sep = ",")
        temp_df_priceusd.set_index("time")
        temp_df_priceusd.drop(columns = "time")
    else:
        continue
    dflistpriceusd.append(temp_df_priceusd)
    dflistcompleto.append(temp_df)



In [9]:
dflistpriceusd

[           time  PriceUSD
 0    2020-12-23       NaN
 1    2020-12-24       NaN
 2    2020-12-25       NaN
 3    2020-12-26  1.619328
 4    2020-12-27  1.072350
 ..          ...       ...
 665  2022-10-19  0.565972
 666  2022-10-20  0.561912
 667  2022-10-21  0.568595
 668  2022-10-22  0.571261
 669  2022-10-23       NaN
 
 [670 rows x 2 columns],
            time   PriceUSD
 0    2020-09-24        NaN
 1    2020-09-25        NaN
 2    2020-09-26        NaN
 3    2020-09-27        NaN
 4    2020-09-28        NaN
 ..          ...        ...
 755  2022-10-19  82.756474
 756  2022-10-20  80.864570
 757  2022-10-21  81.937084
 758  2022-10-22  82.100930
 759  2022-10-23        NaN
 
 [760 rows x 2 columns],
             time  PriceUSD
 0     2017-09-23       NaN
 1     2017-09-24       NaN
 2     2017-09-25       NaN
 3     2017-09-26       NaN
 4     2017-09-27       NaN
 ...          ...       ...
 1852  2022-10-19  0.350053
 1853  2022-10-20  0.339494
 1854  2022-10-21  0.348935
 1855 

### Cambiar formato a fecha

In [10]:
# Crear un Dataframe a partir de un array de 2x2
array1 = {'tiempo':["1996-10-04","1996-10-05"],
          'PriceUSD': [25000,50000]}

dataf = pd.DataFrame(data = array1)

# Renombrar la columna "tiempo" por "Time"
dataf.rename(index = str, columns = {"tiempo": "Time"}, inplace = True)

# Cambiar el DType de la columna "Time"
dataf['Time'] = pd.to_datetime(dataf['Time'], errors='coerce')

# Cambiar el formato de la fecha de YYY-MM-DD a DD-MM-YYYY (%y/%m/%d)
dataf['Time'] = dataf["Time"].dt.strftime('%d/%m/%Y')



In [11]:
# Obtener un dataframe con una query de condición booleana (puede ser un index)
df2 = df[np.array(df["Existe"] == "True", dtype = bool)]

# Obtener el mismo Dataframe por otro método (no funciona)
df3 = df.loc[df['Existe'] == True] 

# Longitud de los nuevos dataframes por si coincide con el Dataframe creado: dflistpriceusd
print([len(df2),len(dflistpriceusd), len(df3)])

[104, 104, 0]


# POR AQUI: Creando un loop que añada una row en cada iteracción. Queda pendiente descifrar el chunk de ejemplo según el [Link](https://stackoverflow.com/questions/50188852/python-add-rows-into-existing-dataframe-with-loop)


Añadido:
[Link sobre longitud de rows](https://stackoverflow.com/questions/17468878/pandas-python-how-to-count-the-number-of-records-or-rows-in-a-dataframe)

Dividir la tarea en subtareas más simples:
* Crear un dataframe que contenga únicamente unas columnas cuyos nombres sean elementos del objeto nombresprice.
* Conseguir utilizar la columna de tiempo del objeto temp_df_priceusd como index de las filas.
* Encontrar el rango de la columna time del objeto anterior más amplio y utilizarlo como index o directamente establecer una franja de tiempo suficientemente amplia para que contenga todas las observaciones de todos los casos.
* Romper el temp_df_priceusd en criptoactivos para seleccionarlos como elementos individuales presentados como columnas, de manera que la dimensión del objeto sea: max_range_tiempo:nombrespriceusd.

In [12]:
listnombresprice = []
for i in range(len(dflistpriceusd)):
    print([len(dflistpriceusd[i]), nombresprice[i]])
    
   
# Dataframe que marca si existe en la lista y su posición en la lista original    
df = pd.DataFrame({
    "Existe": boo,
    "Posición": longli})

NameError: name 'nombresprice' is not defined

In [13]:
maslargo = []
for i in range(len(dflistpriceusd)):
    maximo = len(dflistpriceusd.iloc[i])
    maslargo.append(maximo)
print([maslargo, 
       "Valor máximo:", max(maslargo), 
       "Posición en la lista:", maslargo.index(max(maslargo)),
       "Nombre del activo:", nombres[maslargo.index(max(maslargo))]
       ])

AttributeError: 'list' object has no attribute 'iloc'

In [None]:
# Tratar de armar un dataframe válido
for i in range(len(df2)):
    data = pd.DataFrame("Poner una concatenacion")
    antiguo = "tratar de obtener una funcion que saque el nombre de la columna y lo pegue string"
    nuevo = nombres[i]
data[""] = data.rename(index = str, columns = {"antiguonombre": "nuevo"}, inplace = True)

In [None]:
# Poner de row index la columna time
df = pd.concat(dflistpriceusd).fillna(0).sort_index().reset_index(drop=True)
df.insert(0, 'time', range(1, len(df) + 1))
print (df)

In [None]:
# Crea un dataframe de pandas a partir de la lista
finaldataframenombres = pd.DataFrame(nombres, columns = nombres)

# Muestra la tabla
print(finaldataframenombres)