In [1]:
import pandas as pd
import numpy as np

import os
import glob

import matplotlib.pyplot as plt

# Definición de funciones
---
A continuación definimos dos funciones para importar y limpiar los datos a partir de los archivos `.csv` proveídos por Precia.

La función `import_data()` retorna un diccionario donde cada entrada es un DataFrame correspondiente a cada archivo de datos. Mientras tanto, la función `clean_data()` elimina las columnas innecesarias y convierte las fechas y horas en los formatos correspondientes.

In [2]:
def clean_data(tesdata):
    # Eliminamos columnas innecesarias
    tesdata = tesdata.drop(columns=['c_clase', 'd_fechacumpliento', 'i_diasalcumpliento', 'c_indicador',
                                    'e_tasacupon', 'c_sesion', 'e_margen', 'i_numerocupon', 'e_amortizacion',
                                    'd_fechapago', 'e_interes', 'e_flujototal', 'e_saldamrtizacion',
                                    'i_filtromonto', 'i_filtrotasa', 'c_amplitud', 'c_numcontrol',
                                    'i_grucalificacion', 'i_grutipotasa', 'i_grumoneda', 'i_rangvencimi',
                                    'i_diasvencimiento', 'i_metodofiltro', 'i_codfiltroaplicdo', 'e_errorprecio',
                                    'c_caja', 'c_grupo', 'c_estado', 'c_modalidad', 'c_reinversion', 
                                    'i_fraccionventa', 'i_fraccioncompra', 'c_nitventa', 'c_nitcompra',
                                    'i_corredorventa', 'i_corredorcompra', 'i_codigobroker', #segunda tanda
                                    'i_folio', 'i_numemisionbr', 'c_moneda', 'e_valormoneda', 'c_tipotitulo', 
                                    'c_broker', 'c_tipooperacion'])
    
    # Eliminamos las horas iguales a 00:00
    tesdata = tesdata.loc[(tesdata["c_sistnegcion"]=="SEN") & (tesdata["c_hora"] != "00:00")]
    
    # Convertirmos las horas al formato correspondiente
    tesdata['c_hora'] = pd.to_datetime(tesdata['c_hora'],format= '%H:%M:%S').dt.time
    
    return tesdata

In [3]:
def import_data():
    
    # Definimos los caminos de los datos
    pathTesis = os.getcwd()
    pathData  = os.path.join(pathTesis,'Historico_Operaciones')
    
    # Guardamos los nombres de los archivos csv que queremos importar
    filenames = glob.glob(pathData+"/*.csv")
    
    # Definimos las listas vacias donde vamos a guardar los resultados:
    # Nombre de los datos
    varnames  = []
    # Datos numericos de los datos
    alldata   = []
    
    for i in filenames:
        
        # Guardamos los datos de los archivos csv
        temp = pd.read_csv(i, sep="|", parse_dates=["d_fechaoperacion", "d_fechaemistit",
                                                      "d_fechacumpliento", "d_fechapago"])
        # Aplicamos la funcion que limpia los datos
        temp = clean_data(temp)
        alldata.append(temp)
        
        # Generamos los keys del diccionario que contiene los datos
        # i.e. aqui esta el nombre del dataframe de los datos
        
        base   = os.path.basename(i)
        dfname = os.path.splitext(base)[0]
        varnames.append(dfname)
        
    return dict(zip(varnames, alldata))

# Importamos los datos
---
Aplicamos las funciones y evaluamos resultados

In [4]:
data = import_data()

  if self.run_code(code, result):


In [5]:
# Verificamos que el formato de las horas este bien

tfit17 = data["TFIT_2017"]
type(tfit17["c_hora"].values[0])

datetime.time

In [6]:
# Visualizamos las primeras 30 entradas de los datos para TFIT_2017

tfit17.head(100)

Unnamed: 0,d_fechaoperacion,c_sistnegcion,c_nemotecnico,d_fechaemistit,d_fechaventit,e_preciolimpio,e_preciototal,e_rentabilidad,e_cantidad,e_volumen,i_diasalvenciento,c_hora
154287,2017-06-29,SEN,TFIT06110919,2013-09-11,2019-09-11,103.335,108.915,5.341,5.000000e+09,5.445790e+09,804,08:42:47
154288,2017-06-29,SEN,TFIT06110919,2013-09-11,2019-09-11,103.335,108.915,5.341,5.000000e+09,5.445790e+09,804,08:44:18
154289,2017-06-29,SEN,TFIT06110919,2013-09-11,2019-09-11,103.325,108.905,5.346,1.000000e+09,1.089058e+09,804,08:44:18
154290,2017-06-29,SEN,TFIT06110919,2013-09-11,2019-09-11,103.377,108.957,5.321,3.000000e+09,3.268734e+09,804,08:57:41
154291,2017-06-29,SEN,TFIT06110919,2013-09-11,2019-09-11,103.377,108.957,5.321,5.000000e+09,5.447890e+09,804,08:57:41
154292,2017-06-29,SEN,TFIT06110919,2013-09-11,2019-09-11,103.385,108.965,5.317,5.000000e+09,5.448290e+09,804,09:21:11
154293,2017-06-29,SEN,TFIT06110919,2013-09-11,2019-09-11,103.394,108.974,5.313,5.000000e+09,5.448740e+09,804,09:21:11
154294,2017-06-29,SEN,TFIT06110919,2013-09-11,2019-09-11,103.398,108.978,5.311,5.000000e+09,5.448940e+09,804,09:21:11
154295,2017-06-29,SEN,TFIT06110919,2013-09-11,2019-09-11,103.401,108.981,5.309,5.000000e+09,5.449090e+09,804,09:21:11
154296,2017-06-29,SEN,TFIT06110919,2013-09-11,2019-09-11,103.402,108.982,5.309,5.000000e+09,5.449140e+09,804,09:21:11


# Verificamos los títulos
---
Veo que se repiten muchos valores en la columna `c_neomtecnico`, vamos a revisar cuántos títulos únicos hay en nuestros datos para los TFIT de 2017

In [7]:
titulos = pd.DataFrame(tfit17["c_nemotecnico"]).drop_duplicates(keep="first")
titulos.shape

(10, 1)

In [21]:
titulos["c_nemotecnico"].values[0]

'TFIT06110919'

In [15]:
for i in titulos.values:
    print(i[0])

TFIT06110919
TFIT06211118
TFIT10040522
TFIT15240720
TFIT15260826
TFIT16180930
TFIT16240724
TFIT16280428
TFIT16300632
TFIT11241018


In [25]:
for i in pd.DataFrame(tfit17["c_nemotecnico"]).drop_duplicates(keep="first").values:
    print(i[0])

TFIT06110919
TFIT06211118
TFIT10040522
TFIT15240720
TFIT15260826
TFIT16180930
TFIT16240724
TFIT16280428
TFIT16300632
TFIT11241018


# Cálculo de parámetros

In [58]:
def get_returns(TESData):
    
    df_titulos = pd.DataFrame(tfit17["c_nemotecnico"]).drop_duplicates(keep="first")
    titulos    = df_titulos["c_nemotecnico"].values
    
    tesdat = []
    tesnem = []
    
    for i in titulos:
        tesnem.append(i)
        
        temp     = TESData.loc[TESData["c_nemotecnico"] == i]
        temp.set_index(["c_hora"])
        #preciolim = temp.e_preciolimpio.resample("15T").mean()
        #retorno   = preciolim.diff()
        #print(temp[["c_hora", "e_preciolimpio"]].head())
        print(temp.index)

In [59]:
get_returns(tfit17)

Int64Index([154287, 154288, 154289, 154290, 154291, 154292, 154293, 154294,
            154295, 154296,
            ...
            289987, 289988, 289989, 289990, 289991, 289992, 289993, 289994,
            289995, 289996],
           dtype='int64', length=5818)
Int64Index([154399, 154400, 154401, 154402, 154403, 154404, 154405, 154406,
            154407, 156426,
            ...
            290060, 290061, 290062, 290063, 290064, 290065, 290066, 290067,
            290068, 290069],
           dtype='int64', length=2445)
Int64Index([154444, 154445, 154446, 154447, 154448, 154449, 154450, 154451,
            154452, 154453,
            ...
            290269, 290270, 290271, 290272, 290273, 290274, 290275, 290276,
            290277, 290278],
           dtype='int64', length=12720)
Int64Index([154590, 154591, 154592, 154593, 154594, 154595, 154596, 154597,
            154598, 154599,
            ...
            290464, 290465, 290466, 290467, 290468, 290469, 290470, 290471,
           

# Pruebas
---
Esto sólo son pruebas, no hay nada importante aquí

In [2]:
tfit17 = pd.read_csv("Historico_Operaciones/TFIT_2017.csv", sep="|", 
                     parse_dates=["d_fechaoperacion", "d_fechaemistit", "d_fechacumpliento", "d_fechapago"])

  interactivity=interactivity, compiler=compiler, result=result)


In [3]:
tfit17.head()

Unnamed: 0,d_fechaoperacion,c_sistnegcion,i_folio,c_nemotecnico,d_fechaemistit,d_fechaventit,i_numemisionbr,e_preciolimpio,e_preciototal,e_rentabilidad,...,i_fraccionventa,i_fraccioncompra,c_nitventa,c_nitcompra,i_corredorventa,i_corredorcompra,i_codigobroker,c_hora,c_broker,c_tipooperacion
0,2017-01-02,SEN,378,TFIT06110919,2013-09-11,2019-09-11,55420,101.418,103.585,6.39,...,0,0,,,0,0,0,00:00,,
1,2017-01-02,SEN,377,TFIT06110919,2013-09-11,2019-09-11,55420,101.418,103.585,6.39,...,0,0,,,0,0,0,00:00,,
2,2017-01-02,SEN,376,TFIT06110919,2013-09-11,2019-09-11,55420,101.418,103.585,6.39,...,0,0,,,0,0,0,00:00,,
3,2017-01-02,MEC,558,TFIT06211118,2012-11-21,2018-11-21,55081,97.994,98.569,6.151,...,0,0,,,375,419,0,,N,N
4,2017-01-02,MEC,492,TFIT06211118,2012-11-21,2018-11-21,55081,97.967,98.542,6.167,...,0,0,,,318,464,0,,N,N


In [4]:
tfit17.columns

Index(['d_fechaoperacion', 'c_sistnegcion', 'i_folio', 'c_nemotecnico',
       'd_fechaemistit', 'd_fechaventit', 'i_numemisionbr', 'e_preciolimpio',
       'e_preciototal', 'e_rentabilidad', 'e_cantidad', 'e_volumen',
       'i_diasalvenciento', 'c_moneda', 'e_valormoneda', 'c_clase',
       'd_fechacumpliento', 'i_diasalcumpliento', 'c_indicador', 'e_tasacupon',
       'c_sesion', 'e_margen', 'i_numerocupon', 'e_amortizacion',
       'd_fechapago', 'e_interes', 'e_flujototal', 'e_saldamrtizacion',
       'i_filtromonto', 'i_filtrotasa', 'c_amplitud', 'c_numcontrol',
       'i_grucalificacion', 'i_grutipotasa', 'i_grumoneda', 'i_rangvencimi',
       'i_diasvencimiento', 'c_tipotitulo', 'i_metodofiltro',
       'i_codfiltroaplicdo', 'e_errorprecio', 'c_caja', 'c_grupo', 'c_estado',
       'c_modalidad', 'c_reinversion', 'i_fraccionventa', 'i_fraccioncompra',
       'c_nitventa', 'c_nitcompra', 'i_corredorventa', 'i_corredorcompra',
       'i_codigobroker', 'c_hora', 'c_broker', 'c_tipo

In [23]:
tfit17 = tfit17.drop(columns=['c_clase', 'd_fechacumpliento', 'i_diasalcumpliento', 'c_indicador', 'e_tasacupon',
                      'c_sesion', 'e_margen', 'i_numerocupon', 'e_amortizacion', 'd_fechapago', 'e_interes',
                      'e_flujototal', 'e_saldamrtizacion', 'i_filtromonto', 'i_filtrotasa', 'c_amplitud',
                      'c_numcontrol', 'i_grucalificacion', 'i_grutipotasa', 'i_grumoneda', 'i_rangvencimi',
                      'i_diasvencimiento', 'i_metodofiltro', 'i_codfiltroaplicdo', 'e_errorprecio', 'c_caja',
                      'c_grupo', 'c_estado', 'c_modalidad', 'c_reinversion', 'i_fraccionventa', 'i_fraccioncompra',
                      'c_nitventa', 'c_nitcompra', 'i_corredorventa', 'i_corredorcompra', 'i_codigobroker'])

In [24]:
tfit17.head()

Unnamed: 0,d_fechaoperacion,c_sistnegcion,i_folio,c_nemotecnico,d_fechaemistit,d_fechaventit,i_numemisionbr,e_preciolimpio,e_preciototal,e_rentabilidad,e_cantidad,e_volumen,i_diasalvenciento,c_moneda,e_valormoneda,c_tipotitulo,c_hora,c_broker,c_tipooperacion
0,2017-01-02,SEN,378,TFIT06110919,2013-09-11,2019-09-11,55420,101.418,103.585,6.39,1000000000.0,1035851000.0,982,COP,1.0,TES,00:00,,
1,2017-01-02,SEN,377,TFIT06110919,2013-09-11,2019-09-11,55420,101.418,103.585,6.39,1000000000.0,1035851000.0,982,COP,1.0,TES,00:00,,
2,2017-01-02,SEN,376,TFIT06110919,2013-09-11,2019-09-11,55420,101.418,103.585,6.39,1000000000.0,1035851000.0,982,COP,1.0,TES,00:00,,
3,2017-01-02,MEC,558,TFIT06211118,2012-11-21,2018-11-21,55081,97.994,98.569,6.151,3000000000.0,2957079000.0,688,COP,1.0,TES,,N,N
4,2017-01-02,MEC,492,TFIT06211118,2012-11-21,2018-11-21,55081,97.967,98.542,6.167,5000000000.0,4927115000.0,688,COP,1.0,TES,,N,N


In [26]:
# dfc['Time_of_Sail'] = pd.to_datetime(dfc['Time_of_Sail'],format= '%H:%M:%S' ).dt.time
#tfit17['c_hora'] = pd.to_datetime(tfit17['c_hora'],format= '%H:%M' ).dt.time

In [31]:
#mecTFIT17 = tfit17.loc[tfit17["c_sistnegcion"]=="MEC"]

# Solo nos sirven los datos del SEN

senTFIT17 = tfit17.loc[(tfit17["c_sistnegcion"]=="SEN") & (tfit17["c_hora"] != "00:00")]

In [21]:
senTFIT17.head(65)

Unnamed: 0,d_fechaoperacion,c_sistnegcion,i_folio,c_nemotecnico,d_fechaemistit,d_fechaventit,i_numemisionbr,e_preciolimpio,e_preciototal,e_rentabilidad,...,i_fraccionventa,i_fraccioncompra,c_nitventa,c_nitcompra,i_corredorventa,i_corredorcompra,i_codigobroker,c_hora,c_broker,c_tipooperacion
154287,2017-06-29,SEN,222,TFIT06110919,2013-09-11,2019-09-11,222,103.335,108.915,5.341,...,0,0,0.0,0.0,0,0,0,08:42:47,0,0
154288,2017-06-29,SEN,228,TFIT06110919,2013-09-11,2019-09-11,228,103.335,108.915,5.341,...,0,0,0.0,0.0,0,0,0,08:44:18,0,0
154289,2017-06-29,SEN,229,TFIT06110919,2013-09-11,2019-09-11,229,103.325,108.905,5.346,...,0,0,0.0,0.0,0,0,0,08:44:18,0,0
154290,2017-06-29,SEN,250,TFIT06110919,2013-09-11,2019-09-11,250,103.377,108.957,5.321,...,0,0,0.0,0.0,0,0,0,08:57:41,0,0
154291,2017-06-29,SEN,251,TFIT06110919,2013-09-11,2019-09-11,251,103.377,108.957,5.321,...,0,0,0.0,0.0,0,0,0,08:57:41,0,0
154292,2017-06-29,SEN,343,TFIT06110919,2013-09-11,2019-09-11,343,103.385,108.965,5.317,...,0,0,0.0,0.0,0,0,0,09:21:11,0,0
154293,2017-06-29,SEN,344,TFIT06110919,2013-09-11,2019-09-11,344,103.394,108.974,5.313,...,0,0,0.0,0.0,0,0,0,09:21:11,0,0
154294,2017-06-29,SEN,345,TFIT06110919,2013-09-11,2019-09-11,345,103.398,108.978,5.311,...,0,0,0.0,0.0,0,0,0,09:21:11,0,0
154295,2017-06-29,SEN,346,TFIT06110919,2013-09-11,2019-09-11,346,103.401,108.981,5.309,...,0,0,0.0,0.0,0,0,0,09:21:11,0,0
154296,2017-06-29,SEN,347,TFIT06110919,2013-09-11,2019-09-11,347,103.402,108.982,5.309,...,0,0,0.0,0.0,0,0,0,09:21:11,0,0


In [32]:
np.shape(senTFIT17)

(59970, 19)

In [74]:
senTFIT17['c_hora'] = pd.to_datetime(senTFIT17['c_hora'],format= '%H:%M:%S').dt.time

In [75]:
type(senTFIT17["c_hora"].values[0])

datetime.time

In [100]:
def clean_data(tesdata):
    tesdata = tesdata.drop(columns=['c_clase', 'd_fechacumpliento', 'i_diasalcumpliento', 'c_indicador',
                                    'e_tasacupon', 'c_sesion', 'e_margen', 'i_numerocupon', 'e_amortizacion',
                                    'd_fechapago', 'e_interes', 'e_flujototal', 'e_saldamrtizacion',
                                    'i_filtromonto', 'i_filtrotasa', 'c_amplitud', 'c_numcontrol',
                                    'i_grucalificacion', 'i_grutipotasa', 'i_grumoneda', 'i_rangvencimi',
                                    'i_diasvencimiento', 'i_metodofiltro', 'i_codfiltroaplicdo', 'e_errorprecio',
                                    'c_caja', 'c_grupo', 'c_estado', 'c_modalidad', 'c_reinversion', 
                                    'i_fraccionventa', 'i_fraccioncompra', 'c_nitventa', 'c_nitcompra',
                                    'i_corredorventa', 'i_corredorcompra', 'i_codigobroker'])
    
    # Eliminamos las horas iguales a 00:00
    tesdata = tesdata.loc[(tesdata["c_sistnegcion"]=="SEN") & (tesdata["c_hora"] != "00:00")]
    
    # Convertirmos las horas al formato correspondiente
    tesdata['c_hora'] = pd.to_datetime(tesdata['c_hora'],format= '%H:%M:%S').dt.time
    
    return tesdata

In [102]:
def import_data():
    
    pathTesis = os.getcwd()
    pathData  = os.path.join(pathTesis,'Historico_Operaciones')
    
    filenames = glob.glob(pathData+"/*.csv")
    
    varnames  = []
    alldata   = []
    
    for i in filenames:
        
        # Guardamos los datos de los archivos csv
        temp = pd.read_csv(i, sep="|", parse_dates=["d_fechaoperacion", "d_fechaemistit",
                                                      "d_fechacumpliento", "d_fechapago"])
        # Aplicamos la funcion que limpia los datos
        temp = clean_data(temp)
        alldata.append(temp)
        
        # Generamos los keys del diccionario que contiene los datos
        # i.e. aqui esta el nombre del dataframe de los datos
        
        base   = os.path.basename(i)
        dfname = os.path.splitext(base)[0]
        varnames.append(dfname)
        
    return dict(zip(varnames, alldata))

In [101]:
aatest = import_data()

<class 'numpy.ndarray'>


  if self.run_code(code, result):


<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [86]:
type(aatest["TFIT_2017"]["c_hora"])

pandas.core.series.Series