In [1]:
import pandas as pd
pd.set_option("display.max_columns", 500)
pd.set_option("display.max_rows", 500)

In [2]:
table = "PAGOS.tsv"
location = "../../../data/raw"
sep = '\t'
encoding = 'latin1'
decimal = ','

## Checking columns to remove from sample

In [None]:
for chunk in pd.read_csv(f"{location}/{table}",
                         sep=sep,
                         encoding=encoding,
                         decimal=decimal,
                         chunksize=5000000):
    df = chunk
    break

In [5]:
sorted(df.columns)

['COD_CIA',
 'COD_COBRO',
 'COD_SECC',
 'COD_SITUACION',
 'FECHA_EQUIPO',
 'FECHA_VTO',
 'FEC_PAGO',
 'MONTO_PAGO',
 'NUM_END',
 'NUM_POL1',
 'NUM_SECU_POL']

In [3]:
usable_cols = ['COD_CIA',
 'COD_COBRO',
 'COD_SECC',
 'COD_SITUACION',
 'FECHA_EQUIPO',
 'FECHA_VTO',
 'FEC_PAGO',
 'MONTO_PAGO',
 'NUM_END',
 'NUM_SECU_POL']

In [2]:
"], [".join(usable_cols)

'COD_CIA], [COD_COBRO], [COD_SECC], [COD_SITUACION], [FECHA_EQUIPO], [FECHA_VTO], [FEC_PAGO], [MONTO_PAGO], [NUM_END], [NUM_SECU_POL'

## Creating pagos.feahter

In [4]:
chunks = pd.read_csv(f"{location}/{table}",
                     sep=sep,
                     encoding=encoding,
                     decimal=decimal,
                     chunksize=1000000,
                     iterator=True,
                     usecols = usable_cols)
df = pd.concat(chunks)

In [5]:
fechas = ["FECHA_EQUIPO","FECHA_VTO","FEC_PAGO"]

In [11]:
df[fechas].head(5)

Unnamed: 0,FECHA_EQUIPO,FECHA_VTO,FEC_PAGO
0,2017-07,2017-12,2017-12
1,2017-01,2017-12,2017-12
2,2017-01,2017-12,2017-12
3,2017-01,2018-01,2017-12
4,2017-01,2017-12,2017-12


Transformamos FECHA_EQUIPO a formato año-mes

In [8]:
def lookup(s):
    """
    This is an extremely fast approach to datetime parsing.
    For large data, the same dates are often repeated. Rather than
    re-parse these, we store all unique dates, parse them, and
    use a lookup to convert all dates.
    """
    dates = {date:pd.to_datetime(date).strftime('%Y-%m') for date in s.unique()}
    return s.map(dates)

df["FECHA_EQUIPO"] = lookup(df["FECHA_EQUIPO"])

In [9]:
df[fechas].head(5)

Unnamed: 0,FECHA_EQUIPO,FECHA_VTO,FEC_PAGO
0,2017-07,2017-12,2017-12
1,2017-01,2017-12,2017-12
2,2017-01,2017-12,2017-12
3,2017-01,2018-01,2017-12
4,2017-01,2017-12,2017-12


In [12]:
df.dtypes

COD_CIA            int64
COD_SECC           int64
FECHA_EQUIPO      object
NUM_SECU_POL       int64
NUM_END          float64
FECHA_VTO         object
FEC_PAGO          object
MONTO_PAGO       float64
COD_COBRO         object
COD_SITUACION     object
dtype: object

In [13]:
df.to_feather("../../../data/interim/pagos.feather")