# Explorando formas de parsear datos

Inicialmente para mi consumo personal quiero soportar tres tipos de ingreso de datos: resúmenes de tarjeta de crédito Visa (extraído de VisaHome), resúmenes de cuenta de ICBC (descargados del Home Banking correspondiente) y últimos movimientos en CSV de ICBC. El resumen de cuenta de ICBC sirve para información histórica porque los últimos movimientos están limitados, pero el resumen tiene un retraso de tres a seis meses en estar disponible.

Idealmente cada uno de estos medios recibirá un archivo o un listado de archivos y devolverá un DataFrame de Pandas con fecha de compra, fecha de pago (en el caso de tarjeta de crédito sería el vencimiento del resumen), descripción, monto en pesos y monto en dólares. La fecha de compra y pago coinciden para la caja de ahorros, pero para la tarjeta de crédito la de pago es el vencimiento de cada cuota.

También estaría bueno poder incluir información de MercadoPago para detallar mejor los consumos en categorías.

## Datos privados

Para explorar los datos voy a usar información personal. Voy a mantener el nombre de los lugares pero ofuscar los montos.

# Problema 1: Visa

## Opción 1: Tabula

Tabula extrae tablas de PDFs, ideal para este objetivo https://tabula.technology/

In [17]:
import tabula
import pandas as pd
from glob import glob

files = ['data/resumen_cuenta_visa_Nov_2018.pdf'][:1]
df = pd.concat([tabula.read_pdf(f, pandas_options={'header': None}) for f in files])
df[4] = None # pesos
df[5] = None # usds
df.head()

Unnamed: 0,0,1,2,3,4,5
0,12.01.18,001320*,CLARO EQUIPOSCuota 11/18,,,
1,05.04.18,000797*,DISTRIBUIDORES INDEPEND PSA Cuota 08/12,,,
2,06.05.18,001545*,DESPEGAR.COMCuota 07/12,,,
3,06.05.18,001543*,DESPEGAR.COMCuota 07/12,,,
4,06.05.18,001536*,DESPEGAR.COMCuota 07/12,,,
5,14.05.18,003573*,WWW.DESPEGAR.COMCuota 07/12,,,
6,30.08.18,000782*,WWW.JUMBOACASA.COM.AR/5231Cuota 03/03,,,
7,06.09.18,000908*,WWW.JUMBOACASA.COM.AR/5231Cuota 03/03,,,
8,07.09.18,003289*,MERCADOPAGO*MEEXTRANAARCuota 03/03,,,
9,16.09.18,001329*,DESPEGAR.COMCuota 03/03,,,


In [18]:
files = glob('data/resumen_cuenta_visa*.pdf')
df = pd.concat([tabula.read_pdf(f, pandas_options={'header': None}) for f in files])
df[4] = None # pesos
df[5] = None # usds
df

CSVParseError: Error failed to create DataFrame with different column tables.
Try to set `multiple_tables=True` or set `names` option for `pandas_options`. 
, caused by ParserError('Error tokenizing data. C error: Expected 6 fields in line 41, saw 13\n',)

In [20]:
# quizás sean resumenes de dos páginas los que fallan :( busquemos cuál es
for f in glob('data/resumen_cuenta_visa*.pdf'):
    print('will try', f)
    tabula.read_pdf(f, pandas_options={'header': None})

will try data/resumen_cuenta_visa_Nov_2018.pdf
will try data/resumen_cuenta_visa_Sep_2018.pdf
will try data/resumen_cuenta_visa_Dec_2017.pdf
will try data/resumen_cuenta_visa_Apr_2018.pdf
will try data/resumen_cuenta_visa_May_2018.pdf
will try data/resumen_cuenta_visa_Jul_2017.pdf
will try data/resumen_cuenta_visa_Jul_2018.pdf
will try data/resumen_cuenta_visa_Aug_2018.pdf
will try data/resumen_cuenta_visa_Sep_2017.pdf
will try data/resumen_cuenta_visa_Jun_2017.pdf
will try data/resumen_cuenta_visa_Mar_2018.pdf
will try data/resumen_cuenta_visa_Dec_2018.pdf


CSVParseError: Error failed to create DataFrame with different column tables.
Try to set `multiple_tables=True` or set `names` option for `pandas_options`. 
, caused by ParserError('Error tokenizing data. C error: Expected 6 fields in line 41, saw 13\n',)

In [33]:
t1, t2 = tabula.read_pdf('data/resumen_cuenta_visa_Dec_2018.pdf', pandas_options={'header': None}, multiple_tables=True)
t1[4] = None
t1[5] = None
t1

Unnamed: 0,0,1,2,3,4,5
0,22.10.18,000172*,WWW.JUMBOACASA.COM.AR/5231Cuota 03/03,,,
1,29.10.18,000188*,WWW.JUMBOACASA.COM.AR/5231Cuota 03/03,,,
2,12.11.18,000320*,WWW.JUMBOACASA.COM.AR/5231Cuota 02/03,,,
3,26.11.18,000375*,WWW.JUMBOACASA.COM.AR/5231Cuota 02/03,,,
4,28.11.18,455714*,CABLEVISION DEB AUT 000000037500370,,,
5,01.12.18,006430*,WWW.MERCADOPAGO.COM,,,
6,01.12.18,001528*,WHOOPIES,,,
7,02.12.18,001060*,JUMBO ALMAGRO,,,
8,03.12.18,000013*,I FRESH MARKET5423,,,
9,03.12.18,007277*,HOYTS ABASTO,,,


In [34]:
t2[1] = None # misc
t2.iloc[3] = None # misc
t2[3] = None # misc
t2[9] = None # misc
t2[10] = None # pesos
t2[11] = None # usd
t2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,LIMITES: COMPRA$,,FINANCIACION $,,,AD E L A,N T O (*),,,,,,
1,Cuotas a vencer:,,,,,,,,,,,,
2,Enero/19,,Marzo/19,,,Mayo/19,,,,,,,
3,,,,,,,,,,,,,
4,FECHACOMPROBANTE,,DETALLE DE TRANSACCION,,,,,,,,,,
5,,,SALDO ANTERIOR,,,,,,,,,,
6,03.12.18,,SU PAGO EN PESOS,,,,,,,,,,
7,03.12.18,,SU PAGO EN USD,,,,,,,,,,
8,12.01.18,,CLARO EQUIPOS,,,Cuota 12/18,,,,,,,
9,05.04.18,,DISTRIBUIDORES INDEPEND PSA Cuota 09/12,,,,,,,,,,


In [40]:
df = tabula.read_pdf('data/resumen_cuenta_visa_Dec_2018.pdf', pandas_options={'header': None}, pages=[1], columns=[313.389,62.16,692.269,541.679], multiple_tables=True)[0]
df[4] = None
df[5] = None
df

Unnamed: 0,0,1,2,3,4,5
0,22.10.18,000172*,WWW.JUMBOACASA.COM.AR/5231Cuota 03/03,,,
1,29.10.18,000188*,WWW.JUMBOACASA.COM.AR/5231Cuota 03/03,,,
2,12.11.18,000320*,WWW.JUMBOACASA.COM.AR/5231Cuota 02/03,,,
3,26.11.18,000375*,WWW.JUMBOACASA.COM.AR/5231Cuota 02/03,,,
4,28.11.18,455714*,CABLEVISION DEB AUT 000000037500370,,,
5,01.12.18,006430*,WWW.MERCADOPAGO.COM,,,
6,01.12.18,001528*,WHOOPIES,,,
7,02.12.18,001060*,JUMBO ALMAGRO,,,
8,03.12.18,000013*,I FRESH MARKET5423,,,
9,03.12.18,007277*,HOYTS ABASTO,,,


In [41]:
df = tabula.read_pdf('data/resumen_cuenta_visa_Dec_2018.pdf', pandas_options={'header': None}, pages=[1], columns=[313.389,62.16,692.269,541.679], multiple_tables=True)[1]
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,LIMITES: COMPRA$,"1 4 0 . 0 0 0 , 0 0",FINANCIACION $,"112.0 0 0 , 0 0",,AD E L A,N T O (*),,,"$ 15 .000,00",CPRA. CUOTAS,,
1,Cuotas a vencer:,,,,,,,,,,,,
2,Enero/19,Febrero/19,Marzo/19,Abril/19,,Mayo/19,,,,Junio/19,,,
3,"$8.869,06","$8.208,58","$7.391,83","$6.654,33",,"$422,16",,,,"$422,16",,,_
4,FECHACOMPROBANTE,,DETALLE DE TRANSACCION,,,,,,,,PESOS,DOLARES,
5,,,SALDO ANTERIOR,,,,,,,,"34.702,18",27496,
6,03.12.18,,SU PAGO EN PESOS,,,,,,,,"34.702,18-",,
7,03.12.18,,SU PAGO EN USD,,,,,,,,,"274,96- _",
8,12.01.18,001320*,CLARO EQUIPOS,,,Cuota 12/18,,,,,42216,,
9,05.04.18,000797*,DISTRIBUIDORES INDEPEND PSA Cuota 09/12,,,,,,,,73750,,


In [36]:
df = tabula.read_pdf('data/resumen_cuenta_visa_Dec_2018.pdf', pandas_options={'header': None}, pages=2, columns=[104.71,63.64,154.29,539.459])
df[4] = None
df

Unnamed: 0,0,1,2,3,4
0,27.12.18,000534*,WWW.JUMBOACASA.COM.AR/5231Cuota 01/03,,
1,27.12.18,000594*,WWW.JUMBOACASA.COM.AR/5231Cuota 01/03,,
2,27.12.18,000534,BONIF. CONSUMO WWW.JUMBOACASA.COM.A,,
3,27.12.18,000594,BONIF. CONSUMO WWW.JUMBOACASA.COM.A,,
4,27.12.18IVA RG 4240 21% (812.98),,17073,,
5,______________________________________________...,,,,
6,SALDO ACTUAL$,"18.653,80 U$S",4533,,
7,______________________________________________...,,,,
8,PAGO MINIMO$,,"3.362,00",,
9,______________________________________________...,,,,


In [47]:
# quizás sean resumenes de dos páginas los que fallan :( busquemos cuál es
for f in glob('data/resumen_cuenta_visa*.pdf'):
    print('will try', f)
    tabula.read_pdf(f, pandas_options={'header': None})
    shape = tabula.read_pdf(f, pandas_options={'header': None}, pages=1, columns=[313.389,62.16,692.269,541.679], multiple_tables=True)[0].shape
    print(shape)
    dfs = tabula.read_pdf(f, pandas_options={'header': None}, pages=2, columns=[104.71,63.64,154.29,539.459])
    if dfs is not None:
        print(dfs[0].shape)

will try data/resumen_cuenta_visa_Nov_2018.pdf
(49, 6)
(61,)
will try data/resumen_cuenta_visa_Sep_2018.pdf
(60, 13)
(86,)
will try data/resumen_cuenta_visa_Dec_2017.pdf
(49, 13)
will try data/resumen_cuenta_visa_Apr_2018.pdf
(49, 7)
(84,)
will try data/resumen_cuenta_visa_May_2018.pdf
(46, 5)
(56,)
will try data/resumen_cuenta_visa_Jul_2017.pdf
(20, 7)
(69,)
will try data/resumen_cuenta_visa_Jul_2018.pdf
(46, 6)
(57,)
will try data/resumen_cuenta_visa_Aug_2018.pdf
(48, 6)
(85,)
will try data/resumen_cuenta_visa_Sep_2017.pdf
(25, 6)
(76,)
will try data/resumen_cuenta_visa_Jun_2017.pdf
(27, 7)
will try data/resumen_cuenta_visa_Mar_2018.pdf
(45, 6)
(87,)
will try data/resumen_cuenta_visa_Dec_2018.pdf


CSVParseError: Error failed to create DataFrame with different column tables.
Try to set `multiple_tables=True` or set `names` option for `pandas_options`. 
, caused by ParserError('Error tokenizing data. C error: Expected 6 fields in line 41, saw 13\n',)

### Conclusión

Tabula parece leer bien los pdfs, pero inconsistentemente entre uno y otro aunque el formato a ojo sea igual. Esto es un problema pero solucionable con esfuerzo.

## Opción 2: pdfttotext + regex

`pdftotext` permite extraer el texto plano de archivos PDF. Si mantenemos el formato crear expresiones regulares para esto no debería ser muy difícil.

In [57]:
import pdftotext, re

def parse_visa(f):
    with open(f, "rb") as fp:
        pdf = pdftotext.PDF(fp)
    start = pdf[0].index('FECHA')
    end = pdf[0].index('¿Quiere pagar')
    s = pdf[0][start:end]
    def dashrepl(matchobj):
        if matchobj.group(0) == '***,**': return ' '
        else: return '***,**'
    return re.sub(r'[0-9\.]+,[0-9]{2}', dashrepl, s)
print(parse_visa('data/resumen_cuenta_visa_Nov_2018.pdf'))

FECHA COMPROBANTE             DETALLE DE TRANSACCION                                             PESOS                DOLARES
                                     SALDO ANTERIOR                                                       ***,**                   ***,**
            05.11.18                 SU PAGO EN PESOS                                                     ***,**-
            05.11.18                 SU PAGO EN USD                                                                                   ***,**- _
            12.01.18      001320*    CLARO EQUIPOS                  Cuota  11/18                             ***,**
            05.04.18      000797*    DISTRIBUIDORES INDEPEND PSA Cuota     08/12                             ***,**
            06.05.18      001545*    DESPEGAR.COM                   Cuota  07/12                             ***,**
            06.05.18      001543*    DESPEGAR.COM                   Cuota  07/12                             ***,**
            06

In [58]:
print(parse_visa('data/resumen_cuenta_visa_Dec_2018.pdf'))

FECHA COMPROBANTE             DETALLE DE TRANSACCION                                               PESOS               DOLARES
                                     SALDO ANTERIOR                                                         ***,**                 ***,**
            03.12.18                 SU PAGO EN PESOS                                                       ***,**-
            03.12.18                 SU PAGO EN USD                                                                                   ***,**- _
            12.01.18      001320*    CLARO EQUIPOS                   Cuota   12/18                             ***,**
            05.04.18      000797*    DISTRIBUIDORES INDEPEND PSA Cuota       09/12                             ***,**
            06.05.18      001545*    DESPEGAR.COM                    Cuota   08/12                             ***,**
            06.05.18      001543*    DESPEGAR.COM                    Cuota   08/12                             ***,**
   

In [83]:
def parse_visa_cont(f):
    with open(f, "rb") as fp:
        pdf = pdftotext.PDF(fp)
    s = ''
    for page in range(1, len(pdf)):
        # this might break if the resumen has 3 pages or more
        if 'FECHA' not in pdf[page] or 'SALDO ACTUAL' not in pdf[page]:
            break
        start = pdf[page].index('FECHA')
        end = pdf[page].index('SALDO ACTUAL')
        s += pdf[page][start:end]
    def dashrepl(matchobj):
        if matchobj.group(0) == '***,**': return ' '
        else: return '***,**'
    return re.sub(r'[0-9\.]+,[0-9]{2}', dashrepl, s)
print(parse_visa_cont('data/resumen_cuenta_visa_Dec_2018.pdf'))

FECHA COMPROBANTE            DETALLE DE TRANSACCION                                         PESOS          DOLARES
 27.12.18      007126*    OFFICE COOK                                                         ***,**
 27.12.18      000534*    WWW.JUMBOACASA.COM.AR/5231   Cuota 01/03                           ***,**
 27.12.18      000594*    WWW.JUMBOACASA.COM.AR/5231   Cuota 01/03                           ***,**
 27.12.18      000534     BONIF. CONSUMO WWW.JUMBOACASA.COM.A                                ***,**-
 27.12.18      000594     BONIF. CONSUMO WWW.JUMBOACASA.COM.A                                ***,**-
 Tarjeta 9158 Total Consumos de SEBASTIAN WAISBROT                                        ***,**            ***,** _
 27.12.18                 IVA RG 4240 21% (812.98)                                           ***,**
                                                            __________________________________________________________
                                              

In [84]:
for f in glob('data/resumen_cuenta_visa*.pdf'):
    print('will try', f)
    parse_visa(f), parse_visa_cont(f)

will try data/resumen_cuenta_visa_Nov_2018.pdf
will try data/resumen_cuenta_visa_Sep_2018.pdf
will try data/resumen_cuenta_visa_Dec_2017.pdf
will try data/resumen_cuenta_visa_Apr_2018.pdf
will try data/resumen_cuenta_visa_May_2018.pdf
will try data/resumen_cuenta_visa_Jul_2017.pdf
will try data/resumen_cuenta_visa_Jul_2018.pdf
will try data/resumen_cuenta_visa_Aug_2018.pdf
will try data/resumen_cuenta_visa_Sep_2017.pdf
will try data/resumen_cuenta_visa_Jun_2017.pdf
will try data/resumen_cuenta_visa_Mar_2018.pdf
will try data/resumen_cuenta_visa_Dec_2018.pdf
will try data/resumen_cuenta_visa_Oct_2017.pdf
will try data/resumen_cuenta_visa_Feb_2018.pdf
will try data/resumen_cuenta_visa_Nov_2017.pdf
will try data/resumen_cuenta_visa_Jun_2018.pdf
will try data/resumen_cuenta_visa_Aug_2017.pdf


### Conclusión

Aunque no haya pasado los datos a dataframe está bastante cerca de ser un problema que se resuelva con una sola expresión regular.

# Problema 2: Resumen de cuenta de ICBC

In [88]:
f = 'data/EXT.DE.MOVIMIENTOS-1984.pdf'
with open(f, "rb") as fp:
    pdf = pdftotext.PDF(fp)
start = pdf[0].index('FECHA')
end = pdf[0].index('CONTINUA AL DORSO')
s = pdf[0][start:end]
print(re.sub(r'[0-9\.]+,[0-9]{2}', dashrepl, s))

FECHA                      CONCEPTO                   F.VALOR COMPROBANTE ORIGEN CANAL                         DEBITOS                   CREDITOS                        SALDOS
                                                   SALDO ULTIMO EXTRACTO AL 31/03/2018                                                                                          ***,**
     03-04    CRED. CAPITAL POR PAGO DE IPF                                                   0501                                                  ***,**
     03-04    CREDITO INT. DE PLAZO FIJO                                                      0501                                                       ***,**
     03-04    CRED. CAPITAL POR PAGO DE IPF                                                   0501                                                  ***,**
     03-04    CREDITO INT. DE PLAZO FIJO                                                      0501                                                       ***,**
     03-04 

In [92]:
start = pdf[1].index('FECHA')
end = pdf[1].index('CONTINUA EN LA HOJA SIGUIENTE')
s = pdf[1][start:end]
print(re.sub(r'[0-9\.]+,[0-9]{2}', dashrepl, s))

FECHA             CONCEPTO          F.VALOR COMPROBANTE ORIGEN CANAL     DEBITOS       CREDITOS       SALDOS
                                                          SALDO PAGINA ANTERIOR                        ***,**
16-04 EXTRACCION TARJETA 59503181                         0171 BANN          ***,**-                 ***,**
23-04 EXTRACCION TARJETA 59503181                         0171 BANN          ***,**-
23-04 CRED. CAPITAL POR PAGO DE IPF                       0501                             ***,**
23-04 CREDITO INT. DE PLAZO FIJO                          0501                                ***,**
23-04 EXTRACCION TARJETA 59503181                         0171 BANC          ***,**-
23-04 EXTRACCION TARJETA 59503181                         0171 BANC          ***,**-
23-04 PAGO EDESUR                                         0171 BACC            ***,**-                 ***,**
24-04 EXTRACCION TARJETA 59503181                         0171 BANN          ***,**-                  ***,**


In [94]:
start = pdf[2].index('FECHA')
end = pdf[2].index('CONTINUA')
s = pdf[2][start:end]
print(re.sub(r'[0-9\.]+,[0-9]{2}', dashrepl, s))

FECHA                      CONCEPTO                   F.VALOR COMPROBANTE ORIGEN CANAL                         DEBITOS                   CREDITOS                        SALDOS
                                                                                               SALDO HOJA ANTERIOR                                                             ***,**
     11-06    PAGO IMP.AFIP                                                                   0171   BACC                   ***,**-
     11-06    PAGO IMP.AFIP                                                                   0171   BACC              ***,**-
     11-06    ALTA PLAZO FIJO NRO:                 83                                         0171   BACC              ***,**-
     11-06    TR.8179392 A 0501/11153956/59                                                   0187   BS                 ***,**-                                               ***,**
     12-06    TRANSF. ACC.B.                                               

In [1]:
n = len(pdf)-1
start = pdf[n].index('FECHA')
end = pdf[n].index('SALDO FINAL')
print(re.sub(r'[0-9\.]+,[0-9]{2}', dashrepl, s))

NameError: name 'pdf' is not defined

### Conclusión

Similar al resumen de visa. La única salvedad es considerar tanto ingresos como egresos.