# Limpieza de un CSV con data-cleaner

Se utilizan **data-cleaner** y **pandas** para codificar la limpieza de los datos de un archivo CSV. Primero se realiza una exploración de la tabla aplicando algunas reglas de limpieza y comprobando el resultado generado. Cuando este resultado es satisfactorio, se agrega la regla de limpieza a la lista codificada que luego se utilizará para generar la versión limpia del archivo.

## Inicio

In [36]:
from data_cleaner import DataCleaner

In [37]:
input_path = "audiencias-raw.csv"
output_path = "audiencias-clean.csv"

In [38]:
dc = DataCleaner(input_path)

## Exploración y descubrimiento

In [39]:
dc.df.columns

Index([u'audienciaid', u'obligadodependenciaid', u'obligadoid',
       u'obligado_cargo', u'obligado_posicion', u'obligado_apellido',
       u'obligado_nombre', u'dependenciaid', u'dependencia_descripcion',
       u'dependencia_depende', u'dependencia_posicion',
       u'dependenciadescripcion', u'rootdependenciaid',
       u'rootdependenciadescripcion', u'fechasolicitud', u'solicitanteid',
       u'solic_personajuridica', u'solic_apellido', u'solic_nombre',
       u'solic_cargo', u'tipointeresinvocadoid', u'interes_invocado',
       u'tipocaracterid', u'desc_caracter', u'representadoid',
       u'representado_cargo', u'representado_personajuridica',
       u'representado_nombre', u'representado_apellido', u'fechaaudiencia',
       u'lugar', u'objeto', u'participante', u'comentario', u'tipoestadoid',
       u'desc_estado', u'tipoestadonorealizadaid', u'desc_estado_no_realizado',
       u'sintesis', u'obligadoasesorid', u'obligadoasesorcargo',
       u'asesor_apellido', u'asesor_nombre'

## Reglas de limpieza codificadas

In [40]:
rules = [
    {
        "remover_columnas": [
            {"field": "obligadodependenciaid"},
            {"field": "obligadoid"},
            {"field": "obligado_posicion"},
            {"field": "dependenciaid"},
            {"field": "dependencia_depende"},
            {"field": "dependencia_posicion"},
            {"field": "rootdependenciaid"},
            {"field": "solicitanteid"},
            {"field": "solic_personajuridica"},
            {"field": "tipointeresinvocadoid"},
            {"field": "tipocaracterid"},
            {"field": "representadoid"},
            {"field": "tipoestadoid"},
            {"field": "tipoestadonorealizadaid"},
            {"field": "obligadoasesorid"},
            {"field": "dependenciadescripcion"},
            
        ]
    },
    {
        "nombre_propio": [
            {"field": "obligado_cargo", "keep_original": False},
            {"field": "obligado_apellido", "keep_original": False},
            {"field": "obligado_nombre", "keep_original": False},
            {"field": "dependencia_descripcion", "keep_original": False},
            {"field": "rootdependenciadescripcion", "keep_original": False},
            {"field": "solic_apellido", "keep_original": False},
            {"field": "solic_nombre", "keep_original": False},
            {"field": "solic_cargo", "keep_original": False},
            {"field": "interes_invocado", "keep_original": False},
            {"field": "desc_caracter", "keep_original": False},
            {"field": "representado_apellido", "keep_original": False},
            {"field": "desc_estado", "keep_original": False},
            {"field": "obligadoasesorcargo", "keep_original": False},
            {"field": "asesor_apellido", "keep_original": False},
            {"field": "asesor_nombre", "keep_original": False},
            {"field": "asesor_cargo", "keep_original": False},
        ]
    },
    {
        "string": [
            {"field": "obligado_cargo", "keep_original": False},
            {"field": "obligado_apellido", "keep_original": False},
            {"field": "obligado_nombre", "keep_original": False},
            {"field": "dependencia_descripcion", "keep_original": False},
            {"field": "rootdependenciadescripcion", "keep_original": False},
            {"field": "solic_apellido", "keep_original": False},
            {"field": "solic_nombre", "keep_original": False},
            {"field": "solic_cargo", "keep_original": False},
            {"field": "interes_invocado", "keep_original": False},
            {"field": "desc_caracter", "keep_original": False},
            {"field": "representado_apellido", "keep_original": False},
            {"field": "desc_estado", "keep_original": False},
            {"field": "obligadoasesorcargo", "keep_original": False},
            {"field": "asesor_apellido", "keep_original": False},
            {"field": "asesor_nombre", "keep_original": False},
            {"field": "asesor_cargo", "keep_original": False},
        ]
    },
    {
        "fecha_completa": [
            {"field": "fechaaudiencia", "time_format": "YY-MM-DD HH:mm:ss"},
        ]
    },
    {
        "fecha_simple": [
            {"field": "fechasolicitud", "time_format": "YY-MM-DD HH:mm:ss"},
        ]
    },
    {
        "renombrar_columnas": [
            {"field": "audienciaid", "new_field": "audiencia_id"},
            {"field": "rootdependenciadescripcion", "new_field": "root_dependencia_descripcion"},
            {"field": "fechasolicitud", "new_field": "fecha_solicitud"},
            {"field": "fechaaudiencia", "new_field": "fecha_audiencia"},
            {"field": "representado_personajuridica", "new_field": "representado_persona_juridica"},
            {"field": "obligadoasesorcargo", "new_field": "obligado_asesor_cargo"}
        ]
    }
]

## Limpieza

In [41]:
dc.clean(rules)

In [42]:
from __future__ import print_function
for c in dc.df.columns:
    print("%s\n\r" % c, end="")

audiencia_id
obligado_cargo
obligado_apellido
obligado_nombre
dependencia_descripcion
root_dependencia_descripcion
fecha_solicitud
solic_apellido
solic_nombre
solic_cargo
interes_invocado
desc_caracter
representado_cargo
representado_persona_juridica
representado_nombre
representado_apellido
fecha_audiencia
lugar
objeto
participante
comentario
desc_estado
desc_estado_no_realizado
sintesis
obligado_asesor_cargo
asesor_apellido
asesor_nombre
asesor_cargo


In [44]:
dc.df.dato

0        2004-11-02T12:00:00-03:00
1        2004-11-03T11:00:00-03:00
2        2004-11-01T14:30:00-03:00
3        2004-11-01T11:30:00-03:00
4        2004-11-01T13:00:00-03:00
5        2004-11-02T15:30:00-03:00
6        2004-11-01T15:30:00-03:00
7        2004-11-01T17:00:00-03:00
8        2004-11-09T16:00:00-03:00
9        2004-11-02T05:00:00-03:00
10       2004-10-27T17:00:00-03:00
11       2004-11-02T16:00:00-03:00
12       2004-11-05T15:30:00-03:00
13       2004-11-04T16:00:00-03:00
14       2004-11-10T00:00:00-03:00
15       2004-11-10T15:00:00-03:00
16       2004-11-11T13:00:00-03:00
17       2004-11-11T00:00:00-03:00
18       2004-11-11T00:00:00-03:00
19       2004-11-11T00:00:00-03:00
20       2004-11-11T00:00:00-03:00
21       2004-11-09T16:30:00-03:00
22       2004-11-12T15:30:00-03:00
23       2004-11-02T16:00:00-03:00
24       2004-11-01T17:00:00-03:00
25       2004-11-03T17:00:00-03:00
26       2004-11-09T10:00:00-03:00
27       2004-11-09T15:00:00-03:00
28       2004-11-12T

In [23]:
dc.save(output_path)