# Limpieza de un CSV con data-cleaner

Se utilizan **data-cleaner** y **pandas** para codificar la limpieza de los datos de un archivo CSV. Primero se realiza una exploración de la tabla aplicando algunas reglas de limpieza y comprobando el resultado generado. Cuando este resultado es satisfactorio, se agrega la regla de limpieza a la lista codificada que luego se utilizará para generar la versión limpia del archivo.

## Inicio

In [None]:
from data_cleaner import DataCleaner

In [None]:
input_path = "audiencias-raw.csv"
output_path = "audiencias-clean.csv"

In [25]:
dc = DataCleaner(input_path)

## Exploración y descubrimiento

In [None]:
dc.df

In [None]:
dc.nombre_propio("dependencia").tail()

## Reglas de limpieza codificadas

In [26]:
rules = [
    {
        "remover_columnas": [
            {"field": "obligadodependenciaid"},
            {"field": "obligadoid"},
            {"field": "obligado_posicion"},
            {"field": "dependenciaid"},
            {"field": "dependencia_depende"},
            {"field": "dependencia_posicion"},
            {"field": "rootdependenciaid"},
            {"field": "solicitanteid"},
            {"field": "solic_personajuridica"},
            {"field": "tipointeresinvocadoid"},
            {"field": "tipocaracterid"},
            {"field": "representadoid"},
            {"field": "tipoestadoid"},
            {"field": "tipoestadonorealizadaid"},
            {"field": "obligadoasesorid"},
            {"field": "dependenciadescripcion"},
            
        ]
    },
    {
        "nombre_propio": [
            {"field": "obligado_cargo", "keep_original": False},
            {"field": "obligado_apellido", "keep_original": False},
            {"field": "obligado_nombre", "keep_original": False},
            {"field": "dependencia_descripcion", "keep_original": False},
            {"field": "rootdependenciadescripcion", "keep_original": False},
            {"field": "solic_apellido", "keep_original": False},
            {"field": "solic_nombre", "keep_original": False},
            {"field": "solic_cargo", "keep_original": False},
            {"field": "interes_invocado", "keep_original": False},
            {"field": "desc_caracter", "keep_original": False},
            {"field": "representado_apellido", "keep_original": False},
            {"field": "desc_estado", "keep_original": False},
            {"field": "obligadoasesorcargo", "keep_original": False},
            {"field": "asesor_apellido", "keep_original": False},
            {"field": "asesor_nombre", "keep_original": False},
            {"field": "asesor_cargo", "keep_original": False},
        ]
    },
    {
        "string": [
            {"field": "obligado_cargo", "keep_original": False},
            {"field": "obligado_apellido", "keep_original": False},
            {"field": "obligado_nombre", "keep_original": False},
            {"field": "dependencia_descripcion", "keep_original": False},
            {"field": "rootdependenciadescripcion", "keep_original": False},
            {"field": "solic_apellido", "keep_original": False},
            {"field": "solic_nombre", "keep_original": False},
            {"field": "solic_cargo", "keep_original": False},
            {"field": "interes_invocado", "keep_original": False},
            {"field": "desc_caracter", "keep_original": False},
            {"field": "representado_apellido", "keep_original": False},
            {"field": "desc_estado", "keep_original": False},
            {"field": "obligadoasesorcargo", "keep_original": False},
            {"field": "asesor_apellido", "keep_original": False},
            {"field": "asesor_nombre", "keep_original": False},
            {"field": "asesor_cargo", "keep_original": False},
        ]
    },
    {"fecha_completa": [
        {"field": "fechaaudiencia", "time_format": "YY-MM-DD HH:mm:ss"},
    ]},
    {"fecha_simple": [
        {"field": "fechasolicitud", "time_format": "YY-MM-DD HH:mm:ss"},
    ]}
]

In [None]:
dc.clean(rules)

In [24]:
from __future__ import print_function
for c in dc.df.columns:
    print("%s\n\r" % c, end="")

audienciaid
obligado_cargo
obligado_posicion
obligado_apellido
obligado_nombre
dependencia_descripcion
rootdependenciadescripcion
fechasolicitud
solic_apellido
solic_nombre
solic_cargo
interes_invocado
desc_caracter
representado_cargo
representado_personajuridica
representado_nombre
representado_apellido
fechaaudiencia
lugar
objeto
participante
comentario
desc_estado
desc_estado_no_realizado
sintesis
obligadoasesorcargo
asesor_apellido
asesor_nombre
asesor_cargo


In [23]:
dc.save(output_path)