# Limpieza de un CSV con data-cleaner

Se utilizan **data-cleaner** y **pandas** para codificar la limpieza de los datos de un archivo CSV. Primero se realiza una exploración de la tabla aplicando algunas reglas de limpieza y comprobando el resultado generado. Cuando este resultado es satisfactorio, se agrega la regla de limpieza a la lista codificada que luego se utilizará para generar la versión limpia del archivo.

## Inicio

In [23]:
from data_cleaner import DataCleaner

In [24]:
input_path = "salarios-ministros-2016-raw.csv"
output_path = "salarios-ministros-2016-clean.csv"

In [25]:
dc = DataCleaner(input_path, sep=";")

In [26]:
dc.df.head()

Unnamed: 0,anio,mes_nro,mes,jurisdiccion,apellido_nombre,cargo,asignacion_mensual
0,2016,1,Enero,MODERNIZACIÓN,IBARRA ANDRES HORACIO,Ministro,11593872
1,2016,1,Enero,JEFATURA DE GABINETE,PEÑA MARCOS,Ministro,11593872
2,2016,1,Enero,AGROINDUSTRIA,BURYAILE RICARDO,Ministro,11584230
3,2016,1,Enero,"CIENCIA, TECNOLOGÍA E INNOVACIÓN PRODUCTIVA","BARAÑAO, JOSE LINO SALVADOR",Ministro,11583600
4,2016,1,Enero,COMUNICACIONES,AGUAD OSCAR RAUL,Ministro,24505160


## Exploración y descubrimiento

In [27]:
dc.df.columns

Index([u'anio', u'mes_nro', u'mes', u'jurisdiccion', u'apellido_nombre',
       u'cargo', u'asignacion_mensual'],
      dtype='object')

In [28]:
dc.df.jurisdiccion.unique()

array([u'MODERNIZACI\xd3N', u'JEFATURA DE GABINETE', u'AGROINDUSTRIA',
       u'CIENCIA, TECNOLOG\xcdA E INNOVACI\xd3N PRODUCTIVA',
       u'COMUNICACIONES', u'DEFENSA', u'HACIENDA Y FINANZAS P\xdaBLICAS',
       u'EDUCACI\xd3N Y DEPORTES', u'ENERG\xcdA Y MINER\xcdA', u'SALUD',
       u'SEGURIDAD', u'INTERIOR, OBRAS P\xdaBLICAS Y VIVIENDA',
       u'DESARROLLO SOCIAL', u'JUSTICIA Y DERECHOS HUMANOS',
       u'RELACIONES EXTERIORES Y CULTO',
       u'TRABAJO, EMPLEO Y SEGURIDAD SOCIAL',
       u'AMBIENTE Y DESARROLLO SUSTENTABLE', u'CULTURA', u'TRANSPORTE',
       u'TURISMO', u'COMUNICACIONES (*)',
       u'CIENCIA, TECNOLOG\xcdA E INNOVACI\xd3N PRODUCTIVA ',
       u'PRODUCCI\xd3N', u'COMUNICACIONES ', u'DESARROLLO SOCIAL (*)'], dtype=object)

## Reglas de limpieza codificadas

In [29]:
rules = [
    {
        "nombre_propio": [
            {"field": "jurisdiccion", "keep_original": False},
            {"field": "apellido_nombre", "keep_original": False}
        ]
    },
    {
        "fecha_separada": [
            {"fields": [["anio", "YYYY"], ["mes_nro", "M"]], "new_field_name": "mes"},
        ]
    },
    {
        "reemplazar_string": [
            {"field": "asignacion_mensual", "replacements": {".": [","]}}
        ]
    },
    {
        "string": [
            {"field": "jurisdiccion"},
            {"field": "apellido_nombre"}
        ]
    }
]

## Limpieza

In [30]:
dc.clean(rules)

In [31]:
dc.df

Unnamed: 0,anio,mes_nro,mes,jurisdiccion,apellido_nombre,cargo,asignacion_mensual,isodatetime_mes
0,2016,1,Enero,Modernización,Ibarra Andres Horacio,Ministro,115938.72,2016-01-01T00:00:00-03:00
1,2016,1,Enero,Jefatura de Gabinete,Peña Marcos,Ministro,115938.72,2016-01-01T00:00:00-03:00
2,2016,1,Enero,Agroindustria,Buryaile Ricardo,Ministro,115842.30,2016-01-01T00:00:00-03:00
3,2016,1,Enero,"Ciencia, Tecnología E Innovación Productiva","Barañao, Jose Lino Salvador",Ministro,115836.00,2016-01-01T00:00:00-03:00
4,2016,1,Enero,Comunicaciones,Aguad Oscar Raul,Ministro,245051.60,2016-01-01T00:00:00-03:00
5,2016,1,Enero,Defensa,"Martinez, Julio Cesar",Ministro,115842.31,2016-01-01T00:00:00-03:00
6,2016,1,Enero,Hacienda y Finanzas Públicas,De Prat Gay Alfonso,Ministro,115842.30,2016-01-01T00:00:00-03:00
7,2016,1,Enero,Educación y Deportes,"Bullrich, Esteban Jose",Ministro,115842.30,2016-01-01T00:00:00-03:00
8,2016,1,Enero,Energía y Minería,Aranguren Juan Jose,Ministro,196931.90,2016-01-01T00:00:00-03:00
9,2016,1,Enero,Salud,Lemus Jorge Daniel,Ministro,115842.31,2016-01-01T00:00:00-03:00


In [32]:
for c in dc.df.columns:
    print(c)

anio
mes_nro
mes
jurisdiccion
apellido_nombre
cargo
asignacion_mensual
isodatetime_mes


In [33]:
dc.save(output_path)