# Limpieza de Estructura Organica del PEN

Se utilizan **data-cleaner** y **pandas** para codificar la limpieza de los datos de un archivo CSV. Primero se realiza una exploración de la tabla aplicando algunas reglas de limpieza y comprobando el resultado generado. Cuando este resultado es satisfactorio, se agrega la regla de limpieza a la lista codificada que luego se utilizará para generar la versión limpia del archivo.

## Inicio

In [36]:
from data_cleaner import DataCleaner

In [37]:
input_path = "estructura-organica-raw.csv"
output_path = "estructura-organica-clean.csv"

In [38]:
dc = DataCleaner(input_path)

## Exploración y descubrimiento

In [39]:
for c in dc.df.columns:
    print(c)

unnamed_0
jurisdiccion
unidad
reporta_a
unidad_tipo
norma_competenciasobjetivos
aut_cargo
aut_tratamiento
aut_apellido
aut_nombre
aut_dni
aut_cuit_cuil
aut_norma_designacion
web
domicilio
piso_oficina
localidad
cordigo_postal
provincia
telefono
mail


In [33]:
dc.df.piso_oficina.unique()

array([u'Piso 1', u'Piso 2', nan, u'Planta Baja',
       u'Piso 1 Secretar\xeda Presidencial', u'Piso 7',
       u'Piso 1 Sobre Balcarce', u'Piso 8', u'Piso 9 Ochava', u'Piso6',
       u'Piso 7 Ochava', u'Piso 4 Oficina 409', u'Piso 4 Oficina 415',
       u'Piso 5', u'Piso 5 Oficina 509', u'Piso 10 Ochava',
       u'PISO 10 OCHAVA', u'Piso 3', u'Piso 11', u'Piso 11 Oficina 1108',
       u'Piso 8 Oficina 801', u'Piso 8 Oficina  801', u'Piso 6 Oficina 2',
       u'Piso 6 Oficina 21 bis', u'Piso 2 Oficina 204',
       u'Piso 1 Oficina 13', u'Entrepiso Oficina 3', u'Piso 3 Oficina 346',
       u'Entrepiso Oficina 2', u'Piso 1 Oficina 9', u'Piso 4 Oficina 402',
       u'Piso 3 Oficina 312', u'Piso 11. Of.icina 1121',
       u'Piso 11. Oficina 1107', u'Piso 11 Oficina 1129', u'Piso 10',
       u'Piso 9', u'Piso 6', u'Piso 14', u'Piso 12',
       u'Piso 11 Ala Frente ', u'Piso 11 Contrafrente',
       u'Piso 11 Ala Norte', u'Piso 10 Contrafrente Ala Norte',
       u'Piso 12 Contrafrente Ala N

In [40]:
dc.reemplazar_string("piso_oficina", {"Planta": ["Piso"]})

[u'Planta 1',
 u'Planta 1',
 u'Planta 1',
 u'Planta 1',
 u'Planta 1',
 u'Planta 1',
 u'Planta 2',
 u'nan',
 u'Planta Baja',
 u'Planta Baja',
 u'Planta Baja',
 u'nan',
 u'nan',
 u'nan',
 u'nan',
 u'nan',
 u'Planta 1',
 u'Planta 1 Secretar\xeda Presidencial',
 u'Planta 2',
 u'Planta 2',
 u'nan',
 u'Planta 7',
 u'Planta Baja',
 u'Planta Baja',
 u'Planta 1 Sobre Balcarce',
 u'Planta 2',
 u'nan',
 u'Planta 1',
 u'Planta 8',
 u'Planta 9 Ochava',
 u'Planta6',
 u'Planta 7 Ochava',
 u'Planta 4 Oficina 409',
 u'Planta 4 Oficina 415',
 u'Planta 5',
 u'Planta 5 Oficina 509',
 u'Planta 10 Ochava',
 u'PISO 10 OCHAVA',
 u'Planta 3',
 u'Planta 3',
 u'Planta 3',
 u'nan',
 u'Planta 1',
 u'Planta 11',
 u'Planta 11 Oficina 1108',
 u'nan',
 u'Planta 8 Oficina 801',
 u'Planta 8 Oficina  801',
 u'Planta 6 Oficina 2',
 u'Planta 6 Oficina 21 bis',
 u'nan',
 u'Planta 2 Oficina 204',
 u'Planta 1 Oficina 13',
 u'Entrepiso Oficina 3',
 u'Planta 3 Oficina 346',
 u'Entrepiso Oficina 2',
 u'Planta 1 Oficina 9',
 u'Pl

In [35]:
dc.df.piso_oficina.unique()

array([u'Piso 1', u'Piso 2', nan, u'Planta Baja',
       u'Piso 1 Secretar\xeda Presidencial', u'Piso 7',
       u'Piso 1 Sobre Balcarce', u'Piso 8', u'Piso 9 Ochava', u'Piso6',
       u'Piso 7 Ochava', u'Piso 4 Oficina 409', u'Piso 4 Oficina 415',
       u'Piso 5', u'Piso 5 Oficina 509', u'Piso 10 Ochava', u'Piso 3',
       u'Piso 11', u'Piso 11 Oficina 1108', u'Piso 8 Oficina 801',
       u'Piso 6 Oficina 2', u'Piso 6 Oficina 21 bis',
       u'Piso 2 Oficina 204', u'Piso 1 Oficina 13', u'Entrepiso Oficina 3',
       u'Piso 3 Oficina 346', u'Entrepiso Oficina 2', u'Piso 1 Oficina 9',
       u'Piso 4 Oficina 402', u'Piso 3 Oficina 312',
       u'Piso 11. Of.icina 1121', u'Piso 11. Oficina 1107',
       u'Piso 11 Oficina 1129', u'Piso 10', u'Piso 9', u'Piso 6',
       u'Piso 14', u'Piso 12', u'Piso 11 Ala Frente',
       u'Piso 11 Contrafrente', u'Piso 11 Ala Norte',
       u'Piso 10 Contrafrente Ala Norte',
       u'Piso 12 Contrafrente Ala Norte', u'Piso 10 Contrafrente Ala Sur',
    

## Reglas de limpieza codificadas

In [21]:
rules = [
    {
        "remover_columnas": [
            {"field": "unnamed_0"}
        ]
    },
    {
        "renombrar_columnas": [
            {"field": "aut_dni", "new_field": "autoridad_dni"},
            {"field": "aut_cuit_cuil", "new_field": "autoridad_cuil_cuit"},
            {"field": "aut_cargo", "new_field": "autoridad_cargo"},
            {"field": "aut_tratamiento", "new_field": "autoridad_tratamiento"},
            {"field": "aut_apellido", "new_field": "autoridad_apellido"},
            {"field": "aut_nombre", "new_field": "autoridad_nombre"},
            {"field": "aut_norma_designacion", "new_field": "autoridad_norma_designacion"},
            {"field": "norma_competenciasobjetivos", "new_field": "norma_competencias_objetivos"},
            {"field": "cordigo_postal", "new_field": "codigo_postal"}
        ]
    },
    {
        "string": [
            {"field": "jurisdiccion", "keep_original": False},
            {"field": "unidad", "keep_original": False},
            {"field": "reporta_a", "keep_original": False},
            {"field": "unidad_tipo", "keep_original": False},
            {"field": "autoridad_cargo", "keep_original": False},
            {"field": "autoridad_tratamiento", "keep_original": False},
            {"field": "autoridad_apellido", "keep_original": False},
            {"field": "autoridad_nombre", "keep_original": False},
            {"field": "autoridad_cuil_cuit", "keep_original": False},
            {"field": "piso_oficina", "keep_original": False},
            {"field": "codigo_postal", "keep_original": False},
            {"field": "domicilio", "keep_original": False},
            {"field": "localidad", "keep_original": False},
            {"field": "provincia", "keep_original": False},
        ]
    },
    {
        "string_regex_substitute": [
            {"field": "norma_competencias_objetivos", "regex_str_match": ";", "regex_str_sub": ",",
             "keep_original": False},
            {"field": "unidad", "regex_str_match": "\(.*\)", "regex_str_sub": "",
            "keep_original": False},
            {"field": "provincia", "regex_str_match": "Bs\. As\.", "regex_str_sub": "Buenos Aires",
            "keep_original": False},
            {"field": "autoridad_tratamiento", "regex_str_match": "\s+$", "regex_str_sub": "", 
             "keep_original": False},
            {"field": "autoridad_tratamiento", "regex_str_match": "(.+{^\.})$", "regex_str_sub": "\g<1>.", 
             "keep_original": False},
            {"field": "autoridad_norma_designacion", "regex_str_match": "Dto\D*", "regex_str_sub": "Decreto ",
             "keep_original": False},
            {"field": "web", "regex_str_match": "^.+www\.", "regex_str_sub": "http://www.",
            "keep_original": False},
        ]
    },
    {
        "mail_format": [
            {"field": "mail"}
        ]
    },
    {
        "reemplazar_string": [
            {"field": "piso_oficina", "replacements": {"Oficina": ["Of.icina"]}}
        ]
    }
]

## Limpieza

In [22]:
dc.clean(rules)

In [23]:
for c in dc.df.columns:
    print(c)

jurisdiccion
unidad
reporta_a
unidad_tipo
norma_competencias_objetivos
autoridad_cargo
autoridad_tratamiento
autoridad_apellido
autoridad_nombre
autoridad_dni
autoridad_cuil_cuit
autoridad_norma_designacion
web
domicilio
piso_oficina
localidad
codigo_postal
provincia
telefono
mail


In [24]:
len(dc.df.columns)

20

In [25]:
dc.df.piso_oficina.unique()

array([u'Piso 1', u'Piso 2', u'nan', u'Planta Baja',
       u'Piso 1 Secretar\xeda Presidencial', u'Piso 7',
       u'Piso 1 Sobre Balcarce', u'Piso 8', u'Piso 9 Ochava', u'Piso6',
       u'Piso 7 Ochava', u'Piso 4 Oficina 409', u'Piso 4 Oficina 415',
       u'Piso 5', u'Piso 5 Oficina 509', u'Piso 10 Ochava', u'Piso 3',
       u'Piso 11', u'Piso 11 Oficina 1108', u'Piso 8 Oficina 801',
       u'Piso 6 Oficina 2', u'Piso 6 Oficina 21 bis',
       u'Piso 2 Oficina 204', u'Piso 1 Oficina 13', u'Entrepiso Oficina 3',
       u'Piso 3 Oficina 346', u'Entrepiso Oficina 2', u'Piso 1 Oficina 9',
       u'Piso 4 Oficina 402', u'Piso 3 Oficina 312',
       u'Piso 11. Oficina 1121', u'Piso 11. Oficina 1107',
       u'Piso 11 Oficina 1129', u'Piso 10', u'Piso 9', u'Piso 6',
       u'Piso 14', u'Piso 12', u'Piso 11 Ala Frente',
       u'Piso 11 Contrafrente', u'Piso 11 Ala Norte',
       u'Piso 10 Contrafrente Ala Norte',
       u'Piso 12 Contrafrente Ala Norte', u'Piso 10 Contrafrente Ala Sur',
  

In [26]:
import re
re.sub("(?P<cargo>\(.+\))(?P<nombre>.+)","\g<nombre> \g<cargo>","(presidente) Juan Jose Perez.")

' Juan Jose Perez. (presidente)'

In [27]:
dc.df.unidad.replace('(Presidencia)(.+)','\g<2>\g<1>',regex=True)

0                               PRESIDENCIA DE LA NACIÓN
1                                        VICEPRESIDENCIA
2                                     Secretaría General
3                          Subsecretaría de Coordinación
4          Coordinador General de Asuntos lesPresidencia
5                                  Subsecretaría General
6      Subsecretaría de Relaciones con la Sociedad Civil
7                                           Casa Militar
8                             Secretaría Legal y Técnica
9                       Subsecretaría de Asuntos Legales
10                                 Subsecretaría Técnica
11                       Agencia Federal de Inteligencia
12     Secretaría de Programación para la Prevención ...
13     Subsecretaría de Diseño, Monitoreo y Evaluació...
14     Subsecretaría de Prevención, Capacitación y As...
15          Subsecretaría de Coordinación Administrativa
16                     Jefatura de Gabinete de Ministros
17                    Secretarí

In [28]:
# dc.save(output_path)