# Limpieza de Estructura Organica del PEN

Se utilizan **data-cleaner** y **pandas** para codificar la limpieza de los datos de un archivo CSV. Primero se realiza una exploración de la tabla aplicando algunas reglas de limpieza y comprobando el resultado generado. Cuando este resultado es satisfactorio, se agrega la regla de limpieza a la lista codificada que luego se utilizará para generar la versión limpia del archivo.

## Inicio

In [221]:
from data_cleaner import DataCleaner

In [222]:
input_path = "estructura-organica-raw.csv"
output_path = "estructura-organica-clean.csv"

In [223]:
dc = DataCleaner(input_path)

## Exploración y descubrimiento

In [224]:
for c in dc.df.columns:
    print(c)

unnamed_0
jurisdiccion
unidad
reporta_a
unidad_tipo
norma_competenciasobjetivos
aut_cargo
aut_tratamiento
aut_apellido
aut_nombre
aut_dni
aut_cuit_cuil
aut_norma_designacion
web
domicilio
piso_oficina
localidad
cordigo_postal
provincia
telefono
mail


## Reglas de limpieza codificadas

In [225]:
rules = [
    {
        "remover_columnas": [
            {"field": "unnamed_0"}
        ]
    },
    {
        "renombrar_columnas": [
            {"field": "aut_dni", "new_field": "autoridad_dni"},
            {"field": "aut_cuit_cuil", "new_field": "autoridad_cuil_cuit"},
            {"field": "aut_cargo", "new_field": "autoridad_cargo"},
            {"field": "aut_tratamiento", "new_field": "autoridad_tratamiento"},
            {"field": "aut_apellido", "new_field": "autoridad_apellido"},
            {"field": "aut_nombre", "new_field": "autoridad_nombre"},
            {"field": "aut_norma_designacion", "new_field": "autoridad_norma_designacion"},
            {"field": "norma_competenciasobjetivos", "new_field": "norma_competencias_objetivos"},
            {"field": "cordigo_postal", "new_field": "codigo_postal"}
        ]
    },
    {
        "string": [
            {"field": "jurisdiccion", "keep_original": False},
            {"field": "unidad", "keep_original": False},
            {"field": "reporta_a", "keep_original": False},
            {"field": "unidad_tipo", "keep_original": False},
            {"field": "autoridad_cargo", "keep_original": False},
            {"field": "autoridad_tratamiento", "keep_original": False},
            {"field": "autoridad_apellido", "keep_original": False},
            {"field": "autoridad_nombre", "keep_original": False},
            {"field": "autoridad_cuil_cuit", "keep_original": False},
            {"field": "piso_oficina", "keep_original": False},
            {"field": "codigo_postal", "keep_original": False},
            {"field": "domicilio", "keep_original": False},
            {"field": "localidad", "keep_original": False},
            {"field": "provincia", "keep_original": False},
        ]
    },
    {
        "string_regex_substitute": [
            {"field": "norma_competencias_objetivos", "regex_str_match": ";", "regex_str_sub": ",",
             "keep_original": False},
            {"field": "unidad", "regex_str_match": "\(.*\)", "regex_str_sub": "",
            "keep_original": False},
            {"field": "provincia", "regex_str_match": "Bs\. As\.", "regex_str_sub": "Buenos Aires",
            "keep_original": False},
            {"field": "autoridad_tratamiento", "regex_str_match": "\s+$", "regex_str_sub": "", 
             "keep_original": False},
            {"field": "autoridad_tratamiento", "regex_str_match": "(.+{^\.})$", "regex_str_sub": "\g<1>.", 
             "keep_original": False},
            {"field": "autoridad_norma_designacion", "regex_str_match": "Dto\D*", "regex_str_sub": "Decreto ",
             "keep_original": False},
            {"field": "web", "regex_str_match": "^.+www\.", "regex_str_sub": "http://www.",
            "keep_original": False},
        ]
    },
    {
        "mail_format": [
            {"field": "mail"}
        ]
    },
    {
        "reemplazar_string": [
            {"field": "piso_oficina", "replacements": {"Oficina": ["Of.icina"]}}
        ]
    }
]

## Limpieza

In [226]:
dc.clean(rules)

In [227]:
for c in dc.df.columns:
    print(c)

jurisdiccion
unidad
reporta_a
unidad_tipo
norma_competencias_objetivos
autoridad_cargo
autoridad_tratamiento
autoridad_apellido
autoridad_nombre
autoridad_dni
autoridad_cuil_cuit
autoridad_norma_designacion
web
domicilio
piso_oficina
localidad
codigo_postal
provincia
telefono
mail


In [228]:
len(dc.df.columns)

20

In [229]:
map(print, dc.df.mail.unique())

presidencia@presidencia.gob.ar
vicepresidencia@presidencia.gov.ar
secretariageneral@presidencia.gov.ar
subcoord@presidencia.gov.ar
jcasmil@presidencia.gov.ar
legalytecnica@slyt.gob.ar
inzaf@slyt.gob.ar
dg.privada@afi.gob.ar
nan
priv_sub@sedronar.gov.ar
privada@jefatura.gob.ar
pompeof@jefatura.gob.ar
dichiarop@jefatura.gob.ar
garciaoliverm@jefatura.gob.ar
lopeteguig@jefatura.gob.ar
penar@jefatura.gob.ar
jgrecco@medios.gov.ar
jgentile@gmail.com
squielcolombo@gmail.com
griera@medios.gov.ar
quintanam@jefatura.gob.ar
nzang@jefatura.gob.ar
paulabertol@jefatura.gob.ar
svetaza@jefatura.gob.ar
hadidap@jefatura.gob.ar
hernanlombardi@mediosycontenidos.gob.ar
gabrielaricardes@mediosycontenidos.gob.ar
gustavogonzalez@mediosycontenidos.gob.ar
secretariademediospublicos@gmail.com
planbelgrano@jefatura.gob.ar
info@bienesdelestado.gob.ar
info@mininterior.gov.ar
coordinacion@mininterior.gov.ar
privadasspt@obraspublicas.gob.ar
ssduyv@mininterior.gov.ar
municipios@mininterior.gov.ar
gestionmunicipal@minin

[None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,

In [231]:
import re
re.sub("(?P<cargo>\(.+\))(?P<nombre>.+)","\g<nombre> \g<cargo>","(presidente) Juan Jose Perez.")

' Juan Jose Perez. (presidente)'

In [232]:
dc.df.unidad.replace('(Presidencia)(.+)','\g<2>\g<1>',regex=True)

0                               PRESIDENCIA DE LA NACIÓN
1                                        VICEPRESIDENCIA
2                                     Secretaría General
3                          Subsecretaría de Coordinación
4          Coordinador General de Asuntos lesPresidencia
5                                  Subsecretaría General
6      Subsecretaría de Relaciones con la Sociedad Civil
7                                           Casa Militar
8                             Secretaría Legal y Técnica
9                       Subsecretaría de Asuntos Legales
10                                 Subsecretaría Técnica
11                       Agencia Federal de Inteligencia
12     Secretaría de Programación para la Prevención ...
13     Subsecretaría de Diseño, Monitoreo y Evaluació...
14     Subsecretaría de Prevención, Capacitación y As...
15          Subsecretaría de Coordinación Administrativa
16                     Jefatura de Gabinete de Ministros
17                    Secretarí

In [230]:
# dc.save(output_path)