# Limpieza de Estructura Organica del PEN

Se utilizan **data-cleaner** y **pandas** para codificar la limpieza de los datos de un archivo CSV. Primero se realiza una exploración de la tabla aplicando algunas reglas de limpieza y comprobando el resultado generado. Cuando este resultado es satisfactorio, se agrega la regla de limpieza a la lista codificada que luego se utilizará para generar la versión limpia del archivo.

## Inicio

In [104]:
from __future__ import unicode_literals
from __future__ import print_function
from data_cleaner import DataCleaner
import pandas as pd

In [97]:
input_path = "estructura-organica-raw.csv"
output_path = "estructura-organica-clean.csv"

In [98]:
dc = DataCleaner(input_path)

## Exploración y descubrimiento

In [99]:
for c in dc.df.columns:
    print(c)

jurisdiccion
unidad
reporta_a
unidad_tipo
norma_competencias_objetivos
autoridad_cargo
autoridad_tratamiento
autoridad_nombre
autoridad_apellido
autoridad_dni
autoridad_cuil_cuit
extraescalafonario
autoridad_norma_designacion
web
domicilio
piso_oficina
localidad
codigo_postal
provincia
telefono
mail


## Reglas de limpieza codificadas

In [100]:
rules = [
    {
        "renombrar_columnas": [
            {"field": "aut_dni", "new_field": "autoridad_dni"},
            {"field": "aut_cuit_cuil", "new_field": "autoridad_cuil_cuit"},
            {"field": "aut_cargo", "new_field": "autoridad_cargo"},
            {"field": "aut_tratamiento", "new_field": "autoridad_tratamiento"},
            {"field": "aut_apellido", "new_field": "autoridad_apellido"},
            {"field": "aut_nombre", "new_field": "autoridad_nombre"},
            {"field": "aut_norma_designacion", "new_field": "autoridad_norma_designacion"},
            {"field": "norma_competenciasobjetivos", "new_field": "norma_competencias_objetivos"},
            {"field": "cordigo_postal", "new_field": "codigo_postal"}
        ]
    },
    {
        "string": [
            {"field": "jurisdiccion", "keep_original": False},
            {"field": "unidad", "keep_original": False},
            {"field": "reporta_a", "keep_original": False},
            {"field": "unidad_tipo", "keep_original": False},
            {"field": "autoridad_cargo", "keep_original": False},
            {"field": "autoridad_tratamiento", "keep_original": False},
            {"field": "autoridad_apellido", "keep_original": False},
            {"field": "autoridad_nombre", "keep_original": False},
            {"field": "piso_oficina", "keep_original": False},
            {"field": "codigo_postal", "keep_original": False},
            {"field": "domicilio", "keep_original": False},
            {"field": "localidad", "keep_original": False},
            {"field": "provincia", "keep_original": False},
        ]
    },
    {
        "string_regex_substitute": [
            {"field": "norma_competencias_objetivos", "regex_str_match": ";", "regex_str_sub": ",",
             "keep_original": False},
            {"field": "unidad", "regex_str_match": "\(.*\)", "regex_str_sub": "",
            "keep_original": False},
            {"field": "provincia", "regex_str_match": "Bs\. As\.", "regex_str_sub": "Buenos Aires",
            "keep_original": False},
            {"field": "autoridad_tratamiento", "regex_str_match": "\s+$", "regex_str_sub": "", 
             "keep_original": False},
            {"field": "autoridad_tratamiento", "regex_str_match": "(.+{^\.})$", "regex_str_sub": "\g<1>.", 
             "keep_original": False},
            {"field": "autoridad_norma_designacion", "regex_str_match": "Dto\D*", "regex_str_sub": "Decreto ",
             "keep_original": False},
            {"field": "web", "regex_str_match": "^.+www\.", "regex_str_sub": "http://www.",
            "keep_original": False},
        ]
    },
    {
        "mail_format": [
            {"field": "mail"}
        ]
    },
    {
        "reemplazar_string": [
            {"field": "piso_oficina", "replacements": {"Oficina": ["Of.icina"]}},
            {"field": "piso_oficina", "replacements": {"Piso": ["Planta"]}}
        ]
    }
]

## Limpieza

In [101]:
dc.clean(rules)

In [105]:
map(print, dc.df.piso_oficina.unique())

Piso 1
nan
Piso Baja
Piso 5
Piso 6
Piso 3
Piso 4
Piso 8
piso 4 ofina 409
PISO 4 OFICINA 415
PISO 5 OFIC 509
PISO 10 OCHAVA
Piso 1, Oficina 3
Piso 11
Piso 11 Oficina 1108
Piso 8 Oficina  801
Piso 6 Oficina 2
Piso 6 Oficina 21 bis
Piso 2 Oficina 204
Piso 1 Oficina 13
Piso 3 Oficina 346
Entrepiso Oficina 2
Entrepiso Oficina 3
Piso 1 Oficina 9
Piso 4 Oficina  402
Piso 3 Oficina 312
Piso 11. Oficina 1121
Piso 11. Oficina 1107
Piso 7
Piso2
Piso 20
Piso 11 Oficina 1129
Piso 5  Sector 15
Piso 13
Piso 2
Piso 10
Piso 9
Piso 14
Piso 12
Piso 11 -Ala frente -
Piso 11 -Contrafrente-
Piso 11 -Ala Norte-
Piso 10-Cfte Ala Norte-
Piso 12-Cfrte. Ala Norte-
Piso 10- Cfrte - Ala Sur-
Piso 11 -Frente Ala Sur-
Piso 13 -Frente -Ala Sur-
6° Edificio Principal
PB
Piso 11 - Frente Ala Norte-
Piso 10 -Frente Ala Norte-
Piso 10 - Frente Ala Central
Piso 4 -Frente Ala Sur
Piso 13 Oficina 56
8
Piso PB
Piso 1 Oficina 97
Piso 1 Oficina 95
Piso 2 Oficina 239
Piso 1 Oficina 74
Piso 1 Oficina 87
Piso 1 Oficina 80
Piso 1 

[None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,

In [106]:
df_actual = pd.read_csv("estructura-organica-actual.csv")
df_20160926 = pd.read_excel("originales/160926 Set de datos Administración Pública Nacional.xlsx")
df_20160927 = pd.read_csv("originales/estructura_autoridades_apn-Descarga_20160927.csv")
df_20160929 = pd.read_csv("originales/estructura_autoridades_apn-Descargado_29-09-2016.csv")

In [110]:
print(len(df_actual.columns), len(df_20160926.columns), len(df_20160927.columns), len(df_20160929.columns))

20 21 21 21


In [112]:
# nuevos campos
print(set(dc.df.columns)-set(df_actual.columns))
print(set(dc.df.columns)-set(df_20160926.columns))
print(set(dc.df.columns)-set(df_20160927.columns))
print(set(dc.df.columns)-set(df_20160929.columns))

set([u'extraescalafonario'])
set([u'extraescalafonario'])
set([u'extraescalafonario', u'jurisdiccion'])
set([u'jurisdiccion'])


In [114]:
for escalafon in dc.df.extraescalafonario.unique():
    print(escalafon)

nan
SI


In [53]:
dc.df.piso_oficina.unique()

array([u'Piso 1', nan, u'Planta Baja', u'Piso 5', u'Piso 6', u'Piso 3',
       u'Piso 4', u'Piso 8', u'piso 4 ofina 409', u'PISO 4 OFICINA 415',
       u'PISO 5 OFIC 509', u'PISO 10 OCHAVA', u'Piso 1, Oficina 3',
       u'Piso 11', u'Piso 11 Oficina 1108', u'Piso 8 Oficina  801',
       u'Piso 6 Oficina 2', u'Piso 6 Oficina 21 bis',
       u'Piso 2 Oficina 204', u'Piso 1 Oficina 13', u'Piso 3 Oficina 346',
       u'Entrepiso Oficina 2', u'Entrepiso Oficina 3', u'Piso 1 Oficina 9',
       u'Piso 4 Oficina  402', u'Piso 3 Oficina 312',
       u'Piso 11. Oficina 1121', u'Piso 11. Oficina 1107', u'Piso 7',
       u'Piso2', u'Piso 20', u'Piso 11 Oficina 1129', u'Piso 5  Sector 15',
       u'Piso 13', u'Piso 2', u'Piso 10', u'Piso 9', u'Piso 14',
       u'Piso 12', u'Piso 11 -Ala frente -', u'Piso 11 -Contrafrente-',
       u'Piso 11 -Ala Norte-', u'Piso 10-Cfte Ala Norte-',
       u'Piso 12-Cfrte. Ala Norte-', u'Piso 10- Cfrte - Ala Sur-',
       u'Piso 11 -Frente Ala Sur-', u'Piso 13 -Fren

In [54]:
import re
re.sub("(?P<cargo>\(.+\))(?P<nombre>.+)","\g<nombre> \g<cargo>","(presidente) Juan Jose Perez.")

u' Juan Jose Perez. (presidente)'

In [57]:
for unidad in dc.df.unidad.unique():
    print unidad

Presidencia de la Nación
Vicepresidencia
Secretaría General
Unidad de Auditoría Interna
Subsecretaría de Coordinación
Dirección de Despacho, Mesa de Entradas y Archivo
Administración de Servicios Generales
Dirección General de Administración
Dirección General de Administración de Recursos Humanos y Organización
Coordinación General de Asuntos Presidenciales
Dirección General de Audiencias
Dirección General de Ceremonial
Dirección General de Logística
Administración General de la Residencia Presidencial de Olivos
Dirección General Documentación Presidencial
Subsecretaría General
Dirección Museo de la Casa Rosada
Dirección General de Promoción Institucional
Dirección General de Programas de Gobierno
Dirección General de Acción de Gobierno
Subsecretaría de Comunicación Presidencial
Dirección General de Planificación de Eventos Presidenciales
Dirección General de Discurso
Casa Militar
Delegacción de Recursos Humanos y Organización
Edecanes
Agrupación Técnica
Agrupación Seguridad e Intelige

In [115]:
dc.save(output_path)

In [117]:
dc.df.to_excel("estructura-organica.xlsx", index=False)

## Notas de lo que faltaría hacer

1. Comparar el nuevo contra el viejo y ver qué registros cambiaron.
2. Pasarlo por un reporte automático como el DataPresenter para ver valores únicos (campos de texto) y estadísticas sumarias (campos numéricos).
3. Desarrollar un DataValidator al cual se le puedan pasar reglas lógicas que los campos deben cumplir para pasar una validación.