# Datos

## Idea

Basados en tres bases de datos:

1. Experiencia previa
2. Participación económica
3. Puestos en otras compañías

Para el periodo de 2002--2018 (17 años)

## Unir tablas

Usaremos, para cada año, los usuarios que tienen valores de participación económica,
puestos en otras compañías, y experiencia previa. Posteriormente se aplicaran los filtros que se piensen necesarios. Sin embargo, como se va a comparar con información de compra/venta de contratos públicos, únicamente se incluirá la experiencia de los funcionarios en compañías **privadas**.

## Primer año (2002)

Antes de obtener la tabla final, empezaremos a explorar las tablas de 2002 y dejar la metodología lista para los demás años.

La tabla `2002_generalesEncargo_DBP.csv` cuenta con la información principal de cada servidor público. Se usará para hacer el *merge* con las demás tablas. Todas las tablas cuentan con la variable **ACUSE** qué servirá de *id* para juntarlas.

La información de las **participaciones económicas** no fue incorporado sino hasta 2015, y la información de **puestos en otras compañías** hasta 2016. Por lo que durante el periodo 2002--2014 sólamente podremos usar la variable de **experiencia previa**.

## Variables globales

Antes de empezar, cargamos las librerías y definimos los caminos a los datos que se usarán de aquí en adelante.

In [2]:
import os
import re
from os.path import join
import pandas as pd
import numpy as np

In [3]:
DATA = "/home/rdora/declaranet/data"
# Tablas
GENERAL = "_generalesEncargo_DBP.csv"
EXP = "_experiencia_DBP.csv"
ECONO = "_participaciones_econo_DBP.csv"
PUESTO = "_puesto_cargo_com_DBP.csv"

In [34]:
path_general = join(DATA, "2002", "2002" + GENERAL)
path_exp = join(DATA, "2002", "2002" + EXP)
df_exp = pd.read_csv(path_exp)
df_general = pd.read_csv(path_general)

### Selección de variables
Las tablas cuentan con diversa información distribuida en variables. Para nuestro objetivo, unas son más importantes que otras.

#### General
Variables importantes:
1. acuse (ID)
2. nombre
3. tipo_declaracion
4. fecha_envio
5. puesto
6. dependencia
7. area_adscripcion
8. honorarios
9. maximo_grado_estudios

#### Experiencia
Variables importantes:
1. acuse
2. sector
3. institucion_empresa
4. area_o_unidad_administrativa (**NOTA**: typo en "adminsitrativa")
5. puesto
6. ingreso_egreso

In [26]:
COLS_GENERAL = ["ACUSE",
                "NOMBRE",
                "TIPO_DECLARACION",
                "FECHA_ENVIO",
                "PUESTO",
                "DEPENDENCIA",
                "AREA_ADSCRIPCION",
                "HONORARIOS",
                "MAXIMO_GRADO_ESTUDIOS"]
COLS_EXP = ["ACUSE",
            "SECTOR",
            "INSTITUCION_EMPRESA",
            "AREA_O_UNIDAD_ADMINSITRATIVA",
            "PUESTO",
            "INGRESO_EGRESO"]

In [39]:
df_general = df_general[COLS_GENERAL]
df_exp = df_exp[COLS_EXP]

In [29]:
df = pd.merge(df_exp,
             df_general,
             how="left",
             on="ACUSE")

## Segundo año (2003)

Exploración del segundo año, sobretodo para ver como se manejan los funcionarios públicos repetidos con 2002.

In [35]:
path_general = join(DATA, "2003", "2003" + GENERAL)
path_exp = join(DATA, "2003", "2003" + EXP)
df_exp_2003 = pd.read_csv(path_exp, usecols=COLS_EXP)
df_general_2003 = pd.read_csv(path_general, usecols=COLS_GENERAL)

En cuanto a experiencia, vamos a ver cuantos puestos están repetidos con 2002.

In [43]:
acuses_2002 = set(df_exp['ACUSE'].unique())
acuses_2003 = set(df_exp_2003["ACUSE"].unique())
print("Acuses repetidos: ", len(acuses_2002 & acuses_2003))

Acuses repetidos:  0


In [44]:
df_exp.head()

Unnamed: 0,ACUSE,SECTOR,INSTITUCION_EMPRESA,AREA_O_UNIDAD_ADMINSITRATIVA,PUESTO,INGRESO_EGRESO
0,201505292032248574959,PRIVADO,TELETEC DE MEXICO S.A. DE C.V.,INSTALACIONES,INGENIERO EN PROYECTOS,04/2000 - 09/2002
1,200205311340481299562,PUBLICO,SECRETARIA DE HACIENDA Y CREDITO PUBLICO,DIRECCION GENERAL DEL DESTINO DE LOS BIENES DE...,JEFE DE DEPARTAMENTO DE EVALUACION,01/1999 - 02/2001
2,200205311340481299562,PUBLICO,SECRETARIA DE HACIENDA Y CREDITO PUBLICO,DIR. GRAL DE DESTINO DE BIENES DE COM. EXT. PR...,SUBDIRECTOR DE ALMACENES FISCALIZADOS,02/2001 - 12/2001
3,200205311409081293886,PRIVADO,GRUPO JULIO S.A. DE C.V.,RECURSOS HUMANOS,SUBGERENTE DE RECURSOS HUMANOS,03/1998 - 05/1999
4,200205311409081293886,PRIVADO,DESPACHO AGUILAR CHAVEZ Y ASOCIADOS S.C.,AUDITORIA,AUDITOR,12/1994 - 02/1998


In [45]:
df_exp_2003.head()

Unnamed: 0,ACUSE,SECTOR,INSTITUCION_EMPRESA,AREA_O_UNIDAD_ADMINSITRATIVA,PUESTO,INGRESO_EGRESO
0,201505261122318465537,PRIVADO,ASISTENCIA EMPRESARIAL S.C.,DESPACHO DE CONTADORES PUBLICOS,AUDITOR,02/1994 - 02/1996
1,201505261122318465537,PRIVADO,PRIETO RUIZ DE VELASCO Y COMPANIA S.C.,FISCAL,AUDITOR,04/1997 - 04/2002
2,201505261122318465537,PUBLICO,FIDEICOMISO LIQUIDADOR DE INSTITUCIONES Y ORGA...,ORGANO INTERNO DE CONTROL,ANALISTA,04/2002 - 06/2003
3,201505261122318465537,PRIVADO,DISTRIBUIDORA DE BEBIDAS Y BASICOS S.A.DE C.V.,ADMINISTRACION,ADMINISTRADOR,08/1996 - 03/1997
4,201505261122318465537,PRIVADO,ROLLINNG HODING HALL MEXICO AGENTE DE SEGUROS,CONTABILIDAD,AUXIILIAR CONTABLE,02/1996 - 07/1996


In [40]:
df_exp.shape

(452566, 6)

In [36]:
df_exp_2003.shape

(469186, 6)