In [1]:
import pandas as pd
import geopandas as gpd
import os
import numpy as np
from operator import add

from shapely import wkt
from shapely.geometry import shape, LineString, Point
    
# funciones desarrolladas
from functions.agrupar_dfs_censo import *
from functions.cargar_data import *
from functions.impresion import *

In [2]:
# carga datos diádicos
pbi = cargar_pbi()
md = cargar_matriz_distancias()
vecindad = cargar_vecindad()
dist_loc = pd.read_csv('tablas/df_distancias_localidades.csv', usecols=['cod','distancia_m'])

# carga capas de fatos geográficos
deptos, deptos_sim, localidad, centro_pobl, capital = cargar_datos_geo()

# carga migrantes internos
p_migr = cargar_migrantes_internos()

# carga poblacion por depto
pobl = recuperar_poblacion_2011()

# carga cantidad de empresas industriales por depto (OTU, OPP, 2013)
# Fuente: Núcleo Interdisciplinario de Estudios de Desarrollo Territorial (NIEDT)
# en base a INE (Directorio de Empresas y Establecimientos) y relevamiento propio
# Base: Total de empresas industriales de más de 5 empleados
empresas = pd.read_csv('tablas/empresas_por_depto.csv', sep=';')

  for feature in features_lst:


In [3]:
# genera código de díada
p_migr['cod'] = (p_migr['loc_origen'].astype(str) + p_migr['loc_destino'].astype(str)).astype(int)

# pega distancias entre localidades
p_migr = p_migr.merge(dist_loc, how='left', on='cod')
p_migr.head()

Unnamed: 0,depto_origen,depto_destino,LOC,SECC,SEGM,VIVID,TIPO_VIVIE,HOGCOD,HOGID,PERPH02,...,PERED04_R,PERED05_R,PERED06_R,CODIGO_CAR,PERED08,NIVELEDU_R,loc_origen,loc_destino,cod,distancia_m
0,3,1,20,1,1,5,1,102001001000501,1,1,...,2,3,4,55131,1,9,3732,1020,37321020,25034.0
1,17,1,20,1,1,30,1,102001001003001,1,2,...,0,2,4,55152,1,9,17220,1020,172201020,265706.0
2,18,1,20,1,1,36,1,102001001003601,1,1,...,2,2,0,33101,1,5,18220,1020,182201020,379469.0
3,2,1,20,1,1,46,1,102001001004601,1,1,...,2,1,0,33101,1,5,2220,1020,22201020,583715.0
4,12,1,20,1,1,93,1,102001001009301,1,2,...,2,1,0,22101,1,4,12320,1020,123201020,297600.0


In [4]:
p_migr.loc[(p_migr.depto_origen==1) & (p_migr.depto_destino==3), 'distancia_m'].max()

85762.0

In [5]:
p_migr.loc[(p_migr.depto_origen==3) & (p_migr.depto_destino==1), 'distancia_m'].max()

85762.0

In [6]:
# genera un sólo dataframe solo para deptos
flujos_deptos = p_migr[['depto_origen', 'depto_destino']]

flujos_deptos = flujos_deptos[flujos_deptos.depto_origen != flujos_deptos.depto_destino]

flujos_deptos['personas_mig'] = 1

# agrupa y cuenta
grupo = flujos_deptos.groupby(by=['depto_origen', 'depto_destino']).sum()

print('Cantidad de díadas ', grupo.shape[0])

grupo.head(3)

Cantidad de díadas  342


Unnamed: 0_level_0,Unnamed: 1_level_0,personas_mig
depto_origen,depto_destino,Unnamed: 2_level_1
1,2,914
1,3,33127
1,4,1387


In [7]:
# flujos en movimientos mayores a 100km
flujos_deptos_100 = p_migr[['depto_origen', 'depto_destino', 'distancia_m']]

flujos_deptos_100 = flujos_deptos_100[flujos_deptos_100.depto_origen != flujos_deptos_100.depto_destino]

flujos_deptos_100['personas_mig'] = 1

# agrupa y cuenta
grupo_100 = pd.DataFrame(flujos_deptos_100.loc[flujos_deptos_100.distancia_m > 100000].groupby(by=['depto_origen', 'depto_destino']).sum())

print('Cantidad de díadas ', grupo_100.shape[0])

grupo_100.head(3)

Cantidad de díadas  340


Unnamed: 0_level_0,Unnamed: 1_level_0,distancia_m,personas_mig
depto_origen,depto_destino,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2,524698229.0,891
1,4,519691641.0,1349
1,5,342413595.0,1991


In [8]:
# genera tabla pivot con los flujos de departamento a departamento
matrix = pd.pivot_table(flujos_deptos,
                        index ='depto_origen',
                        columns='depto_destino',
                        fill_value=0,
                        aggfunc=sum,
                        margins=True,
                        margins_name='Total')

In [9]:
# # guarda en csv
# matrix = pd.pivot_table(flujos_deptos,
#                         index ='depto_origen',
#                         columns='depto_destino',
#                         fill_value=0,
#                         aggfunc=sum,
#                         margins=False)

# matrix.to_csv('tablas/matriz_deptos.csv', header=True)

# # guarda en latex
# # lista de nombres deptos para generar tabla en latex
# nomdep = ['Mvdeo.', 'Artigas', 'Can.', 'C. Largo', 'Colonia', 'Durazno',
#           'Flores', 'Florida', 'Lavalleja','Maldonado', 'Paysandú', 'R. Negro', 'Rivera',
#           'Rocha', 'Salto', 'San José', 'Soriano', 'Tacuarembó', 'T. y Tres']

# coddep = np.arange(1, 20, 1).tolist()

# # guarda tabla en latex
# # cabecera = datos_dpto.sort_values('DPTO')['NOMBRE'].to_list()
# # cabecera.append('Total')

# matrix_tex = matrix
# matrix_tex.rename(index=dict(zip(coddep, nomdep)), inplace=True)

# # setea ancho de columnas
# ancho = 'p{0.7cm}'
# colformato='l' + ancho * 20

# matrix_tex.to_latex(buf= "tablas/matriz_orig_dest.tex", bold_rows=False,
#                     column_format = colformato,
#                     caption= 'Matriz de movimientos entre departamentos (Censo INE 2011).')

In [10]:
# unimos todo en un dataframe de díadas

# migrantes
df_agrupado = grupo.reset_index()

# agrega codigo único
df_agrupado.insert(0, 'cod', (df_agrupado['depto_origen'].astype(str)
                   + df_agrupado['depto_destino'].astype(str).str.zfill(2)).astype(int))

df_agrupado.head()

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig
0,102,1,2,914
1,103,1,3,33127
2,104,1,4,1387
3,105,1,5,2100
4,106,1,6,982


In [11]:
df_agrupado_100k = grupo_100.reset_index()
# agrega codigo único
df_agrupado_100k.insert(0, 'cod', (df_agrupado_100k['depto_origen'].astype(str)
                   + df_agrupado_100k['depto_destino'].astype(str).str.zfill(2)).astype(int))

df_agrupado_100k.drop(['depto_origen', 'depto_destino', 'distancia_m'], axis=1, inplace=True)
df_agrupado_100k.rename({'personas_mig': 'personas_mig_100k'}, axis=1, inplace=True)
df_agrupado_100k.head()

Unnamed: 0,cod,personas_mig_100k
0,102,891
1,104,1349
2,105,1991
3,106,924
4,107,333


In [12]:
# pega
df_agrupado = df_agrupado.merge(df_agrupado_100k, how='left', on='cod')

df_agrupado['personas_mig_100k'] = df_agrupado['personas_mig_100k'].fillna(0).astype(int)

df_agrupado.head()


Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_100k
0,102,1,2,914,891
1,103,1,3,33127,0
2,104,1,4,1387,1349
3,105,1,5,2100,1991
4,106,1,6,982,924


In [13]:
# pega masas (población!)
df_agrupado = df_agrupado.merge(pobl, how='left', left_on='depto_origen', right_on='DPTO').drop('DPTO', axis=1).rename(columns={'poblacion':'pob_origen'})

df_agrupado = df_agrupado.merge(pobl, how='left', left_on='depto_destino', right_on='DPTO').drop('DPTO', axis=1).rename(columns={'poblacion':'pob_destino'})

df_agrupado.head()

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_100k,pob_origen,pob_destino
0,102,1,2,914,891,1318755,73377
1,103,1,3,33127,0,1318755,520173
2,104,1,4,1387,1349,1318755,84698
3,105,1,5,2100,1991,1318755,123203
4,106,1,6,982,924,1318755,57084


In [14]:
# pega matriz de distancias
df_agrupado = df_agrupado.merge(md, how='left', on='cod').drop(['cod_ori', 'cod_des'], axis=1).rename(columns={'distancia':'dist'})
df_agrupado.head()

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_100k,pob_origen,pob_destino,dist
0,102,1,2,914,891,1318755,73377,610726
1,103,1,3,33127,0,1318755,520173,22544
2,104,1,4,1387,1349,1318755,84698,393703
3,105,1,5,2100,1991,1318755,123203,172773
4,106,1,6,982,924,1318755,57084,198970


In [15]:
# pega datos del PBI
df_agrupado = df_agrupado.merge(pbi, how='left', left_on='depto_origen', right_on='DPTO').drop(['DPTO'], axis=1).rename(columns={'miles_de_pesos':'pbi_origen', 'porcentaje_pbi': 'pbi_porcen_ori'})

df_agrupado = df_agrupado.merge(pbi, how='left', left_on='depto_destino', right_on='DPTO').drop(['DPTO'], axis=1).rename(columns={'miles_de_pesos':'pbi_destino', 'porcentaje_pbi': 'pbi_porcen_des'})

df_agrupado.head()

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_100k,pob_origen,pob_destino,dist,pbi_origen,pbi_porcen_ori,pbi_destino,pbi_porcen_des
0,102,1,2,914,891,1318755,73377,610726,465848031,50.3,14214980,1.5
1,103,1,3,33127,0,1318755,520173,22544,465848031,50.3,86306492,9.3
2,104,1,4,1387,1349,1318755,84698,393703,465848031,50.3,17048887,1.8
3,105,1,5,2100,1991,1318755,123203,172773,465848031,50.3,43788749,4.7
4,106,1,6,982,924,1318755,57084,198970,465848031,50.3,13023942,1.4


In [16]:
# pega vecindad
df_agrupado = df_agrupado.merge(vecindad, how='left', on='cod').drop(['dep1', 'dep2'], axis=1)
df_agrupado['dummy_limit'] = True
df_agrupado.loc[df_agrupado.largo_limite.isnull(), 'dummy_limit'] = False

In [17]:
# pega empresas
empresas.drop('NOMBRE', axis=1, inplace=True)

df_agrupado = df_agrupado.merge(empresas, how='left', left_on='depto_origen', right_on='DPTO')
df_agrupado = df_agrupado.merge(empresas, how='left', left_on='depto_destino', right_on='DPTO').drop(['DPTO_x', 'DPTO_y'], axis=1).rename(columns={'empresas_x':'empresas_origen', 'empresas_y': 'empresas_destino'})

df_agrupado.head()

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_100k,pob_origen,pob_destino,dist,pbi_origen,pbi_porcen_ori,pbi_destino,pbi_porcen_des,largo_limite,dummy_limit,empresas_origen,empresas_destino
0,102,1,2,914,891,1318755,73377,610726,465848031,50.3,14214980,1.5,,False,3124,55
1,103,1,3,33127,0,1318755,520173,22544,465848031,50.3,86306492,9.3,60107.0,True,3124,563
2,104,1,4,1387,1349,1318755,84698,393703,465848031,50.3,17048887,1.8,,False,3124,88
3,105,1,5,2100,1991,1318755,123203,172773,465848031,50.3,43788749,4.7,,False,3124,60
4,106,1,6,982,924,1318755,57084,198970,465848031,50.3,13023942,1.4,,False,3124,40


In [18]:
# genera otro DF igual a df_agrupado, pero llamado dd_deptos
dd_deptos = df_agrupado

print(dd_deptos.shape)

(342, 16)


In [19]:
# calcula logaritmos
def logaritmos(df, variables):
    new_vars = ['log_' + sub for sub in variables]
    nvars = len(variables)
    for i in range(nvars):
        df[new_vars[i]] = np.log(df[variables[i]])
    return df

# definir lista de variables sobre las cuales se quiere el logaritmo
variables = ['pbi_destino', 'dist']

dd_deptos = logaritmos(dd_deptos, variables)

dd_deptos.head()

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_100k,pob_origen,pob_destino,dist,pbi_origen,pbi_porcen_ori,pbi_destino,pbi_porcen_des,largo_limite,dummy_limit,empresas_origen,empresas_destino,log_pbi_destino,log_dist
0,102,1,2,914,891,1318755,73377,610726,465848031,50.3,14214980,1.5,,False,3124,55,16.469807,13.322404
1,103,1,3,33127,0,1318755,520173,22544,465848031,50.3,86306492,9.3,60107.0,True,3124,563,18.273415,10.023224
2,104,1,4,1387,1349,1318755,84698,393703,465848031,50.3,17048887,1.8,,False,3124,88,16.651595,12.883352
3,105,1,5,2100,1991,1318755,123203,172773,465848031,50.3,43788749,4.7,,False,3124,60,17.594887,12.059734
4,106,1,6,982,924,1318755,57084,198970,465848031,50.3,13023942,1.4,,False,3124,40,16.3823,12.200909


In [20]:
# decodifica el departamento (códigos INE)
dd_deptos['nom_depto_orig'] = decode_depto(dd_deptos, 'depto_origen')
dd_deptos['nom_depto_des'] = decode_depto(dd_deptos, 'depto_destino')

dd_deptos.head()

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_100k,pob_origen,pob_destino,dist,pbi_origen,pbi_porcen_ori,pbi_destino,pbi_porcen_des,largo_limite,dummy_limit,empresas_origen,empresas_destino,log_pbi_destino,log_dist,nom_depto_orig,nom_depto_des
0,102,1,2,914,891,1318755,73377,610726,465848031,50.3,14214980,1.5,,False,3124,55,16.469807,13.322404,MONTEVIDEO,ARTIGAS
1,103,1,3,33127,0,1318755,520173,22544,465848031,50.3,86306492,9.3,60107.0,True,3124,563,18.273415,10.023224,MONTEVIDEO,CANELONES
2,104,1,4,1387,1349,1318755,84698,393703,465848031,50.3,17048887,1.8,,False,3124,88,16.651595,12.883352,MONTEVIDEO,CERRO LARGO
3,105,1,5,2100,1991,1318755,123203,172773,465848031,50.3,43788749,4.7,,False,3124,60,17.594887,12.059734,MONTEVIDEO,COLONIA
4,106,1,6,982,924,1318755,57084,198970,465848031,50.3,13023942,1.4,,False,3124,40,16.3823,12.200909,MONTEVIDEO,DURAZNO


In [21]:
# guarda
dd_deptos.to_csv('tablas/dd_deptos.csv', index=False)