In [1]:
import pandas as pd
import geopandas as gpd
import os
import numpy as np
from operator import add

from shapely import wkt
from shapely.geometry import shape, LineString, Point
    
# funciones desarrolladas
from functions.agrupar_dfs_censo import *
from functions.cargar_data import *
from functions.impresion import *

In [2]:
# carga datos diádicos
pbi = cargar_pbi()
md = cargar_matriz_distancias()
vecindad = cargar_vecindad()
dist_loc = pd.read_csv('tablas/df_distancias_localidades.csv', usecols=['cod','distancia_m'])

# carga capas de datos geográficos
deptos, deptos_sim, localidad, centro_pobl, capital = cargar_datos_geo()

# carga migrantes internos
p_migr = cargar_migrantes_internos()

# carga poblacion por depto
pobl = recuperar_poblacion_2011()

# menores de 25 años por depto
censo_edad = cargar_censo_vars(['DPTO', 'PERNA01'])
censo_edad = censo_edad.loc[censo_edad.PERNA01 < 25].reset_index(drop=True)
menores_25 = censo_edad.groupby('DPTO').size()
menores_25.name = 'menores_25'

# carga cantidad de empresas industriales por depto (OTU, OPP, 2013)
# Fuente: Núcleo Interdisciplinario de Estudios de Desarrollo Territorial (NIEDT)
# en base a INE (Directorio de Empresas y Establecimientos) y relevamiento propio
# Base: Total de empresas industriales de más de 5 empleados
empresas = pd.read_csv('tablas/empresas_por_depto.csv', sep=';', usecols=['DPTO', 'empresas'])

In [3]:
print(p_migr.shape)
print(p_migr.columns)
p_migr.head()

(148759, 51)
Index(['depto_origen', 'depto_destino', 'LOC', 'SECC', 'SEGM', 'VIVID',
       'TIPO_VIVIE', 'HOGCOD', 'HOGID', 'PERPH02', 'PERPA01', 'PERER02',
       'PERNA01', 'PERNA02', 'PERMI01', 'PERMI01_1', 'PERMI01_2', 'PERMI01_3',
       'PERMI01_4', 'PERMI02', 'PERMI02_1', 'PERMI05', 'PERMI05_1', 'PERMI06',
       'PERMI06_1', 'PERMI06_2', 'PERMI06_3', 'PERMI06_4', 'PERMI07',
       'PERMI07_1', 'PERMI07_2', 'PERMI07_3', 'PERMI07_4', 'PERED00',
       'PERED01', 'PERED02', 'PERED02_1', 'PERED02_2', 'PERED02_3',
       'PERED02_4', 'PERED03_R', 'PERED03_1', 'PERED03_2', 'PERED04_R',
       'PERED05_R', 'PERED06_R', 'CODIGO_CAR', 'PERED08', 'NIVELEDU_R',
       'loc_origen', 'loc_destino'],
      dtype='object')


Unnamed: 0,depto_origen,depto_destino,LOC,SECC,SEGM,VIVID,TIPO_VIVIE,HOGCOD,HOGID,PERPH02,...,PERED03_1,PERED03_2,PERED04_R,PERED05_R,PERED06_R,CODIGO_CAR,PERED08,NIVELEDU_R,loc_origen,loc_destino
0,3,1,20,1,1,5,1,102001001000501,1,1,...,11,0,2,3,4,55131,1,9,3732,1020
1,17,1,20,1,1,30,1,102001001003001,1,2,...,0,0,0,2,4,55152,1,9,17220,1020
2,18,1,20,1,1,36,1,102001001003601,1,1,...,6,0,2,2,0,33101,1,5,18220,1020
3,2,1,20,1,1,46,1,102001001004601,1,1,...,6,0,2,1,0,33101,1,5,2220,1020
4,12,1,20,1,1,93,1,102001001009301,1,2,...,4,0,2,1,0,22101,1,4,12320,1020


In [4]:
# genera código de díada
p_migr['cod'] = (p_migr['loc_origen'].astype(str) + p_migr['loc_destino'].astype(str)).astype(int)

# pega distancias entre localidades
p_migr = p_migr.merge(dist_loc, how='left', on='cod')
p_migr.head(2)

Unnamed: 0,depto_origen,depto_destino,LOC,SECC,SEGM,VIVID,TIPO_VIVIE,HOGCOD,HOGID,PERPH02,...,PERED04_R,PERED05_R,PERED06_R,CODIGO_CAR,PERED08,NIVELEDU_R,loc_origen,loc_destino,cod,distancia_m
0,3,1,20,1,1,5,1,102001001000501,1,1,...,2,3,4,55131,1,9,3732,1020,37321020,25034.0
1,17,1,20,1,1,30,1,102001001003001,1,2,...,0,2,4,55152,1,9,17220,1020,172201020,265706.0


In [5]:
p_migr.loc[(p_migr.depto_origen==1) & (p_migr.depto_destino==3), 'distancia_m'].max()

85762.0

In [6]:
p_migr.loc[(p_migr.depto_origen==3) & (p_migr.depto_destino==1), 'distancia_m'].max()

85762.0

In [7]:
# genera un sólo dataframe solo para deptos
flujos_deptos = p_migr[['depto_origen', 'depto_destino', 'PERNA01']].copy()

flujos_deptos = flujos_deptos[flujos_deptos.depto_origen != flujos_deptos.depto_destino]

flujos_deptos['personas_mig'] = 1
flujos_deptos['personas_mig_18_25'] = 0
flujos_deptos['personas_mig_26_35'] = 0

flujos_deptos.loc[flujos_deptos.PERNA01.between(18, 25), 'personas_mig_18_25'] = 1
flujos_deptos.loc[flujos_deptos.PERNA01.between(26, 35), 'personas_mig_26_35'] = 1

flujos_deptos.drop('PERNA01', axis=1, inplace=True)


# agrupa y cuenta
grupo = flujos_deptos.groupby(by=['depto_origen', 'depto_destino']).sum()

print('Cantidad de díadas ', grupo.shape[0])

grupo.head(3)

Cantidad de díadas  342


Unnamed: 0_level_0,Unnamed: 1_level_0,personas_mig,personas_mig_18_25,personas_mig_26_35
depto_origen,depto_destino,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2,914,114,247
1,3,33127,3757,7904
1,4,1387,162,401


In [13]:
data_webmap = grupo.reset_index().loc[:, ['depto_origen', 'depto_destino', 'personas_mig']]
data_webmap.to_csv('webmap_flows/flows.csv', index=False)

In [8]:
# flujos en movimientos mayores a 100km
flujos_deptos_100 = p_migr[['depto_origen', 'depto_destino', 'distancia_m']].copy()

flujos_deptos_100 = flujos_deptos_100[flujos_deptos_100.depto_origen != flujos_deptos_100.depto_destino]

flujos_deptos_100['personas_mig'] = 1

# agrupa y cuenta
grupo_100 = pd.DataFrame(flujos_deptos_100.loc[flujos_deptos_100.distancia_m > 100000].groupby(by=['depto_origen', 'depto_destino']).sum())

print('Cantidad de díadas ', grupo_100.shape[0])

grupo_100.head(3)

Cantidad de díadas  340


Unnamed: 0_level_0,Unnamed: 1_level_0,distancia_m,personas_mig
depto_origen,depto_destino,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2,524698229.0,891
1,4,519691641.0,1349
1,5,342413595.0,1991


In [9]:
# genera tabla pivot con los flujos de departamento a departamento
matrix = pd.pivot_table(flujos_deptos,
                        index ='depto_origen',
                        columns='depto_destino',
                        fill_value=0,
                        aggfunc=sum,
                        margins=True,
                        margins_name='Total')

In [10]:
# # guarda en csv
# matrix = pd.pivot_table(flujos_deptos,
#                         index ='depto_origen',
#                         columns='depto_destino',
#                         fill_value=0,
#                         aggfunc=sum,
#                         margins=False)

# matrix.to_csv('tablas/matriz_deptos.csv', header=True)

# # guarda en latex
# # lista de nombres deptos para generar tabla en latex
# nomdep = ['Mvdeo.', 'Artigas', 'Can.', 'C. Largo', 'Colonia', 'Durazno',
#           'Flores', 'Florida', 'Lavalleja','Maldonado', 'Paysandú', 'R. Negro', 'Rivera',
#           'Rocha', 'Salto', 'San José', 'Soriano', 'Tacuarembó', 'T. y Tres']

# coddep = np.arange(1, 20, 1).tolist()

# # guarda tabla en latex
# # cabecera = datos_dpto.sort_values('DPTO')['NOMBRE'].to_list()
# # cabecera.append('Total')

# matrix_tex = matrix
# matrix_tex.rename(index=dict(zip(coddep, nomdep)), inplace=True)

# # setea ancho de columnas
# ancho = 'p{0.7cm}'
# colformato='l' + ancho * 20

# matrix_tex.to_latex(buf= "tablas/matriz_orig_dest.tex", bold_rows=False,
#                     column_format = colformato,
#                     caption= 'Matriz de movimientos entre departamentos (Censo INE 2011).')

In [11]:
# unimos todo en un dataframe de díadas

# migrantes
df_agrupado = grupo.reset_index()

# agrega codigo único
df_agrupado.insert(0, 'cod', (df_agrupado['depto_origen'].astype(str)
                   + df_agrupado['depto_destino'].astype(str).str.zfill(2)).astype(int))

df_agrupado.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35
0,102,1,2,914,114,247
1,103,1,3,33127,3757,7904


In [12]:
df_agrupado_100k = grupo_100.reset_index()
# agrega codigo único
df_agrupado_100k.insert(0, 'cod', (df_agrupado_100k['depto_origen'].astype(str)
                   + df_agrupado_100k['depto_destino'].astype(str).str.zfill(2)).astype(int))

df_agrupado_100k.drop(['depto_origen', 'depto_destino', 'distancia_m'], axis=1, inplace=True)
df_agrupado_100k.rename({'personas_mig': 'personas_mig_100k'}, axis=1, inplace=True)
df_agrupado_100k.head(2)

Unnamed: 0,cod,personas_mig_100k
0,102,891
1,104,1349


In [13]:
# pega
df_agrupado = df_agrupado.merge(df_agrupado_100k, how='left', on='cod')

df_agrupado['personas_mig_100k'] = df_agrupado['personas_mig_100k'].fillna(0).astype(int)

df_agrupado.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35,personas_mig_100k
0,102,1,2,914,114,247,891
1,103,1,3,33127,3757,7904,0


In [14]:
# pega masas (población!)
df_agrupado = df_agrupado.merge(pobl, how='left', left_on='depto_origen', right_on='DPTO')

df_agrupado = df_agrupado.merge(pobl, how='left', left_on='depto_destino', right_on='DPTO')

def drop_deptos(df):
    df = df.drop(['DPTO_x', 'DPTO_y'], axis=1, inplace=True)

drop_deptos(df_agrupado)

df_agrupado.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35,personas_mig_100k,poblacion_x,poblacion_y
0,102,1,2,914,114,247,891,1318755,73377
1,103,1,3,33127,3757,7904,0,1318755,520173


In [15]:
# pega matriz de distancias
df_agrupado = df_agrupado.merge(md, how='left', on='cod')
df_agrupado = df_agrupado.drop(['cod_ori', 'cod_des'], axis=1)

# convierte distancia a KM
df_agrupado['dist_km'] = round(df_agrupado.distancia / 1000).astype(int)

df_agrupado.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35,personas_mig_100k,poblacion_x,poblacion_y,distancia,dist_km
0,102,1,2,914,114,247,891,1318755,73377,610726,611
1,103,1,3,33127,3757,7904,0,1318755,520173,22544,23


In [16]:
# pega datos del PBI
df_agrupado = df_agrupado.merge(pbi, how='left', left_on='depto_origen',  right_on='DPTO')
df_agrupado = df_agrupado.merge(pbi, how='left', left_on='depto_destino', right_on='DPTO')

# convierte unidades
df_agrupado['pbi_origen_millardos']  = round(df_agrupado.miles_de_pesos_x / 1000000, 3)
df_agrupado['pbi_destino_millardos'] = round(df_agrupado.miles_de_pesos_y / 1000000, 3)

drop_deptos(df_agrupado)

df_agrupado.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35,personas_mig_100k,poblacion_x,poblacion_y,distancia,dist_km,miles_de_pesos_x,porcentaje_pbi_x,miles_de_pesos_y,porcentaje_pbi_y,pbi_origen_millardos,pbi_destino_millardos
0,102,1,2,914,114,247,891,1318755,73377,610726,611,465848031,50.3,14214980,1.5,465.848,14.215
1,103,1,3,33127,3757,7904,0,1318755,520173,22544,23,465848031,50.3,86306492,9.3,465.848,86.306


In [17]:
# pega vecindad
df_agrupado = df_agrupado.merge(vecindad, how='left', on='cod').drop(['dep1', 'dep2'], axis=1)
df_agrupado['dummy_limit'] = True
df_agrupado.loc[df_agrupado.largo_limite.isnull(), 'dummy_limit'] = False

df_agrupado.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35,personas_mig_100k,poblacion_x,poblacion_y,distancia,dist_km,miles_de_pesos_x,porcentaje_pbi_x,miles_de_pesos_y,porcentaje_pbi_y,pbi_origen_millardos,pbi_destino_millardos,largo_limite,dummy_limit
0,102,1,2,914,114,247,891,1318755,73377,610726,611,465848031,50.3,14214980,1.5,465.848,14.215,,False
1,103,1,3,33127,3757,7904,0,1318755,520173,22544,23,465848031,50.3,86306492,9.3,465.848,86.306,60107.0,True


In [18]:
# pega empresas
df_agrupado = df_agrupado.merge(empresas, how='left', left_on='depto_origen', right_on='DPTO')
df_agrupado = df_agrupado.merge(empresas, how='left', left_on='depto_destino', right_on='DPTO')

drop_deptos(df_agrupado)

df_agrupado.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35,personas_mig_100k,poblacion_x,poblacion_y,distancia,...,miles_de_pesos_x,porcentaje_pbi_x,miles_de_pesos_y,porcentaje_pbi_y,pbi_origen_millardos,pbi_destino_millardos,largo_limite,dummy_limit,empresas_x,empresas_y
0,102,1,2,914,114,247,891,1318755,73377,610726,...,465848031,50.3,14214980,1.5,465.848,14.215,,False,3124,55
1,103,1,3,33127,3757,7904,0,1318755,520173,22544,...,465848031,50.3,86306492,9.3,465.848,86.306,60107.0,True,3124,563


In [19]:
# pega menores de 25 años
df_agrupado = df_agrupado.merge(menores_25, how='left', left_on='depto_origen', right_on='DPTO')
df_agrupado = df_agrupado.merge(menores_25, how='left', left_on='depto_destino', right_on='DPTO')
df_agrupado.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35,personas_mig_100k,poblacion_x,poblacion_y,distancia,...,miles_de_pesos_y,porcentaje_pbi_y,pbi_origen_millardos,pbi_destino_millardos,largo_limite,dummy_limit,empresas_x,empresas_y,menores_25_x,menores_25_y
0,102,1,2,914,114,247,891,1318755,73377,610726,...,14214980,1.5,465.848,14.215,,False,3124,55,456072,30880
1,103,1,3,33127,3757,7904,0,1318755,520173,22544,...,86306492,9.3,465.848,86.306,60107.0,True,3124,563,456072,197993


In [20]:
dict_rename = {
    'miles_de_pesos_x':'pbi_origen',
    'miles_de_pesos_y':'pbi_destino',
    'porcentaje_pbi_x': 'pbi_porcen_ori',
    'porcentaje_pbi_y': 'pbi_porcen_des',
    'empresas_x':'empresas_origen',
    'empresas_y': 'empresas_destino',
    'miles_de_pesos':'pbi_destino',
    'distancia': 'dist',
    'poblacion_x': 'pob_origen',
    'poblacion_y': 'pob_destino',
    'menores_25_x': 'menores_25_origen',
    'menores_25_y': 'menores_25_destino'
}

df_agrupado.rename(dict_rename, inplace=True, axis=1)

df_agrupado.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35,personas_mig_100k,pob_origen,pob_destino,dist,...,pbi_destino,pbi_porcen_des,pbi_origen_millardos,pbi_destino_millardos,largo_limite,dummy_limit,empresas_origen,empresas_destino,menores_25_origen,menores_25_destino
0,102,1,2,914,114,247,891,1318755,73377,610726,...,14214980,1.5,465.848,14.215,,False,3124,55,456072,30880
1,103,1,3,33127,3757,7904,0,1318755,520173,22544,...,86306492,9.3,465.848,86.306,60107.0,True,3124,563,456072,197993


In [21]:
# genera otro DF igual a df_agrupado, pero llamado dd_deptos
dd_deptos = df_agrupado

print(dd_deptos.shape)

(342, 23)


In [22]:
# calcula logaritmos
def logaritmos(df, variables):
    new_vars = ['log_' + sub for sub in variables]
    nvars = len(variables)
    for i in range(nvars):
        df[new_vars[i]] = np.log(df[variables[i]])
    return df

# definir lista de variables sobre las cuales se quiere el logaritmo
variables = ['pbi_destino', 'dist']

dd_deptos = logaritmos(dd_deptos, variables)

dd_deptos.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35,personas_mig_100k,pob_origen,pob_destino,dist,...,pbi_origen_millardos,pbi_destino_millardos,largo_limite,dummy_limit,empresas_origen,empresas_destino,menores_25_origen,menores_25_destino,log_pbi_destino,log_dist
0,102,1,2,914,114,247,891,1318755,73377,610726,...,465.848,14.215,,False,3124,55,456072,30880,16.469807,13.322404
1,103,1,3,33127,3757,7904,0,1318755,520173,22544,...,465.848,86.306,60107.0,True,3124,563,456072,197993,18.273415,10.023224


In [23]:
# decodifica el departamento (códigos INE)
dd_deptos['nom_depto_orig'] = decode_depto(dd_deptos, 'depto_origen')
dd_deptos['nom_depto_des'] = decode_depto(dd_deptos, 'depto_destino')

dd_deptos.head(2)

Unnamed: 0,cod,depto_origen,depto_destino,personas_mig,personas_mig_18_25,personas_mig_26_35,personas_mig_100k,pob_origen,pob_destino,dist,...,largo_limite,dummy_limit,empresas_origen,empresas_destino,menores_25_origen,menores_25_destino,log_pbi_destino,log_dist,nom_depto_orig,nom_depto_des
0,102,1,2,914,114,247,891,1318755,73377,610726,...,,False,3124,55,456072,30880,16.469807,13.322404,MONTEVIDEO,ARTIGAS
1,103,1,3,33127,3757,7904,0,1318755,520173,22544,...,60107.0,True,3124,563,456072,197993,18.273415,10.023224,MONTEVIDEO,CANELONES


In [24]:
# guarda
dd_deptos.to_csv('tablas/dd_deptos.csv', index=False, sep=';', decimal=',')