### Autor: Nicolás Rivera G.

## Casos policiales - delitos de mayor connotación social (DMCS)

In [1]:
# Se cargan los datos
import pandas as pd

dmcs = pd.read_excel('reportesEstadisticos-unidadTerritorial_dmcs.xlsx')
dmcs = dmcs.iloc[21:,]
dmcs = dmcs[~dmcs['Unnamed: 0'].str.contains('TOTAL|Región|Provincia')] 

In [2]:
# Nombres de las columnas
dmcs.columns = ['Nombre_comuna', 
                '2005-01', '2005-02','2005-03','2005-04','2005-05','2005-06','2005-07','2005-08','2005-09','2005-10','2005-11','2005-12',
                '2006-01', '2006-02','2006-03','2006-04','2006-05','2006-06','2006-07','2006-08','2006-09','2006-10','2006-11','2006-12',
                '2007-01', '2007-02','2007-03','2007-04','2007-05','2007-06','2007-07','2007-08','2007-09','2007-10','2007-11','2007-12',
                '2008-01', '2008-02','2008-03','2008-04','2008-05','2008-06','2008-07','2008-08','2008-09','2008-10','2008-11','2008-12',
                '2009-01', '2009-02','2009-03','2009-04','2009-05','2009-06','2009-07','2009-08','2009-09','2009-10','2009-11','2009-12',
                '2010-01', '2010-02','2010-03','2010-04','2010-05','2010-06','2010-07','2010-08','2010-09','2010-10','2010-11','2010-12',
                '2011-01', '2011-02','2011-03','2011-04','2011-05','2011-06','2011-07','2011-08','2011-09','2011-10','2011-11','2011-12',
                '2012-01', '2012-02','2012-03','2012-04','2012-05','2012-06','2012-07','2012-08','2012-09','2012-10','2012-11','2012-12',
                '2013-01', '2013-02','2013-03','2013-04','2013-05','2013-06','2013-07','2013-08','2013-09','2013-10','2013-11','2013-12',
                '2014-01', '2014-02','2014-03','2014-04','2014-05','2014-06','2014-07','2014-08','2014-09','2014-10','2014-11','2014-12',
                '2015-01', '2015-02','2015-03','2015-04','2015-05','2015-06','2015-07','2015-08','2015-09','2015-10','2015-11','2015-12',
                '2016-01', '2016-02','2016-03','2016-04','2016-05','2016-06','2016-07','2016-08','2016-09','2016-10','2016-11','2016-12',
                '2017-01', '2017-02','2017-03','2017-04','2017-05','2017-06','2017-07','2017-08','2017-09','2017-10','2017-11','2017-12',
                '2018-01', '2018-02','2018-03','2018-04','2018-05','2018-06','2018-07','2018-08','2018-09','2018-10','2018-11','2018-12',
                '2019-01', '2019-02','2019-03','2019-04','2019-05','2019-06','2019-07','2019-08','2019-09','2019-10','2019-11','2019-12',
                '2020-01', '2020-02','2020-03','2020-04','2020-05','2020-06','2020-07','2020-08','2020-09','2020-10','2020-11','2020-12',
                '2021-01', '2021-02','2021-03','2021-04','2021-05','2021-06']

In [3]:
# Transformación del dataframe
dmcs = pd.melt(dmcs, id_vars=['Nombre_comuna'], var_name='Fecha', value_name='Freq_dmcs')

In [4]:
# Obtener año a partir de la fecha
dmcs['Anio'] = dmcs['Fecha'].str[:4]

In [5]:
# No se considera 2021 (sólo hay datos hasta jun21)
dmcs = dmcs[dmcs['Anio']!='2021']

In [6]:
# Cambiar formato variables
dmcs['Fecha'] = pd.to_datetime(dmcs['Fecha'],format='%Y-%m').dt.to_period('m')
dmcs['Freq_dmcs'] = pd.to_numeric(dmcs['Freq_dmcs'])
dmcs['Anio'] = pd.to_numeric(dmcs['Anio'])

dmcs.dtypes

Nombre_comuna       object
Fecha            period[M]
Freq_dmcs            int64
Anio                 int64
dtype: object

In [7]:
# Total casos policiales por comuna y año
dmcs = dmcs.groupby(['Nombre_comuna','Anio'], as_index=False).agg(Freq_dmcs=('Freq_dmcs','sum'))

dmcs

Unnamed: 0,Nombre_comuna,Anio,Freq_dmcs
0,Algarrobo,2005,594
1,Algarrobo,2006,570
2,Algarrobo,2007,596
3,Algarrobo,2008,811
4,Algarrobo,2009,848
...,...,...,...
5515,Ñuñoa,2016,9052
5516,Ñuñoa,2017,9057
5517,Ñuñoa,2018,8734
5518,Ñuñoa,2019,8372


## Proyecciones demográficas

In [8]:
# Se cargan los datos
pop_raw = pd.read_excel('estimaciones-y-proyecciones-2002-2035-comunas.xlsx')

In [9]:
# Población total por comuna y año
pop = pop_raw.groupby('Comuna', as_index=False).agg(pop_2002=('Poblacion 2002','sum'),
                                                pop_2003=('Poblacion 2003','sum'),
                                                pop_2004=('Poblacion 2004','sum'),
                                                pop_2005=('Poblacion 2005','sum'), 
                                                pop_2006=('Poblacion 2006','sum'),
                                                pop_2007=('Poblacion 2007','sum'),
                                                pop_2008=('Poblacion 2008','sum'),
                                                pop_2009=('Poblacion 2009','sum'),
                                                pop_2010=('Poblacion 2010','sum'),
                                                pop_2011=('Poblacion 2011','sum'),
                                                pop_2012=('Poblacion 2012','sum'),
                                                pop_2013=('Poblacion 2013','sum'),
                                                pop_2014=('Poblacion 2014','sum'),
                                                pop_2015=('Poblacion 2015','sum'),
                                                pop_2016=('Poblacion 2016','sum'),
                                                pop_2017=('Poblacion 2017','sum'),
                                                pop_2018=('Poblacion 2018','sum'),
                                                pop_2019=('Poblacion 2019','sum'),
                                                pop_2020=('Poblacion 2020','sum'),
                                                pop_2021=('Poblacion 2021','sum'),
                                                pop_2022=('Poblacion 2022','sum'),
                                                pop_2023=('Poblacion 2023','sum'),
                                                pop_2024=('Poblacion 2024','sum'),
                                                pop_2025=('Poblacion 2025','sum'),
                                                pop_2026=('Poblacion 2026','sum'),
                                                pop_2027=('Poblacion 2027','sum'),
                                                pop_2028=('Poblacion 2028','sum'),
                                                pop_2029=('Poblacion 2029','sum'),
                                                pop_2030=('Poblacion 2030','sum'),
                                                pop_2031=('Poblacion 2031','sum'),
                                                pop_2032=('Poblacion 2032','sum'),
                                                pop_2033=('Poblacion 2033','sum'),
                                                pop_2034=('Poblacion 2034','sum'),
                                                pop_2035=('Poblacion 2035','sum'))  

In [10]:
# Se transforma el dataframe
pop = pd.melt(pop, id_vars=['Comuna'], var_name='Anio', value_name='Pop')

In [11]:
# Cambiar formato variable año
pop['Anio'] = pop['Anio'].str[4:]
pop['Anio'] = pd.to_numeric(pop['Anio'])

pop.dtypes

Comuna    int64
Anio      int64
Pop       int64
dtype: object

In [12]:
# Se incorpora región y provincia
region_provincia = pop_raw[['Region','Nombre Region','Provincia','Nombre Provincia','Comuna','Nombre Comuna']]
region_provincia = region_provincia.drop_duplicates()

pop = pop.merge(region_provincia, how = 'left', on=['Comuna'])

In [13]:
# Se renombran y reordenan las variables
pop.columns = ['Comuna','Anio','Pop','Region','Nombre_region','Provincia','Nombre_provincia','Nombre_comuna']
pop = pop[['Comuna','Nombre_comuna','Anio','Pop','Region','Nombre_region','Provincia','Nombre_provincia']]

pop

Unnamed: 0,Comuna,Nombre_comuna,Anio,Pop,Region,Nombre_region,Provincia,Nombre_provincia
0,1101,Iquique,2002,173611,1,Tarapacá,11,Iquique
1,1107,Alto Hospicio,2002,53625,1,Tarapacá,11,Iquique
2,1401,Pozo Almonte,2002,9833,1,Tarapacá,14,Tamarugal
3,1402,Camiña,2002,1325,1,Tarapacá,14,Tamarugal
4,1403,Colchane,2002,1636,1,Tarapacá,14,Tamarugal
...,...,...,...,...,...,...,...,...
11759,16301,San Carlos,2035,58074,16,Ñuble,163,Punilla
11760,16302,Coihueco,2035,30435,16,Ñuble,163,Punilla
11761,16303,Ñiquén,2035,11268,16,Ñuble,163,Punilla
11762,16304,San Fabián,2035,5047,16,Ñuble,163,Punilla


In [14]:
# Revisar nombres comunas
pop['Nombre_comuna'].sort_values().unique()

array(['Algarrobo', 'Alhué', 'Alto Biobío', 'Alto Hospicio',
       'Alto del Carmen', 'Ancud', 'Andacollo', 'Angol', 'Antofagasta',
       'Antuco', 'Antártica', 'Arauco', 'Arica', 'Aysén', 'Buin',
       'Bulnes', 'Cabildo', 'Cabo de Hornos', 'Cabrero', 'Calama',
       'Calbuco', 'Caldera', 'Calera', 'Calera de Tango', 'Calle Larga',
       'Camarones', 'Camiña', 'Canela', 'Carahue', 'Cartagena',
       'Casablanca', 'Castro', 'Catemu', 'Cauquenes', 'Cañete',
       'Cerrillos', 'Cerro Navia', 'Chaitén', 'Chanco', 'Chañaral',
       'Chiguayante', 'Chile Chico', 'Chillán', 'Chillán Viejo',
       'Chimbarongo', 'Cholchol', 'Chonchi', 'Chépica', 'Cisnes',
       'Cobquecura', 'Cochamó', 'Cochrane', 'Codegua', 'Coelemu',
       'Coihueco', 'Coinco', 'Colbún', 'Colchane', 'Colina', 'Collipulli',
       'Coltauco', 'Combarbalá', 'Concepción', 'Conchalí', 'Concón',
       'Constitución', 'Contulmo', 'Copiapó', 'Coquimbo', 'Coronel',
       'Corral', 'Coyhaique', 'Cunco', 'Curacautín', 'C

In [15]:
# Cambiar nombres de algunas comunas
pop['Nombre_comuna'].replace({'Calera': 'La Calera', 
                              'Marchihue': 'Marchigüe',
                              'Los Angeles': 'Los Ángeles',
                              'Pitrufquen': 'Pitrufquén'}, inplace=True)

### Unión casos policiales y proyecciones demográficas

In [16]:
# Nuevo dataframe
df = dmcs.merge(pop, how = 'left', on=['Nombre_comuna','Anio'])

In [17]:
# Check si hay NAs
df['Pop'].isna().sum()

0

In [18]:
# Se construye tasa de casos policiales x 100 mil habs.
df['Tasa_dmcs'] = round((df['Freq_dmcs']/df['Pop'])*100000,1)

In [19]:
# Reordenar columnas
df = df[['Comuna','Nombre_comuna','Anio','Freq_dmcs','Pop','Tasa_dmcs','Region','Nombre_region','Provincia','Nombre_provincia']]

df

Unnamed: 0,Comuna,Nombre_comuna,Anio,Freq_dmcs,Pop,Tasa_dmcs,Region,Nombre_region,Provincia,Nombre_provincia
0,5602,Algarrobo,2005,594,10188,5830.4,5,Valparaíso,56,San Antonio
1,5602,Algarrobo,2006,570,10557,5399.3,5,Valparaíso,56,San Antonio
2,5602,Algarrobo,2007,596,10920,5457.9,5,Valparaíso,56,San Antonio
3,5602,Algarrobo,2008,811,11281,7189.1,5,Valparaíso,56,San Antonio
4,5602,Algarrobo,2009,848,11639,7285.8,5,Valparaíso,56,San Antonio
...,...,...,...,...,...,...,...,...,...,...
5515,13120,Ñuñoa,2016,9052,216230,4186.3,13,Metropolitana de Santiago,131,Santiago
5516,13120,Ñuñoa,2017,9057,222055,4078.7,13,Metropolitana de Santiago,131,Santiago
5517,13120,Ñuñoa,2018,8734,230808,3784.1,13,Metropolitana de Santiago,131,Santiago
5518,13120,Ñuñoa,2019,8372,240753,3477.4,13,Metropolitana de Santiago,131,Santiago


In [20]:
# Se exporta el dataset
df.to_csv('CasosPolicialesDMCS_comunas.csv', index=False)