In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import seaborn as sns
import matplotlib.pyplot as plt


In [2]:
# Leer archivos Excel (.xlsx) con la hoja correcta
df_victimizacion = pd.read_excel("https://github.com/yhomar-fran/metodologia/raw/refs/heads/main/victimizacion.xlsx")
df_percepcion = pd.read_excel("https://github.com/yhomar-fran/metodologia/raw/refs/heads/main/percepcion%20de%20inseguridad.xlsx")
df_viviendas_afectadas = pd.read_excel("https://github.com/yhomar-fran/metodologia/raw/refs/heads/main/viviendas%20afectadas%20por%20intento%20de%20robo.xlsx")
df_efectivos = pd.read_excel("https://github.com/yhomar-fran/metodologia/raw/refs/heads/main/numero%20de%20policias.xlsx")
df_confianza = pd.read_excel("https://github.com/yhomar-fran/metodologia/raw/refs/heads/main/confianza%20en%20la%20policia%20nacional.xlsx")

In [3]:
df_victimizacion.head()


Unnamed: 0,departamento,2019,2020,2021,2022,2023
0,Amazonas,17.5,14.5,10.6,13.6,15.2
1,Áncash,21.8,15.9,10.8,17.4,17.2
2,Apurímac,26.7,24.7,15.6,23.8,20.3
3,Arequipa,26.8,18.5,15.0,25.1,30.4
4,Ayacucho,24.6,23.3,17.1,20.2,25.1


In [4]:
df_percepcion.head()
df_viviendas_afectadas.head()
df_efectivos.head()
df_confianza.head()

Unnamed: 0,departamento,2019,2020,2021,2022,2023
0,Amazonas,28.2,34.3,28.5,29.9,27.1
1,Áncash,16.3,27.3,25.2,19.0,20.4
2,Apurímac,11.5,19.1,15.2,16.5,11.7
3,Arequipa,17.9,26.7,22.1,19.0,19.8
4,Ayacucho,10.3,14.9,14.7,12.4,11.1


In [5]:
df_victimizacion.columns
df_percepcion.columns
df_viviendas_afectadas.columns
df_efectivos.columns
df_confianza.columns

Index(['departamento', 2019, 2020, 2021, 2022, 2023], dtype='object')

In [7]:
# Renombrar columnas con etiquetas únicas para evitar duplicación
df_victimizacion.rename(columns={
    '2019': 'victimizacion_2019',
    '2020': 'victimizacion_2020',
    '2021': 'victimizacion_2021',
    '2022': 'victimizacion_2022',
    '2023': 'victimizacion_2023'
}, inplace=True)

df_percepcion.rename(columns={
    '2019': 'percepcion_2019',
    '2020': 'percepcion_2020',
    '2021': 'percepcion_2021',
    '2022': 'percepcion_2022',
    '2023': 'percepcion_2023'
}, inplace=True)

df_viviendas_afectadas.rename(columns={
    '2019': 'robo_2019',
    '2020': 'robo_2020',
    '2021': 'robo_2021',
    '2022': 'robo_2022',
    '2023': 'robo_2023'
}, inplace=True)

df_efectivos.rename(columns={
    '2019': 'efectivos_2019',
    '2020': 'efectivos_2020',
    '2021': 'efectivos_2021',
    '2022': 'efectivos_2022',
    '2023': 'efectivos_2023'
}, inplace=True)

df_confianza.rename(columns={
    '2019': 'confianza_2019',
    '2020': 'confianza_2020',
    '2021': 'confianza_2021',
    '2022': 'confianza_2022',
    '2023': 'confianza_2023'
}, inplace=True)


In [10]:
# Convertir a formato largo
df_victimizacion_long = pd.melt(
    df_victimizacion,
    id_vars='departamento',
    var_name='anio',
    value_name='victimizacion')

In [11]:
df_victimizacion_long = pd.melt(df_victimizacion, id_vars='departamento', var_name='anio', value_name='victimizacion')
df_percepcion_long = pd.melt(df_percepcion, id_vars='departamento', var_name='anio', value_name='percepcion')
df_viviendas_afectadas_long = pd.melt(df_viviendas_afectadas, id_vars='departamento', var_name='anio', value_name='robo')
df_efectivos_long = pd.melt(df_efectivos, id_vars='departamento', var_name='anio', value_name='efectivos')
df_confianza_long = pd.melt(df_confianza, id_vars='departamento', var_name='anio', value_name='confianza')


In [12]:
# Merge
df = df_victimizacion_long.merge(df_percepcion_long, on=['departamento', 'anio']) \
                          .merge(df_viviendas_afectadas_long, on=['departamento', 'anio']) \
                          .merge(df_efectivos_long, on=['departamento', 'anio']) \
                          .merge(df_confianza_long, on=['departamento', 'anio'])


In [13]:
print(df.head())


  departamento  anio  victimizacion  percepcion  robo  efectivos  confianza
0     Amazonas  2019           17.5        83.5  14.5       1.42       28.2
1       Áncash  2019           21.8        63.2   9.5       4.52       16.3
2     Apurímac  2019           26.7        81.4   9.1       2.09       11.5
3     Arequipa  2019           26.8        92.2  10.3       6.54       17.9
4     Ayacucho  2019           24.6        73.7  12.0       1.26       10.3


In [14]:
print(df.to_string())


                departamento  anio  victimizacion  percepcion  robo  efectivos  confianza
0                   Amazonas  2019           17.5        83.5  14.5       1.42       28.2
1                     Áncash  2019           21.8        63.2   9.5       4.52       16.3
2                   Apurímac  2019           26.7        81.4   9.1       2.09       11.5
3                   Arequipa  2019           26.8        92.2  10.3       6.54       17.9
4                   Ayacucho  2019           24.6        73.7  12.0       1.26       10.3
5                  Cajamarca  2019           14.4        84.9   9.1       3.74       27.7
6    Prov. Const. del Callao  2019           28.9        88.7   7.3       4.36       16.8
7                      Cusco  2019           33.9        90.0   9.9       5.16       21.2
8               Huancavelica  2019           26.6        91.7   9.9       1.28       17.7
9                    Huánuco  2019           16.7        78.7   6.7       2.20       21.1
10        

In [15]:
# Filtrar el año 2019
df_2019 = df[df['anio'] == 2019]

In [16]:
# Verificar variables disponibles
print(df_2019.columns)

Index(['departamento', 'anio', 'victimizacion', 'percepcion', 'robo',
       'efectivos', 'confianza'],
      dtype='object')


In [18]:
variables = ['victimizacion', 'percepcion', 'robo', 'efectivos', 'confianza']
correlaciones_2019 = df_2019[variables].corr(method='pearson')

print("\n🔗 Correlación de variables con la confianza (2019):\n")
print(correlaciones_2019['confianza'])



🔗 Correlación de variables con la confianza (2019):

victimizacion   -0.272555
percepcion      -0.175472
robo            -0.066790
efectivos       -0.048503
confianza        1.000000
Name: confianza, dtype: float64


In [19]:

# Variables predictoras (independientes)
X = df_2019[['victimizacion', 'percepcion', 'robo', 'efectivos']]

# Variable respuesta (dependiente)
y = df_2019['confianza']

# Agregamos constante (intercepto)
X = sm.add_constant(X)

# ajustamos el modelo
modelo_2019 = sm.OLS(y, X).fit()

# Mostramos el resumen
print(modelo_2019.summary())


                            OLS Regression Results                            
Dep. Variable:              confianza   R-squared:                       0.077
Model:                            OLS   Adj. R-squared:                 -0.099
Method:                 Least Squares   F-statistic:                    0.4358
Date:                Fri, 20 Jun 2025   Prob (F-statistic):              0.781
Time:                        23:58:29   Log-Likelihood:                -83.429
No. Observations:                  26   AIC:                             176.9
Df Residuals:                      21   BIC:                             183.1
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
const            26.8340     13.792      1.946

In [22]:
#Filtrar el año 2020
df_2020 = df[df['anio'] == 2020]

In [23]:
variables = ['victimizacion', 'percepcion', 'robo', 'efectivos', 'confianza']
correlaciones_2020 = df_2020[variables].corr(method='pearson')

print("\n🔗 Correlación de variables con la confianza (2020):\n")
print(correlaciones_2020['confianza'])


🔗 Correlación de variables con la confianza (2020):

victimizacion   -0.233592
percepcion      -0.159351
robo            -0.146679
efectivos       -0.084600
confianza        1.000000
Name: confianza, dtype: float64


In [24]:
df.to_csv("tabla_merge.csv", index=False, encoding='utf-8-sig')
