# Librerias

In [1]:
import numpy as np
import pandas as pd

# Datasets

### Dataset: SAT-Propiedad-BU_2017-2023
- Origen: Bases de datos de estadísticas criminales. Publicadas por la la Dirección Nacional de Estadística Criminal del Ministerio de Seguridad de la
Nación. 
- Enlace: https://www.argentina.gob.ar/seguridad/estadisticascriminales/bases-de-datos

Este dataset contiene datos de todas las provincias de la Argentina desde el 2017 hasta el 2023, con el fin de realizar una prediccion centrado unicamente en la provincia de Tierra del Fuego, se filtro el dataset conservando los registros correspondientes a la provincia.

In [2]:
# Definicion de un path para acortar la definicion de la ruta
path = "\\Users\\Usuario\\Desktop\\hechos-delictivios-tdf\\"

In [3]:
df_nacional = pd.read_excel(path + r"data\raw\SAT-Propiedad-BU_2017-2023.xlsx")

In [4]:
df_nacional.columns

Index(['provincia_id', 'provincia_nombre', 'departamento_id',
       'departamento_nombre', 'anio', 'mes', 'codigo_delito_sat_prop',
       'nombre_delito_sat_prop', 'cantidad_hechos',
       'cantidad_hechos_inc_conocido', 'cantidad_hechos_inc_desconocido',
       'cantidad_hechos_lugar_via_publ', 'cantidad_hechos_lugar_establec',
       'cantidad_hechos_lugar_dom_part', 'cantidad_hechos_lugar_sd',
       'cantidad_hechos_arma_de_fuego', 'cantidad_hechos_arma_otra',
       'cantidad_hechos_arma_sin_arma', 'cantidad_hechos_arma_sd',
       'cantidad_hechos_origen_denuncia', 'cantidad_hechos_origen_intervenc',
       'cantidad_hechos_origen_orden_jud', 'cantidad_hechos_origen_otro',
       'cant_hechos_agrav_por_lesiones', 'cant_hechos_agrav_sin_lesiones',
       'cantidad_inculpados', 'cantidad_inculpados_sexo_masc',
       'cantidad_inculpados_sexo_fem', 'cantidad_inculpados_sexo_sd',
       'cantidad_inculpados_edad_0_15', 'cantidad_inculpados_edad_16_17',
       'cantidad_inculpados

In [5]:
df_nacional["provincia_nombre"].unique()

array(['Ciudad Autónoma de Buenos Aires', 'Buenos Aires', 'Catamarca',
       'Córdoba', 'Corrientes', 'Chaco', 'Chubut', 'Entre Ríos',
       'Formosa', 'Jujuy', 'La Pampa', 'La Rioja', 'Mendoza', 'Misiones',
       'Neuquén', 'Río Negro', 'Salta', 'San Juan', 'San Luis',
       'Santa Cruz', 'Santa Fe', 'Santiago del Estero', 'Tucumán',
       'Tierra del Fuego'], dtype=object)

In [6]:
df_TDF = df_nacional[df_nacional['provincia_nombre'] == 'Tierra del Fuego']
df_TDF.shape

(2253, 33)

In [7]:
df_TDF.to_csv(path + r"data\raw\df_TDF_SAT-Propiedad-BU_2017-2023.csv", index=False)

### Dataset: Poblacion-total-segun-ingreso-medio-per-capita
- Origen: IPIEC
- Fuente: https://ipiec.tierradelfuego.gob.ar/estadisticas-sociales-y-demograficas/

Este dataset indica un aproximado de la poblacion total desde el año 2016 hasta 2024 incluyendo solo las ciudades de Rio Grande y Ushuaia.

In [8]:
ruta_excel = path + r"data\raw\06_1_01-Poblacion-total-segun-ingreso-medio-per-capita.xlsx"
df_poblacion = pd.read_excel(ruta_excel, header=2) #Los encabazados estan en la fila 3 del excel

In [9]:
#Se especifican las casillas que tienen los datos que requiero
df_poblacion_filtrado = df_poblacion.iloc[4:32] 

In [10]:
df_poblacion_filtrado.head(9)

Unnamed: 0,Año,Trimestre,Población total,Ingreso total (en miles),Ingreso medio per cápita (en pesos)
4,2017.0,1er trimestre,151966,1995313,13130
5,,2do trimestre,152940,2004062,13104
6,,3er trimestre,154078,2238184,14526
7,,4to trimestre,154882,2321392,14988
8,2018.0,1er trimestre,155872,2303532,14778
9,,2do trimestre,156772,2451815,15639
10,,3er trimestre,157720,2500662,15855
11,,4to trimestre,158763,2740321,17260
12,2019.0,1er trimestre,159849,2696176,16867


In [11]:
# Las funciones de pandas utilizadas van a ser cambiadas en un futuro, para evitar que salten las ventanas de advertencia se añade esta linea
pd.set_option('future.no_silent_downcasting', True)

In [12]:
#Se completan los valores nulos
df_poblacion_filtrado.loc[:, "Año"] = df_poblacion_filtrado["Año"].ffill()

In [13]:
df_poblacion_filtrado.head(5)

Unnamed: 0,Año,Trimestre,Población total,Ingreso total (en miles),Ingreso medio per cápita (en pesos)
4,2017,1er trimestre,151966,1995313,13130
5,2017,2do trimestre,152940,2004062,13104
6,2017,3er trimestre,154078,2238184,14526
7,2017,4to trimestre,154882,2321392,14988
8,2018,1er trimestre,155872,2303532,14778


### Dataset:
- Origen: IPIEC
- Fuente: https://ipiec.tierradelfuego.gob.ar/estadisticas-economicas-2/

Este dataset indica la recaudacion impositiva mensual en pesos por concepto desde el año 2000 hasta 2024 de la provincia de Tierra del Fuego. La informacion esta dividida en dos hojas de excel, por ende es necesario importar y procesar dos veces el mismo dataset.

In [14]:
ruta_excel = path + r"data\raw\13_2_01_Recaudacion_impositiva_mensual_por_concepto.xlsx"
# Se carga la hoja "2000-2019" con los encabezados en la fila 4
df_impuestos = pd.read_excel(ruta_excel, sheet_name="2000-2019", header=3)

In [15]:
df_impuestos_filtrado = df_impuestos.iloc[206:242] #Seleccion de la parte de interes de la hoja de excel

In [16]:
df_impuestos_filtrado.to_csv("impuestos_filtrados.csv", index=False, encoding="utf-8")

In [17]:
columnas_a_incluir = ["Total", "Convenio multilateral", "Otros ingresos", "Impuesto ingresos brutos", "Impuesto de sellos", "Impuesto inmobiliario"] 
df_impuestos_1 = pd.read_csv("impuestos_filtrados.csv", encoding="utf-8", dtype=str)

In [18]:
for columna in columnas_a_incluir:
    df_impuestos_1[columna] = df_impuestos_1[columna].replace("-", "0")  # Sustituir "-" por 0
    df_impuestos_1[columna] = df_impuestos_1[columna].str.replace(",", ".", regex=False)  # Ajustar decimales
    df_impuestos_1[columna] = pd.to_numeric(df_impuestos_1[columna], errors="coerce")  # Convertir a número flotante

for columna in columnas_a_incluir:
    df_impuestos_1[columna] = df_impuestos_1[columna].apply(lambda x: "{:,.0f}".format(x) if isinstance(x, (int, float)) else str(x))

for columna in df_impuestos_1.columns:
    df_impuestos_1[columna] = df_impuestos_1[columna].apply(lambda x: '\n'.join([x[i:i+150] for i in range(0, len(x), 150)]) if isinstance(x, str) else x)


In [19]:
df_impuestos_1.head(4)

Unnamed: 0,Mes,Total,Impuesto ingresos brutos,Convenio multilateral,Impuesto de sellos,Impuesto inmobiliario,Otros ingresos
0,2017-01-01 00:00:00,519283888,71123083,158601571,21718644,22115,267818476
1,2017-02-01 00:00:00,467864648,57416525,144090087,17667071,223034,248467932
2,2017-03-01 00:00:00,482706552,69333643,145077379,17222376,149048,250924106
3,2017-04-01 00:00:00,596500020,63108045,235841071,20348071,25087,277177746


In [20]:
# Importacion de la hoja 2 del mismo dataset
ruta_excel = path + r"data\raw\13_2_01_Recaudacion_impositiva_mensual_por_concepto.xlsx"
# Se carga la hoja "2020-2024" con los encabezados en la fila 5
df_impuestos = pd.read_excel(ruta_excel, sheet_name="2020-2024", header=4)

In [21]:
df_impuestos_filtrado = df_impuestos.iloc[2:50] #Seleccion de la parte de interes de la hoja de excel

In [22]:
df_impuestos_filtrado.columns

Index(['Unnamed: 0', 'Unnamed: 1', 'Total Ingresos Tributarios',
       'Impuesto ingresos brutos', 'Convenio multilateral',
       'Impuesto de sellos', 'Impuesto inmobiliario rural', 'Unnamed: 7',
       'Unnamed: 8', 'Unnamed: 9', 'Unnamed: 10'],
      dtype='object')

In [23]:
df_impuestos_filtrado = df_impuestos_filtrado.copy()  # Crear una copia segura
# Renombrar columnas mal cargadas
df_impuestos_filtrado.rename(columns={"Unnamed: 0": "Mes", "Unnamed: 1": "Total", "Unnamed: 10": "Otros ingresos", "Impuesto inmobiliario rural": "Impuesto inmobiliario"}, inplace=True)

In [24]:
df_impuestos_filtrado.head(1)

Unnamed: 0,Mes,Total,Total Ingresos Tributarios,Impuesto ingresos brutos,Convenio multilateral,Impuesto de sellos,Impuesto inmobiliario,Unnamed: 7,Unnamed: 8,Unnamed: 9,Otros ingresos
2,2020-01-20 00:00:00,1251929512.06,539723000.0,135847000.0,369562000.0,34173025.61,140972.62,264973600.0,119362000.0,199195200.0,128675700.0


In [25]:
columnas_a_eliminar = ["Unnamed: 7", "Unnamed: 8", "Unnamed: 9", "Total Ingresos Tributarios"]
df_impuestos_filtrado.drop(columns=columnas_a_eliminar, inplace=True)

In [26]:
df_impuestos_filtrado.columns

Index(['Mes', 'Total', 'Impuesto ingresos brutos', 'Convenio multilateral',
       'Impuesto de sellos', 'Impuesto inmobiliario', 'Otros ingresos'],
      dtype='object')

In [27]:
df_impuestos_filtrado.to_csv("impuestos_filtrados_2.csv", index=False, encoding="utf-8")

In [28]:
columnas_a_incluir = ["Total", "Convenio multilateral", "Otros ingresos", "Impuesto ingresos brutos", "Impuesto de sellos", "Impuesto inmobiliario"] 
df_impuestos_2 = pd.read_csv("impuestos_filtrados_2.csv", encoding="utf-8", dtype=str)

In [29]:
df_impuestos_2.head()

Unnamed: 0,Mes,Total,Impuesto ingresos brutos,Convenio multilateral,Impuesto de sellos,Impuesto inmobiliario,Otros ingresos
0,2020-01-20 00:00:00,1251929512.06,135847036.74,369561991.56,34173025.61,140972.62,128675709.74
1,2020-02-01 00:00:00,1142552416.65,91342422.79,431307808.97,33043812.67,17101.14,93701043.0
2,2020-03-01 00:00:00,1112673664.82,113805176.7,357083390.87,38569412.22,22010.96,123776208.56
3,2020-04-01 00:00:00,1049026764.5,89959877.33999999,316086794.28,19628833.45,-,89808421.01
4,2020-05-01 00:00:00,900337204.09,114837220.9,269308729.62,26818321.73,1656.12,46524900.02


In [30]:
for columna in columnas_a_incluir:
    df_impuestos_2[columna] = df_impuestos_2[columna].replace("-", "0")  # Sustituir "-" por 0
    df_impuestos_2[columna] = df_impuestos_2[columna].str.replace(",", ".", regex=False)  # Ajustar decimales
    df_impuestos_2[columna] = pd.to_numeric(df_impuestos_2[columna], errors="coerce")  # Convertir a número flotante

for columna in columnas_a_incluir:
    df_impuestos_2[columna] = df_impuestos_2[columna].apply(lambda x: "{:,.0f}".format(x) if isinstance(x, (int, float)) else str(x))

for columna in df_impuestos_2.columns:
    df_impuestos_2[columna] = df_impuestos_2[columna].apply(lambda x: '\n'.join([x[i:i+150] for i in range(0, len(x), 150)]) if isinstance(x, str) else x)


In [32]:
df_impuestos_2.head(1)

Unnamed: 0,Mes,Total,Impuesto ingresos brutos,Convenio multilateral,Impuesto de sellos,Impuesto inmobiliario,Otros ingresos
0,2020-01-20 00:00:00,1251929512,135847037,369561992,34173026,140973,128675710


### Dataset: IPC_resultados_-por_divisiones_de_la_canasta_categorias_bienes_y_servicios
- Origen: IPIEC
- Fuente: https://ipiec.tierradelfuego.gob.ar/estadisticas-sociales-y-demograficas/

El índice de precios al consumidor (IPC) es un indicador que mide la evolución promedio de los precios de un conjunto de bienes y servicios representativos del gasto de consumo de los hogares residentes en un área determinada, que constituyen la canasta IPC. 

Los resultados se obtienen de 39 aglomerados urbanos y se presentan desagregados para 6 regiones estadísticas: Gran Buenos Aires, Cuyo, Noreste, Noroeste, Pampeana y Patagonia.Desde diciembre del año 2016 hasta abril del años 2025 de la region patagonica.

In [66]:
ruta_excel = path + r"data/raw/17_1_01_IPC_resultados_-por_divisiones_de_la_canasta_categorias_bienes_y_servicios._Patagonia.xlsx"

# Se carga la hoja, los encabezados estan en la fila 4
df_ipc = pd.read_excel(ruta_excel, header=None)

In [67]:
df_ipc = df_ipc.iloc[3:19]  # Seleccionar filas A4 hasta A19 (ajustado para índice 0)

In [70]:
df_ipc.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,92,93,94,95,96,97,98,99,100,101
3,Nivel general y divisiones COICOP,2016-12-01 00:00:00,2017-01-01 00:00:00,2017-02-01 00:00:00,2017-03-01 00:00:00,2017-04-01 00:00:00,2017-05-01 00:00:00,2017-06-01 00:00:00,2017-07-01 00:00:00,2017-08-01 00:00:00,...,2024-07-15 00:00:00,2024-08-12 00:00:00,2024-09-09 00:00:00,2024-10-07 00:00:00,2024-11-04 00:00:00,2024-12-02 00:00:00,2025-01-01 00:00:00,2025-02-09 00:00:00,2025-03-01 00:00:00,2025-04-01 00:00:00
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,,,,,,...,,,,,,,,,,
6,Nivel general,100,102.5593,104.2827,106.5167,108.6517,110.4897,111.7051,113.3785,115.3036,...,6497.6,6797.2,7050.5,7278.5,7517.9,7717.1,7910.5,8164.3,8434.2,8659.4
7,Alimentos y bebidas no alcohólicas,100,100.9464,102.2499,103.9781,105.4772,107.5956,107.9237,108.7052,110.5112,...,7102.8,7446.6,7676.3,7804.1,8015,8169.6,8351.6,8718.4,8980,9258.3


In [None]:
df_ipc = df_ipc.iloc[6:19]  # Ajustamos índices (Pandas indexa desde 0)

In [None]:
df_ipc.rename(columns={"Unnamed: 0": "Mes"}, inplace=True)

In [None]:
df_ipc.head()

# Unificacion de datasets

In [None]:
df_delictivo = pd.read_csv("Datos/df_TDF_SAT-Propiedad-BU_2017-2023.csv", delimiter =',')