
#Pediccion de Tipos de Hurto Municipio Neiva
Se espera desarrollar un modelo de clasificación preciso y útil que pueda predecir el tipo de hurto en el municipio Neiva. Este modelo podría utilizarse para identificar áreas de alto riesgo, implementar medidas preventivas específicas y mejorar la seguridad pública en el municipio.

##Origen de los Datos:
Los datos utilizados en este proyecto fueron obtenidos de la página de datos abiertos de Colombia, una iniciativa del gobierno colombiano para proporcionar acceso público a conjuntos de datos de interés general. La URL de donde se obtuvieron los datos es la siguiente: ['https://www.datos.gov.co/Estad-sticas-Nacionales/Hurtos-del-municipio-de-Neiva/ej25-5qcr/about_data?fbclid=IwAR1weDRxKxxOHnnEWodsRH0llK4s1mxtkc5_YjO6XrIayZCmQGrG_pod4dc#'].

##Descripción de los Datos:
Los datos consisten en un conjunto de registros de hurtos ocurridos en un municipio Neiva durante un período de tiempo determinado. Cada registro contiene información detallada sobre el incidente de hurto, incluyendo la fecha y hora del hurto, la ubicación exacta, el tipo de propiedad robada y otras características relevantes.

##Uso de los Datos en el Proyecto:
Los datos obtenidos de la página de datos abiertos de Colombia serán utilizados en este proyecto para analizar y predecir los diferentes tipos de hurto que ocurren en el municipio. El objetivo es desarrollar un modelo de clasificación que pueda predecir el tipo de hurto en función de diversas características asociadas con cada incidente, como la ubicación, la hora del día, el día de la semana, etc

In [1]:
import pandas as pd
url='https://github.com/miguelreal90/prediccion_tipos_de_Hurto_municipio_Neiva/raw/main/Hurtos_2021-2022_Corte_a_DICIEMBRE.xlsx'
df=pd.read_excel(url)
df.head()

Unnamed: 0,Fecha y Hora del hecho,Fecha del hecho,Dia de la Semana,Hora del hecho (HH:MM),Genero,Comuna,Modalidad,Arma/medio,Móvil agresor,Móvil víctima,Edad,Descripcion Conducta
0,2022-01-01 03:30:00,2022-01-01,sábado,03:30:00,Masculino,6,Factor de oportunidad,Sin empleo de arma,A pie,Conductor vehículo,38,Hurto a personas
1,2022-01-02 00:00:00,2022-01-02,domingo,00:00:00,Femenino,3,Raponazo,Sin empleo de arma,A pie,A pie,45,Hurto a personas
2,2022-01-02 18:00:00,2022-01-02,domingo,18:00:00,Masculino,6,Atraco,Arma de fuego,Pasajero motocicleta,A pie,73,Hurto a personas
3,2022-01-02 18:00:00,2022-01-02,domingo,18:00:00,Masculino,7,Atraco,Arma de fuego,Pasajero motocicleta,Conductor vehículo,53,Hurto a personas
4,2022-01-02 19:30:00,2022-01-02,domingo,19:30:00,Masculino,5,Atraco,Arma blanca,Pasajero motocicleta,Conductor motocicleta,64,Hurto a personas


In [None]:
#Buscamos valores nulos
df.isnull().sum()

Fecha y Hora  del hecho    0
Fecha del hecho            0
Dia de la Semana           0
Hora del hecho (HH:MM)     0
Genero                     0
Comuna                     0
Modalidad                  0
Arma/medio                 0
Móvil agresor              0
Móvil víctima              0
Edad                       0
Descripcion Conducta       0
dtype: int64

In [None]:
df.duplicated().sum()

41

In [None]:
df.drop_duplicates()

Unnamed: 0,Fecha y Hora del hecho,Fecha del hecho,Dia de la Semana,Hora del hecho (HH:MM),Genero,Comuna,Modalidad,Arma/medio,Móvil agresor,Móvil víctima,Edad,Descripcion Conducta
0,2022-01-01 03:30:00,2022-01-01,sábado,03:30:00,Masculino,6,Factor de oportunidad,Sin empleo de arma,A pie,Conductor vehículo,38,Hurto a personas
1,2022-01-02 00:00:00,2022-01-02,domingo,00:00:00,Femenino,3,Raponazo,Sin empleo de arma,A pie,A pie,45,Hurto a personas
2,2022-01-02 18:00:00,2022-01-02,domingo,18:00:00,Masculino,6,Atraco,Arma de fuego,Pasajero motocicleta,A pie,73,Hurto a personas
3,2022-01-02 18:00:00,2022-01-02,domingo,18:00:00,Masculino,7,Atraco,Arma de fuego,Pasajero motocicleta,Conductor vehículo,53,Hurto a personas
4,2022-01-02 19:30:00,2022-01-02,domingo,19:30:00,Masculino,5,Atraco,Arma blanca,Pasajero motocicleta,Conductor motocicleta,64,Hurto a personas
...,...,...,...,...,...,...,...,...,...,...,...,...
3701,2022-12-29 16:30:00,2022-12-29,jueves,16:30:00,Masculino,10,Atraco,Arma de Fuego,A pie,A pie,76,Hurto a motocicletas
3702,2022-12-29 02:00:00,2022-12-29,jueves,02:00:00,Masculino,9,Atraco,Arma Blanca,A pie,A pie,33,Hurto a motocicletas
3703,2022-12-30 05:40:00,2022-12-30,viernes,05:40:00,Masculino,2,Factor de oportunidad,Sin empleo de arma,A pie,A pie,30,Hurto a motocicletas
3704,2022-12-30 22:00:00,2022-12-30,viernes,22:00:00,Femenino,1,Atraco,Arma de Fuego,Pasajero motocicleta,Conductor motocicleta,30,Hurto a motocicletas


In [None]:
df.columns

Index(['Fecha y Hora  del hecho', 'Fecha del hecho', 'Dia de la Semana',
       'Hora del hecho (HH:MM)', 'Genero', 'Comuna', 'Modalidad', 'Arma/medio',
       'Móvil agresor', 'Móvil víctima', 'Edad', 'Descripcion Conducta'],
      dtype='object')

In [None]:
# borramos la columna 'Fecha y Hora del hecho'
df.drop('Fecha y Hora  del hecho', axis=1, inplace=True)
df.head()

Unnamed: 0,Fecha del hecho,Dia de la Semana,Hora del hecho (HH:MM),Genero,Comuna,Modalidad,Arma/medio,Móvil agresor,Móvil víctima,Edad,Descripcion Conducta
0,2022-01-01,sábado,03:30:00,Masculino,6,Factor de oportunidad,Sin empleo de arma,A pie,Conductor vehículo,38,Hurto a personas
1,2022-01-02,domingo,00:00:00,Femenino,3,Raponazo,Sin empleo de arma,A pie,A pie,45,Hurto a personas
2,2022-01-02,domingo,18:00:00,Masculino,6,Atraco,Arma de fuego,Pasajero motocicleta,A pie,73,Hurto a personas
3,2022-01-02,domingo,18:00:00,Masculino,7,Atraco,Arma de fuego,Pasajero motocicleta,Conductor vehículo,53,Hurto a personas
4,2022-01-02,domingo,19:30:00,Masculino,5,Atraco,Arma blanca,Pasajero motocicleta,Conductor motocicleta,64,Hurto a personas


In [None]:
conteo_modalidad = df['Modalidad'].value_counts()

print(conteo_modalidad)

Atraco                                     1671
No reportada                                536
Raponazo                                    477
Factor de oportunidad                       476
Halado                                      179
Violacion de cerradura                       94
Violación de cerradura                       48
Ventosa                                      46
Engaño                                       37
Llave maestra                                24
Factor oportunidad                           19
Rompimiento de vidrio                        18
Vandalismo                                   18
Mechero                                      11
Cosquilleo                                    8
Factor de opotunidad                          5
Fleteo                                        5
Rompiiento de vidrio                          4
Bataleo                                       4
Escopolamina                                  3
Descuelgue de mercancía                 

Conteo y exploracion de las variables

In [None]:
def mostrar_conteo_valores(dataframe):
    for columna in dataframe.columns:
        conteo_valores = dataframe[columna].value_counts()
        print(f"Columna: {columna}")
        print(conteo_valores)
        print("------")
mostrar_conteo_valores(df)

Columna: Fecha del hecho
2022-03-18    27
2022-10-01    26
2022-12-17    26
2022-03-01    24
2022-12-02    24
              ..
2022-04-26     2
2022-09-11     1
2022-07-30     1
2022-04-17     1
2022-01-01     1
Name: Fecha del hecho, Length: 364, dtype: int64
------
Columna: Dia de la Semana
viernes      623
sábado       574
miércoles    541
martes       539
jueves       525
lunes        513
domingo      391
Name: Dia de la Semana, dtype: int64
------
Columna: Hora del hecho (HH:MM)
No reportada    200
20:00:00         82
19:30:00         73
20:30:00         72
19:00:00         70
               ... 
16:15             1
19:50             1
05:33:00          1
08:55:00          1
16:41:00          1
Name: Hora del hecho (HH:MM), Length: 514, dtype: int64
------
Columna: Genero
Masculino    2048
Femenino     1386
No aplica     211
Sin dato       61
Name: Genero, dtype: int64
------
Columna: Comuna
1                   606
6                   530
4                   442
2                 

vamos que varios valores se repiten y los cuenta como diferentes, trabajaremos en eso

In [None]:
!pip install unidecode



In [None]:
from unidecode import unidecode

# Suponiendo que 'df' es tu DataFrame

# Define una función para normalizar una cadena de texto (convertir a minúsculas, eliminar acentos y espacios en blanco al principio y al final)
def normalizar_texto(texto):
    return unidecode(str(texto).lower().strip())

# Aplica la función a cada celda del DataFrame que sea de tipo objeto (texto)
df = df.applymap(normalizar_texto)

# Ahora todas las cadenas de texto en el DataFrame 'df' están normalizadas (minúsculas, sin acentos y sin espacios en blanco al principio y al final)




In [None]:
mostrar_conteo_valores(df)

Columna: Fecha del hecho
2022-03-18 00:00:00    27
2022-10-01 00:00:00    26
2022-12-17 00:00:00    26
2022-03-01 00:00:00    24
2022-12-02 00:00:00    24
                       ..
2022-04-26 00:00:00     2
2022-09-11 00:00:00     1
2022-07-30 00:00:00     1
2022-04-17 00:00:00     1
2022-01-01 00:00:00     1
Name: Fecha del hecho, Length: 364, dtype: int64
------
Columna: Dia de la Semana
viernes      623
sabado       574
miercoles    541
martes       539
jueves       525
lunes        513
domingo      391
Name: Dia de la Semana, dtype: int64
------
Columna: Hora del hecho (HH:MM)
no reportada    200
20:00:00         82
19:30:00         73
20:30:00         72
19:00:00         70
               ... 
16:15             1
19:50             1
05:33:00          1
08:55:00          1
16:41:00          1
Name: Hora del hecho (HH:MM), Length: 514, dtype: int64
------
Columna: Genero
masculino    2048
femenino     1386
no aplica     211
sin dato       61
Name: Genero, dtype: int64
------
Columna

borramos la columna edad por la cantidad de datos vacios vacios y falta de informacion

In [None]:
df.head()

Unnamed: 0,Fecha del hecho,Dia de la Semana,Hora del hecho (HH:MM),Genero,Comuna,Modalidad,Arma/medio,Móvil agresor,Móvil víctima,Edad,Descripcion Conducta
0,2022-01-01 00:00:00,sabado,03:30:00,masculino,6,factor de oportunidad,sin empleo de arma,a pie,conductor vehiculo,38,hurto a personas
1,2022-01-02 00:00:00,domingo,00:00:00,femenino,3,raponazo,sin empleo de arma,a pie,a pie,45,hurto a personas
2,2022-01-02 00:00:00,domingo,18:00:00,masculino,6,atraco,arma de fuego,pasajero motocicleta,a pie,73,hurto a personas
3,2022-01-02 00:00:00,domingo,18:00:00,masculino,7,atraco,arma de fuego,pasajero motocicleta,conductor vehiculo,53,hurto a personas
4,2022-01-02 00:00:00,domingo,19:30:00,masculino,5,atraco,arma blanca,pasajero motocicleta,conductor motocicleta,64,hurto a personas
