
#Pediccion de Tipos de Hurto Municipio Neiva
Se espera desarrollar un modelo de clasificación preciso y útil que pueda predecir el tipo de hurto en el municipio Neiva. Este modelo podría utilizarse para identificar áreas de alto riesgo, implementar medidas preventivas específicas y mejorar la seguridad pública en el municipio.

##Origen de los Datos:
Los datos utilizados en este proyecto fueron obtenidos de la página de datos abiertos de Colombia, una iniciativa del gobierno colombiano para proporcionar acceso público a conjuntos de datos de interés general. La URL de donde se obtuvieron los datos es la siguiente: ['https://www.datos.gov.co/Estad-sticas-Nacionales/Hurtos-del-municipio-de-Neiva/ej25-5qcr/about_data?fbclid=IwAR1weDRxKxxOHnnEWodsRH0llK4s1mxtkc5_YjO6XrIayZCmQGrG_pod4dc#'].

##Descripción de los Datos:
Los datos consisten en un conjunto de registros de hurtos ocurridos en un municipio Neiva durante un período de tiempo determinado. Cada registro contiene información detallada sobre el incidente de hurto, incluyendo la fecha y hora del hurto, la ubicación exacta, el tipo de propiedad robada y otras características relevantes.

##Uso de los Datos en el Proyecto:
Los datos obtenidos de la página de datos abiertos de Colombia serán utilizados en este proyecto para analizar y predecir los diferentes tipos de hurto que ocurren en el municipio. El objetivo es desarrollar un modelo de clasificación que pueda predecir el tipo de hurto en función de diversas características asociadas con cada incidente, como la ubicación, la hora del día, el día de la semana, etc

In [22]:
import pandas as pd
url='https://github.com/miguelreal90/prediccion_tipos_de_Hurto_municipio_Neiva/raw/main/Hurtos_2021-2022_Corte_a_DICIEMBRE.xlsx'
df=pd.read_excel(url)
df.head()

Unnamed: 0,Fecha y Hora del hecho,Fecha del hecho,Dia de la Semana,Hora del hecho (HH:MM),Genero,Comuna,Modalidad,Arma/medio,Móvil agresor,Móvil víctima,Edad,Descripcion Conducta
0,2022-01-01 03:30:00,2022-01-01,sábado,03:30:00,Masculino,6,Factor de oportunidad,Sin empleo de arma,A pie,Conductor vehículo,38,Hurto a personas
1,2022-01-02 00:00:00,2022-01-02,domingo,00:00:00,Femenino,3,Raponazo,Sin empleo de arma,A pie,A pie,45,Hurto a personas
2,2022-01-02 18:00:00,2022-01-02,domingo,18:00:00,Masculino,6,Atraco,Arma de fuego,Pasajero motocicleta,A pie,73,Hurto a personas
3,2022-01-02 18:00:00,2022-01-02,domingo,18:00:00,Masculino,7,Atraco,Arma de fuego,Pasajero motocicleta,Conductor vehículo,53,Hurto a personas
4,2022-01-02 19:30:00,2022-01-02,domingo,19:30:00,Masculino,5,Atraco,Arma blanca,Pasajero motocicleta,Conductor motocicleta,64,Hurto a personas


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3706 entries, 0 to 3705
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   Fecha y Hora  del hecho  3706 non-null   datetime64[ns]
 1   Fecha del hecho          3706 non-null   datetime64[ns]
 2   Dia de la Semana         3706 non-null   object        
 3   Hora del hecho (HH:MM)   3706 non-null   object        
 4   Genero                   3706 non-null   object        
 5   Comuna                   3706 non-null   object        
 6   Modalidad                3706 non-null   object        
 7   Arma/medio               3706 non-null   object        
 8   Móvil agresor            3706 non-null   object        
 9   Móvil víctima            3706 non-null   object        
 10  Edad                     3706 non-null   object        
 11  Descripcion Conducta     3706 non-null   object        
dtypes: datetime64[ns](2), object(10)
m

In [24]:
#Buscamos valores nulos
df.isnull().sum()

Fecha y Hora  del hecho    0
Fecha del hecho            0
Dia de la Semana           0
Hora del hecho (HH:MM)     0
Genero                     0
Comuna                     0
Modalidad                  0
Arma/medio                 0
Móvil agresor              0
Móvil víctima              0
Edad                       0
Descripcion Conducta       0
dtype: int64

In [25]:
df.duplicated().sum()

41

In [26]:
df.drop_duplicates()

Unnamed: 0,Fecha y Hora del hecho,Fecha del hecho,Dia de la Semana,Hora del hecho (HH:MM),Genero,Comuna,Modalidad,Arma/medio,Móvil agresor,Móvil víctima,Edad,Descripcion Conducta
0,2022-01-01 03:30:00,2022-01-01,sábado,03:30:00,Masculino,6,Factor de oportunidad,Sin empleo de arma,A pie,Conductor vehículo,38,Hurto a personas
1,2022-01-02 00:00:00,2022-01-02,domingo,00:00:00,Femenino,3,Raponazo,Sin empleo de arma,A pie,A pie,45,Hurto a personas
2,2022-01-02 18:00:00,2022-01-02,domingo,18:00:00,Masculino,6,Atraco,Arma de fuego,Pasajero motocicleta,A pie,73,Hurto a personas
3,2022-01-02 18:00:00,2022-01-02,domingo,18:00:00,Masculino,7,Atraco,Arma de fuego,Pasajero motocicleta,Conductor vehículo,53,Hurto a personas
4,2022-01-02 19:30:00,2022-01-02,domingo,19:30:00,Masculino,5,Atraco,Arma blanca,Pasajero motocicleta,Conductor motocicleta,64,Hurto a personas
...,...,...,...,...,...,...,...,...,...,...,...,...
3701,2022-12-29 16:30:00,2022-12-29,jueves,16:30:00,Masculino,10,Atraco,Arma de Fuego,A pie,A pie,76,Hurto a motocicletas
3702,2022-12-29 02:00:00,2022-12-29,jueves,02:00:00,Masculino,9,Atraco,Arma Blanca,A pie,A pie,33,Hurto a motocicletas
3703,2022-12-30 05:40:00,2022-12-30,viernes,05:40:00,Masculino,2,Factor de oportunidad,Sin empleo de arma,A pie,A pie,30,Hurto a motocicletas
3704,2022-12-30 22:00:00,2022-12-30,viernes,22:00:00,Femenino,1,Atraco,Arma de Fuego,Pasajero motocicleta,Conductor motocicleta,30,Hurto a motocicletas


In [28]:
df['mes'] = df['Fecha y Hora  del hecho'].dt.month
df['hora'] = df['Fecha y Hora  del hecho'].dt.hour

In [33]:
df.columns

Index(['Fecha y Hora  del hecho', 'Fecha del hecho', 'Dia de la Semana',
       'Hora del hecho (HH:MM)', 'Genero', 'Comuna', 'Modalidad', 'Arma/medio',
       'Móvil agresor', 'Móvil víctima', 'Edad', 'Descripcion Conducta', 'mes',
       'hora'],
      dtype='object')

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3706 entries, 0 to 3705
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   Fecha y Hora  del hecho  3706 non-null   datetime64[ns]
 1   Fecha del hecho          3706 non-null   datetime64[ns]
 2   Dia de la Semana         3706 non-null   object        
 3   Hora del hecho (HH:MM)   3706 non-null   object        
 4   Genero                   3706 non-null   object        
 5   Comuna                   3706 non-null   object        
 6   Modalidad                3706 non-null   object        
 7   Arma/medio               3706 non-null   object        
 8   Móvil agresor            3706 non-null   object        
 9   Móvil víctima            3706 non-null   object        
 10  Edad                     3706 non-null   object        
 11  Descripcion Conducta     3706 non-null   object        
 12  mes                      3706 non-

In [35]:
# Lista de columnas a eliminar
columnas_a_eliminar = ['Fecha y Hora  del hecho', 'Fecha del hecho']
# Eliminar las columnas
df.drop(columnas_a_eliminar, axis=1, inplace=True)
# Mostrar las primeras filas del DataFrame para verificar que las columnas se han eliminado
print(df.head())

  Dia de la Semana Hora del hecho (HH:MM)     Genero Comuna  \
0           sábado               03:30:00  Masculino      6   
1          domingo               00:00:00   Femenino      3   
2          domingo               18:00:00  Masculino      6   
3          domingo               18:00:00  Masculino      7   
4          domingo               19:30:00  Masculino      5   

               Modalidad          Arma/medio         Móvil agresor  \
0  Factor de oportunidad  Sin empleo de arma                 A pie   
1               Raponazo  Sin empleo de arma                 A pie   
2                 Atraco       Arma de fuego  Pasajero motocicleta   
3                 Atraco       Arma de fuego  Pasajero motocicleta   
4                 Atraco         Arma blanca  Pasajero motocicleta   

           Móvil víctima Edad Descripcion Conducta  mes  hora  
0     Conductor vehículo   38     Hurto a personas    1     3  
1                  A pie   45     Hurto a personas    1     0  
2       

In [36]:
df.drop('Hora del hecho (HH:MM)',axis=1, inplace=True)

In [37]:
df.head()

Unnamed: 0,Dia de la Semana,Genero,Comuna,Modalidad,Arma/medio,Móvil agresor,Móvil víctima,Edad,Descripcion Conducta,mes,hora
0,sábado,Masculino,6,Factor de oportunidad,Sin empleo de arma,A pie,Conductor vehículo,38,Hurto a personas,1,3
1,domingo,Femenino,3,Raponazo,Sin empleo de arma,A pie,A pie,45,Hurto a personas,1,0
2,domingo,Masculino,6,Atraco,Arma de fuego,Pasajero motocicleta,A pie,73,Hurto a personas,1,18
3,domingo,Masculino,7,Atraco,Arma de fuego,Pasajero motocicleta,Conductor vehículo,53,Hurto a personas,1,18
4,domingo,Masculino,5,Atraco,Arma blanca,Pasajero motocicleta,Conductor motocicleta,64,Hurto a personas,1,19


In [38]:
df.describe()

Unnamed: 0,mes,hora
count,3706.0,3706.0
mean,6.611711,11.489746
std,3.690315,7.202678
min,1.0,0.0
25%,3.0,5.0
50%,6.0,11.0
75%,10.0,18.0
max,12.0,23.0


Conteo y exploracion de las variables

In [39]:
def mostrar_conteo_valores(dataframe):
    for columna in dataframe.columns:
        conteo_valores = dataframe[columna].value_counts()
        print(f"Columna: {columna}")
        print(conteo_valores)
        print("------")
mostrar_conteo_valores(df)

Columna: Dia de la Semana
viernes      623
sábado       574
miércoles    541
martes       539
jueves       525
lunes        513
domingo      391
Name: Dia de la Semana, dtype: int64
------
Columna: Genero
Masculino    2048
Femenino     1386
No aplica     211
Sin dato       61
Name: Genero, dtype: int64
------
Columna: Comuna
1                   606
6                   530
4                   442
2                   345
5                   241
3                   230
10                  208
7                   162
1                   157
9                   131
8                   100
6                    93
4                    83
3                    54
2                    53
10                   43
7                    36
5                    33
Veredas de Neiva     27
9                    23
El Caguán            22
8                    21
No reportada         21
Fortalecillas        14
Sin dato             12
Vegalarga             7
El caguán             3
Río Las Ceibas        3
G

vamos que varios valores se repiten y los cuenta como diferentes, trabajaremos en eso

In [40]:
!pip install unidecode



In [41]:
from unidecode import unidecode

# Suponiendo que 'df' es tu DataFrame

# Define una función para normalizar una cadena de texto (convertir a minúsculas, eliminar acentos y espacios en blanco al principio y al final)
def normalizar_texto(texto):
    return unidecode(str(texto).lower().strip())

# Aplica la función a cada celda del DataFrame que sea de tipo objeto (texto)
df = df.applymap(normalizar_texto)

# Ahora todas las cadenas de texto en el DataFrame 'df' están normalizadas (minúsculas, sin acentos y sin espacios en blanco al principio y al final)




In [42]:
mostrar_conteo_valores(df)

Columna: Dia de la Semana
viernes      623
sabado       574
miercoles    541
martes       539
jueves       525
lunes        513
domingo      391
Name: Dia de la Semana, dtype: int64
------
Columna: Genero
masculino    2048
femenino     1386
no aplica     211
sin dato       61
Name: Genero, dtype: int64
------
Columna: Comuna
1                   763
6                   623
4                   525
2                   398
3                   284
5                   274
10                  251
7                   198
9                   154
8                   121
veredas de neiva     29
el caguan            26
no reportada         21
fortalecillas        14
sin dato             12
vegalarga             7
rio las ceibas        3
guacirco              2
rio ceibas            1
Name: Comuna, dtype: int64
------
Columna: Modalidad
atraco                                     1673
no reportada                                536
raponazo                                    477
factor de oportunida

#seleccionamos las carateristicas a predecir
quiero predecir la modalidad del hurto, para eso estudiaremos las 5 mas comunes
'atraco','raponazo','factor de oportunidad','halado','violacion de cerradura'
      

In [43]:
#filtramos 'Modalidad' es la columna que deseas filtrar

# Lista de valores permitidos
valores_permitidos = [ 'atraco','raponazo','factor de oportunidad','halado','violacion de cerradura']

# Filtrar el DataFrame
df_filtrado = df[df['Modalidad'].isin(valores_permitidos)]

df_filtrado

Unnamed: 0,Dia de la Semana,Genero,Comuna,Modalidad,Arma/medio,Móvil agresor,Móvil víctima,Edad,Descripcion Conducta,mes,hora
0,sabado,masculino,6,factor de oportunidad,sin empleo de arma,a pie,conductor vehiculo,38,hurto a personas,1,3
1,domingo,femenino,3,raponazo,sin empleo de arma,a pie,a pie,45,hurto a personas,1,0
2,domingo,masculino,6,atraco,arma de fuego,pasajero motocicleta,a pie,73,hurto a personas,1,18
3,domingo,masculino,7,atraco,arma de fuego,pasajero motocicleta,conductor vehiculo,53,hurto a personas,1,18
4,domingo,masculino,5,atraco,arma blanca,pasajero motocicleta,conductor motocicleta,64,hurto a personas,1,19
...,...,...,...,...,...,...,...,...,...,...,...
3701,jueves,masculino,10,atraco,arma de fuego,a pie,a pie,76,hurto a motocicletas,12,16
3702,jueves,masculino,9,atraco,arma blanca,a pie,a pie,33,hurto a motocicletas,12,2
3703,viernes,masculino,2,factor de oportunidad,sin empleo de arma,a pie,a pie,30,hurto a motocicletas,12,5
3704,viernes,femenino,1,atraco,arma de fuego,pasajero motocicleta,conductor motocicleta,30,hurto a motocicletas,12,22


In [44]:
mostrar_conteo_valores(df_filtrado)

Columna: Dia de la Semana
sabado       485
viernes      477
miercoles    437
jueves       417
martes       416
lunes        410
domingo      305
Name: Dia de la Semana, dtype: int64
------
Columna: Genero
masculino    1654
femenino     1128
no aplica     140
sin dato       25
Name: Genero, dtype: int64
------
Columna: Comuna
1                   547
6                   514
4                   419
2                   318
3                   224
5                   219
10                  208
7                   162
9                   130
8                   110
el caguan            25
veredas de neiva     21
no reportada         18
sin dato             12
fortalecillas         9
vegalarga             7
guacirco              2
rio las ceibas        2
Name: Comuna, dtype: int64
------
Columna: Modalidad
atraco                    1673
raponazo                   477
factor de oportunidad      476
halado                     179
violacion de cerradura     142
Name: Modalidad, dtype: int64
---

#filtrado Comuna
observamos que las comunas 1,2,3,4,5,6,7,8,9,10 son las que tienen mayor numero de hurtos, las filtraremos

In [48]:
#filtramos 'Comuna' es la columna que deseas filtrar

# Lista de valores permitidos
valores_permitidos = ['1','2','3','4','5','6','7','8','9','10']

# Filtrar el DataFrame
df_filtrado_comuna = df_filtrado[df_filtrado['Comuna'].isin(valores_permitidos)]

df_filtrado_comuna

Unnamed: 0,Dia de la Semana,Genero,Comuna,Modalidad,Arma/medio,Móvil agresor,Móvil víctima,Edad,Descripcion Conducta,mes,hora
0,sabado,masculino,6,factor de oportunidad,sin empleo de arma,a pie,conductor vehiculo,38,hurto a personas,1,3
1,domingo,femenino,3,raponazo,sin empleo de arma,a pie,a pie,45,hurto a personas,1,0
2,domingo,masculino,6,atraco,arma de fuego,pasajero motocicleta,a pie,73,hurto a personas,1,18
3,domingo,masculino,7,atraco,arma de fuego,pasajero motocicleta,conductor vehiculo,53,hurto a personas,1,18
4,domingo,masculino,5,atraco,arma blanca,pasajero motocicleta,conductor motocicleta,64,hurto a personas,1,19
...,...,...,...,...,...,...,...,...,...,...,...
3701,jueves,masculino,10,atraco,arma de fuego,a pie,a pie,76,hurto a motocicletas,12,16
3702,jueves,masculino,9,atraco,arma blanca,a pie,a pie,33,hurto a motocicletas,12,2
3703,viernes,masculino,2,factor de oportunidad,sin empleo de arma,a pie,a pie,30,hurto a motocicletas,12,5
3704,viernes,femenino,1,atraco,arma de fuego,pasajero motocicleta,conductor motocicleta,30,hurto a motocicletas,12,22


In [49]:
mostrar_conteo_valores(df_filtrado_comuna)

Columna: Dia de la Semana
sabado       475
viernes      459
miercoles    425
martes       406
lunes        399
jueves       399
domingo      288
Name: Dia de la Semana, dtype: int64
------
Columna: Genero
masculino    1589
femenino     1101
no aplica     136
sin dato       25
Name: Genero, dtype: int64
------
Columna: Comuna
1     547
6     514
4     419
2     318
3     224
5     219
10    208
7     162
9     130
8     110
Name: Comuna, dtype: int64
------
Columna: Modalidad
atraco                    1615
raponazo                   475
factor de oportunidad      459
halado                     167
violacion de cerradura     135
Name: Modalidad, dtype: int64
------
Columna: Arma/medio
sin empleo de arma    1162
arma de fuego         1071
arma blanca            475
palanca                 86
contundente             37
sin dato                11
llave maestra            4
escopolamina             3
no reportada             2
Name: Arma/medio, dtype: int64
------
Columna: Móvil agresor
pasa

#filtramos las columnas a estudiar
Comuna, Dia de la Semana, mes, hora

In [53]:
# columnas_deseadas es una lista con los nombres de las columnas que deseas mantener
# Lista de columnas que deseas mantener
columnas_deseadas = ['Comuna', 'Dia de la Semana', 'mes','hora','Modalidad']

# Filtrar el DataFrame para incluir solo las columnas deseadas
df_Estudiar = df_filtrado_comuna[columnas_deseadas]

# Mostrar el DataFrame filtrado
df_Estudiar

Unnamed: 0,Comuna,Dia de la Semana,mes,hora,Modalidad
0,6,sabado,1,3,factor de oportunidad
1,3,domingo,1,0,raponazo
2,6,domingo,1,18,atraco
3,7,domingo,1,18,atraco
4,5,domingo,1,19,atraco
...,...,...,...,...,...
3701,10,jueves,12,16,atraco
3702,9,jueves,12,2,atraco
3703,2,viernes,12,5,factor de oportunidad
3704,1,viernes,12,22,atraco


In [54]:
df_Estudiar.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2851 entries, 0 to 3705
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Comuna            2851 non-null   object
 1   Dia de la Semana  2851 non-null   object
 2   mes               2851 non-null   object
 3   hora              2851 non-null   object
 4   Modalidad         2851 non-null   object
dtypes: object(5)
memory usage: 133.6+ KB


#convertimos a numerico las columnas comuna,hora,mes

In [55]:
df_Estudiar['Comuna'] = df_Estudiar['Comuna'].astype(int)
df_Estudiar['hora'] = df_Estudiar['hora'].astype(int)
df_Estudiar['mes'] = df_Estudiar['mes'].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_Estudiar['Comuna'] = df_Estudiar['Comuna'].astype(int)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_Estudiar['hora'] = df_Estudiar['hora'].astype(int)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_Estudiar['mes'] = df_Estudiar['mes'].astype(int)


In [56]:
df_Estudiar.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2851 entries, 0 to 3705
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Comuna            2851 non-null   int64 
 1   Dia de la Semana  2851 non-null   object
 2   mes               2851 non-null   int64 
 3   hora              2851 non-null   int64 
 4   Modalidad         2851 non-null   object
dtypes: int64(3), object(2)
memory usage: 133.6+ KB


#transformamos
##los dias de las semana
'lunes': 0, 'martes': 1, 'miercoles': 2, 'jueves': 3, 'viernes': 4, 'sabado': 5, 'domingo': 6
##Modalidad
'atraco': 0,'raponazo': 1,'factor de oportunidad':2,'halado': 3,'violacion de cerradura': 4

In [57]:
# Define un diccionario que mapee los nombres de los días de la semana a valores numéricos
mapeo_dias = {'lunes': 0, 'martes': 1, 'miercoles': 2, 'jueves': 3, 'viernes': 4, 'sabado': 5, 'domingo': 6}
mapeo_Modalidad = {'atraco': 0,'raponazo': 1,'factor de oportunidad':2,'halado': 3,'violacion de cerradura': 4}
# Usa el método map para aplicar el mapeo a la columna 'dia_semana'
df_Estudiar['Dia de la Semana'] = df_Estudiar['Dia de la Semana'].map(mapeo_dias)
df_Estudiar['Modalidad'] = df_Estudiar['Modalidad'].map(mapeo_Modalidad)
# Muestra el DataFrame resultante
df_Estudiar.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2851 entries, 0 to 3705
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype
---  ------            --------------  -----
 0   Comuna            2851 non-null   int64
 1   Dia de la Semana  2851 non-null   int64
 2   mes               2851 non-null   int64
 3   hora              2851 non-null   int64
 4   Modalidad         2851 non-null   int64
dtypes: int64(5)
memory usage: 133.6 KB


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_Estudiar['Dia de la Semana'] = df_Estudiar['Dia de la Semana'].map(mapeo_dias)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_Estudiar['Modalidad'] = df_Estudiar['Modalidad'].map(mapeo_Modalidad)


Escojemos X,y

In [58]:
X = df_Estudiar[['Comuna','Dia de la Semana','mes', 'hora']]  # Matriz de características
y = df_Estudiar['Modalidad']  # Vector de etiquetas

Estandarizamos X


In [59]:
from sklearn.preprocessing import StandardScaler
# Supongamos que X es tu matriz de características
# Inicializar el escalador estándar
scaler = StandardScaler()
# Ajustar el escalador a los datos de características y transformarlos
X_scaled = scaler.fit_transform(X)

In [63]:
from sklearn.model_selection import train_test_split
# Dividir los datos en conjuntos de entrenamiento y prueba (80% entrenamiento, 30% prueba)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

#creamos una funcion que pruebe diferentes algoritmos y sus metricas

In [62]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier

def comparar_algoritmos(X_train, X_test, y_train, y_test):
    # Definir una lista de algoritmos de clasificación
    algoritmos = [
        ('Random Forest', RandomForestClassifier()),
        ('SVM', SVC()),
        ('KNeighbors', KNeighborsClassifier()),
        ('Logistic Regression', LogisticRegression()),
        ('Decision Tree', DecisionTreeClassifier())
    ]

    # Iterar sobre cada algoritmo
    for nombre, modelo in algoritmos:
        # Entrenar el modelo
        modelo.fit(X_train, y_train)

        # Realizar predicciones en los datos de prueba
        predicciones = modelo.predict(X_test)

        # Calcular métricas de evaluación
        accuracy = accuracy_score(y_test, predicciones)
        precision = precision_score(y_test, predicciones, average='weighted')
        recall = recall_score(y_test, predicciones, average='weighted')
        f1 = f1_score(y_test, predicciones, average='weighted')

        # Imprimir las métricas de evaluación para cada algoritmo
        print(f'Algoritmo: {nombre}')
        print(f'Accuracy: {accuracy}')
        print(f'Precision: {precision}')
        print(f'Recall: {recall}')
        print(f'F1 Score: {f1}')
        print('---------------------------')

# Ejemplo de uso
# Supongamos que tienes tus datos en las matrices X e y
comparar_algoritmos(X_train, X_test, y_train, y_test)


Algoritmo: Random Forest
Accuracy: 0.5026269702276708
Precision: 0.457891865087483
Recall: 0.5026269702276708
F1 Score: 0.47333937826236744
---------------------------
Algoritmo: SVM
Accuracy: 0.5814360770577933
Precision: 0.3380679117043562
Recall: 0.5814360770577933
F1 Score: 0.4275454653005258
---------------------------
Algoritmo: KNeighbors
Accuracy: 0.5341506129597198
Precision: 0.43664797954689194
Recall: 0.5341506129597198
F1 Score: 0.4653927351803968
---------------------------
Algoritmo: Logistic Regression
Accuracy: 0.5814360770577933
Precision: 0.3380679117043562
Recall: 0.5814360770577933
F1 Score: 0.4275454653005258
---------------------------
Algoritmo: Decision Tree
Accuracy: 0.4115586690017513
Precision: 0.4251077745145355
Recall: 0.41155866900175136
F1 Score: 0.41763315225775355
---------------------------


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
