In [None]:
# leer archivo data/IPH_robos_2021_2024_tecmty.xlsx
import pandas as pd

df = pd.read_excel("data/IPH_robos_2021_2024_tecmty.xlsx")
df.head()

In [None]:
df.isnull().sum()

In [None]:
# visualizar distribución de tipos de robos
df['TIPO'].value_counts().plot(kind='bar', title='Distribución de Tipos de Robos')

# poner encima de cada barra el número de robos
import matplotlib.pyplot as plt

counts = df['TIPO'].value_counts()
plt.bar(counts.index, counts.values)
plt.title('Distribución de Tipos de Robos')
plt.xlabel('Tipo de Robo')
plt.ylabel('Número de Robos')
for i, v in enumerate(counts.values):
    plt.text(i, v + 5, str(v), ha='center')
plt.show()

In [None]:
# visualizar los valores unicos de las columnas
print('Los valores únicos para la columna HORA son:', df['HORA'].unique())
print('----------------------------------------------------------------')
print('Los valores únicos para la columna MINUTO son:', df['MINUTO'].unique())
print('----------------------------------------------------------------')
print('Los valores únicos para la columna TIPO son:', df['TIPO'].unique())
print('----------------------------------------------------------------')
print('Los valores únicos para la columna VIOLENCIA son:', df['VIOLENCIA'].unique())
print('----------------------------------------------------------------')
print('Los valores únicos para la columna DISTRITO son:', df['DISTRITO'].unique())
print('----------------------------------------------------------------')
print('Los valores únicos para la columna CUADRANTE son:', df['CUADRANTE'].unique())

In [None]:
# ver si hay duplicados en las columna de FOLIO
print('La cantidad de datos duplicados en la columna FOLIO es:', df['FOLIO'].duplicated().sum())
print('----------------------------------------------------------------')
print('La cantidad de datos duplicados en la columna LATITUD es:', df['LATITUD'].duplicated().sum())
print('----------------------------------------------------------------')
print('La cantidad de datos duplicados en la columna LONGITUD es:', df['LONGITUD'].duplicated().sum())


In [None]:
# visualizar el datos en FOLIO que mas se repite
df['FOLIO'].value_counts().head(10).plot(kind='bar', title='FOLIOS que más se repiten')
plt.xlabel('FOLIO')
plt.ylabel('Número de repeticiones')
plt.show()

In [None]:
# realizar un hiograma de la columna TIPO, en la y poner la variable de VIOLENCIA
df.hist(column='TIPO', by='VIOLENCIA', bins=30, figsize=(10, 5))
plt.suptitle('Histograma de TIPO por VIOLENCIA')
plt.xlabel('TIPO')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# ver que tipo de dato es FECHA
print('El tipo de dato de la columna FECHA es:', df['FECHA'].dtype)

In [None]:
# visualizar si hay datos nulos en la columna FECHA
df.FECHA.value_counts()

In [None]:
# convertir la columna FECHA a tipo datetime, forzando errores a NaT
df['FECHA'] = pd.to_datetime(df['FECHA'], errors='coerce')
df['FECHA'].dtype

In [None]:
df.isnull().sum()

In [None]:
# mostrar renglones donde FECHA es nulo
df[df['FECHA'].isnull()]

In [None]:
# crear la columna mes y año a partir de la columna FECHA
df['MES'] = df['FECHA'].dt.month
df['AÑO'] = df['FECHA'].dt.year
df.head()

In [None]:
# crear columna trimestre, semestre y estación del año a partir de la columna FECHA
df['TRIMESTRE'] = df['FECHA'].dt.quarter
df['SEMESTRE'] = df['FECHA'].dt.month.apply(lambda x: 1 if x <= 6 else 2)
df['ESTACION'] = df['FECHA'].dt.month.apply(lambda x: 'Invierno' if x in [12, 1, 2] else ('Primavera' if x in [3, 4, 5] else ('Verano' if x in [6, 7, 8] else 'Otoño')))
df.head()

In [None]:
# agregar variable de dia de la semana, donde 0 es lunes y 6 es domingo
df['DIA'] = df['FECHA'].dt.dayofweek
df.head()

In [None]:
# crear columna franja horaria
def franja_horaria(hora):
    if 0 <= hora < 6:
        return 'Madrugada'
    elif 6 <= hora < 12:
        return 'Mañana'
    elif 12 <= hora < 18:
        return 'Tarde'
    elif 18 <= hora < 24:
        return 'Noche'
    else:
        return 'Desconocido'

df['FRANJA HORARIA'] = df['HORA'].apply(franja_horaria)
df.head()

In [None]:
# visualizar renglones donde franja horaria es desconocido
df[df['FRANJA HORARIA'] == 'Desconocido']

In [None]:
# crear columna de VIOLENCIA_BIN donde si es con violencia es 1 y sin violencia es 0
df['VIOLENCIA_BIN'] = df['VIOLENCIA'].apply(lambda x: 1 if x == 'SI' else 0)
df.head()

In [None]:
# crear columna ROBO A NEGOCIO donde si el TIPO es 'ROBO A NEGOCIO' es 1 y si no es 0
df['ROBO A NEGOCIO'] = df['TIPO'].apply(lambda x: 1 if x == 'ROBO A NEGOCIO' else 0)
df.head()

In [None]:
# crear columna ROBO A CASA HABITACION donde si el TIPO es 'ROBO A CASA HABITACION' es 1 y si no es 0
df['ROBO A CASA HABITACION'] = df['TIPO'].apply(lambda x: 1 if x == 'ROBO A CASA HABITACION' else 0)
df.head()

In [None]:
# crear columna ROBO DE VEHICULO donde si el TIPO es 'ROBO DE VEHICULO' es 1 y si no es 0
df['ROBO DE VEHICULO'] = df['TIPO'].apply(lambda x: 1 if x == 'ROBO DE VEHICULO' else 0)
df.head()

In [None]:
# revisar cantidad de robos por franja horaria y tipo de robo
df.groupby(['FRANJA HORARIA', 'TIPO']).size().unstack().plot(kind='bar', stacked=True, figsize=(10, 6))
plt.title('Cantidad de Robos por Franja Horaria y Tipo de Robo')
plt.xlabel('Franja Horaria')
plt.ylabel('Número de Robos')
plt.legend(title='Tipo de Robo', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

In [None]:
#revisar cantidad de robos por estacion y tipo de robo
df.groupby(['ESTACION', 'TIPO']).size().unstack().plot(kind='bar', stacked=True, figsize=(10, 6))
plt.title('Cantidad de Robos por Estación y Tipo de Robo')
plt.xlabel('Estación')
plt.ylabel('Número de Robos')
plt.legend(title='Tipo de Robo', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

In [None]:
# revisar cantidad de robos por mes y tipo de robo, con violencia y sin violencia
df.groupby(['MES', 'TIPO', 'VIOLENCIA']).size().unstack().plot(kind='bar', stacked=True, figsize=(12, 6))
plt.title('Cantidad de Robos por Mes, Tipo de Robo y Violencia')
plt.xlabel('Mes')
plt.ylabel('Número de Robos')
plt.legend(title='Tipo de Robo y Violencia', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

In [None]:
# mostrar renglones donde fecha es nulo
df[df['FECHA'].isnull()]