# Limpieza de datos

La mayoría de la gente piensa que ser científico de datos significa estar corriendo modelos avanzados de Machine Learning todo el tiempo. La realidad es muy distinta:

![Tiempo de un científico de datos](https://github.com/EnigmaticIndividual1/limpieza_datos_y_eda/blob/3142d26b8fc90d1d6c14ed94d0d9c0f00ce6f648/img/datascientist_time.jpeg?raw=1)

La gran mayoría del tiempo se va **limpiando y organizando** los datos con los que queremos trabajar.

Los científicos de datos utilizamos herramientas como Pandas, Numpy, Matplotlib y Seaborn para limpiar los datos con los que queremos hacer algo.

## ETL

Un tipo de tarea que realizamos con gran frecuencia los científicos de datos son los **ETL**.

![Proceso de ETL](https://github.com/EnigmaticIndividual1/limpieza_datos_y_eda/blob/3142d26b8fc90d1d6c14ed94d0d9c0f00ce6f648/img/etl.png?raw=1)

ETL es un acrónimo que significa Extract, Transform, Load. Es un proceso que se utiliza para extraer datos de una fuente, transformarlos en un formato que sea adecuado para el análisis y cargarlos en una base de datos o algún otro sistema de almacenamiento.

## Ejemplo práctico

Los datos que usaremos para esta limpieza y nuestro siguiente análisis son datos de incidencia delictiva en nuestro país.

La iniciativa de datos abiertos del gobierno de México nos proporciona datos de incidencia delictiva desde 2015 hasta la fecha. Los datos se actualizan todos los meses y se pueden descargar desde el siguiente enlace: https://www.gob.mx/sesnsp/acciones-y-programas/datos-abiertos-de-incidencia-delictiva

---

Como podemos ver en el portal, se proporcionan los datos tanto a nivel estatal como a nivel municipal. En este caso, utilizaremos los datos a nivel estatal.

Descarguemos los datos y guardemos el archivo CSV en la carpeta data con el nombre `datos_delitos.csv`.

---

Ahora leamos el archivo CSV y veamos cómo se ven los datos.

Primero que nada, importemos pandas

In [19]:
!git clone https://github.com/EnigmaticIndividual1/limpieza_datos_y_eda.git

Cloning into 'limpieza_datos_y_eda'...
remote: Enumerating objects: 15, done.[K
remote: Counting objects: 100% (5/5), done.[K
remote: Compressing objects: 100% (5/5), done.[K
remote: Total 15 (delta 1), reused 0 (delta 0), pack-reused 10 (from 1)[K
Receiving objects: 100% (15/15), 748.71 KiB | 10.85 MiB/s, done.
Resolving deltas: 100% (1/1), done.


In [20]:
%cd limpieza_datos_y_eda

/content/limpieza_datos_y_eda


In [21]:
!ls

1_limpieza_de_datos.ipynb  3_ejercicios_pandas_delitos.ipynb  img
2_eda_imdb.ipynb	   data				      requirements.txt


In [22]:
import pandas as pd

In [23]:
df = pd.read_csv(
    'data/datos_delitos.csv',
    encoding='ISO-8859-1'
)

Aquí tenemos un error muy común que suele ocurrir cuando un archivo se guarda en una computadora con cierto "encoding".

Un encoding es una tabla que relaciona un número con un carácter. Por ejemplo, en la tabla ASCII, el número 65 corresponde a la letra "A".

Si el archivo que estamos leyendo fue guardado con un encoding distinto al que pandas espera, nos arrojará un error.

Para solucionar esto, podemos utilizar el parámetro `encoding` de la función `pd.read_csv()` y especificar el encoding correcto.

¿Pero cómo sabemos con qué encoding cuenta el archivo?

La realidad es que la gran mayoría de los archivos los encontrarán en encoding utf-8 y Pandas no va a dar ningún error. Aquí estamos teniendo este problema porque la computadora que utilizan para generar este archivo uso un encoding diferente a utf-8.

En México, por lo general, si un archivo no está en utf-8, lo más seguro es que esté en `ISO-8859-1` o `latin1`.

Intentemos cargar el archivo especificando el encoding `ISO-8859-1`.

In [24]:
df = pd.read_csv('data/datos_delitos.csv', encoding='ISO-8859-1')
df.head()

Unnamed: 0,Año,Clave_Ent,Entidad,Bien jurídico afectado,Tipo de delito,Subtipo de delito,Modalidad,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma de fuego,3,0,2,1,1,1,2.0,1.0,2.0,2.0,2.0,1.0
1,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma blanca,1,1,0,0,0,1,0.0,1.0,0.0,0.0,0.0,1.0
2,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con otro elemento,0,0,2,2,3,2,0.0,1.0,2.0,0.0,0.0,0.0
3,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,No especificado,2,0,0,1,0,0,0.0,0.0,0.0,0.0,0.0,0.0
4,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio culposo,Con arma de fuego,0,0,0,0,1,0,0.0,0.0,0.0,0.0,0.0,0.0


Y vemos que ya podemos leer correctamente el archivo.


¿Existe alguna forma de verificar el encoding de un archivo sin tener que estar adivinando?

ChatGTP generó el siguiente código:

In [25]:
import chardet

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        rawdata = f.read()
    result = chardet.detect(rawdata)
    return result

file_path = './data/datos_delitos.csv'
encoding_info = detect_encoding(file_path)
print(f"Detected encoding: {encoding_info['encoding']}")

Detected encoding: ISO-8859-1


Sigamos...

In [26]:
df.tail(3)

Unnamed: 0,Año,Clave_Ent,Entidad,Bien jurídico afectado,Tipo de delito,Subtipo de delito,Modalidad,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
31357,2024,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Delitos cometidos por servidores públicos,Delitos cometidos por servidores públicos,Delitos cometidos por servidores públicos,20,22,34,35,34,37,,,,,,
31358,2024,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Electorales,Electorales,Electorales,0,1,0,11,31,23,,,,,,
31359,2024,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Otros delitos del Fuero Común,Otros delitos del Fuero Común,Otros delitos del Fuero Común,151,183,174,199,208,177,,,,,,


In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31360 entries, 0 to 31359
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Año                     31360 non-null  int64  
 1   Clave_Ent               31360 non-null  int64  
 2   Entidad                 31360 non-null  object 
 3   Bien jurídico afectado  31360 non-null  object 
 4   Tipo de delito          31360 non-null  object 
 5   Subtipo de delito       31360 non-null  object 
 6   Modalidad               31360 non-null  object 
 7   Enero                   31360 non-null  int64  
 8   Febrero                 31360 non-null  int64  
 9   Marzo                   31360 non-null  int64  
 10  Abril                   31360 non-null  int64  
 11  Mayo                    31360 non-null  int64  
 12  Junio                   31360 non-null  int64  
 13  Julio                   28224 non-null  float64
 14  Agosto                  28224 non-null

Bien. Están muy bien los datos. Sin embargo, tenemos un problema con el que es muy común encontrarnos.

Resulta que el formato en el que está el archivo es fácil entender por seres humanos:


```markdown
| Año      | Entidad  | Enero    | Febrero  | Mes X    |
|----------|----------|----------|----------|----------|
|   ...    |   ...    |   ...    |   ...    |   ...    |
|   ...    |   ...    |   ...    |   ...    |   ...    |
|   ...    |   ...    |   ...    |   ...    |   ...    |
|   ...    |   ...    |   ...    |   ...    |   ...    |
|   ...    |   ...    |   ...    |   ...    |   ...    |
```

Vemos que tenemos los meses como encabezados. Es decir, el archivo está tratando cada mes como si fuera una variable.

Nosotros como científicos de datos estamos más interesados en conjuntos de datos que no estén en este formato de "resumen" o "tabla dinámica". Para nosotros, lo ideal sería que cada mes fuera simplemente una observación más en nuestro conjunto de datos. Es decir, queremos transformar la tabla de arriba en:

```markdown
| Año      | Entidad  | Mes        |
|----------|----------|------------|
|   ...    |   ...    |   Enero    |
|   ...    |   ...    |   Febrero  |
|   ...    |   ...    |   Marzo    |
|   ...    |   ...    |   Abril    |
|   ...    |   ...    |   Mes X    |
```

A este tipo de formato le llamos "formato largo de datos".

Haremos las siguientes limpiezas:
* Transformar los nombres de las columnas para que no tengan caracteres especiales y estén siempre en minúsculas
* Convertir el dataset a un formato de datos "largo"

In [30]:
def limpiar_columnas(df):
    columnas_limpias = []
    for col in df.columns:
        col = (
            col.lower()
               .replace(" ", "_")
               .replace("ñ", "ni")
               .replace(".", "")
               .replace("á", "a")
               .replace("é", "e")
               .replace("í", "i")
               .replace("ó", "o")
               .replace("ú", "u")
        )
        columnas_limpias.append(col)

    df.columns = columnas_limpias
    return df

In [31]:
len(df.columns)

19

### Limpiar nombres de columnas

In [33]:
def limpiar_columnas(df):
    columnas_limpias = []
    for col in df.columns:
        # convertir a minusculas, reemplazar espacios por guiones bajos y eliminar caracteres especiales
        col = col.lower().replace(" ", "_").replace("ñ", "ni").replace(".", "").replace("á", "a").replace("é", "e").replace("í","i").replace("ó", "o").replace("ú", "u")
        columnas_limpias.append(col)

    df.columns = columnas_limpias

    return df


In [34]:
df.head(2)

Unnamed: 0,Año,Clave_Ent,Entidad,Bien jurídico afectado,Tipo de delito,Subtipo de delito,Modalidad,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma de fuego,3,0,2,1,1,1,2.0,1.0,2.0,2.0,2.0,1.0
1,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma blanca,1,1,0,0,0,1,0.0,1.0,0.0,0.0,0.0,1.0


In [35]:
df = limpiar_columnas(df)

In [36]:
df.head(3)

Unnamed: 0,anio,clave_ent,entidad,bien_juridico_afectado,tipo_de_delito,subtipo_de_delito,modalidad,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre
0,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma de fuego,3,0,2,1,1,1,2.0,1.0,2.0,2.0,2.0,1.0
1,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma blanca,1,1,0,0,0,1,0.0,1.0,0.0,0.0,0.0,1.0
2,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con otro elemento,0,0,2,2,3,2,0.0,1.0,2.0,0.0,0.0,0.0


Muy bien. Ahora lo que queremos hacer es quitar algunas columnas. Nos interesan nada más las siguientes:

In [37]:
df[['anio', 'entidad']]

Unnamed: 0,anio,entidad
0,2015,Aguascalientes
1,2015,Aguascalientes
2,2015,Aguascalientes
3,2015,Aguascalientes
4,2015,Aguascalientes
...,...,...
31355,2024,Zacatecas
31356,2024,Zacatecas
31357,2024,Zacatecas
31358,2024,Zacatecas


In [38]:
df = df[['anio', 'clave_ent', 'entidad', 'tipo_de_delito', 'subtipo_de_delito', 'modalidad','enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio', 'julio', 'agosto', 'septiembre', 'octubre', 'noviembre', 'diciembre']]
df.head(2)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,subtipo_de_delito,modalidad,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre
0,2015,1,Aguascalientes,Homicidio,Homicidio doloso,Con arma de fuego,3,0,2,1,1,1,2.0,1.0,2.0,2.0,2.0,1.0
1,2015,1,Aguascalientes,Homicidio,Homicidio doloso,Con arma blanca,1,1,0,0,0,1,0.0,1.0,0.0,0.0,0.0,1.0


### Formato largo de datos

Ahora, usaremos el método `melt` para convertir las columnas a observaciones.

Queremos convervar las coumnas:
* anio
* clave_ent
* entidad
* tipo_de_delito
* subtipo_de_delito
* modalidad

El resto de las columnas las vamos a juntar en una nueva columna llamada "nombre_mes" y sus valores los vamos a sumar en otra llamada "frecuencia"

In [40]:
datos_long = df.melt(
    id_vars=[
        'anio',
        'clave_ent',
        'entidad',
        'tipo_de_delito',
        'subtipo_de_delito',
        'modalidad'
    ],
    var_name='nombre_mes',
    value_name='frecuencia'
)

In [41]:
datos_long = df.melt(id_vars=['anio', 'clave_ent', 'entidad','tipo_de_delito', 'subtipo_de_delito', 'modalidad'], var_name='nombre_mes', value_name='frecuencia')

In [45]:
print("Shape antes:", df.shape)
print("Shape después:", datos_long.shape)

datos_long.head()
datos_long.info()

Shape antes: (31360, 18)
Shape después: (376320, 8)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 376320 entries, 0 to 376319
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   anio               376320 non-null  int64  
 1   clave_ent          376320 non-null  int64  
 2   entidad            376320 non-null  object 
 3   tipo_de_delito     376320 non-null  object 
 4   subtipo_de_delito  376320 non-null  object 
 5   modalidad          376320 non-null  object 
 6   nombre_mes         376320 non-null  object 
 7   frecuencia         357504 non-null  float64
dtypes: float64(1), int64(2), object(5)
memory usage: 23.0+ MB


In [46]:
datos_long.head(5)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,subtipo_de_delito,modalidad,nombre_mes,frecuencia
0,2015,1,Aguascalientes,Homicidio,Homicidio doloso,Con arma de fuego,enero,3.0
1,2015,1,Aguascalientes,Homicidio,Homicidio doloso,Con arma blanca,enero,1.0
2,2015,1,Aguascalientes,Homicidio,Homicidio doloso,Con otro elemento,enero,0.0
3,2015,1,Aguascalientes,Homicidio,Homicidio doloso,No especificado,enero,2.0
4,2015,1,Aguascalientes,Homicidio,Homicidio culposo,Con arma de fuego,enero,0.0


In [47]:
datos_long.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 376320 entries, 0 to 376319
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   anio               376320 non-null  int64  
 1   clave_ent          376320 non-null  int64  
 2   entidad            376320 non-null  object 
 3   tipo_de_delito     376320 non-null  object 
 4   subtipo_de_delito  376320 non-null  object 
 5   modalidad          376320 non-null  object 
 6   nombre_mes         376320 non-null  object 
 7   frecuencia         357504 non-null  float64
dtypes: float64(1), int64(2), object(5)
memory usage: 23.0+ MB


Supongamos que para este análisis, no nos importan los niveles subtipo de delito y modalidad. O sea, no queremos tener la distinción entre homicidios dolosos y culposos (sé que son bastante diferentes, pero simplifiquemos nuestro ejemplo).

Vamos a agrupar nuestro dataframe por anio, clave_ent, entidad, tipo_de_delito y nombre_mes. Esto hará que todos los tipos de homicidios se sumen al tipo "homicidio" o todos los tipos de robo de vehículo (con o sin violencia) se sumen a "robo de vehículo".

In [48]:
datos_long = (
    datos_long
    .groupby(
        ['anio', 'clave_ent', 'entidad', 'tipo_de_delito', 'nombre_mes']
    )['frecuencia']
    .sum()
    .reset_index()
)

In [49]:
datos_long[datos_long.tipo_de_delito == 'Robo'].sample(15)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia
123265,2023,1,Aguascalientes,Robo,agosto,997.0
871,2015,2,Baja California,Robo,marzo,4007.0
119432,2022,25,Sinaloa,Robo,mayo,754.0
101193,2021,19,Nuevo León,Robo,noviembre,1586.0
113665,2022,13,Hidalgo,Robo,agosto,1200.0
65186,2019,8,Chihuahua,Robo,diciembre,1212.0
125668,2023,6,Colima,Robo,febrero,466.0
48384,2018,5,Coahuila de Zaragoza,Robo,abril,725.0
28226,2016,27,Tabasco,Robo,diciembre,1979.0
18632,2016,7,Chiapas,Robo,mayo,736.0


Mostremos todos los estados y su respectiva clave

In [50]:
datos_long[['clave_ent', 'entidad']].drop_duplicates().sort_values('entidad')

Unnamed: 0,clave_ent,entidad
0,1,Aguascalientes
480,2,Baja California
960,3,Baja California Sur
1440,4,Campeche
2880,7,Chiapas
3360,8,Chihuahua
3840,9,Ciudad de México
1920,5,Coahuila de Zaragoza
2400,6,Colima
4320,10,Durango


Ahora Veamos todos los datos de delitos de una entidad en específico. Por ejemplo, Nuevo león

In [51]:
datos_long[datos_long['clave_ent'] == 19].sample(15)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia
54900,2018,19,Nuevo León,Falsificación,abril,42.0
24435,2016,19,Nuevo León,Violación equiparada,enero,13.0
39618,2017,19,Nuevo León,Incumplimiento de obligaciones de asistencia f...,junio,59.0
146965,2024,19,Nuevo León,Corrupción de menores,agosto,0.0
54860,2018,19,Nuevo León,Electorales,mayo,15.0
131702,2023,19,Nuevo León,Falsificación,diciembre,73.0
116447,2022,19,Nuevo León,Narcomenudeo,septiembre,447.0
70292,2019,19,Nuevo León,Fraude,mayo,242.0
39447,2017,19,Nuevo León,Corrupción de menores,enero,14.0
9064,2015,19,Nuevo León,Tráfico de menores,febrero,0.0


In [52]:
datos_long[(datos_long['clave_ent'] > 19) &  (datos_long['clave_ent'] < 24) & (datos_long['tipo_de_delito'] == 'Homicidio')].sample(15)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia
148065,2024,21,Puebla,Homicidio,noviembre,0.0
101502,2021,20,Oaxaca,Homicidio,junio,130.0
70782,2019,20,Oaxaca,Homicidio,junio,146.0
9347,2015,20,Oaxaca,Homicidio,septiembre,0.0
55904,2018,21,Puebla,Homicidio,mayo,179.0
24705,2016,20,Oaxaca,Homicidio,noviembre,182.0
70778,2019,20,Oaxaca,Homicidio,diciembre,181.0
132699,2023,21,Puebla,Homicidio,enero,108.0
101983,2021,21,Puebla,Homicidio,marzo,109.0
9344,2015,20,Oaxaca,Homicidio,mayo,129.0


### Valores de fechas

Finalmente, queremos tener una columna "fecha". Actualmente tenemos el año y el nombre del mes, pero no tenemos como tal una columna que tenga un tipo de dato fecha. Eso hace que filtrar por fecha sea complicado.

Por ejemplo, si queremos conocer todos los homicidios de Oaxaca en enero 2024, haríamos lo siguiente:

In [53]:
datos_long[
    (datos_long['clave_ent'] == 20) &
    (datos_long['tipo_de_delito'] == 'Homicidio') &
    (datos_long['anio'] == 2024) &
    (datos_long['nombre_mes'] == 'enero')
]

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia
147579,2024,20,Oaxaca,Homicidio,enero,157.0


Creemos una columna de fecha.

Primero tenemos que convertir el nombre de mes a un número, en donde 1 es enero, 2 febrero, etc.

In [54]:
datos_long.sample(2)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia
70213,2019,19,Nuevo León,Electorales,agosto,1.0
40793,2017,21,Puebla,Violencia familiar,julio,520.0


In [55]:
datos_long["nueva_columna"] = "dato vacío"
datos_long.sample(6)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia,nueva_columna
127564,2023,10,Durango,Otros delitos que atentan contra la vida y la ...,febrero,0.0,dato vacío
118294,2022,23,Quintana Roo,Fraude,octubre,22.0,dato vacío
70996,2019,20,Oaxaca,Violación equiparada,febrero,11.0,dato vacío
118114,2022,23,Quintana Roo,Abuso sexual,octubre,120.0,dato vacío
100288,2021,17,Morelos,Violación simple,febrero,38.0,dato vacío
101805,2021,21,Puebla,Acoso sexual,noviembre,23.0,dato vacío


In [56]:
# Diccionario de ayuda para convertir
meses = {
    "enero": 1,
    "febrero": 2,
    "marzo": 3,
    "abril": 4,
    "mayo": 5,
    "junio": 6,
    "julio": 7,
    "agosto": 8,
    "septiembre": 9,
    "octubre": 10,
    "noviembre": 11,
    "diciembre": 12
}

datos_long['mes'] = datos_long['nombre_mes'].map(meses)
datos_long.sample(5)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia,nueva_columna,mes
76678,2019,32,Zacatecas,Otros delitos que atentan contra la libertad y...,octubre,1.0,dato vacío,10
82334,2020,12,Guerrero,Incumplimiento de obligaciones de asistencia f...,diciembre,30.0,dato vacío,12
91489,2020,31,Yucatán,Otros delitos contra el patrimonio,agosto,9.0,dato vacío,8
18708,2016,7,Chiapas,Violencia familiar,abril,164.0,dato vacío,4
7160,2015,15,México,Violación equiparada,mayo,57.0,dato vacío,5


In [57]:
datos_long["frecuencia_mas_10"] = datos_long["frecuencia"] + 10
datos_long.sample(5)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia,nueva_columna,mes,frecuencia_mas_10
104424,2021,26,Sonora,Lesiones,abril,320.0,dato vacío,4,330.0
127830,2023,11,Guanajuato,Evasión de presos,junio,0.0,dato vacío,6,10.0
9684,2015,21,Puebla,Corrupción de menores,abril,2.0,dato vacío,4,12.0
45386,2017,31,Yucatán,Lesiones,diciembre,43.0,dato vacío,12,53.0
133461,2023,23,Quintana Roo,Abuso de confianza,noviembre,348.0,dato vacío,11,358.0


In [58]:
datos_long["anio_mes"] = datos_long["anio"].astype(str) + datos_long["mes"].astype(str)
datos_long.sample(6)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia,nueva_columna,mes,frecuencia_mas_10,anio_mes
65649,2019,9,Ciudad de México,Otros delitos que atentan contra la vida y la ...,noviembre,14.0,dato vacío,11,24.0,201911
73081,2019,25,Sinaloa,Despojo,agosto,28.0,dato vacío,8,38.0,20198
88381,2020,25,Sinaloa,Amenazas,agosto,111.0,dato vacío,8,121.0,20208
106370,2021,30,Veracruz de Ignacio de la Llave,Otros delitos contra el patrimonio,diciembre,66.0,dato vacío,12,76.0,202112
132252,2023,20,Oaxaca,Incumplimiento de obligaciones de asistencia f...,abril,15.0,dato vacío,4,25.0,20234
33721,2017,7,Chiapas,Despojo,agosto,32.0,dato vacío,8,42.0,20178


In [59]:
# yyyy-mm-dd, yy-mm-dd, yymmdd, yyyy/dd/mm

In [60]:
# Agregamos la columna de fecha juntando el año y el mes
datos_long['fecha'] = pd.to_datetime(datos_long['anio'].astype(str) + datos_long['mes'].astype(str), format='%Y%m')
datos_long.sample(5)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia,nueva_columna,mes,frecuencia_mas_10,anio_mes,fecha
12512,2015,27,Tabasco,Abuso sexual,mayo,7.0,dato vacío,5,17.0,20155,2015-05-01
72888,2019,24,San Luis Potosí,Trata de personas,abril,1.0,dato vacío,4,11.0,20194,2019-04-01
74971,2019,29,Tlaxcala,Corrupción de menores,marzo,0.0,dato vacío,3,10.0,20193,2019-03-01
756,2015,2,Baja California,Narcomenudeo,abril,0.0,dato vacío,4,10.0,20154,2015-04-01
5291,2015,12,Guerrero,Aborto,septiembre,0.0,dato vacío,9,10.0,20159,2015-09-01


In [61]:
# Eliminamos las columnas que ya no necesitamos
datos_long = datos_long.drop(columns=['nueva_columna'])
datos_long.sample(5)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia,mes,frecuencia_mas_10,anio_mes,fecha
23640,2016,18,Nayarit,Despojo,abril,11.0,4,21.0,20164,2016-04-01
124623,2023,4,Campeche,Otros delitos contra la familia,enero,1.0,1,11.0,20231,2023-01-01
9375,2015,20,Oaxaca,Incumplimiento de obligaciones de asistencia f...,enero,0.0,1,10.0,20151,2015-01-01
36549,2017,13,Hidalgo,Amenazas,noviembre,310.0,11,320.0,201711,2017-11-01
18882,2016,8,Chihuahua,Extorsión,junio,2.0,6,12.0,20166,2016-06-01


Veamos los homicidios en oaxaca de enero 2024 a la fecha

In [62]:
datos_long[
    (datos_long.tipo_de_delito == "Homicidio") &
    (datos_long.clave_ent == 20) &
    (datos_long.fecha >= '2024-01-01')
].sort_values('fecha')

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,frecuencia,mes,frecuencia_mas_10,anio_mes,fecha
147579,2024,20,Oaxaca,Homicidio,enero,157.0,1,167.0,20241,2024-01-01
147580,2024,20,Oaxaca,Homicidio,febrero,170.0,2,180.0,20242,2024-02-01
147583,2024,20,Oaxaca,Homicidio,marzo,190.0,3,200.0,20243,2024-03-01
147576,2024,20,Oaxaca,Homicidio,abril,208.0,4,218.0,20244,2024-04-01
147584,2024,20,Oaxaca,Homicidio,mayo,236.0,5,246.0,20245,2024-05-01
147582,2024,20,Oaxaca,Homicidio,junio,202.0,6,212.0,20246,2024-06-01
147581,2024,20,Oaxaca,Homicidio,julio,0.0,7,10.0,20247,2024-07-01
147577,2024,20,Oaxaca,Homicidio,agosto,0.0,8,10.0,20248,2024-08-01
147587,2024,20,Oaxaca,Homicidio,septiembre,0.0,9,10.0,20249,2024-09-01
147586,2024,20,Oaxaca,Homicidio,octubre,0.0,10,10.0,202410,2024-10-01


In [63]:
datos_finales = datos_long[['anio', 'clave_ent', 'entidad', 'tipo_de_delito', 'nombre_mes', 'fecha', 'frecuencia']]
datos_finales.head(2)

Unnamed: 0,anio,clave_ent,entidad,tipo_de_delito,nombre_mes,fecha,frecuencia
0,2015,1,Aguascalientes,Aborto,abril,2015-04-01,0.0
1,2015,1,Aguascalientes,Aborto,agosto,2015-08-01,0.0



Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.



Ya que tenemos muestros datos bien estructurados, los podemos guardar en nuestra computadora. Los guardaremos con el nombre "delitos.csv"

In [64]:
datos_finales.to_csv('data/delitos.csv', index=False)

In [65]:
!ls /content

limpieza_datos_y_eda  sample_data
