# **ETL de la tabla homicidios-victimas**  
Importamos las librerias necesarias:

In [26]:
import pandas as pd

Traemos el dataset en su estado original:

In [27]:
df_victimas = pd.read_csv("./datasets_originales/homicidios-victimas.csv", encoding="utf-8")

# Creamos una copia para trabajar comodamente:
df_victimas_copy = df_victimas.copy()
df_victimas_copy.head(3)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,1/1/2016,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,1/1/2016
1,2016-0002,1/2/2016,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,1/2/2016
2,2016-0003,1/3/2016,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,1/3/2016


Buscamos información del dataset:

In [28]:
df_victimas_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   ID_hecho             717 non-null    object
 1   FECHA                717 non-null    object
 2   AAAA                 717 non-null    int64 
 3   MM                   717 non-null    int64 
 4   DD                   717 non-null    int64 
 5   ROL                  717 non-null    object
 6   VICTIMA              717 non-null    object
 7   SEXO                 717 non-null    object
 8   EDAD                 717 non-null    object
 9   FECHA_FALLECIMIENTO  717 non-null    object
dtypes: int64(3), object(7)
memory usage: 56.1+ KB


In [29]:
df_victimas_copy.isna().sum()

ID_hecho               0
FECHA                  0
AAAA                   0
MM                     0
DD                     0
ROL                    0
VICTIMA                0
SEXO                   0
EDAD                   0
FECHA_FALLECIMIENTO    0
dtype: int64

**Observamos que no tenemos ningún nulo en este dataset**

### **Transformación**  
Empezaremos por cambiar el tipo de dato de la columna 'FECHA' para su correcta manipulación.

In [30]:
df_victimas_copy['FECHA'] = pd.to_datetime(df_victimas_copy['FECHA'], format='%m/%d/%Y', errors='coerce')

# La columna 'FECHA' estaba en el formato mes, día, año. Ahora la cambiamos a día, mes y año:
df_victimas_copy['FECHA'] = df_victimas_copy['FECHA'].dt.strftime('%d/%m/%Y')

Eliminamos la columna 'FECHA_FALLECIMIENTO' ya que no sirve para ningún análisis:

In [31]:
df_victimas_copy.drop("FECHA_FALLECIMIENTO", axis=1, inplace=True)

In [32]:
df_victimas_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   ID_hecho  717 non-null    object
 1   FECHA     717 non-null    object
 2   AAAA      717 non-null    int64 
 3   MM        717 non-null    int64 
 4   DD        717 non-null    int64 
 5   ROL       717 non-null    object
 6   VICTIMA   717 non-null    object
 7   SEXO      717 non-null    object
 8   EDAD      717 non-null    object
dtypes: int64(3), object(6)
memory usage: 50.5+ KB


**Normalizamos el nombre de la columna 'ID_hecho' a solo 'ID'**

In [33]:
df_victimas_copy.rename(columns={
    "ID_hecho": "ID"
    }, inplace=True)

# Vemos el resultado
df_victimas_copy.head(2)

Unnamed: 0,ID,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD
0,2016-0001,01/01/2016,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19
1,2016-0002,02/01/2016,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70


### **Carga**  
Cargamos el dataframe en un nuevo archivo CSV en la carpeta "datasets_tranformados".

In [34]:
df_victimas_copy.to_csv("./datasets_transformados/victimas.csv", index=False, encoding="utf-8")