# Ingesta de datos

En esta sección hago la ingesta de los dataframe pasados por la cohorte y luego le aplico limpieza de datos como: 
1. Carga de mis dataframe.
2. Verificación de existencia de nulos y su tratamiento (borrar nulos).
3. Verificación de existencia de duplicados (borrar duplicados).
4. Análisis estadísticos de los dataframes (df.describe).
5. Elección de columnas de cada dataframe.
6. Tipos de datos de los dataframe (df_info()).
7. Convertir a tipo de datos necesarios para mi análisis.
8. Guardar dataframe para el análisis exploratorio de datos.

La cohorte nos brindó 2 dataframe (homicidios.xlsx y lesiones.xlsx) y cada uno de estos tenían 2 pestañas llamadas hechos y víctimas, por lo que creé 4 archivos llamados
- homicidios.hechos.xlsx
- homicidios.victimas.xlsx
- lesiones.hechos.xlsx
- lesiones .victimas.xlsx


## Importo mis librerías

In [1]:
import pandas as pd


#### 1. Carga de mi dataframe homicidios.hechos.

In [2]:
dfhomicidiosHechos= pd.read_excel("Datasets/homicidios.hechos.xlsx")
dfhomicidiosHechos.head(2)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS


#### 2. Verificación de existencia de nulos y su tratamiento (borrar nulos).
- No hay nulos con excepción en las columnas "Altura", "Cruce", "Calle" y "Dirección Normalizada".
- Borro los nulos de "Dirección Normalizada" y "Calle" ya que estas columnas las usaré, luego las otras dos columnas las borraré. Habían  nulos en la columna "Dirección Normalizada" y "Calle" que representan el (9/696)*100=1.15% de los homicidios.

In [3]:
dfhomicidiosHechos.isnull().sum()

ID                         0
N_VICTIMAS                 0
FECHA                      0
AAAA                       0
MM                         0
DD                         0
HORA                       0
HH                         0
LUGAR_DEL_HECHO            0
TIPO_DE_CALLE              0
Calle                      1
Altura                   567
Cruce                    171
Dirección Normalizada      8
COMUNA                     0
XY (CABA)                  0
pos x                      0
pos y                      0
PARTICIPANTES              0
VICTIMA                    0
ACUSADO                    0
dtype: int64

Eliminación de nulos

In [4]:
dfhomicidiosHechos=dfhomicidiosHechos.dropna(subset=["Dirección Normalizada","Calle"])

In [5]:
dfhomicidiosHechos.isnull().sum()

ID                         0
N_VICTIMAS                 0
FECHA                      0
AAAA                       0
MM                         0
DD                         0
HORA                       0
HH                         0
LUGAR_DEL_HECHO            0
TIPO_DE_CALLE              0
Calle                      0
Altura                   559
Cruce                    163
Dirección Normalizada      0
COMUNA                     0
XY (CABA)                  0
pos x                      0
pos y                      0
PARTICIPANTES              0
VICTIMA                    0
ACUSADO                    0
dtype: int64

#### 3. Verificación de existencia de duplicados (borrar duplicados).

In [6]:
dfhomicidiosHechos = dfhomicidiosHechos.drop_duplicates()

#### 4. Análisis estadísticos del dataframe (df.describe).
- Vemos como el número de victimas promedio por accidente es 1,03 o sea que en la mayoría de los accidentes solo muere una persona.
- Vemos que el máximo número de victimas es 3, o sea que nunca han muerto 4 personas o mas en un accidente.
- Las demás columnas no lanzan resultados relevantes.

In [7]:
dfhomicidiosHechos.describe()

Unnamed: 0,N_VICTIMAS,FECHA,AAAA,MM,DD,Altura,COMUNA
count,688.0,688,688.0,688.0,688.0,129.0,688.0
mean,1.02907,2018-09-16 22:34:11.162790656,2018.194767,6.703488,15.931686,3336.635659,7.417151
min,1.0,2016-01-01 00:00:00,2016.0,1.0,1.0,30.0,0.0
25%,1.0,2017-04-03 00:00:00,2017.0,4.0,9.0,1359.0,4.0
50%,1.0,2018-07-15 12:00:00,2018.0,7.0,16.0,2551.0,8.0
75%,1.0,2020-01-04 06:00:00,2020.0,10.0,23.0,4500.0,11.0
max,3.0,2021-12-30 00:00:00,2021.0,12.0,31.0,16080.0,15.0
std,0.17657,,1.681261,3.577691,8.62917,3060.641793,4.3796


#### 5. Elección de columnas del dataframe.
- Descartamos a las columnas "Altura" y "Cruce".
- Podemos notar que la columna "Altura" y "Cruce" tienen nulos (estas están relacionadas a las ubicaciones), pero estos se deben a los datos que no fueron informados, pero pueden ser reemplazados por otras columnas que tambien nos brindan la ubicación, por lo que no las incluiré.

In [8]:
dfhomicidiosHechos =dfhomicidiosHechos.drop(columns=["Altura", "Cruce"])
dfhomicidiosHechos.head(2)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV.","PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS


#### 6. Tipos de datos del dataframe (df_info()).

In [9]:
dfhomicidiosHechos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 688 entries, 0 to 695
Data columns (total 19 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     688 non-null    object        
 1   N_VICTIMAS             688 non-null    int64         
 2   FECHA                  688 non-null    datetime64[ns]
 3   AAAA                   688 non-null    int64         
 4   MM                     688 non-null    int64         
 5   DD                     688 non-null    int64         
 6   HORA                   688 non-null    object        
 7   HH                     688 non-null    object        
 8   LUGAR_DEL_HECHO        688 non-null    object        
 9   TIPO_DE_CALLE          688 non-null    object        
 10  Calle                  688 non-null    object        
 11  Dirección Normalizada  688 non-null    object        
 12  COMUNA                 688 non-null    int64         
 13  XY (CABA) 

#### 7. Convertir a tipo de datos necesarios para mi análisis.
- No es necesario.

#### 8. Guardar dataframe para el análisis exploratorio de datos.

In [10]:
dfhomicidiosHechos.to_csv('DatasetsEDA/dfhomicidiosHechos.csv', index=False)
dfhomicidiosHechos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 688 entries, 0 to 695
Data columns (total 19 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     688 non-null    object        
 1   N_VICTIMAS             688 non-null    int64         
 2   FECHA                  688 non-null    datetime64[ns]
 3   AAAA                   688 non-null    int64         
 4   MM                     688 non-null    int64         
 5   DD                     688 non-null    int64         
 6   HORA                   688 non-null    object        
 7   HH                     688 non-null    object        
 8   LUGAR_DEL_HECHO        688 non-null    object        
 9   TIPO_DE_CALLE          688 non-null    object        
 10  Calle                  688 non-null    object        
 11  Dirección Normalizada  688 non-null    object        
 12  COMUNA                 688 non-null    int64         
 13  XY (CABA) 

In [11]:
dfhomicidiosHechos.to_excel('DatasetsEDA/dfhomicidiosHechos.xlsx', index=False)
dfhomicidiosHechos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 688 entries, 0 to 695
Data columns (total 19 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     688 non-null    object        
 1   N_VICTIMAS             688 non-null    int64         
 2   FECHA                  688 non-null    datetime64[ns]
 3   AAAA                   688 non-null    int64         
 4   MM                     688 non-null    int64         
 5   DD                     688 non-null    int64         
 6   HORA                   688 non-null    object        
 7   HH                     688 non-null    object        
 8   LUGAR_DEL_HECHO        688 non-null    object        
 9   TIPO_DE_CALLE          688 non-null    object        
 10  Calle                  688 non-null    object        
 11  Dirección Normalizada  688 non-null    object        
 12  COMUNA                 688 non-null    int64         
 13  XY (CABA) 

#### 1. Carga de mi dataframe homicidios.victimas.

In [12]:
dfhomicidiosVictimas= pd.read_excel("Datasets/homicidios.victimas.xlsx")
dfhomicidiosVictimas.head(2)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00


#### 2. Verificación de existencia de nulos y su tratamiento (borrar nulos).
- No hay columnas con nulos.

In [13]:
dfhomicidiosVictimas.isnull().sum()

ID_hecho               0
FECHA                  0
AAAA                   0
MM                     0
DD                     0
ROL                    0
VICTIMA                0
SEXO                   0
EDAD                   0
FECHA_FALLECIMIENTO    0
dtype: int64

#### 3. Verificación de existencia de duplicados (borrar duplicados).

In [14]:
dfhomicidiosVictimas = dfhomicidiosVictimas.drop_duplicates()

#### 4. Análisis estadísticos del dataframe (df.describe).
- Vemos que el minimo valor del año AAAA es 2016 y el máximo es 2021, siendo su promedio el 2018.2 al inicio del año. Lo que quiere decir que la primera mitad de los homicidios de las victimas se produjo en los 2 primeros años del periodo total de 6 años. Por lo que se puede decir que luego del 2018 se produjo un descenso de los accidentes.

In [15]:
dfhomicidiosVictimas.describe()

Unnamed: 0,FECHA,AAAA,MM,DD
count,717,717.0,717.0,717.0
mean,2018-09-09 01:36:24.100418304,2018.174338,6.688982,15.960948
min,2016-01-01 00:00:00,2016.0,1.0,1.0
25%,2017-04-01 00:00:00,2017.0,4.0,9.0
50%,2018-07-07 00:00:00,2018.0,7.0,16.0
75%,2019-12-18 00:00:00,2019.0,10.0,23.0
max,2021-12-30 00:00:00,2021.0,12.0,31.0
std,,1.672655,3.57514,8.683358


#### 5. Elección de columnas del dataframe.
- Todas las columnas son necesarias, así que no borraré ninguna.


#### 6. Tipos de datos del dataframe (df_info()).

In [16]:
dfhomicidiosVictimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


#### 7. Convertir a tipo de datos necesarios para mi análisis.
 -Pasar "FECHA_FALLECIMIENTO" a formato datetime64[ns]: las filas faltantes serán completadas con el promedio de las fechas de mi dataset.
 -Reemplazo las filas de "EDAD" que contienen SD por la edad promedio de la columna y redondeo las edades para dejarlas en nnúmeros enteros.

- Cambiar formato Fecha

In [17]:
# Convertir fechas y asignar NaT a entradas no válidas
dfhomicidiosVictimas['FECHA_FALLECIMIENTO'] = pd.to_datetime(dfhomicidiosVictimas['FECHA_FALLECIMIENTO'], errors='coerce')

# Calcular la fecha promedio (excluyendo NaT)
fecha_promedio = dfhomicidiosVictimas['FECHA_FALLECIMIENTO'].mean()

# Llenar las entradas NaT con la fecha promedio
dfhomicidiosVictimas['FECHA_FALLECIMIENTO'] = dfhomicidiosVictimas['FECHA_FALLECIMIENTO'].fillna(fecha_promedio)

- Cambios a la columna "EDAD"

In [18]:
# Supongamos que 'SD' en la columna 'EDAD' se debe tratar como NaN
dfhomicidiosVictimas['EDAD'] = pd.to_numeric(dfhomicidiosVictimas['EDAD'], errors='coerce')

# Calcular la edad promedio (excluyendo NaN)
edad_promedio = dfhomicidiosVictimas['EDAD'].mean()

# Reemplazar los valores 'SD' por la edad promedio y redondear al entero más cercano
dfhomicidiosVictimas['EDAD'] = dfhomicidiosVictimas['EDAD'].replace('SD', edad_promedio).round()

# Reemplazar NaN con el valor medio redondeado y convertir a enteros
dfhomicidiosVictimas['EDAD'] = dfhomicidiosVictimas['EDAD'].fillna(edad_promedio).astype(int)



dfhomicidiosVictimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    int32         
 9   FECHA_FALLECIMIENTO  717 non-null    datetime64[ns]
dtypes: datetime64[ns](2), int32(1), int64(3), object(4)
memory usage: 53.3+ KB


- Crear una columna que sea los dias que fallecieron las victimas luego del accidente.

In [19]:
# Convertir las columnas 'FECHA' y 'FECHA_FALLECIMIENTO' al tipo de dato datetime64[ns]
dfhomicidiosVictimas['FECHA'] = pd.to_datetime(dfhomicidiosVictimas['FECHA'], errors='coerce')
dfhomicidiosVictimas['FECHA_FALLECIMIENTO'] = pd.to_datetime(dfhomicidiosVictimas['FECHA_FALLECIMIENTO'], errors='coerce')

# Crear la nueva columna con la diferencia en días
dfhomicidiosVictimas['Dias_hasta_fallecimiento'] = (dfhomicidiosVictimas['FECHA_FALLECIMIENTO'] - dfhomicidiosVictimas['FECHA']).dt.days

# Reemplazar NaT en 'Dias_hasta_fallecimiento' por 0
dfhomicidiosVictimas['Dias_hasta_fallecimiento'] = dfhomicidiosVictimas['Dias_hasta_fallecimiento'].fillna(0)

dfhomicidiosVictimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 11 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   ID_hecho                  717 non-null    object        
 1   FECHA                     717 non-null    datetime64[ns]
 2   AAAA                      717 non-null    int64         
 3   MM                        717 non-null    int64         
 4   DD                        717 non-null    int64         
 5   ROL                       717 non-null    object        
 6   VICTIMA                   717 non-null    object        
 7   SEXO                      717 non-null    object        
 8   EDAD                      717 non-null    int32         
 9   FECHA_FALLECIMIENTO       717 non-null    datetime64[ns]
 10  Dias_hasta_fallecimiento  717 non-null    int64         
dtypes: datetime64[ns](2), int32(1), int64(4), object(4)
memory usage: 58.9+ KB


#### 8. Guardar dataframe para el análisis exploratorio de datos.

In [23]:
dfhomicidiosVictimas.to_csv('DatasetsEDA/dfhomicidiosVictimas.csv', index=False)
dfhomicidiosVictimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 11 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   ID_hecho                  717 non-null    object        
 1   FECHA                     717 non-null    datetime64[ns]
 2   AAAA                      717 non-null    int64         
 3   MM                        717 non-null    int64         
 4   DD                        717 non-null    int64         
 5   ROL                       717 non-null    object        
 6   VICTIMA                   717 non-null    object        
 7   SEXO                      717 non-null    object        
 8   EDAD                      717 non-null    int32         
 9   FECHA_FALLECIMIENTO       717 non-null    datetime64[ns]
 10  Dias_hasta_fallecimiento  717 non-null    int64         
dtypes: datetime64[ns](2), int32(1), int64(4), object(4)
memory usage: 58.9+ KB


In [22]:
# Supongamos que tienes un DataFrame llamado dfhomicidiosVictimas
# y deseas ver los valores únicos y el número total de ocurrencias en la columna 'SEXO'
valores_unicos_sexo = dfhomicidiosVictimas['Dias_hasta_fallecimiento'].value_counts()

# Imprimir los valores únicos y el número total de ocurrencias
print(valores_unicos_sexo)

# También puedes obtener el número total de valores únicos
numero_total_valores_unicos = len(valores_unicos_sexo)
print("Número total de valores únicos:", numero_total_valores_unicos)

Dias_hasta_fallecimiento
0      498
1       54
2       17
4       13
3       13
      ... 
826      1
835      1
838      1
847      1
21       1
Name: count, Length: 89, dtype: int64
Número total de valores únicos: 89


#### 1. Carga de mi dataframe lesiones.hechos

In [44]:
dflesionesHechos= pd.read_excel("Datasets/lesiones.hechos.xlsx")
dflesionesHechos.head(2)

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
0,LC-2019-0000179,1,2019,1,1,2019-01-01 00:00:00,09:00:00,9,SD,14,...,-34.559658,CICLISTA,SD,CICLISTA-SD,SD,SD,SD,SD,x,SD
1,LC-2019-0000053,1,2019,1,1,2019-01-01 00:00:00,01:55:00,1,SD,8,...,-34.669125,AUTO,SD,AUTO-SD,SD,x,SD,SD,SD,SD


#### 2. Verificación de existencia de nulos y su tratamiento (borrar nulos).
- Borraremos las columnas "calle", "altura" y "cruce" ya que tienen muchos nulos y ya tenemos otras columnas que nos dan ubicaciones.
- Borramos los valores nulos de las columnas "franja_hora", "direccion_normalizada", "comuna", "geocodificacion_CABA", "longitud", "latutid", "moto", "auto", "transporte_publico", "camion" y "ciclista". 
- Al borrar los nulos pasamos de  23785 filas a 23518 filas lo que significan el 1.12% de nuestros datos, lo que no es una gran pérdida de datos y no afectará nuestro análisis.
- Cuenta (1-(23518/23785))*100=1.1225562329199024.

In [45]:
dflesionesHechos.isnull().sum()

id                           0
n_victimas                   0
aaaa                         0
mm                           0
dd                           0
fecha                        0
hora                         0
franja_hora                  5
direccion_normalizada       53
comuna                     169
tipo_calle                   0
otra_direccion               0
calle                    10918
altura                   11014
cruce                    14378
geocodificacion_CABA        39
longitud                   262
latutid                    262
victima                      0
acusado                      0
participantes                0
moto                        93
auto                        93
transporte_publico          93
camion                      93
ciclista                    93
gravedad                     0
dtype: int64

In [46]:
dflesionesHechos.shape

(23785, 27)

In [47]:
dflesionesHechos=dflesionesHechos.dropna(subset=["franja_hora","direccion_normalizada","comuna","geocodificacion_CABA","longitud","latutid","moto","auto","transporte_publico","camion","ciclista"])
dflesionesHechos.shape

(23518, 27)

In [48]:
dflesionesHechos.isnull().sum()

id                           0
n_victimas                   0
aaaa                         0
mm                           0
dd                           0
fecha                        0
hora                         0
franja_hora                  0
direccion_normalizada        0
comuna                       0
tipo_calle                   0
otra_direccion               0
calle                    10809
altura                   10785
cruce                    14231
geocodificacion_CABA         0
longitud                     0
latutid                      0
victima                      0
acusado                      0
participantes                0
moto                         0
auto                         0
transporte_publico           0
camion                       0
ciclista                     0
gravedad                     0
dtype: int64

#### 5. Elección de columnas del dataframe.
- Descartamos las columnas "calle", "altura" y "cruce" ya que tienen muchos nulos y ya tenemos otras columnas que nos dan ubicaciones.

In [51]:
dflesionesHechos =dflesionesHechos.drop(columns=["calle", "altura", "cruce"])
dflesionesHechos.head(2)

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
0,LC-2019-0000179,1,2019,1,1,2019-01-01 00:00:00,09:00:00,9,SD,14,...,-34.559658,CICLISTA,SD,CICLISTA-SD,SD,SD,SD,SD,x,SD
1,LC-2019-0000053,1,2019,1,1,2019-01-01 00:00:00,01:55:00,1,SD,8,...,-34.669125,AUTO,SD,AUTO-SD,SD,x,SD,SD,SD,SD


#### 6. Tipos de datos del dataframe (df_info()).

In [52]:
dflesionesHechos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 23518 entries, 0 to 23784
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   id                     23518 non-null  object
 1   n_victimas             23518 non-null  int64 
 2   aaaa                   23518 non-null  int64 
 3   mm                     23518 non-null  int64 
 4   dd                     23518 non-null  int64 
 5   fecha                  23518 non-null  object
 6   hora                   23518 non-null  object
 7   franja_hora            23518 non-null  object
 8   direccion_normalizada  23518 non-null  object
 9   comuna                 23518 non-null  object
 10  tipo_calle             23518 non-null  object
 11  otra_direccion         23518 non-null  object
 12  geocodificacion_CABA   23518 non-null  object
 13  longitud               23518 non-null  object
 14  latutid                23518 non-null  object
 15  victima                2

#### 7. Convertir a tipo de datos necesarios para mi análisis.

#### 8. Guardar dataframe para el análisis exploratorio de datos.

df_developer.to_csv('Datasets_endpoints/dfdeveloper.csv', index=False)

df_developer.info()

#### 1. Carga de mi dataframe lesiones.victimas

In [53]:
dflesionesVictimas= pd.read_excel("Datasets/lesiones.victimas.xlsx")
dflesionesVictimas.head(2)

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,SD,SD


#### 2. Verificación de existencia de nulos y su tratamiento (borrar nulos).
- No hay nulos en las columnas.

In [54]:
dflesionesVictimas.isnull().sum()

ID hecho            0
AAA                 0
MM                  0
DD                  0
FECHA               0
VEHICULO_VICTIMA    0
SEXO                0
EDAD_VICTIMA        0
GRAVEDAD            0
dtype: int64

#### 3. Verificación de existencia de duplicados (borrar duplicados).

In [55]:
dflesionesVictimas = dflesionesVictimas.drop_duplicates()

#### 4. Análisis estadísticos del dataframe (df.describe).
- No arroja ninguna conclusión relevante.

In [56]:
dflesionesVictimas.describe()

Unnamed: 0,AAA,MM,DD,FECHA
count,26983.0,26983.0,26983.0,26983
mean,2019.909202,6.653967,15.60905,2020-06-02 04:20:54.656636160
min,2019.0,1.0,1.0,2019-01-01 00:00:00
25%,2019.0,3.0,8.0,2019-07-20 00:00:00
50%,2020.0,7.0,16.0,2020-04-12 00:00:00
75%,2021.0,10.0,23.0,2021-04-09 00:00:00
max,2021.0,12.0,31.0,2021-12-31 00:00:00
std,0.86051,3.479059,8.688378,


#### 5. Elección de columnas del dataframe.
-Se eligen todas la columnas, ninguna se descarta.

#### 6. Tipos de datos del dataframe (df_info()).

In [57]:
dflesionesVictimas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 26983 entries, 0 to 27604
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   ID hecho          26983 non-null  object        
 1   AAA               26983 non-null  int64         
 2   MM                26983 non-null  int64         
 3   DD                26983 non-null  int64         
 4   FECHA             26983 non-null  datetime64[ns]
 5   VEHICULO_VICTIMA  26983 non-null  object        
 6   SEXO              26983 non-null  object        
 7   EDAD_VICTIMA      26983 non-null  object        
 8   GRAVEDAD          26983 non-null  object        
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 2.1+ MB


#### 7. Convertir a tipo de datos necesarios para mi análisis.

#### 8. Guardar dataframe para el análisis exploratorio de datos.

df_developer.to_csv('Datasets_endpoints/dfdeveloper.csv', index=False)

df_developer.info()