# Configuración y análisis inicial

In [1]:
##Importar las librerías requeridas para el análisis
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

%matplotlib inline

In [2]:
##Definir tamaño máximo de filas a mostrar
pd.set_option('display.max_rows', 100)

In [3]:
##Importar el dataset del CSV
df = pd.read_csv('../data/accidentes.csv')

In [4]:
##Visualizar los primeros datos
df.head()

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARÍO,DESCRIPCIÓN CONDUCTA,CANTIDAD
0,ANTIOQUIA,LA CEJA,5376000,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
1,ATLÁNTICO,BARRANQUILLA (CT),8001000,MOTO,1/01/2010,FEMENINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
2,ATLÁNTICO,LURUACO,8421000,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
3,CAQUETÁ,PUERTO RICO,18592000,MOTO,1/01/2010,MASCULINO,ADOLESCENTES,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
4,CASANARE,AGUAZUL,85010000,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1


In [5]:
## Ver el tamaño del dataset
df.shape

(59810, 9)

In [6]:
## Ver los tipos de datos de las columnas
df.dtypes

DEPARTAMENTO            object
MUNICIPIO               object
CODIGO DANE              int64
ARMAS MEDIOS            object
FECHA HECHO             object
GENERO                  object
GRUPO ETARÍO            object
DESCRIPCIÓN CONDUCTA    object
CANTIDAD                 int64
dtype: object

In [7]:
## Calcular la longitud máxima de cada campo
measurer = np.vectorize(len)
res1 = measurer(df.values.astype(str)).max(axis=0)
res1

array([18, 27,  8, 19, 10, 12, 12, 63,  2])

In [8]:
df.describe()

Unnamed: 0,CODIGO DANE,CANTIDAD
count,59810.0,59810.0
mean,38472460.0,1.098111
std,27404030.0,0.371723
min,5001000.0,1.0
25%,13001000.0,1.0
50%,25754000.0,1.0
75%,68081000.0,1.0
max,99773000.0,10.0


In [9]:
# Buscar valores nulos por cada campo
df.isnull().sum()

DEPARTAMENTO            0
MUNICIPIO               0
CODIGO DANE             0
ARMAS MEDIOS            0
FECHA HECHO             0
GENERO                  0
GRUPO ETARÍO            0
DESCRIPCIÓN CONDUCTA    0
CANTIDAD                0
dtype: int64

In [10]:
## Encontrar valores duplicados
df[df.duplicated(keep=False)]

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARÍO,DESCRIPCIÓN CONDUCTA,CANTIDAD
40885,CAUCA,ROSAS,19622000,NO REPORTADO,18/12/2018,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
40893,CAUCA,ROSAS,19622000,NO REPORTADO,18/12/2018,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
41740,META,VILLAVICENCIO (CT),50001000,NO REPORTADO,10/02/2019,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
41754,META,VILLAVICENCIO (CT),50001000,NO REPORTADO,10/02/2019,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
42792,ANTIOQUIA,TURBO,5837000,NO REPORTADO,28/04/2019,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
42807,ANTIOQUIA,TURBO,5837000,NO REPORTADO,28/04/2019,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
45895,BOLÍVAR,CARTAGENA (CT),13001000,NO REPORTADO,15/11/2019,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
45903,BOLÍVAR,CARTAGENA (CT),13001000,NO REPORTADO,15/11/2019,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
48606,CAUCA,POPAYÁN (CT),19001000,NO REPORTADO,19/06/2020,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1
48614,CAUCA,POPAYÁN (CT),19001000,NO REPORTADO,19/06/2020,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1


In [11]:
## Eliminar filas duplicadas
df=df.drop_duplicates()

In [12]:
## Ver el tamaño del dataset
df.shape

(59805, 9)

# Análisis por campos

## Departamento

In [13]:
#Guardar los departamentos sin repeticiones y visualizar para validar errores de escritura
departamentos=df['DEPARTAMENTO'].unique()
departamentos

array(['ANTIOQUIA', 'ATLÁNTICO', 'CAQUETÁ', 'CASANARE', 'CESAR',
       'GUAJIRA', 'HUILA', 'NARIÑO', 'RISARALDA', 'SANTANDER', 'CÓRDOBA',
       'CUNDINAMARCA', 'TOLIMA', 'VALLE', 'MAGDALENA', 'BOYACÁ', 'CAUCA',
       'NORTE DE SANTANDER', 'SUCRE', 'META', 'QUINDÍO', 'BOLÍVAR',
       'CALDAS', 'ARAUCA', 'PUTUMAYO', 'SAN ANDRÉS', 'GUAVIARE',
       'AMAZONAS', 'VICHADA', 'CHOCÓ', 'GUAINÍA', 'VAUPÉS'], dtype=object)

In [14]:
#Validar que la cantidad de departamentos sea correcta con la realidad - OK
len(departamentos)

32

## Municipio

In [15]:
#Guardar los municipios sin repeticiones y visualizar para validar errores de escritura
municipios=df['MUNICIPIO'].unique()
municipios.sort()
municipios

array(['ABEJORRAL', 'ABREGO', 'ABRIAQUÍ', 'ACACÍAS', 'ACANDÍ', 'ACEVEDO',
       'ACHÍ', 'AGRADO', 'AGUA DE DIOS', 'AGUACHICA', 'AGUADAS',
       'AGUAZUL', 'AGUSTÍN CODAZZI', 'AIPE', 'ALBANIA', 'ALBÁN', 'ALCALÁ',
       'ALDANA', 'ALEJANDRÍA', 'ALGARROBO', 'ALGECIRAS', 'ALMAGUER',
       'ALMEIDA', 'ALPUJARRA', 'ALTAMIRA', 'ALTO BAUDÓ',
       'ALTOS DEL ROSARIO', 'ALVARADO', 'AMAGÁ', 'AMALFI', 'AMBALEMA',
       'ANAPOIMA', 'ANCUYÁ', 'ANDALUCÍA', 'ANDES', 'ANGELÓPOLIS',
       'ANGOSTURA', 'ANOLAIMA', 'ANORÍ', 'ANSERMA', 'ANSERMANUEVO',
       'ANZA', 'ANZOÁTEGUI', 'APARTADÓ', 'APULO', 'APÍA', 'AQUITANIA',
       'ARACATACA', 'ARANZAZU', 'ARATOCA', 'ARAUCA (CT)', 'ARAUQUITA',
       'ARBELÁEZ', 'ARBOLEDA', 'ARBOLEDAS', 'ARBOLETES', 'ARCABUCO',
       'ARENAL', 'ARGELIA', 'ARIGUANÍ', 'ARJONA', 'ARMENIA (CT)',
       'ARMERO', 'ARROYOHONDO', 'ASTREA', 'ATACO', 'ATRATO', 'AYAPEL',
       'BAGADÓ', 'BAJO BAUDÓ', 'BALBOA', 'BARANOA', 'BARAYA', 'BARBACOAS',
       'BARBOSA', 'BARICHARA', '

## Código DANE

In [16]:
#Guardar los municipios sin repeticiones y visualizar para validar consistencia de datos
codigo_dane=df['CODIGO DANE'].unique()
codigo_dane

array([ 5376000,  8001000,  8421000, ..., 68682000, 27025000, 25368000],
      dtype=int64)

In [17]:
## Crear función para reemplazar los ceros al final
def replace_zeros(codigo):
    codigo=str(codigo)
    codigo=codigo[:-3]
    return codigo
## Aplicar la función para eliminar los ceros y reemplzar el valor en el campo    
df['CODIGO DANE']=df['CODIGO DANE'].apply(replace_zeros)

codigo_dane=df['CODIGO DANE'].unique()
codigo_dane
    

array(['5376', '8001', '8421', ..., '68682', '27025', '25368'],
      dtype=object)

## Género

In [18]:
#Guardar los generos sin repeticiones y visualizar para validar consistencia de datos
genero=df['GENERO'].unique()
genero

array(['MASCULINO', 'FEMENINO', 'NO REPORTA', 'NO REPORTADO'],
      dtype=object)

In [19]:
## Reemplazar el valor escrito de diferente manera para unificar
df['GENERO']=df['GENERO'].replace({'NO REPORTADO': 'NO REPORTA'})
genero=df['GENERO'].unique()
genero

array(['MASCULINO', 'FEMENINO', 'NO REPORTA'], dtype=object)

## Grupo etario

In [20]:
#Guardar los grupos etaríos sin repeticiones y visualizar para validar consistencia de datos
grupo_etario=df['GRUPO ETARÍO'].unique()
grupo_etario

array(['ADULTOS', 'ADOLESCENTES', 'MENORES', 'NO REPORTADO'], dtype=object)

## Armas / Medios

In [21]:
#Guardar los grupos etaríos sin repeticiones y visualizar para validar consistencia de datos
armas_medios=df['ARMAS MEDIOS'].unique()
armas_medios

array(['MOTO', 'VEHICULO', 'NO REPORTADO', 'BICICLETA',
       'SIN EMPLEO DE ARMAS', 'TREN', 'CONTUNDENTES'], dtype=object)

## Fecha

In [22]:
## Obtener las fechas y tratar de convertir para detectar errores de fecha
fecha=df['FECHA HECHO']
pd.to_datetime(fecha,format='%d/%m/%Y')

0       2010-01-01
1       2010-01-01
2       2010-01-01
3       2010-01-01
4       2010-01-01
           ...    
59805   2022-04-16
59806   2022-02-20
59807   2022-02-20
59808   2022-04-16
59809   2022-04-16
Name: FECHA HECHO, Length: 59805, dtype: datetime64[ns]

## Descripción

In [23]:
df['DESCRIPCIÓN CONDUCTA'].unique()

array(['ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE DE TRÁNSITO)',
       'ARTÍCULO 110. HOMICIDIO CULPOSO ( CIRCUNSTANCIAS DE AGRAVACIÓN)'],
      dtype=object)

# Guardar archivo nuevo

In [25]:
df.to_csv('../data/accidentesV2.csv', index=False)