# Accidentes de Tráficos en Madrid (Jerárquico)


## Descripción del DataSet


Objetivo: Realiza un análisis descriptivo del dataset. Analiza la distribución de los datos por cada una de las columnas, realiza los pasos de pre-procesamiento necesarios, justificando adecuadamente las acciones tomadas. Se deberá hacer uso de gráficas para entender los datos y las decisiones adoptadas.


In [1]:
# Importación de librerías necesarias

# Librería para manipulación y análisis de datos estructurados
import pandas as pd

# Librería para operaciones matemáticas y manipulación de arreglos numéricos.
import numpy as np

# Librería basada en matplotlib para realizar gráficos estadísticos con una interfaz más amigable.
import seaborn as sns

# Módulo de matplotlib utilizado específicamente para crear gráficos 2D.
import matplotlib.pyplot as plt

In [2]:
# Carga del conjunto de datos desde un archivo CSV
# delimiter=';': Indica que los campos en el archivo CSV están separados por punto y coma (;)
df = pd.read_csv('./data/2024_Accidentalidad.csv', delimiter=';')

### Entendimiento del DataSet


Para empezar vamos a visualizar rapidamente que forma tiene el dataset, columnas, tipos de las columnas, nulos, etc


In [None]:
# Visualizamos las 10 primeras lineas para verificar que se ha cargado todo el dataset
df.head(10)

In [None]:
df.info()

In [None]:
df.isnull().sum()

In [None]:
df.describe()

In [None]:
plt.figure(dpi=200)
sns.pairplot(df)

In [None]:
len(df['num_expediente'].unique())

### Análisis de las Columnas del Dataset de Accidentes de Tráfico en Madrid



Anexo: [Estructura Del Conjunto de Datos EMT](https://datos.madrid.es/FWProjects/egob/Catalogo/Seguridad/Ficheros/Estructura_ConjuntoDatos_Accidentesv2.pdf)

---

#### 1. `num_expediente`

-   **Descripción**: Identificador único del expediente del accidente.
-   **Formato**: Texto con estructura `AAAASNNNNNN`, donde:
    -   `AAAA`: Año del accidente.
    -   `S`: Indica que se trata de un expediente de accidente.
-   **Notas**: Es único para cada accidente y se utiliza para diferenciar registros.
-   **Posible Forma de Actuar**: Esta columna la vamos a dividir en solo el numero del expediente,

---

#### 2. `fecha`

-   **Descripción**: Fecha en la que ocurrió el accidente.
-   **Formato**: `dd/mm/aaaa`.
-   **Notas**: Permite realizar análisis temporales, como la distribución de accidentes por días o meses.
-   **Posible Forma de Actuar**:

---

#### 3. `hora`

-   **Descripción**: Hora del accidente agrupada en rangos horarios de una hora.
-   **Formato**: Hora.
-   **Notas**: Útil para identificar franjas horarias con mayor incidencia de accidentes.
-   **Posible Forma de Actuar**:

---

#### 4. `localizacion`

-   **Descripción**: Ubicación específica del accidente, indicando calles implicadas.
-   **Formato**: Texto que describe cruces o calles (e.g., "Calle 1 - Calle 2").
-   **Notas**: Permite estudiar patrones geográficos de accidentes.
-   **Posible Forma de Actuar**:

---

#### 5. `numero`

-   **Descripción**: Número de la calle donde ocurrió el accidente (si aplica).
-   **Formato**: Número entero.
-   **Notas**: Detalla una ubicación más específica dentro de una calle.
-   **Posible Forma de Actuar**:

---

#### 6. `cod_distrito`

-   **Descripción**: Código numérico del distrito municipal donde ocurrió el accidente.
-   **Formato**: Número.
-   **Notas**: Útil para análisis por distritos, como mapas de calor.
-   **Posible Forma de Actuar**:

---

#### 7. `distrito`

-   **Descripción**: Nombre del distrito municipal asociado al accidente.
-   **Formato**: Texto.
-   **Notas**: Más descriptivo que `cod_distrito`, útil para presentar resultados.
-   **Posible Forma de Actuar**:

---

#### 8. `tipo_accidente`

-   **Descripción**: Categoría del accidente según su tipología.
-   **Formato**: Texto.
-   **Valores comunes**:
    -   _Colisión doble_: Dos vehículos en movimiento.
    -   _Colisión múltiple_: Más de dos vehículos en movimiento.
    -   _Atropello a persona_: Accidente con peatón.
    -   _Choque contra obstáculo_: Colisión con un objeto inmóvil.
    -   _Caída_: Relacionada con vehículos de dos ruedas o viajeros de transporte público.
    -   _Otras causas_: Incluye despeñamientos, salidas de vía, entre otros.
-   **Posible Forma de Actuar**:

---

#### 9. `estado_meteorologico`

-   **Descripción**: Condiciones climáticas al momento del accidente.
-   **Formato**: Texto.
-   **Notas**: Permite analizar la influencia del clima en la siniestralidad.
-   **Posible Forma de Actuar**:

---

#### 10. `tipo_vehiculo`

-   **Descripción**: Tipo de vehículo implicado en el accidente.
-   **Formato**: Texto.
-   **Notas**: Útil para identificar patrones asociados a diferentes tipos de vehículos (e.g., coches, motocicletas, bicicletas).
-   **Posible Forma de Actuar**:

---

#### 11. `tipo_persona`

-   **Descripción**: Rol de la persona implicada (e.g., conductor, peatón, pasajero).
-   **Formato**: Texto.
-   **Notas**: Importante para analizar la incidencia en distintos tipos de participantes.
-   **Posible Forma de Actuar**:

---

#### 12. `rango_edad`

-   **Descripción**: Rango de edad de la persona implicada.
-   **Formato**: Texto.
-   **Notas**: Permite identificar si ciertos grupos de edad están más involucrados en accidentes.
-   **Posible Forma de Actuar**:

---

#### 13. `sexo`

-   **Descripción**: Género de la persona implicada.
-   **Formato**: `hombre`, `mujer`, o `no asignado`.
-   **Notas**: Ayuda en análisis demográficos.
-   **Posible Forma de Actuar**:

---

#### 14. `cod_lesividad` y `lesividad`

-   **Descripción**:
    -   `cod_lesividad`: Código que indica la gravedad de las lesiones.
    -   `lesividad`: Descripción textual de la gravedad.
-   **Valores comunes**:
    -   _01_: Atención en urgencias sin ingreso.
    -   _02_: Ingreso ≤ 24 horas.
    -   _03_: Ingreso > 24 horas.
    -   _04_: Fallecido en 24 horas.
    -   _05_: Asistencia ambulatoria posterior.
    -   _07_: Asistencia en el lugar.
    -   _14_: Sin asistencia sanitaria.
    -   _77_: Desconocido.
-   **Notas**: Permite analizar la gravedad y su distribución.
-   **Posible Forma de Actuar**:

---

#### 15. `coordenada_x_utm` y `coordenada_y_utm`

-   **Descripción**: Coordenadas UTM (Universal Transverse Mercator) que indican la ubicación del accidente.
-   **Formato**: Números.
-   **Notas**: Necesario para visualizaciones geográficas.
-   **Posible Forma de Actuar**:

---

#### 16. `positiva_alcohol`

-   **Descripción**: Indica si la persona implicada dio positivo en alcohol.
-   **Formato**: `S` (Sí) o `N` (No).
-   **Notas**: Útil para estudios relacionados con el consumo de alcohol.
-   **Posible Forma de Actuar**:

---

#### 17. `positiva_droga`

-   **Descripción**: Indica si la persona implicada dio positivo en drogas.
-   **Formato**: `NULL` o `1`.
-   **Notas**: Similar a `positiva_alcohol`, permite explorar correlaciones entre consumo de drogas y accidentes.
-   **Posible Forma de Actuar**:

---

#### Conclusión

El dataset está diseñado para realizar análisis descriptivos, geográficos y estadísticos sobre accidentes de tráfico. Su estructura permite explorar relaciones entre factores como ubicación, clima, tipo de accidente y severidad de las lesiones.

---

### Pre-Procesamiento

#### Tipo de vehículo

In [None]:
len(df['tipo_vehiculo'].unique())


In [None]:
df['tipo_vehiculo'].unique()

In [None]:
df['tipo_vehiculo'].value_counts()

In [None]:
# Crear el diccionario automáticamente desde el DataFrame
conteo_vehiculos_dict = df['tipo_vehiculo'].value_counts().to_dict()

# Mostrar el diccionario
print(conteo_vehiculos_dict)


In [None]:
# Crear gráfico de barras
plt.figure(figsize=(12, 8))
plt.barh(list(conteo_vehiculos_dict.keys()), list(conteo_vehiculos_dict.values()), color='skyblue',)
plt.xlabel('Cantidad de Accidentes')
plt.ylabel('Tipo de Vehículo')
plt.title('Distribución de Accidentes por Tipo de Vehículo')
plt.tight_layout()
plt.grid(linestyle='--', alpha=0.7) 
# Mostrar gráfico
plt.show()


El mapeo agrupa vehículos similares por su función y uso, facilitando el análisis. Los turismos se clasifican junto a vehículos ligeros por ser los más comunes. Las motocicletas y ciclomotores comparten vulnerabilidad y características. Vehículos de carga, transporte público y especializados se diferencian por su propósito. Bicicletas y ciclos no motorizados forman un grupo por su enfoque recreativo o de movilidad urbana. Las categorías sin clasificar agrupan casos ambiguos o con poca representación.

In [14]:
map_vehiculos = {
    # Turismos y vehículos ligeros
    'Turismo': 'Turismos y vehículos ligeros',
    'Todo terreno': 'Turismos y vehículos ligeros',
    'Autocaravana': 'Turismos y vehículos ligeros',

    # Motocicletas y cliclomotores
    'Motocicleta hasta 125cc': 'Motocicletas y ciclomotores',
    'Motocicleta > 125cc': 'Motocicletas y ciclomotores',
    'Ciclomotor': 'Motocicletas y ciclomotores',
    'Bicicleta EPAC (pedaleo asistido)': 'Motocicletas y ciclomotores',
    'Ciclomotor de tres ruedas': 'Motocicletas y ciclomotores',
    'Moto de tres ruedas hasta 125cc': 'Motocicletas y ciclomotores',
    'Moto de tres ruedas > 125cc': 'Motocicletas y ciclomotores',
    'Ciclo de motor L1e-A': 'Motocicletas y ciclomotores',
    'Ciclomotor de dos ruedas L1e-B': 'Motocicletas y ciclomotores',

    # Vehículos de carga
    'Furgoneta': 'Vehículos de carga',
    'Camión rígido': 'Vehículos de carga',
    'Tractocamión': 'Vehículos de carga',
    'Vehículo articulado': 'Vehículos de carga',
    'Semiremolque': 'Vehículos de carga',
    'Remolque': 'Vehículos de carga',

    # Vehículos de transporte público
    'Autobús': 'Vehículos de transporte público',
    'Autobús articulado': 'Vehículos de transporte público',
    'Autobus EMT': 'Vehículos de transporte público',

    # Bicicletas y ciclos no motorizados
    'Bicicleta': 'Bicicletas y ciclos no motorizados',
    'Ciclo': 'Bicicletas y ciclos no motorizados',
    'Patinete no eléctrico': 'Bicicletas y ciclos no motorizados',

    # Vehículos eléctricos ligeros
    'VMU eléctrico': 'Vehículos eléctricos ligeros',

    # Vehículos especializados
    'Maquinaria de obras': 'Vehículos especializados',
    'Ambulancia SAMUR': 'Vehículos especializados',
    'Otros vehículos con motor': 'Vehículos especializados',
    'Otros vehículos sin motor': 'Vehículos especializados',

    # Sin clasificar/especificar
    'Sin especificar': 'Sin clasificar/especificar',
    'Cuadriciclo ligero': 'Sin clasificar/especificar',
    'Cuadriciclo no ligero': 'Sin clasificar/especificar'
}

In [15]:
df['tipo_vehiculo'] = df['tipo_vehiculo'].map(map_vehiculos)

#### Rango de Edades


In [None]:
# Crear el diccionario automáticamente desde el DataFrame
conteo_rango_edad = df['rango_edad'].value_counts().to_dict()

# Mostrar el diccionario
print(conteo_rango_edad)


In [None]:
df['rango_edad'].value_counts()

In [None]:
# Crear gráfico de barras
plt.figure(figsize=(12, 8))
plt.barh(list(conteo_rango_edad.keys()), list(conteo_rango_edad.values()), color='skyblue',)
plt.xlabel('Cantidad de Personas en dicho rango')
plt.ylabel('Rango de Edad')
plt.title('Cantidad de Personas en ese rango de edad involucrados en el accidente')
plt.tight_layout()
plt.grid(linestyle='--', alpha=0.7) 
# Mostrar gráfico
plt.show()

Para el mapeo nos hemos basado en agrupar los rangos de edad por etapas de desarrollo y patrones de actividad observados en la gráfica. <br>
Los valores de 0 y 10 años representan infancia y baja movilidad autónoma. <br>
Las edades de 10 y 17 años destacan por su movilidad dependiente. <br>
Los 18 y 29 años representan jóvenes adultos con alta actividad y exposición. <br>
A partir de los 40 años, las categorías reflejan etapas de estabilidad laboral y personal, agrupando hasta los 60. <br>
Finalmente, las edades mayores de 60 años se consideran en un solo grupo por su menor participación y exposición relativa, según se aprecia en la gráfica. <br>
Los valores desconocidos los hemos categorizado como negativos para darles un valor cercano pero irreal. <br>
Este mapeo nos simplifica los datos para evitar que el algoritmo de clustering se confunda con demasiados objetos categóricos dispersos.<br>

In [19]:
map_edad = {
    'Desconocido': -1,

    # De 0 a 9 años
    'Menor de 5 años': 0,
    'De 6 a 9 años': 0,

    # De 10 a 17 años
    'De 10 a 14 años': 10,
    'De 15 a 17 años': 10,

    # De 18 a 24 años
    'De 18 a 20 años': 18,
    'De 21 a 24 años': 18,

    # De 25 a 39 años
    'De 25 a 29 años': 25,
    'De 30 a 34 años': 25,
    'De 35 a 39 años': 25,

    # De 40 a 59 años
    'De 40 a 44 años': 40,
    'De 45 a 49 años': 40,
    'De 50 a 54 años': 40,
    'De 55 a 59 años': 40,

    # De 60 en adelante
    'De 60 a 64 años': 60,
    'De 65 a 69 años': 60,
    'De 70 a 74 años': 60,
    'Más de 74 años': 60
}

In [20]:
df['rango_edad'] = df['rango_edad'].map(map_edad)

In [None]:
# Gráfico de barras
plt.figure(figsize=(8, 5))
df['rango_edad'].value_counts().sort_index().plot(kind='bar', color='skyblue')
plt.xlabel('Rango de Edad')
plt.ylabel('Cantidad')
plt.title('Distribución por Rango de Edad')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()


In [None]:
df['rango_edad'].value_counts().sort_values(ascending=False)

Explicación: Para simplificar y transformar esta columna, debido a que estaba definida con rangos, hemos decidido solo poner los valores con los que empieza el rango


#### Estado meteorológico


In [None]:
df['estado_meteorológico'].isnull().sum()

In [None]:
plt.figure(figsize=(16,4),dpi=200)
sns.histplot(df['estado_meteorológico'],color='skyblue')
plt.xlabel('Estado Meteorologico')
plt.ylabel('Count')
nulos = df['estado_meteorológico'].isnull().sum()
if nulos > 0:
    plt.bar(['NaN'], [nulos], color='red', label='Valores Nulos')
plt.title('Estado Meteorológico involucrado en el accidente')
plt.tight_layout()
plt.grid(linestyle='--', alpha=0.7) 
# Mostrar gráfico
plt.show()

Aqui vemos como hay valores nulos, por lo que tenemos que completar. En esta caso vamos a actuar de la misma forma que en el rango de edad, poniendolo a -1, un valor cercano, pero ilogico.

In [None]:
df = df.fillna({
    'estado_meteorológico': 'Se desconoce'
})
print(df['estado_meteorológico'].unique())

In [None]:
plt.figure(figsize=(16,4),dpi=200)
sns.histplot(df['estado_meteorológico'],color='skyblue')
plt.xlabel('Estado Meteorologico')
plt.ylabel('Count')
plt.title('Estado Meteorológico involucrado en el accidente')
plt.tight_layout()
plt.grid(linestyle='--', alpha=0.7) 
# Mostrar gráfico
plt.show()

In [None]:
df['estado_meteorológico'].unique()

In [28]:
map_est_met = {
    'Se desconoce': -1,
    'Despejado': 0,
    'Nublado': 1,
    'Lluvia débil': 2,
    'LLuvia intensa': 3,
    'Granizando': 4,
    'Nevando': 5
}

df['estado_meteorológico'] = df['estado_meteorológico'].map(map_est_met)

In [None]:
plt.figure(figsize=(10,5),dpi=200)
sns.histplot(df['estado_meteorológico'],color='skyblue')
plt.xlabel('Estado Meteorologico')
plt.ylabel('Count')
plt.title('Estado Meteorológico involucrado en el accidente')
plt.tight_layout()
plt.grid(linestyle='--', alpha=0.7) 
# Mostrar gráfico
plt.show()

### Lesividad y Código De Lesividad


In [None]:
print(df['lesividad'].unique())

Aqui nos damos cuenta de que hay valores nulos, por lo que comprobamos la cantidad de los valores nulos, y si tienen algun tipo de significado

In [None]:
df['lesividad'].value_counts()

In [None]:
df['lesividad'].isnull().sum()

In [None]:
plt.figure(figsize=(16, 4), dpi=200)
sns.histplot(y=df['lesividad'], color='skyblue', binwidth=1)  # Usar `y` en lugar de `x` para horizontal
plt.ylabel('Lesividad')  # Etiqueta del eje vertical
plt.xlabel('Conteo')     # Etiqueta del eje horizontal
nulos = df['lesividad'].isnull().sum()
if nulos > 0:
    plt.barh(['NaN'], [nulos], color='red', label='Valores Nulos')  # Usar `barh` para barra horizontal
plt.title('Clases de lesividad involucrado en el accidente')
plt.tight_layout()
plt.grid(linestyle='--', alpha=0.7)
# Mostrar gráfico
plt.show()


Por el documento que se nos ha facilitado, hemos supuesto que cuando la lesividad es nula, es que no ha habido necesidad de intervenir, por lo que no se ha recogido ningun registro. Debido a la cantidad tan elevada de valores nulos, lo vamos a completar con el valor `Sin asistencia sanitaria` y con el codigo `0`. 

In [34]:
df = df.fillna({
    'lesividad': 'Sin asistencia sanitaria',
    'cod_lesividad': 0
})

map_lesividad = {
    'Sin asistencia sanitaria': 'NONE',
    'Atención en urgencias sin posterior ingreso': 'LEVE',
    'Ingreso inferior o igual a 24 horas': 'LEVE',
    'Asistencia sanitaria ambulatoria con posterioridad': 'LEVE',
    'Asistencia sanitaria inmediata en centro de salud o mutua': 'LEVE',
    'Asistencia sanitaria sólo en el lugar del accidente': 'LEVE',
    'Ingreso superior a 24 horas': 'GRAVE',
    'Fallecido 24 horas': 'FALLECIDO'
}

Ya que no vamos a poder utilizar valores como `FALLECIDO` para nuestros algoritmos de clustering, debido a que la mayoria necesitan ser valores numericos, lo que vamos a hacer es utilizar el codigo de lesividad, y vamos a crear un diccionario para dicho codigo de lesividad para que siempre que lo necesitemos para interpretar valores lo podamos utilizar.

In [35]:
diccionario_lesividad  = {
    "1": "Atención en urgencias sin ingreso",
    "2": "Ingreso ≤ 24 horas",
    "3": "Ingreso > 24 horas",
    "4": "Fallecido en 24 horas",
    "5": "Asistencia ambulatoria posterior",
    "7": "Asistencia en el lugar",
    "14": "Sin asistencia sanitaria",
    "77": "Desconocido",
    "0": "Sin asistencia sanitaria"  # Para casos vacíos
}

In [38]:
df['lesividad'] = df['lesividad'].map(map_lesividad)

Este mapeo lo hacemos para simplificar el entrenamiento, ya que no nos importa mucho si es la asistencia ha sido sanitaria en ambulancia inmediata o no, lo que nos importa es si ha sido leve, grave, NONE o si por el contrario a fallecido, ya que asi nos podemos hacer una idea de la gravedad del accidente

In [None]:
plt.figure(figsize=(16, 4), dpi=200)
sns.histplot(y=df['lesividad'], color='skyblue', binwidth=1)  # Usar `y` en lugar de `x` para horizontal
plt.ylabel('Lesividad')  # Etiqueta del eje vertical
plt.xlabel('Conteo')     # Etiqueta del eje horizontal
nulos = df['lesividad'].isnull().sum()
if nulos > 0:
    plt.barh(['NaN'], [nulos], color='red', label='Valores Nulos')  # Usar `barh` para barra horizontal
plt.title('Clases de lesividad involucrado en el accidente')
plt.tight_layout()
plt.grid(linestyle='--', alpha=0.7)
# Mostrar gráfico
plt.show()

In [None]:
df['lesividad'].value_counts()

In [62]:
# Función para codificar la columna 'lesividad'
def codificar_lesividad(valor):
    if valor == 'NONE':  # Sin asistencia sanitaria
        return 0
    elif valor == 'LEVE':  # Lesión leve
        return 1
    elif valor == 'GRAVE':  # Lesión grave
        return 2
    else:  # Otras categorías, como 'FALLECIDO'
        return 3



In [63]:
df['cod_lesividad'] = df['lesividad'].apply(codificar_lesividad)

In [None]:
df['cod_lesividad'].value_counts()

In [None]:
df['lesividad'].value_counts()

In [None]:
from mpl_toolkits.axes_grid1.inset_locator import inset_axes

# Configurar el tamaño de la figura
fig, ax_main = plt.subplots(figsize=(16, 6), dpi=200)

# Gráfica principal: Distribución de 'lesividad'
sns.countplot(data=df, x='lesividad', order=df['lesividad'].value_counts().index, ax=ax_main, palette='pastel', hue=None, legend=False)
ax_main.set_title('Distribución de Lesividad', fontsize=14)
ax_main.set_xlabel('Lesividad', fontsize=12)
ax_main.set_ylabel('Conteo', fontsize=12)
ax_main.grid(axis='y', linestyle='--', alpha=0.7)

# Crear subgráfica en la parte superior derecha
ax_inset = inset_axes(ax_main, width="30%", height="50%", loc='upper right')  # Tamaño y ubicación
sns.countplot(data=df, x='cod_lesividad', ax=ax_inset, palette='muted', hue=None, legend=False)
ax_inset.set_title('Códigos de Lesividad', fontsize=10)
ax_inset.set_xlabel('Código', fontsize=9)
ax_inset.set_ylabel('Conteo', fontsize=9)
ax_inset.grid(axis='y', linestyle='--', alpha=0.5)

# Ajustar diseño
plt.subplots_adjust(left=0.1, right=0.9, top=0.9, bottom=0.1)  # Ajuste manual
plt.show()

Ahora podemos decir que el codigo de lesividad tiene los valores correspondientes con sus respectivas categorias de lesividad

### Alcohol y drogas


In [None]:
# Contar valores 1 y nulos
valores_1 = (df['positiva_droga'] == 1).sum()
valores_nulos = df['positiva_droga'].isnull().sum()

# Datos para el gráfico
data = [valores_1, valores_nulos]
labels = ['Valores 1', 'Nulos']

# Crear el gráfico de rosco

plt.pie(data, labels=labels, autopct='%1.1f%%', startangle=90, colors=['skyblue', 'salmon'], wedgeprops={'width': 0.4})
plt.title('Proporción de Valores 1 y Nulos')
plt.show()


Como podemos ver en la grafica, en la columna de positiva en droga, la mayoria de los datos son nulos, pero si leemos el documento de la estructura de la base de datos nos damos cuentas que el nulo toma el valor de 0 (negativo) y que el 1 significa (positivo).

In [44]:
df = df.fillna({
    'positiva_droga': 0
})

In [None]:
# Contar valores 1 y nulos
valores_1 = (df['positiva_droga'] == 1).sum()
valores_0 = (df['positiva_droga'] == 0).sum()

# Datos para el gráfico
data = [valores_1, valores_0]
labels = ['Valores 1', 'valores 0']

# Crear el gráfico de rosco

plt.pie(data, labels=labels, autopct='%1.1f%%', startangle=90, colors=['skyblue', 'salmon'], wedgeprops={'width': 0.4})
plt.title('Proporción de Valores 1 y Valores 0')
plt.show()


Con esta grafica podemos ver como el fill de los valores nulos se ha realizado correctamente.

Ahora para la columna de positivos en alcohol vemos que toma valores de `N` para los negativos y `S` para los positivos (SI). Entonces, al igual que con la columna anterior vamos a hacer un mapeo, para que en los algoritmos de clustering podamos utilizar, en caso necesario, estas columnas.

In [None]:
df['positiva_alcohol'].value_counts()

In [None]:
# Contar valores 1 y nulos
valores_N = (df['positiva_alcohol'] == 'N').sum()
valores_S = (df['positiva_alcohol'] == 'S').sum()

# Datos para el gráfico
data = [valores_N, valores_S]
labels = ['Valores N', 'valores S']

# Crear el gráfico de rosco

plt.pie(data, labels=labels, autopct='%1.1f%%', startangle=90, colors=['skyblue', 'salmon'], wedgeprops={'width': 0.4})
plt.title('Proporción de Valores N y Valores S')
plt.show()


In [49]:
map_alcohol = {
    'N': 0,
    'S': 1
}

df['positiva_alcohol'] = df['positiva_alcohol'].map(map_alcohol)

In [None]:
df['positiva_alcohol'].value_counts()

In [None]:
# Contar valores 1 y nulos
valores_0 = (df['positiva_alcohol'] == 0).sum()
valores_1 = (df['positiva_alcohol'] == 1).sum()

# Datos para el gráfico
data = [valores_1, valores_0]
labels = ['Valores 1', 'valores 0']

# Crear el gráfico de rosco

plt.pie(data, labels=labels, autopct='%1.1f%%', startangle=90, colors=['skyblue', 'salmon'], wedgeprops={'width': 0.4})
plt.title('Proporción de Valores 0 y Valores 1')
plt.show()


In [None]:
print('valores de positivos en alcohol: \n {} \n valores de positivos en droga: \n {}'.format(
    df['positiva_alcohol'].value_counts(),df['positiva_droga'].value_counts()
    ))

In [None]:
df.head(10)

In [None]:
df.columns

### Numero del expediente

In [72]:
df['year'] = df['num_expediente'].astype(str).str[:4].astype(int)
df['id'] = df['num_expediente'].astype(str).str[-6:]

In [None]:
df['year'].value_counts()

### Tipo de persona

In [74]:
df = pd.get_dummies(df, columns=['tipo_persona'])

In [None]:
df.columns

### Tipos de accidente

In [77]:
map_tipo_accidente = {
    'Colisión fronto-lateral': 'Colision doble',
    'Alcance': 'Alcance',
    'Colisión lateral': 'Colision doble',
    'Choque contra obstáculo fijo':'Choque',
    'Atropello a persona': 'Atropello a persona',
    'Caída':'Caida',
    'Colisión múltiple':'Colision multiple',
    'Colisión frontal':'Colision doble',
    'Otro':'Otras Causas',
    'Solo salida de la vía': 'Otras Causas',
    'Vuelco': 'Vuelco',
    'Atropello a animal': 'Otras Causas'
}

df['tipo_accidente'] = df['tipo_accidente'].map(map_tipo_accidente)

### Hora

In [None]:
df['hora'] = df['hora'].str.split(':').str[0].astype(int)
df['hora'].value_counts()

## Preparacion Dataframe de entrenamiento


Group by por id de accidente:

-   Id **
-   Year **
-   Hora a solo la hora
-   Codigo del distrito
-   Coordenada X
-   Coordenada Y
-   One Hot encoding del tipo de accidente
-   Estado meteorologico
-   Tipo vehiculo one hot encoding y suma
-   Tipo de persona one hot encoding y suma **
-   Rango de edad a one hot encoding y suma **probar**
-   Lesividad la mas alta **?**
-   Sexo one hot encoding y suma **
-   Positivo en drogas y alcohol sumar el numero de positivos **?**


### Group By y sumatorio de las columnas

In [None]:
df.columns

In [81]:
columns_train = ['hora','cod_distrito', 'tipo_accidente', 'estado_meteorológico',
       'tipo_vehiculo', 'rango_edad', 'sexo', 'cod_lesividad',
       'coordenada_x_utm', 'coordenada_y_utm', 'positiva_alcohol',
       'positiva_droga', 'year', 'id', 'tipo_persona_Conductor',
       'tipo_persona_Pasajero', 'tipo_persona_Peatón']

In [89]:
df_entrenamiento = df[columns_train]

In [None]:
df_entrenamiento = pd.get_dummies(df_entrenamiento, columns=['tipo_accidente', 'tipo_vehiculo', 'rango_edad', 'sexo'], dtype=int)

In [None]:
df_entrenamiento.head(10)

In [92]:
sum_col = ['tipo_persona_Conductor',
       'tipo_persona_Pasajero', 'tipo_persona_Peatón',
       'tipo_accidente_Alcance', 'tipo_accidente_Atropello a persona',
       'tipo_accidente_Caida', 'tipo_accidente_Choque',
       'tipo_accidente_Colision doble', 'tipo_accidente_Colision multiple',
       'tipo_accidente_Otras Causas', 'tipo_accidente_Vuelco',
       'tipo_vehiculo_Bicicletas y ciclos no motorizados',
       'tipo_vehiculo_Motocicletas y ciclomotores',
       'tipo_vehiculo_Sin clasificar/especificar',
       'tipo_vehiculo_Turismos y vehículos ligeros',
       'tipo_vehiculo_Vehículos de carga',
       'tipo_vehiculo_Vehículos de transporte público',
       'tipo_vehiculo_Vehículos eléctricos ligeros',
       'tipo_vehiculo_Vehículos especializados', 'rango_edad_-1',
       'rango_edad_0', 'rango_edad_10', 'rango_edad_18', 'rango_edad_25',
       'rango_edad_40', 'rango_edad_60', 'sexo_Desconocido', 'sexo_Hombre',
       'sexo_Mujer']
general_col = ['hora', 'cod_distrito', 'estado_meteorológico', 'cod_lesividad',
       'coordenada_x_utm', 'coordenada_y_utm', 'positiva_alcohol',
       'positiva_droga', 'year', 'id']

agg_dict_sum = {col: 'sum' for col in sum_col}
agg_dict_general = {col: 'first' for col in general_col}

agg_dict = {**agg_dict_general, **agg_dict_sum}

df_entrenamiento = df_entrenamiento.groupby(['id', 'year'], as_index=False).agg(agg_dict)


In [None]:
len(df_entrenamiento['id'].unique()) == df_entrenamiento.shape[0]

In [None]:
df_entrenamiento.head(10)

## Clustering Jerarquico

In [117]:
from sklearn.preprocessing import MinMaxScaler

In [118]:
scaler = MinMaxScaler()

In [119]:
scaled_data = scaler.fit_transform(df_entrenamiento)

In [120]:
scaled_data = pd.DataFrame(scaled_data,columns=df_entrenamiento.columns)

In [None]:
scaled_data

In [None]:
scaled_data.isnull().sum()

In [123]:
scaled_data = scaled_data.dropna()

In [124]:
columnas_seleccionadas_1 = ['hora','cod_distrito','estado_meteorológico','coordenada_x_utm', 'coordenada_y_utm',
                          'tipo_accidente_Alcance', 'tipo_accidente_Atropello a persona','tipo_accidente_Caida', 
                          'tipo_accidente_Choque','tipo_accidente_Colision doble', 'tipo_accidente_Colision multiple',
                          'tipo_accidente_Otras Causas', 'tipo_accidente_Vuelco']
scaled_data_1 = scaled_data[columnas_seleccionadas_1]

In [125]:
columnas_seleccionadas_2 = ['hora','cod_distrito','estado_meteorológico','coordenada_x_utm', 'coordenada_y_utm',
                          'tipo_accidente_Alcance', 'tipo_accidente_Atropello a persona','tipo_accidente_Caida', 
                          'tipo_accidente_Choque','tipo_accidente_Colision doble', 'tipo_accidente_Colision multiple',
                          'tipo_accidente_Otras Causas', 'tipo_accidente_Vuelco','tipo_vehiculo_Bicicletas y ciclos no motorizados',
                          'tipo_vehiculo_Motocicletas y ciclomotores','tipo_vehiculo_Sin clasificar/especificar',
                          'tipo_vehiculo_Turismos y vehículos ligeros','tipo_vehiculo_Vehículos de carga',
                          'tipo_vehiculo_Vehículos de transporte público', 'tipo_vehiculo_Vehículos eléctricos ligeros',
                          'tipo_vehiculo_Vehículos especializados']
scaled_data_2 = scaled_data[columnas_seleccionadas_2]


In [None]:
scaled_data.columns

In [None]:
plt.figure(figsize=(15,8))
sns.clustermap(scaled_data,col_cluster=False)

In [None]:
plt.figure(figsize=(15,8))
sns.clustermap(scaled_data,col_cluster=False)

In [None]:
plt.figure(figsize=(15,8), dpi=200)
sns.clustermap(scaled_data_1,col_cluster=False)

In [130]:
from sklearn.cluster import AgglomerativeClustering
from sklearn.preprocessing import StandardScaler
from scipy.cluster.hierarchy import dendrogram, linkage

In [131]:
agg_clustering = AgglomerativeClustering(n_clusters=3, linkage='ward')

In [132]:
labels_1 = agg_clustering.fit_predict(scaled_data_1)

In [None]:
print(labels_1.sort())

In [None]:
scaled_data_1.head()

In [135]:
linkage_matrix = linkage(scaled_data_1, method='ward')

In [None]:
plt.figure(figsize=(10, 7))
dendrogram(linkage_matrix)
plt.title('Dendrograma')
plt.xlabel('Puntos de datos')
plt.ylabel('Distancia')
plt.grid(linestyle='--', alpha=0.7, axis='y') 
plt.show()

In [137]:
labels_2 = agg_clustering.fit_predict(scaled_data_2)

In [None]:
labels_2

In [139]:
linkage_matrix1 = linkage(scaled_data_2, method='ward')

In [None]:
plt.figure(figsize=(10, 7))
dendrogram(linkage_matrix1)
plt.title('Dendrograma')
plt.xlabel('Puntos de datos')
plt.ylabel('Distancia')
plt.grid(linestyle='--', alpha=0.7, axis='y') 
plt.show()