<a href="https://colab.research.google.com/github/renemorenow/MachineLearning2/blob/main/Prog_Basica_Python/Guia3_Entrega.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### [Abrir en Github](https://github.com/renemorenow/MachineLearning2/blob/main/Prog_Basica_Python/Guia3_Entrega.ipynb) ☝


#Integrantes

Andersson Camilo Ordoñez Ruiz. Cédula de ciudadanía: 1061750759

Miguel Felipe Corredor Montejo. Cédula de ciudadanía: 1098794311

William Rene Moreno Romero. Cédula de ciudadanía: 74329638

# **Guía 3**

## **¿Cómo podemos controlar el creciente número de accidentes en Nueva York?**

## Introduccion

**Contexto empresarial.** La ciudad de Nueva York ha experimentado un aumento en el número de accidentes en las carreteras de la ciudad. Quieren saber si el número de accidentes ha aumentado en las últimas semanas. Para todos los accidentes reportados, han recopilado detalles para cada accidente y han estado manteniendo registros durante el último año y medio (desde enero de 2018 hasta agosto de 2019).

La ciudad te ha contratado para que construyas visualizaciones que les ayuden a identificar patrones en accidentes, lo que les ayudaría a tomar acciones preventivas para reducir la cantidad de accidentes en el futuro. Tienen ciertos parámetros como municipio, hora del día, motivo del accidente, etc. De los que se preocupan y de los que les gustaría obtener información específica.

**Problema comercial.** Su tarea es formatear los datos proporcionados y proporcionar visualizaciones que respondan las preguntas específicas que tiene el cliente, que se mencionan a continuación.

**Contexto analítico.** Se le proporciona un archivo CSV (accidente) que contiene detalles sobre cada accidente, como fecha, hora, ubicación del accidente, motivo del accidente, tipos de vehículos involucrados, recuento de lesiones y muertes, etc. El delimitador en el archivo CSV dado es `;` en lugar del predeterminado **`,`**.

Realizará las siguientes tareas con los datos:

1. Leer, transformar y preparar datos para su visualización
2. Realizar análisis y construir visualizaciones de los datos para identificar patrones en el conjunto de datos.
        
El cliente tiene un conjunto específico de preguntas a las que le gustaría obtener respuestas. Deberá proporcionar visualizaciones para acompañar estos:

1. ¿Cómo ha fluctuado el número de accidentes durante el último año y medio? ¿Han aumentado con el tiempo?
2. Para un día en particular, ¿durante qué horas es más probable que ocurran accidentes?
3. ¿Hay más accidentes entre semana que durante los fines de semana?
4. ¿Cuál es la proporción de recuento de accidentes por área por municipio? ¿Qué distritos tienen un número desproporcionadamente grande de accidentes para su tamaño?
5. Para cada municipio, ¿durante qué horas es más probable que ocurran accidentes?
6. ¿Cuáles son las 5 principales causas de accidentes en la ciudad?
7. ¿Qué tipos de vehículos están más involucrados en accidentes por municipio?
8. ¿Qué tipos de vehículos están más involucrados en las muertes?

## Overview de la data

Analizemos las columnas presentes en el data frame

Este conjunto de datos contiene información detallada sobre accidentes de tránsito registrados en la ciudad de Nueva York. A continuación, se presenta la descripción de cada columna:

- **BOROUGH**. Municipio donde ocurrió el accidente (ejemplo: Manhattan, Brooklyn, Queens, Bronx, Staten Island).
- **COLLISION_ID** Identificador único asignado a cada colisión para diferenciar los accidentes registrados.
- **CONTRIBUTING FACTOR VEHICLE** (1, 2, 3, 4, 5) Factores que contribuyeron a la ocurrencia del accidente, como exceso de velocidad, distracción del conductor, fallas mecánicas, malas condiciones climáticas, entre otros.
Se pueden registrar hasta cinco factores por accidente, cada uno correspondiente a un vehículo involucrado.
- **CROSS STREET NAME**  Nombre de la calle transversal más cercana al lugar del accidente, útil para ubicar intersecciones peligrosas.
- **DATE** Fecha exacta en la que ocurrió el accidente en formato YYYY-MM-DD.
- **TIME** Hora del accidente en formato HH:MM AM/PM, permitiendo analizar patrones horarios en la siniestralidad.
- **LATITUDE y LONGITUDE**

- **NUMBER OF (CYCLISTS, MOTORISTS, PEDESTRIANS) INJURED** Número de personas heridas en el accidente, clasificadas en tres categorías: Ciclistas, Motociclistas - conductores de vehículos y Peatones.

- **NUMBER OF (CYCLISTS, MOTORISTS, PEDESTRIANS) DEATHS** Número de víctimas fatales en el accidente, categorizadas en: ciclistas, Motociclistas - conductores de vehículos y Peatones.

- **ON STREET NAME**  Nombre de la calle donde ocurrió el accidente, información clave para el análisis de zonas de alto riesgo.

- **VEHICLE TYPE CODE (1, 2, 3, 4, 5)** Tipos de vehículos involucrados en el accidente, pudiendo haber hasta cinco vehículos registrados por accidente.
Sedán, SUV, Camión, Motocicleta, Autobús, Bicicleta, etc.

- **ZIP CODE**  Código postal correspondiente a la ubicación del accidente, útil para agrupar eventos por áreas específicas dentro de la ciudad.

In [None]:
# Solución propuesta
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import ttest_ind

In [None]:
# Importar los datos en 2 archivos debido a que github solo permite max 25MB por archivo:
url1 = 'https://raw.githubusercontent.com/renemorenow/MachineLearning2/refs/heads/main/Prog_Basica_Python/accidents-1.csv'
url2 = 'https://raw.githubusercontent.com/renemorenow/MachineLearning2/refs/heads/main/Prog_Basica_Python/accidents-2.csv'
df1 = pd.read_csv(url1, index_col=0, sep=';')
df2 = pd.read_csv(url2, index_col=0, sep=';')

In [None]:
df = pd.concat([df1, df2])

In [None]:
df.head()

Unnamed: 0_level_0,TIME,BOROUGH,ZIP CODE,LATITUDE,LONGITUDE,ON STREET NAME,NUMBER OF PEDESTRIANS INJURED,NUMBER OF PEDESTRIANS KILLED,NUMBER OF CYCLIST INJURED,NUMBER OF CYCLIST KILLED,...,CONTRIBUTING FACTOR VEHICLE 2,CONTRIBUTING FACTOR VEHICLE 3,CONTRIBUTING FACTOR VEHICLE 4,CONTRIBUTING FACTOR VEHICLE 5,COLLISION_ID,VEHICLE TYPE CODE 1,VEHICLE TYPE CODE 2,VEHICLE TYPE CODE 3,VEHICLE TYPE CODE 4,VEHICLE TYPE CODE 5
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
09/26/2018,12:12,BRONX,10454.0,40.808987,-73.911316,,0,0,0,0,...,,,,,3988123,Sedan,,,,
09/25/2018,16:30,BROOKLYN,11236.0,40.636005,-73.91251,FLATLANDS AVENUE,1,0,0,0,...,,,,,3987962,Sedan,,,,
08/22/2019,19:30,QUEENS,11101.0,40.75549,-73.93953,,0,0,0,0,...,,,,,4193132,Sedan,,,,
09/23/2018,13:10,QUEENS,11367.0,,,MAIN STREET,0,0,1,0,...,Unspecified,,,,3985962,Bike,Station Wagon/Sport Utility Vehicle,,,
08/20/2019,22:40,BRONX,10468.0,40.868336,-73.90127,,0,0,0,0,...,Unspecified,,,,4192111,Sedan,Sedan,,,


In [None]:
#Cantidad de filas y columnas del DF
df.shape

(238522, 23)

In [None]:
#tipos de datos del DF:
df.dtypes

### **Limpieza del dataset**

Para asegurar que los datos sean consistentes y puedan ser analizados correctamente, realizaremos la imputación de los valores faltantes en las columnas que presentan datos nulos. A continuación, se detallan los pasos que debes seguir para limpiar el conjunto de datos.
- **Paso 1: Identificar los valores faltantes**
- **Paso 2: Decidir el método de imputación**

Dado el análisis de valores nulos, se aplicarán diferentes estrategias de imputación según el tipo de dato. Por ejemplo: para la columna ZIP CODE, se imputará con el código postal más frecuente (moda) dentro de cada municipio registrado en BOROUGH. En el caso de las coordenadas LATITUDE y LONGITUDE, se reemplazarán los valores faltantes con la media de las coordenadas dentro de cada municipio. La columna ON STREET NAME será rellenada con "UNKNOWN" en caso de estar vacía. Para los factores que contribuyeron al accidente (CONTRIBUTING FACTOR VEHICLE X), los valores nulos serán sustituidos por "Unspecified". Finalmente, en las columnas de VEHICLE TYPE CODE X, los valores ausentes se reemplazarán con "Unknown" para asegurar la integridad del análisis.

#### Paso 1: Identificar los valores faltantes

In [None]:
# ==============================
#  Identificar valores faltantes
# ==============================
print(" Valores faltantes en cada columna:")
print(df.isnull().sum())

 Valores faltantes en cada columna:
TIME                                  0
BOROUGH                               0
ZIP CODE                             70
LATITUDE                           6978
LONGITUDE                          6978
ON STREET NAME                    84604
NUMBER OF PEDESTRIANS INJURED         0
NUMBER OF PEDESTRIANS KILLED          0
NUMBER OF CYCLIST INJURED             0
NUMBER OF CYCLIST KILLED              0
NUMBER OF MOTORIST INJURED            0
NUMBER OF MOTORIST KILLED             0
CONTRIBUTING FACTOR VEHICLE 1       884
CONTRIBUTING FACTOR VEHICLE 2     40008
CONTRIBUTING FACTOR VEHICLE 3    225450
CONTRIBUTING FACTOR VEHICLE 4    235666
CONTRIBUTING FACTOR VEHICLE 5    237730
COLLISION_ID                          0
VEHICLE TYPE CODE 1                1721
VEHICLE TYPE CODE 2               55590
VEHICLE TYPE CODE 3              226221
VEHICLE TYPE CODE 4              235806
VEHICLE TYPE CODE 5              237769
dtype: int64


In [None]:
#=====================================
#Filtrar filas con valores faltantes
#=====================================

df[df.isnull().any(axis=1)]

Unnamed: 0_level_0,TIME,BOROUGH,ZIP CODE,LATITUDE,LONGITUDE,ON STREET NAME,NUMBER OF PEDESTRIANS INJURED,NUMBER OF PEDESTRIANS KILLED,NUMBER OF CYCLIST INJURED,NUMBER OF CYCLIST KILLED,...,CONTRIBUTING FACTOR VEHICLE 2,CONTRIBUTING FACTOR VEHICLE 3,CONTRIBUTING FACTOR VEHICLE 4,CONTRIBUTING FACTOR VEHICLE 5,COLLISION_ID,VEHICLE TYPE CODE 1,VEHICLE TYPE CODE 2,VEHICLE TYPE CODE 3,VEHICLE TYPE CODE 4,VEHICLE TYPE CODE 5
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
09/26/2018,12:12,BRONX,10454.0,40.808987,-73.911316,,0,0,0,0,...,,,,,3988123,Sedan,,,,
09/25/2018,16:30,BROOKLYN,11236.0,40.636005,-73.912510,FLATLANDS AVENUE,1,0,0,0,...,,,,,3987962,Sedan,,,,
08/22/2019,19:30,QUEENS,11101.0,40.755490,-73.939530,,0,0,0,0,...,,,,,4193132,Sedan,,,,
09/23/2018,13:10,QUEENS,11367.0,,,MAIN STREET,0,0,1,0,...,Unspecified,,,,3985962,Bike,Station Wagon/Sport Utility Vehicle,,,
08/20/2019,22:40,BRONX,10468.0,40.868336,-73.901270,,0,0,0,0,...,Unspecified,,,,4192111,Sedan,Sedan,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
01/20/2018,15:00,QUEENS,11436.0,40.685356,-73.797230,LINDEN BOULEVARD,0,0,0,0,...,Unspecified,,,,3832275,SPORT UTILITY / STATION WAGON,PASSENGER VEHICLE,,,
01/04/2018,14:00,BRONX,10452.0,40.845180,-73.914170,JEROME AVENUE,0,0,0,0,...,,,,,3822315,SPORT UTILITY / STATION WAGON,,,,
01/20/2018,13:05,BRONX,10462.0,40.831210,-73.850876,CASTLE HILL AVENUE,0,0,0,0,...,Unspecified,,,,3832513,PASSENGER VEHICLE,SPORT UTILITY / STATION WAGON,,,
01/29/2018,17:45,QUEENS,11377.0,40.757250,-73.904854,31 AVENUE,0,0,0,0,...,Unspecified,,,,3837608,SPORT UTILITY / STATION WAGON,PASSENGER VEHICLE,,,


#### Paso 2: Decidir el método de imputación

In [None]:
# ==============================
# ESTRATEGIAS DE IMPUTACIÓN PARA 'ZIP CODE'
# ==============================

# Imputación con la moda (valor más frecuente)
df_moda = df.copy()
df_moda['ZIP CODE'].fillna(df_moda['ZIP CODE'].mode()[0], inplace=True)
print(df_moda)
df_moda['ZIP CODE'].value_counts(dropna=False)

             TIME   BOROUGH  ZIP CODE   LATITUDE  LONGITUDE  \
DATE                                                          
09/26/2018  12:12     BRONX   10454.0  40.808987 -73.911316   
09/25/2018  16:30  BROOKLYN   11236.0  40.636005 -73.912510   
08/22/2019  19:30    QUEENS   11101.0  40.755490 -73.939530   
09/23/2018  13:10    QUEENS   11367.0        NaN        NaN   
08/20/2019  22:40     BRONX   10468.0  40.868336 -73.901270   
...           ...       ...       ...        ...        ...   
01/20/2018  15:00    QUEENS   11436.0  40.685356 -73.797230   
01/04/2018  14:00     BRONX   10452.0  40.845180 -73.914170   
01/20/2018  13:05     BRONX   10462.0  40.831210 -73.850876   
01/29/2018  17:45    QUEENS   11377.0  40.757250 -73.904854   
01/23/2018  16:38  BROOKLYN   11211.0  40.710197 -73.958430   

                              ON STREET NAME  NUMBER OF PEDESTRIANS INJURED  \
DATE                                                                          
09/26/2018            

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_moda['ZIP CODE'].fillna(df_moda['ZIP CODE'].mode()[0], inplace=True)


Unnamed: 0_level_0,count
ZIP CODE,Unnamed: 1_level_1
11207.0,4565
11236.0,3491
11234.0,3309
11385.0,3293
11208.0,3115
...,...
10055.0,1
10045.0,1
10107.0,1
10179.0,1


In [None]:
df_moda['ZIP CODE'].isnull().sum()

0

In [None]:
# Imputación con la media (promedio)
df_media = df.copy()
df_media['LATITUDE'].fillna(df_media['LATITUDE'].mean(), inplace=True)
df_media['LONGITUDE'].fillna(df_media['LONGITUDE'].mean(), inplace=True)
print(df_media['LATITUDE'].isnull().sum())
print(df_media['LONGITUDE'].isnull().sum())

0
0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_media['LATITUDE'].fillna(df_media['LATITUDE'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_media['LONGITUDE'].fillna(df_media['LONGITUDE'].mean(), inplace=True)


In [None]:
# Imputación con 'UNKNOWN'
print('Nulos iniciales:', df['ON STREET NAME'].isnull().sum())
df_desconocido = df.copy()
df_desconocido['ON STREET NAME'].fillna('UNKNOWN', inplace=True)
print(df_desconocido['ON STREET NAME'].isnull().sum())

Nulos iniciales: 84604
0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_desconocido['ON STREET NAME'].fillna('UNKNOWN', inplace=True)


In [None]:
# Imputación para 'CONTRIBUTING FACTOR VEHICLE X' con 'Unspecified'
df_Unspecified = df.copy()
for i in range(1, 6):
  print('Nulos iniciales:', df_Unspecified[f'CONTRIBUTING FACTOR VEHICLE {i}'].isnull().sum())
  df_Unspecified[f'CONTRIBUTING FACTOR VEHICLE {i}'].fillna('Unspecified', inplace=True)
  print('Nulos finales:', df_Unspecified[f'CONTRIBUTING FACTOR VEHICLE {i}'].isnull().sum())

Nulos iniciales: 884
Nulos finales: 0
Nulos iniciales: 40008
Nulos finales: 0
Nulos iniciales: 225450
Nulos finales: 0
Nulos iniciales: 235666
Nulos finales: 0
Nulos iniciales: 237730
Nulos finales: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Unspecified[f'CONTRIBUTING FACTOR VEHICLE {i}'].fillna('Unspecified', inplace=True)


In [None]:
# Imputación para 'VEHICLE TYPE CODE X' con 'Unknown'
df_Unknown = df.copy()
for i in range(1, 6):
  print('Nulos iniciales:', df_Unknown[f'VEHICLE TYPE CODE {i}'].isnull().sum())
  df_Unknown[f'VEHICLE TYPE CODE {i}'].fillna('Unknown', inplace=True)
  print('Nulos finales:', df_Unknown[f'VEHICLE TYPE CODE {i}'].isnull().sum())

Nulos iniciales: 1721
Nulos finales: 0
Nulos iniciales: 55590
Nulos finales: 0
Nulos iniciales: 226221
Nulos finales: 0
Nulos iniciales: 235806


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Unknown[f'VEHICLE TYPE CODE {i}'].fillna('Unknown', inplace=True)


Nulos finales: 0
Nulos iniciales: 237769
Nulos finales: 0


### Ejercicio 1

Desde 2014, la ciudad de Nueva York ha estado implementando el programa de seguridad vial Vision Zero, cuyo objetivo es reducir a cero el número de muertes por accidentes de tránsito para el año 2024. Como parte de esta iniciativa, se han implementado y mejorado diversas estrategias para aumentar la seguridad en las calles.

A continuación, se presentan algunas de las medidas adoptadas en el plan:

- [ ] Detección automatizada de peatones para mejorar la seguridad en los cruces.
- [ ] Auditorías de seguridad vial en zonas con alta incidencia de accidentes.
- [ ] Expansión de la red de carriles para bicicletas para reducir la exposición de ciclistas a incidentes con vehículos.
- [ ] Programas de educación y sensibilización para fomentar el respeto a las normas de tránsito.
- [ ] Construcción de islas de refugio peatonal para mejorar la seguridad en calles de alto tráfico.
- [ ] Implementación de reductores de velocidad inteligentes, como topes y amortiguadores, basados en el análisis de datos.

**Pregunta: ¿Cuáles de estas iniciativas podrían beneficiarse directamente del análisis de los datos disponibles sobre accidentes? Marque todas las opciones que considere aplicables.**

Instrucciones: Para marcar una opción, agregue una "[x]" en la casilla correspondiente.

### **Sigamos adelante y respondamos a cada una de las preguntas del cliente.**

### Ejercicio 2:

Agrupe los datos disponibles mensualmente y genere un line plot de accidentes a lo largo del tiempo. ¿Ha aumentado el número de accidentes durante el último año y medio?

**Sugerencia**: Puede encontrar útiles las funciones de pandas ```to_datetime ()``` y ```dt.to_period ()```.


In [None]:
# Solución propuesta

El gráfico de líneas que trazamos muestra claramente que no hay una tendencia alcista obvia en los accidentes a lo largo del tiempo.

De la gráfica anterior, ¿qué meses parecen tener el menor número de accidentes? ¿Cuáles crees que son las razones detrás de esto?

### Exjercicio 3:
¿Cómo varía el número de accidentes a lo largo de un solo día? Cree una nueva columna `HOUR` basada en los datos de la columna `TIME`, luego trace un gráfico de barras de la distribución por hora a lo largo del día.

**Sugerencia:** Puede encontrar útil la función ```dt.hour```.

In [None]:
# Solución propuesta

En la pregunta anterior hemos agregado el número de accidentes por hora sin tener en cuenta la fecha y el lugar en que ocurrieron. ¿Qué crítica le daría a este enfoque?

### Ejercicio 4:

¿Cómo varía el número de accidentes en una sola semana? Trace un gráfico de barras basado en el recuento de accidentes por día de la semana.

**Sugerencia:** Puede encontrar útil la función ```dt.weekday```.

In [None]:
# Solución propuesta

### Ejercicio 5:

Trace una gráfica de barras del número total de accidentes en cada municipio, así como uno de los accidentes por milla cuadrada por municipio. ¿Qué puedes concluir?

**Sugerencia:** Es posible que desee actualizar algunas de las claves en el diccionario del municipio para que coincidan con los nombres en el marco de datos.

In [None]:
# Solución propuesta

Podemos ver que Brooklyn y Queens tienen un número muy alto de accidentes en relación con los otros tres condados. Pero, ¿qué tal por milla cuadrada?

### Ejercicio 6:

¿Qué horas tienen más accidentes en cada municipio? Trace un gráfico de barras para cada municipio que muestre el número de accidentes por cada hora del día.

**Sugerencia:** Puede usar ```sns.FacetGrid``` para crear una cuadrícula de parcelas con los datos por hora de cada municipio.

In [None]:
# Solución propuesta

**¿Es mayor el número de accidentes en diferentes momentos en diferentes distritos? ¿Deberíamos concentrarnos en diferentes momentos para cada municipio?**

### Ejercicio 7:

¿Qué factores provocan la mayoría de los accidentes? Evite contar dos veces los factores que contribuyen a un solo accidente.

**Sugerencia:** Una forma de lidiar con las repeticiones es concatenar las columnas correspondientes conservando sus índices, puede hacerlo con las funciones ```pd.concat()``` y ```reset_index()```. Luego, use un ```group_by``` apropiado para contar el número de repeticiones de factores contribuidos por accidente.

In [None]:
# Solución propuesta

### Ejercicio 8:

¿Qué tipos de vehículos están más involucrados en accidentes por municipio? Evite contar dos veces el tipo de vehículos presentes en un solo accidente.

**Sugerencia:** Puede aplicar un enfoque similar al utilizado en la pregunta anterior.

In [None]:
# Solución propuesta

### Ejercicio 9:

En 2018 para una [entrevista](https://www.nytimes.com/2019/01/01/nyregion/traffic-deaths-decrease-nyc.html) con The New York Times, el alcalde de Blasio de Nueva York declaró que *'Vision Zero está funcionando claramente'*. Ese año, el número de muertes en accidentes de tráfico en Nueva York se redujo a un histórico 202. Sin embargo, según lo informado por [am New York Metro](https://www.amny.com/news/vision-zero-de-blasio- 1-30707464 /), el número de víctimas mortales ha aumentado un 30% en el primer trimestre de 2019 en comparación con el año anterior y el número de peatones y ciclistas heridos no ha experimentado ninguna mejora.

¿Cómo utilizaría los datos proporcionados para comprender qué salió mal en el primer trimestre de 2019?


> - [ ] Considere los accidentes del primer trimestre de 2019. Luego, busque las causas más comunes de accidentes en los que estuvieron involucrados peatones y ciclistas. Dé una recomendación basada únicamente en esta información.

> - [ ] Cree un par de mapas de calor de los accidentes que involucraron a peatones y ciclistas lesionados / muertos en el primer trimestre de 2018 y 2019. Compare estos dos para ver si hay algún cambio en la concentración de accidentes. En áreas críticas, estudie el tipo de factores involucrados en los accidentes. Dé una recomendación para visitar estas áreas para estudiar más el problema.   

> - [ ] Los datos proporcionados son insuficientes para mejorar nuestra comprensión de la situación.

> - [ ] Ninguna de las anteriores. Haría lo siguiente: *aquí tu respuesta recomendada*.

In [None]:
# Solución propuesta

### Ejercicio 10:

Calcula el número de muertes provocadas por cada tipo de vehículo. Trace un gráfico de barras para los 5 vehículos principales. ¿Qué vehículos están involucrados con mayor frecuencia en las muertes y cuánto más que los demás?

**Por ejemplo,** si dos personas murieron en un accidente en el que estuvieron involucrados 5 vehículos: 4 son VEHÍCULOS DE PASAJEROS y 1 es un VAGÓN DEPORTIVO / ESTACIÓN. Luego, agregaríamos dos muertes a cada tipo de VEHÍCULO DE PASAJEROS y VAGÓN DE ESTACIÓN / SERVICIO DEPORTIVO.

**Sugerencia:** Es posible que desee crear una nueva columna con el número total de muertes en el accidente. Para eso, puede encontrar útil la función ```.to_numpy()```. Luego, proceda como los ejercicios anteriores para evitar contabilizar dos veces el tipo de vehículos.

In [None]:
# Solución propuesta