# Proyecto TID, Accidentes de EEUU

Componentes del grupo 
- Lucas Bodson Lobato
- Eduardo Díaz Hernández
- Esther Jorge Paramio
- Victoria Manrique Rolo

# Introducción

El gobierno registra los accidentes de EEUU durante varios años en cada estado. Anotando entre otros la posición geográfica, el estado en el que ocurre, las condiciones meteorológicas, la hora, duración y su severidad.

Algunas de las preguntas que podrían plantearse son:
- ¿Podemos predecir la severidad del accidente?
- ¿De qué depende esta severidad?
- ¿Qué tipo de accidentes tenemos?


```can be used for numerous applications such as real-time car accident prediction, studying car accidents hotspot locations, casualty analysis and extracting cause and effect rules to predict car accidents, and studying the impact of precipitation or other environmental stimuli on accident occurrence```

# Datos





Estos datos han sido recolectados en tiempo real usando múltiples API de tráfico, desde febrero de 2016 hasta diciembre de 2019 para los EEUU.

### Variables disponibles
Entre las variables disponibles tenemos las podemos dividir en tres categorías:

**Datos geográficos:**
Tenemos longitud y latitud, severidad, hora, distancia, dirección incluyendo número, calle, ciudad, provincia y estado y zona horaria.

**Datos meteorológicos:**
Tenemos temperatura, viento, humedad, presión del aire, visibilidad, dirección y velocidad del viento, precipitaciones, condiciones meteorológicas y presencia/ausencia de luz natural.

**Condiciones de la carretera:**
Tenemos baches, intersección, ceda el paso, incorporación, calle sin salida, vías de tren, rotonda, estaciones de servicio, stop, aumento/dismunición de tráfico, señales de tráfico y cambio de sentido. 

## Preprocesado

Dado que el dataset original tenía una gran cantidad de datos, hemos optado por reducir su tamaño. En primer lugar eliminaremos aquellos estados que tengan menos de mil datos y de los restantes escogeremos mil datos de forma aleatoria. Esto lo hemos hecho en python utilizando las librerías **pandas** y **numpy**.

Para poder trabajar con ellos de una forma más fácil hemos sustituido todos los valores de tipo string (cadena) por un equivalente numérico. Esto nos ayudará a la hora de mostrar gráfica y realizar tareas de clustering y árboles de decisión.

Debajo se encuentra el código utilizado para realizar este preprocesamiento.



```python
from __future__ import division
import pandas as pd
import numpy as np
import random
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from neupy import algorithms, utils, init
from datetime import datetime
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from matplotlib.font_manager import FontProperties

print("leyendo datos\n")
datos = pd.read_csv('US_Accidents_Dec19.csv', encoding = "ISO-8859-1")

# conseguir datos filtrados
filteredData = datos.drop(['ID', 'TMC', 'Start_Time', 'End_Time', 'Distance(mi)', 'City', 'Country', 'End_Lat', 'End_Lng', 'Description', 'Number', 'Street', 'Side', 'Zipcode', 'Airport_Code', 'Weather_Timestamp'], axis=1)
filteredData.to_csv('deleted-col-data.csv', index=False)
filteredData = pd.read_csv('deleted-col-data.csv', encoding = "ISO-8859-1")
filteredData = filteredData.dropna()
filteredData.to_csv('deleted-col-data.csv', index=False)
filteredData = pd.read_csv('deleted-col-data.csv', encoding = "ISO-8859-1")
#medias por estados
byState = filteredData.groupby(['State']).agg(['mean', 'count'])
states = filteredData.State.unique()
test = {}
for state in states:
     test[state] = 0

print("randomizando datos\n")
datosRandom = filteredData.sample(frac=1)
datosFinales = []
print("Seleccionando 1000 elementos aleatorios\n")
for index, row in datosRandom.iterrows():
     if test[row['State']] < 1000:
             test[row['State']]+=1
             datosFinales.append(row)
print("eliminando estados con menos de 1000 elementos\n")
for row in datosFinales:
     if test[row['State']] < 1000:
             datosFinales.remove(row)
             print("dropping" + row["State"])

exportDataframe = pd.DataFrame(datosFinales)
exportDataframe.to_csv('state-samples.csv',  index=False)
#medias con los samples cogidos
finalStateData = exportDataframe.groupby(['State']).agg(['mean', 'count'])

states = filteredData.State.unique()
StateIDS = [i++1 for i in range(len(states))]
StateIDS.pop()
StateIDS.append(0)
StateIDS.sort()

windDirs = filteredData.Wind_Direction.unique()
windDirs.sort()
winds = [i++1 for i in range(len(windDirs))]
winds.pop()
winds.append(0)
winds.sort()

numeric = exportDataframe
numeric = numeric.replace(states, StateIDS)
numeric = numeric.replace(windDirs, winds)
numeric = numeric.replace([False, True], [0, 1])
numeric = numeric.replace(['Night', 'Day'], [0, 1])
numeric = numeric.replace(['MapQuest','Bing', 'MapQuest-Bing'], [0,1,2])
numeric = numeric.replace(exportDataframe['Timezone'].unique(), [0,1,2,3])
numeric = numeric.drop(['County', 'Weather_Condition'], axis=1)
numeric.to_csv('numeric-state-samples.csv', index=False)


```

#### Dificultades

Las principales dificultades a las que nos hemos enfrentado han sido:
- La falta de conociemientos a la hora de trabajar con un dataset muy grande
- La poca compatibilidad entre las funciones de R y Python para representar y tratar los datos de tipo string.
- Interpretación de los datos, dado nuestra poca experiencia con la materia.

# Clasificiación

# Agrupamiento

# Conclusiones

# Material consultado