# ETL de los Accidentes con Implicaciones de Bicicletas


![](https://static.thenounproject.com/png/11183-200.png)

Primero importamos los paquetes de Python que vamos a requerir para la lectura, limpieza, análisis exploratorio y visualización. Para esto utilizamos:

* **Pandas** - manipulación y análisis de datos para tablas y series de tiempo
* **Datetime** - Conversión a formatos de fecha
* **Numpy** - soporte para vectores y matrices
* **Matplotlib** - gráficas basadas en Matlab
* **Seaborn** - herramientas de visualización más avanzadas

In [1]:
import pandas as pd
from datetime import date, datetime
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Utilizaremos el archivo de los [accidentes con implicaciones de bicicletas en Madrid de 2018](https://datos.madrid.es/portal/site/egob/menuitem.c05c1f754a33a9fbe4b2e4b284f1a5a0/?vgnextoid=20f4a87ebb65b510VgnVCM1000001d4a900aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default), para lo cual debemos tener en cuenta las siguientes consideraciones:

* Es un archivo **CSV**
* El archivo no abre con el encoding UTF8, por lo cual hay que utilizar ISO-8859-1. 
* Los datos estan separados por `;` y no `,` 

In [2]:
acc = pd.read_csv("../data/AccidentesBicicletas_2018.csv", index_col=False, encoding = "ISO-8859-1", sep=';')

### Revisión de la Estructura de la Tabla

Luego de haber cargado el archivo a nuestro ambiente, exploramos la composición de los datos. Revisamos el número de filas y columnas, la cantidad de valores vacíos, las primeras y últimas observaciones, el tipo de los datos y el nombre de las **columnas**.

In [3]:
acc.columns

Index(['FECHA', 'RANGO HORARIO', 'DIA SEMANA', 'DISTRITO', 'LUGAR ACCIDENTE',
       'Nº', 'Nº PARTE', 'CPFA Granizo', 'CPFA Hielo', 'CPFA Lluvia',
       'CPFA Niebla', 'CPFA Seco', 'CPFA Nieve', 'CPSV Mojada', 'CPSV Aceite',
       'CPSV Barro', 'CPSV Grava Suelta', 'CPSV Hielo', 'CPSV Seca Y Limpia',
       '* Nº VICTIMAS', 'TIPO ACCIDENTE', 'Tipo Vehiculo', 'TIPO PERSONA',
       'SEXO', 'LESIVIDAD', 'Tramo Edad'],
      dtype='object')

Revisamos la **forma** de la tabla, que nos devuelve la cantidad de filas y columnas.

In [4]:
acc.shape

(700, 26)

Revisamos la **información** de la tabla, que nos devuelve el número de datos en cada columna, el tipo de dato y la memoria que ocupa.

In [5]:
acc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 26 columns):
FECHA                 700 non-null object
RANGO HORARIO         700 non-null object
DIA SEMANA            700 non-null object
DISTRITO              700 non-null object
LUGAR ACCIDENTE       700 non-null object
Nº                    700 non-null object
Nº PARTE              700 non-null object
CPFA Granizo          700 non-null object
CPFA Hielo            700 non-null object
CPFA Lluvia           700 non-null object
CPFA Niebla           700 non-null object
CPFA Seco             700 non-null object
CPFA Nieve            700 non-null object
CPSV Mojada           700 non-null object
CPSV Aceite           700 non-null object
CPSV Barro            700 non-null object
CPSV Grava Suelta     700 non-null object
CPSV Hielo            700 non-null object
CPSV Seca Y Limpia    700 non-null object
* Nº VICTIMAS         700 non-null int64
TIPO ACCIDENTE        700 non-null object
Tipo Vehiculo 

Vemos una **muestra** de la tabla, para revisar la composición de los datos. Tanto de las primeras como de las últimas observaciones.

In [3]:
acc.head()

Unnamed: 0,FECHA,RANGO HORARIO,DIA SEMANA,DISTRITO,LUGAR ACCIDENTE,Nº,Nº PARTE,CPFA Granizo,CPFA Hielo,CPFA Lluvia,...,CPSV Grava Suelta,CPSV Hielo,CPSV Seca Y Limpia,* Nº VICTIMAS,TIPO ACCIDENTE,Tipo Vehiculo,TIPO PERSONA,SEXO,LESIVIDAD,Tramo Edad
0,01/01/2018,DE 13:00 A 13:59,LUNES,ARGANZUELA,CALLE DE ANCORA - PASEO DE LAS DELICIAS ...,0,2018/25,NO,NO,NO,...,NO,NO,SI,1,COLISIÓN DOBLE,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 30 A 34 ANOS
1,01/01/2018,DE 15:00 A 15:59,LUNES,CENTRO,CALLE DE ALCALA NUM ...,44,2018/76,NO,NO,NO,...,NO,NO,SI,2,ATROPELLO,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 25 A 29 AÑOS
2,02/01/2018,DE 12:00 A 12:59,MARTES,SALAMANCA,CALLE DE SERRANO - CALLE DEL CONDE DE ARANDA ...,0,2018/30,NO,NO,NO,...,NO,NO,SI,2,ATROPELLO,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 40 A 44 AÑOS
3,03/01/2018,DE 13:00 A 13:59,MIERCOLES,SALAMANCA,PLAZA DE LA INDEPENDENCIA NUM ...,5,2018/94,NO,NO,NO,...,NO,NO,SI,1,COLISIÓN DOBLE,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 50 A 54 AÑOS
4,03/01/2018,DE 15:00 A 15:59,MIERCOLES,CIUDAD LINEAL,CALLE DE RAMIREZ DE ARELLANO NUM ...,35,2018/361,NO,NO,NO,...,NO,NO,SI,1,COLISIÓN DOBLE,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 25 A 29 AÑOS


In [4]:
acc.tail()

Unnamed: 0,FECHA,RANGO HORARIO,DIA SEMANA,DISTRITO,LUGAR ACCIDENTE,Nº,Nº PARTE,CPFA Granizo,CPFA Hielo,CPFA Lluvia,...,CPSV Grava Suelta,CPSV Hielo,CPSV Seca Y Limpia,* Nº VICTIMAS,TIPO ACCIDENTE,Tipo Vehiculo,TIPO PERSONA,SEXO,LESIVIDAD,Tramo Edad
695,25/12/2018,DE 12:00 A 12:59,MARTES,FUENCARRAL-EL PARDO,CALLE DE BRAOJOS NUM ...,10,2018/16468,NO,NO,NO,...,NO,NO,SI,1,CAÍDA BICICLETA,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 25 A 29 AÑOS
696,28/12/2018,DE 9:00 A 9:59,VIERNES,CHAMARTIN,PASEO DE LA CASTELLANA - PASEO DE LA HABANA ...,0,2018/16651,NO,NO,NO,...,NO,NO,SI,1,COLISIÓN DOBLE,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 25 A 29 AÑOS
697,28/12/2018,DE 14:00 A 14:59,VIERNES,CENTRO,CALLE DE GENOVA NUM ...,2,2018/16626,NO,NO,NO,...,NO,NO,SI,2,COLISIÓN DOBLE,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 18 A 20 AÑOS
698,29/12/2018,DE 10:00 A 10:59,SABADO,TETUAN,CALLE DE BRAVO MURILLO NUM ...,105,2019/57,NO,NO,NO,...,NO,NO,SI,1,COLISIÓN DOBLE,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 55 A 59 AÑOS
699,29/12/2018,DE 19:00 A 19:59,SABADO,CHAMBERI,CALLE DE SANTA ENGRACIA NUM ...,135,2018/16655,NO,NO,NO,...,NO,NO,SI,1,CAÍDA BICICLETA,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 40 A 44 AÑOS




Observamos la **descripción** de los datos numéricos, donde podemos ver la media, desviación estandar, valor mínimo, valor máximo, entre otros.


In [7]:
acc.describe()

Unnamed: 0,* Nº VICTIMAS
count,700.0
mean,1.127143
std,0.618832
min,1.0
25%,1.0
50%,1.0
75%,1.0
max,15.0


### Limpieza de Datos

Teniendo ya información mas detallada del archivo podemos proceder con su limpieza, eliminando las columnas que no son útiles para el análisis objetivo y convirtiendo los datos al formato deseado. Por ejemplo, podemos observar que la mayoría de columnas están en formato de texto. Columnas como la fecha debemos pasar a un formato Datetime y columnas como la edad deben estar en formato numérico. 

En primer lugar, eliminamos las columnas de "número de parte", que no nos agrega información relevante para nuestro análisis y las de condiciones climáticas y del estado del suelo, excepto la de lluvia y mojado, pues muy pocos accidentes ocurren bajo esas condiciones por lo cual no agregarán valor. Además, eliminamos el tipo de vehículo, pues todas las observaciónes son igual a bicicleta y tipo de persona porque la mayoria de los resultados son **CONDUCTOR**, unos pocos son **VIAJEROS** y solo una observación es **TESTIGO**. 

In [6]:
acc = acc.drop(['Nº PARTE', 'CPFA Granizo', 'CPFA Hielo',
       'CPFA Niebla', 'CPFA Seco', 'CPFA Nieve', 'CPSV Aceite',
       'CPSV Barro', 'CPSV Grava Suelta', 'CPSV Hielo', 'CPSV Seca Y Limpia', 'Tipo Vehiculo', 'TIPO PERSONA'], 1)

Ahora, renombramos las columnas para tener nombres simples, fáciles de manipular.

In [7]:
acc.columns = ['fecha', 'rango_hora', 'dia_semana', 'distrito', 'lugar', 'numero', 'lluvia', 'mojado', 'victimas', 
             'tipo_accidente', 'sexo', 'lesividad', 'rango_edad']

Extraemos de la columna `rango hora`, la hora de inicio del rango y creamos una nueva columna con esos datos

In [8]:
def extrae_hora(t):
    _, horain, _, _, = t.rango_hora.split(' ')
    return horain

acc['horain'] = acc.apply(extrae_hora, axis = 1)

Juntamos la hora con la fecha y utilizamos una fórmula para convertir los datos de la columna `fecha`, de texto a **datetime**.

In [9]:
acc['fecha'] = acc.fecha + ' ' + acc.horain

In [10]:
formato2 = '%d/%m/%Y %H:%M'
fecha = '01/01/1949 20:30'

def parse_fecha(fecha):
        a = datetime.strptime(fecha, formato2)
        return a

acc.fecha = acc.fecha.apply(parse_fecha)

Tambien utilizamos una función para extraer de la columna `rango edad`, la edad promedio entre el máximo y mínimo. Teniendo en cuenta a la vez que hay filas donde el valor es desconocido y sera remplazado por `missing value`.

In [11]:
def extrae_edad(e):
    try:
        _, edadmin, _, _, _, = e.rango_edad.split(' ')
        _, _, _, edadmax, _, = e.rango_edad.split(' ')
        return (int(edadmin) + int(edadmax))/2
    except:
        return None

acc['edad'] = acc.apply(extrae_edad, axis = 1)

Adicionalmente, convertimos la columna de edad, extraida previamente, de texto a `float`. Utilizamos el parámetro errors con el valor de `coerce` para que convierta los valores no numéricos en `missing values`.

In [12]:
acc['edad'] = pd.to_numeric(acc['edad'], errors='coerce')

Construimos una columna con el valor del mes de cuando ocurrió el accidente.

In [13]:
acc['mes'] = acc.apply(lambda fila: fila.fecha.month, axis=1)

Examinando detalladamente el campo de lugar, que tiene información sobre la ubicación donde se produjo el accidente, vemos que las observaciones tienen información de sobra. En algunos campos hay dos direcciones y al final de la observación está el texto `NUM`. Esto puede dificultar convertir la dirección a coordenadas de latitud, longitud por lo cual eliminaremos una dirección y el texto que sobra. 

In [14]:
def extrae_calle(e):
    try:
        direccion, _  = e.lugar.split('-')
        return direccion
    except:
        return e.lugar.replace('NUM', '')

acc['direccion'] = acc.apply(extrae_calle, axis = 1)

Eliminamos los espacios vacios de nuestros resultados para no tener conflictos al realizar filtros.

In [15]:
acc = acc.apply(lambda fila: fila.str.strip() if fila.dtype == 'object' else fila)

Ahora que tenemos un valor limpio de la dirección, vamos a convertir el tipo de dato del número de la calle de texto a numérico, para luego unir al campo de dirección el número de la calle pero únicamente en los casos que el número sea superior a cero.

In [16]:
acc['numero'] = pd.to_numeric(acc['numero'], errors='coerce')

In [17]:
def suma_num(e):
    if e.numero > 0:
        return e.direccion + ' ' + str(int(e.numero))
    else:
        return e.direccion
    
acc['direccion'] = acc.apply(suma_num, axis = 1)

Una vez que tenemos la dirección del accidente de forma precisa, podemos utilizar funciones para convertir la dirección en coordenadas de latitud y longitud. Investigando encontramos [geopy 1.18.1](https://pypi.org/project/geopy/). Geopy es un cliente de web services de geocoding, que hace posible identificar las coordenadas de direcciones, ciudades y países. 

Para poder utilizarlo hay que descargar el paquete en el prompt de Anaconda, o similares, utilizando el comando `pip install geopy` y después importar el paquete.

In [18]:
from geopy.geocoders import Nominatim
geolocator = Nominatim(user_agent="OpenStreetMap Web Site")

In [19]:
from geopy.extra.rate_limiter import RateLimiter
geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1.5)

In [20]:
def location(e):
    try:
        location = geocode(e + ' MADRID')
        return location
    except:
        return None

In [21]:
acc['location'] = [location(i) for i in acc.direccion]

RateLimiter caught an error, retrying (0/2 tries). Called with (*('AVENIDA DE LUIS ARAGONÉS MADRID',), **{}).
Traceback (most recent call last):
  File "C:\Users\alejo\Anaconda3\lib\urllib\request.py", line 1317, in do_open
    encode_chunked=req.has_header('Transfer-encoding'))
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1229, in request
    self._send_request(method, url, body, headers, encode_chunked)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1275, in _send_request
    self.endheaders(body, encode_chunked=encode_chunked)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1224, in endheaders
    self._send_output(message_body, encode_chunked=encode_chunked)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1016, in _send_output
    self.send(msg)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 956, in send
    self.connect()
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1384, in connect
    super().connect()
  F

RateLimiter caught an error, retrying (0/2 tries). Called with (*('PLAZA DE LA INDEPENDENCIA 4 MADRID',), **{}).
Traceback (most recent call last):
  File "C:\Users\alejo\Anaconda3\lib\urllib\request.py", line 1317, in do_open
    encode_chunked=req.has_header('Transfer-encoding'))
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1229, in request
    self._send_request(method, url, body, headers, encode_chunked)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1275, in _send_request
    self.endheaders(body, encode_chunked=encode_chunked)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1224, in endheaders
    self._send_output(message_body, encode_chunked=encode_chunked)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1016, in _send_output
    self.send(msg)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 956, in send
    self.connect()
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1384, in connect
    super().connect()


RateLimiter caught an error, retrying (0/2 tries). Called with (*('CALLE DE ARTURO SORIA 277 MADRID',), **{}).
Traceback (most recent call last):
  File "C:\Users\alejo\Anaconda3\lib\urllib\request.py", line 1317, in do_open
    encode_chunked=req.has_header('Transfer-encoding'))
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1229, in request
    self._send_request(method, url, body, headers, encode_chunked)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1275, in _send_request
    self.endheaders(body, encode_chunked=encode_chunked)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1224, in endheaders
    self._send_output(message_body, encode_chunked=encode_chunked)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1016, in _send_output
    self.send(msg)
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 956, in send
    self.connect()
  File "C:\Users\alejo\Anaconda3\lib\http\client.py", line 1384, in connect
    super().connect()
  

Finalmente, utilizamos un bucle para extraer cada latitud y longitud para almacenarlos en la tabla. **Es importante tener en cuenta** que dado que son cientos de solicitudes al cliente, se deben realizar de manera espaciada para evitar ser bloqueados. También destacar que tarda un poco el proceso.

In [39]:
acc['point'] = acc['location'].apply(lambda fila: tuple(fila.point) if fila else None)
acc['latitud'] = acc['location'].apply(lambda fila: fila.latitude if fila else None)
acc['longitud'] = acc['location'].apply(lambda fila: fila.longitude if fila else None)

Para tener un desempeño optimo de la memoria ocupada por cada dataset convertimos algunas variables de formato texto a formato `categórico`. 

In [25]:
acc.lluvia = acc.lluvia.astype('category')
acc.mojado = acc.mojado.astype('category')

Al haber hecho la conversión de las columnas `rango hora` y `rango edad`, a formatos mas útiles, los podemos eliminar de la tabla. Adicionalmente, al haber unificado la información de lugar, incluyendo el número y dirección, también podemos eliminar las columnas de `lugar` y `numero`.

In [26]:
acc = acc.drop(['rango_hora', 'rango_edad', 'lugar', 'numero'], 1)

In [27]:
acc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 16 columns):
fecha             700 non-null datetime64[ns]
dia_semana        700 non-null object
distrito          700 non-null object
lluvia            700 non-null category
mojado            700 non-null category
victimas          700 non-null int64
tipo_accidente    700 non-null object
sexo              700 non-null object
lesividad         700 non-null object
horain            700 non-null object
edad              679 non-null float64
mes               700 non-null int64
direccion         700 non-null object
location          620 non-null object
latitud           620 non-null float64
longitud          620 non-null float64
dtypes: category(2), datetime64[ns](1), float64(3), int64(2), object(8)
memory usage: 78.2+ KB


### Análisis Exploratorio Estadistico y Visual

Una vez que contamos con los datos que deseamos evaluar y los tenemos disponibles en el formato deseado podemos empezar a explorar los resultados para tener una idea de la distribución de las variables y como están relacionadas. 

Para realizar esta tarea podemos utilizar herramientas estadísticas como la desviación estandar, media, mediana, máximos y mínimos. Tambien podemos utiliar histogramas y gráficos de dispersión.

_Empezamos_, analizando con mayor profundidad las columnas de interés. Detallamos los resultados y su **distribución**, de las siguientes columnas:

* Número de victimas

In [73]:
acc['victimas'].value_counts(dropna=False)

1     628
2      67
3       4
15      1
Name: victimas, dtype: int64

En la columna de victimas vemos que hay un outlier que puede contaminar la muestra y dificultar el análisis gráfico de las variables. Por lo cual, haremos una copia de la tabla que no incluya este valor.

In [28]:
acc_2 = acc[acc['victimas'] < 14]

* Tipo de Accidente

In [75]:
acc['tipo_accidente'].value_counts(normalize=True, dropna=False)

COLISIÓN DOBLE            0.450000
CAÍDA BICICLETA           0.421429
ATROPELLO                 0.087143
CHOQUE CON OBJETO FIJO    0.022857
CAÍDA MOTOCICLETA         0.010000
COLISIÓN MÚLTIPLE         0.007143
CAÍDA VIAJERO BUS         0.001429
Name: tipo_accidente, dtype: float64

* Lesividad

In [29]:
acc['lesividad'].value_counts(dropna=False)

HL             569
IL              62
HG              60
NO ASIGNADA      9
Name: lesividad, dtype: int64

* Lluvia

In [30]:
acc['lluvia'].value_counts(dropna=False)

NO    633
SI     67
Name: lluvia, dtype: int64

* Distrito

In [31]:
acc['distrito'].value_counts(dropna=False)

CENTRO                 124
RETIRO                  52
MONCLOA-ARAVACA         51
CHAMBERI                51
SALAMANCA               48
CARABANCHEL             36
LATINA                  35
TETUAN                  34
ARGANZUELA              33
FUENCARRAL-EL PARDO     33
PUENTE DE VALLECAS      29
CHAMARTIN               26
CIUDAD LINEAL           26
SAN BLAS                24
HORTALEZA               22
USERA                   18
VILLA DE VALLECAS       15
MORATALAZ               13
VILLAVERDE              12
VICALVARO               10
BARAJAS                  8
Name: distrito, dtype: int64

* Dia de la Semana

In [32]:
acc['dia_semana'].value_counts(dropna=False)

JUEVES       117
MARTES       106
VIERNES      101
MIERCOLES    100
SABADO        99
LUNES         91
DOMINGO       86
Name: dia_semana, dtype: int64

* Hora Inicial

In [33]:
acc['horain'].value_counts(dropna=False)

19:00    60
13:00    53
18:00    50
15:00    47
9:00     46
21:00    45
16:00    45
12:00    41
20:00    40
14:00    39
11:00    38
10:00    34
22:00    30
17:00    27
8:00     26
00:00    16
7:00     16
23:00    13
1:00      9
2:00      7
5:00      5
3:00      5
4:00      5
6:00      3
Name: horain, dtype: int64

* Sexo

In [34]:
acc['sexo'].value_counts(dropna=False)

HOMBRE         547
MUJER          142
NO ASIGNADO     11
Name: sexo, dtype: int64

* Edad

In [35]:
acc['edad'].value_counts(dropna=False)

 27.0    112
 32.0    102
 37.0     83
 42.0     79
 47.0     56
 52.0     48
 19.0     47
 22.5     40
 57.0     36
 16.0     25
NaN       21
 12.0     18
 62.0     14
 67.0     11
 72.0      8
Name: edad, dtype: int64

In [36]:
acc['mes'].value_counts(dropna=False)

9     80
6     79
7     71
10    69
11    62
8     61
5     60
4     54
1     53
2     44
3     34
12    33
Name: mes, dtype: int64

De este análisis podemos concluir que a grandes rasgos no hay problemas masivos con la calidad de los datos. En la columna de edad tenemos 21 `missing values`, en la columna de sexo hay 11 resultados no asignados, en la columna de lesividad hay 9 resultados no asignados, las columnas de latitud y longitud si cuentan con al rededor de 80 `missing values` pero las demás columnas tienen valores completos en la totalidad de sus observaciones.

Volvemos a realizar las funciones de info y describe para ver como los cambios han afectado las columnas, los tipo de datos, el peso del archivo y, de las variables numéricas, observar la media, error estandar, máximo, mínimo y percentiles. Podemos ver que el archvo paso de 142.3+ KB a 78.0+ KB. Previamente habian int64(1), object(25) y pasamos a category(2), datetime64ns(1), float64(3), int64(2), object(7).

In [None]:
acc.info()

De las variables numericas podemos concluir que la mayoria de los accidentes tienen solo una victima y que la edad promedio es de 36 años.

In [37]:
acc.describe()

Unnamed: 0,victimas,edad,mes,latitud,longitud
count,700.0,679.0,700.0,620.0,620.0
mean,1.127143,36.004418,6.722857,40.38905,-3.84272
std,0.618832,13.315714,3.192049,0.851626,4.019852
min,1.0,12.0,1.0,19.267568,-103.750321
25%,1.0,27.0,4.0,40.402443,-3.709328
50%,1.0,32.0,7.0,40.421286,-3.69427
75%,1.0,47.0,9.0,40.442864,-3.666808
max,15.0,72.0,12.0,40.828176,-3.258192


**Después**, hacemos una serie de agrupaciones para ver como se comportan los datos entre las variables.

En primer lugar, evaluamos el distrito con el dia de semana, agrupado por la sumatoria de las victimas. Con esto podemos ver que dias de la semana hay más accidentes por distrito.

In [8]:
tmp = acc18.groupby(['distrito', 'dia_semana']).agg({'victimas': 'sum'})
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,victimas
distrito,dia_semana,Unnamed: 2_level_1
ARGANZUELA,DOMINGO,3
ARGANZUELA,JUEVES,8
ARGANZUELA,LUNES,8
ARGANZUELA,MARTES,6
ARGANZUELA,MIERCOLES,7
ARGANZUELA,SABADO,4
ARGANZUELA,VIERNES,1
BARAJAS,JUEVES,1
BARAJAS,LUNES,2
BARAJAS,MIERCOLES,1


Ahora, agrupamos por dia de semana y tipo de lesividad agregando por la suma de las victimas, para evaluar si varian la gravedad de las lesiones por dia de la semana. A gran escala vemos que las variables mantienen un comportamiento proporcional entre los diferentes dias de la semana. 

In [12]:
tmp = acc.groupby(['sexo', 'lesividad']).agg({'victimas': 'sum'})
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,victimas
sexo,lesividad,Unnamed: 2_level_1
HOMBRE,HG,54
HOMBRE,HL,497
HOMBRE,IL,75
MUJER,HG,14
MUJER,HL,135
MUJER,IL,1
NO ASIGNADO,IL,3
NO ASIGNADO,NO ASIGNADA,10


Realizamos una agrupación por distrito, evaluando la mediana de la edad. Vemos que la mayoría de los distritos tienen una mediana de 30 o mas años. Habiendo uúicamente una excepción de 22 años y 5 con al menos 40 años.

In [70]:
tmp = acc.groupby(['distrito']).agg({'edad': 'median'})
tmp

Unnamed: 0_level_0,edad
distrito,Unnamed: 1_level_1
ARGANZUELA,37.0
BARAJAS,32.0
CARABANCHEL,34.5
CENTRO,32.0
CHAMARTIN,34.5
CHAMBERI,32.0
CIUDAD LINEAL,32.0
FUENCARRAL-EL PARDO,42.0
HORTALEZA,44.5
LATINA,42.0


Hacemos una agrupación para ver como se distribuyen los tipos de accidente entre los meses del año. De la tabla, podemos ver que la cantidad de accidentes tiene un comportamiento proporcional a través del tiempo. Siendo las categorias de **CAÍDA BICICLETA** y **COLISIÓN DOBLE** las mas recurrentes todos los meses.

In [77]:
tmp = acc.groupby(['mes', 'tipo_accidente']).agg({'tipo_accidente': 'count'})
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,tipo_accidente
mes,tipo_accidente,Unnamed: 2_level_1
1,ATROPELLO,3
1,CAÍDA BICICLETA,21
1,CAÍDA MOTOCICLETA,1
1,CHOQUE CON OBJETO FIJO,1
1,COLISIÓN DOBLE,26
1,COLISIÓN MÚLTIPLE,1
2,ATROPELLO,3
2,CAÍDA BICICLETA,14
2,CHOQUE CON OBJETO FIJO,1
2,COLISIÓN DOBLE,26


Adicional a las agrupaciones podemos realizar filtros deseados para encontrar resultados específicos dentro de la tabla.

Hacemos una búsqueda de los accidentes ocurridos en lunes del tipo atropello. Vemos que hay 11 observaciones, que ninguno ocurrió con lluvia o estado mojado y todos de hombres. 

In [38]:
acc[(acc['dia_semana'] == 'LUNES') & (acc['tipo_accidente'] == 'ATROPELLO')]

Unnamed: 0,fecha,dia_semana,distrito,lluvia,mojado,victimas,tipo_accidente,sexo,lesividad,horain,edad,mes,direccion,location,latitud,longitud
1,2018-01-01 15:00:00,LUNES,CENTRO,NO,NO,2,ATROPELLO,HOMBRE,HL,15:00,27.0,1,CALLE DE ALCALA 44,"(Bankia, 44, Calle de Alcalá, Cortes, Centro, ...",40.418542,-3.696113
133,2018-04-02 15:00:00,LUNES,RETIRO,NO,NO,1,ATROPELLO,HOMBRE,IL,15:00,27.0,4,AVENIDA DE LA CIUDAD DE BARCELONA 144,"(Avenida de la Ciudad de Barcelona, Adelfas, R...",40.401107,-3.674537
134,2018-04-02 18:00:00,LUNES,RETIRO,NO,NO,1,ATROPELLO,HOMBRE,IL,18:00,42.0,4,PASEO DE LA INFANTA ISABEL,"(Paseo de la Infanta Isabel, Jerónimos, Arganz...",40.407543,-3.689555
184,2018-04-30 12:00:00,LUNES,SAN BLAS,NO,NO,1,ATROPELLO,HOMBRE,HL,12:00,52.0,4,CALLE DE DEYANIRA 23,"(Calle de Deyanira, Rejas, San Blas - Canillej...",40.44258,-3.583105
360,2018-07-16 17:00:00,LUNES,MORATALAZ,NO,NO,1,ATROPELLO,HOMBRE,IL,17:00,27.0,7,CALLE DEL ARROYO FONTARRON 79,"(79, Calle del Arroyo Fontarrón, Fontarrón, Mo...",40.401184,-3.648323
477,2018-09-10 09:00:00,LUNES,ARGANZUELA,NO,NO,2,ATROPELLO,HOMBRE,HL,9:00,47.0,9,PASEO DE SANTA MARIA DE LA CABEZA 76,"(Bankia, Paseo de Santa María de la Cabeza, Ch...",40.397514,-3.702164
512,2018-09-24 11:00:00,LUNES,VILLA DE VALLECAS,NO,NO,1,ATROPELLO,HOMBRE,IL,11:00,19.0,9,CALLE REAL DE ARGANDA 10,"(Calle Real de Arganda, Casco Histórico de Val...",40.379587,-3.619865
536,2018-10-01 11:00:00,LUNES,CARABANCHEL,NO,NO,1,ATROPELLO,HOMBRE,IL,11:00,62.0,10,GLORIETA DEL VALLE DE ORO 2,"(Glorieta del Valle de Oro, Carabanchel, Madri...",40.387618,-3.730214
572,2018-10-15 14:00:00,LUNES,CIUDAD LINEAL,NO,NO,1,ATROPELLO,HOMBRE,IL,14:00,52.0,10,AVENIDA DE DAROCA 90,"(Avenida de Daroca, Ventas, Ciudad Lineal, Mad...",40.422872,-3.638983
588,2018-10-22 16:00:00,LUNES,SALAMANCA,NO,NO,1,ATROPELLO,HOMBRE,IL,16:00,37.0,10,CALLE DE ALCALA,"(Calle de Alcalá, Ajalvir, Cuenca del Medio Ja...",40.534092,-3.4784


Ademas de los filtros, podemos organizar los resultados por campo. En este caso, buscamos los accidentes de lesividad de herida grave, de hombres en el mes de septiembre. Todo ordenado por orden alfabético del distrito.

In [76]:
acc[(acc['lesividad'] == 'HG') & (acc['sexo'] == 'HOMBRE') & (acc['mes'] == 9.0)].sort_values('distrito')

Unnamed: 0,fecha,rango_hora,dia_semana,distrito,lugar,numero,lluvia,mojado,victimas,tipo_accidente,sexo,lesividad,rango_edad,horain,edad,mes,direccion,location,latitud
497,2018-09-19 09:00:00,DE 9:00 A 9:59,MIERCOLES,CARABANCHEL,GLORIETA DEL MARQUES DE VADILLO NUM,1.0,NO,NO,1,COLISIÓN DOBLE,HOMBRE,HG,DE 30 A 34 ANOS,9:00,32.0,9,GLORIETA DEL MARQUES DE VADILLO 1,<geopy.extra.rate_limiter.RateLimiter object a...,
499,2018-09-19 21:00:00,DE 21:00 A 21:59,MIERCOLES,CARABANCHEL,PARQUE DE MADRID RIO (RIBERA OESTE) KM.,5600.0,NO,NO,1,CAÍDA BICICLETA,HOMBRE,HG,DE 40 A 44 AÑOS,21:00,42.0,9,PARQUE DE MADRID RIO (RIBERA OESTE) KM. 5600,<geopy.extra.rate_limiter.RateLimiter object a...,
524,2018-09-28 08:00:00,DE 8:00 A 8:59,VIERNES,MONCLOA-ARAVACA,CARRETERA DE RODAJOS,0.0,NO,NO,2,ATROPELLO,HOMBRE,HG,DE 30 A 34 ANOS,8:00,32.0,9,CARRETERA DE RODAJOS,<geopy.extra.rate_limiter.RateLimiter object a...,
535,2018-09-30 12:00:00,DE 12:00 A 12:59,DOMINGO,MONCLOA-ARAVACA,CAMINO DEL PRINCIPE NUM,2.0,NO,NO,1,CAÍDA BICICLETA,HOMBRE,HG,DE 55 A 59 AÑOS,12:00,57.0,9,CAMINO DEL PRINCIPE 2,<geopy.extra.rate_limiter.RateLimiter object a...,
474,2018-09-08 18:00:00,DE 18:00 A 18:59,SABADO,RETIRO,CALLE DE CLAUDIO MOYANO NUM,2.0,NO,NO,1,CAÍDA BICICLETA,HOMBRE,HG,DE 25 A 29 AÑOS,18:00,27.0,9,CALLE DE CLAUDIO MOYANO 2,<geopy.extra.rate_limiter.RateLimiter object a...,


### Series de Tiempo

Con Pandas podemos convertir las tablas en series de tiempo. Esto se puede lograr asignandole al indice una columna de fecha. De esta forma, podemos agregar o desagregar la información segun la periodicidad deseada. 

In [None]:
accT = acc.set_index(acc.fecha)

Esto nos permite realizar filtros por fechas o rangos de fechas.

In [None]:
accT.loc['2018-01-01 10:00' : '2018-01-07 23:59'].head()

Adicionalmente podemos crear nuevas tablas agregando por la periodicidad deseada y escogiendo una función de agregación como suma, promedio, mediana, máximo, mínimo, etc.

En este caso, generamos una tabla con una periodicidad diaria, agregando los resultados.

In [None]:
acc_dia = accT.resample('D').count()

Para poder construir gráficas con la variabe de fecha, sobreescribimos la columna fecha con los valores del índice. 

In [None]:
acc_dia.fecha = acc_dia.index
acc_dia.head()

Otro escenario construido, fue agregando con una periodicidad mensual con base en la mediana. Esta fórmula conserva únicamente variables numéricas. Nos permite ver la mediana de la edad en cada mes del año.

In [None]:
acc_mes = accT.resample('M').median()

In [None]:
acc_mes['fecha1'] = acc_mes.index
acc_mes.head()

Podemos visualizar esta información con una gráfica de linea. De la cual, podemos concluir que en abril es excepcionalmente bajo, llegando a los 25 años. Mientras que, la mayoría de los meses oscila entre 30 y 35 años.

In [None]:
g = sns.lineplot(x='fecha1', y='edad', estimator ='sum',
                 data=acc_mes)

plt.title('Mediana de la edad por fecha')
plt.xlabel('Fecha')
plt.ylabel("Edad")
plt.show()

Por ultimo, hacemos una tabla de periodicidad mensual, sumando los valores.

In [None]:
acc_mes_sum = accT.resample('M').sum()

Al estar el mes en un formato numérico, se han sumado las observaciones por mes, por lo cual redefinimos los valores de la columna.

In [None]:
acc_mes_sum['fecha1'] = acc_mes_sum.index
acc_mes_sum['mes'] = ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']
acc_mes_sum.head()

Para visualizar los resultados, utilizamos una gráfica de barras para medir los meses donde hay mas víctimas. Siendo la mediana del número de víctimas 1 y el promedio 1.10, vemos que el número de víctimas se comporta de forma similar a la cantidad de accidentes. Podemos concluir que junio y septiembre son los meses donde hay mas víctimas. Diciembre y marzo, son los meses donde menos víctimas hay. 

In [None]:
g = sns.barplot(x='mes', y='victimas', palette = 'Set1', saturation=0.75,
                data=acc_mes_sum)

plt.title('Numero de victimas por mes')
plt.xlabel('Mes')
plt.ylabel("Numero de victimas")
plt.show()

### Exportamos los Archivos y Juntamos las Tablas

Al haber finalizado la limpieza y el análisis del archivo podemos exportar la version final a un archivo de CSV. Adicionalmente, podemos aplicar el mismo tratamiento a los archivos de 2016 y 2017 y juntarlos en un solo archivo.

    Guardamos el archivo de 2018.

In [None]:
acc.to_csv('../dat/accidentes2018.csv')

Aplicamos el tratamiento al archivo del 2017

In [None]:
acc2017 = pd.read_csv("../data/AccidentesBicicletas_2017.csv", index_col=False, encoding = "ISO-8859-1", sep=';')

In [None]:
acc17 = acc17.drop(['Nº PARTE', 'CPFA Granizo', 'CPFA Hielo',
       'CPFA Niebla', 'CPFA Seco', 'CPFA Nieve', 'CPSV Aceite',
       'CPSV Barro', 'CPSV Grava Suelta', 'CPSV Hielo', 'CPSV Seca Y Limpia', 'Tipo Vehiculo', 'TIPO PERSONA'], 1)

acc17.columns = ['fecha', 'rango_hora', 'dia_semana', 'distrito', 'lugar', 'numero', 'lluvia', 'mojado', 'victimas', 
             'tipo_accidente', 'sexo', 'lesividad', 'rango_edad']
#Al tener la ultima fila solo valores inexistentes debemos eliminarla para poder aplicar la limpieza de datos
acc17 = acc17.iloc[:756, :]
acc17['horain'] = acc17.apply(extrae_hora, axis = 1)
acc17['fecha'] = acc17.fecha + ' ' + acc2017.horain
acc17.fecha = acc17.fecha.apply(parse_fecha)
acc17['edad'] = acc17.apply(extrae_edad, axis = 1)
acc17['edad'] = pd.to_numeric(acc17['edad'], errors='coerce')
acc17['mes'] = acc17.apply(lambda fila: fila.fecha.month, axis=1)
acc17['direccion'] = acc17.apply(extrae_calle, axis = 1)
acc17 = acc17.apply(lambda fila: fila.str.strip() if fila.dtype == 'object' else fila)
acc17['numero'] = pd.to_numeric(acc17['numero'], errors='coerce')
acc17['direccion'] = acc17.apply(suma_num, axis = 1)

In [None]:
acc17['location'] = [location(i) for i in acc17.direccion]

In [None]:
acc17['point'] = acc17['location'].apply(lambda fila: tuple(fila.point) if fila else None)
acc17['latitud'] = acc17['location'].apply(lambda fila: fila.latitude if fila else None)
acc17['longitud'] = acc17['location'].apply(lambda fila: fila.longitude if fila else None)

In [None]:
acc17.lluvia = acc17.lluvia.astype('category')
acc17.mojado = acc17.mojado.astype('category')
acc17['victimas'] = pd.to_numeric(acc17['victimas'], errors='coerce', downcast='integer')

In [None]:
acc17 = acc17.drop(['rango_hora', 'rango_edad', 'lugar', 'numero'], 1)

    Guardamos el archivo de 2017.

In [None]:
acc17.to_csv('../dat/accidentes17.csv')

Aplicamos el tratamiento al archivo del 2016.

In [None]:
acc16 = pd.read_csv("../data/AccidentesBicicletas_2016.csv", index_col=False, encoding = "ISO-8859-1", sep=';')

In [None]:
acc16 = acc16.drop(['Nº PARTE', 'CPFA Granizo', 'CPFA Hielo',
       'CPFA Niebla', 'CPFA Seco', 'CPFA Nieve', 'CPSV Aceite',
       'CPSV Barro', 'CPSV Grava Suelta', 'CPSV Hielo', 'CPSV Seca Y Limpia', 'Tipo Vehiculo', 'TIPO PERSONA'], 1)

acc16.columns = ['fecha', 'rango_hora', 'dia_semana', 'distrito', 'lugar', 'numero', 'lluvia', 'mojado', 'victimas', 
             'tipo_accidente', 'sexo', 'lesividad', 'rango_edad']
#Al tener la ultima fila solo valores inexistentes debemos eliminarla para poder aplicar la limpieza de datos
acc16 = acc16.iloc[:757, :]
acc16['horain'] = acc16.apply(extrae_hora, axis = 1)
acc16['fecha'] = acc16.fecha + ' ' + acc2016.horain
acc16.fecha = acc16.fecha.apply(parse_fecha)
acc16['edad'] = acc16.apply(extrae_edad, axis = 1)
acc16['edad'] = pd.to_numeric(acc16['edad'], errors='coerce')
acc16['mes'] = acc16.apply(lambda fila: fila.fecha.month, axis=1)
acc16['direccion'] = acc16.apply(extrae_calle, axis = 1)
acc16 = acc16.apply(lambda fila: fila.str.strip() if fila.dtype == 'object' else fila)
acc16['numero'] = pd.to_numeric(acc16['numero'], errors='coerce')
acc16['direccion'] = acc16.apply(suma_num, axis = 1)

In [None]:
acc16['location'] = [location(i) for i in acc16.direccion]

In [None]:
acc16['point'] = acc16['location'].apply(lambda fila: tuple(fila.point) if fila else None)
acc16['latitud'] = acc16['location'].apply(lambda fila: fila.latitude if fila else None)
acc16['longitud'] = acc16['location'].apply(lambda fila: fila.longitude if fila else None)

In [None]:
acc16.lluvia = acc16.lluvia.astype('category')
acc16.mojado = acc16.mojado.astype('category')
acc16['victimas'] = pd.to_numeric(acc2016['victimas'], errors='coerce', downcast='integer')

In [None]:
acc16 = acc16.drop(['rango_hora', 'rango_edad', 'lugar', 'numero'], 1)

    Guardamos el archivo de 2016.

In [None]:
acc16.to_csv('../dat/accidentes16.csv')

Aplicamos el tratamiento al archivo del 2015

In [None]:
acc15 = pd.read_csv("../data/AccidentesBicicletas_2015.csv", index_col=False, encoding = "ISO-8859-1", sep=';')

In [None]:
acc15 = acc15.drop(['Nº PARTE', 'CPFA Granizo', 'CPFA Hielo',
       'CPFA Niebla', 'CPFA Seco', 'CPFA Nieve', 'CPSV Aceite',
       'CPSV Barro', 'CPSV Grava Suelta', 'CPSV Hielo', 'CPSV Seca Y Limpia', 'Tipo Vehiculo', 'TIPO PERSONA'], 1)

acc15.columns = ['fecha', 'rango_hora', 'dia_semana', 'distrito', 'lugar', 'numero', 'lluvia', 'mojado', 'victimas', 
             'tipo_accidente', 'sexo', 'lesividad', 'rango_edad']

#Al tener la ultima fila solo valores inexistentes debemos eliminarla para poder aplicar la limpieza de datos
acc15 = acc15.iloc[:748, :]
acc15['horain'] = acc15.apply(extrae_hora, axis = 1)
acc15['fecha'] = acc15.fecha + ' ' + acc15.horain
acc15.fecha = acc15.fecha.apply(parse_fecha)
acc15['edad'] = acc15.apply(extrae_edad, axis = 1)
acc15['edad'] = pd.to_numeric(acc15['edad'], errors='coerce')
acc15['mes'] = acc15.apply(lambda fila: fila.fecha.month, axis=1)
acc15['direccion'] = acc15.apply(extrae_calle, axis = 1)
acc15 = acc15.apply(lambda fila: fila.str.strip() if fila.dtype == 'object' else fila)
acc15['numero'] = pd.to_numeric(acc15['numero'], errors='coerce')
acc15['direccion'] = acc15.apply(suma_num, axis = 1)

In [None]:
acc15['location'] = [location(i) for i in acc15.direccion]

In [None]:
acc15['point'] = acc15['location'].apply(lambda fila: tuple(fila.point) if fila else None)
acc15['latitud'] = acc15['location'].apply(lambda fila: fila.latitude if fila else None)
acc15['longitud'] = acc15['location'].apply(lambda fila: fila.longitude if fila else None)

In [None]:
acc15.lluvia = acc15.lluvia.astype('category')
acc15.mojado = acc15.mojado.astype('category')
acc15['victimas'] = pd.to_numeric(acc15['victimas'], errors='coerce', downcast='integer')

In [None]:
acc15 = acc15.drop(['rango_hora', 'rango_edad', 'lugar', 'numero', 'location'], 1)

In [None]:
acc15.to_csv('../dat/accidentes15.csv')

Aplicamos el tratamiento al archivo del 2014

In [None]:
acc14 = pd.read_csv("../data/AccidentesBicicletas_2014.csv", index_col=False, encoding = "ISO-8859-1", sep=';')

In [None]:
acc14 = acc14.drop(['Nº PARTE', 'CPFA Granizo', 'CPFA Hielo',
       'CPFA Niebla', 'CPFA Seco', 'CPFA Nieve', 'CPSV Aceite',
       'CPSV Barro', 'CPSV Grava Suelta', 'CPSV Hielo', 'CPSV Seca Y Limpia', 'Tipo Vehiculo', 'TIPO PERSONA'], 1)

acc14.columns = ['fecha', 'rango_hora', 'dia_semana', 'distrito', 'lugar', 'numero', 'lluvia', 'mojado', 'victimas', 
             'tipo_accidente', 'sexo', 'lesividad', 'rango_edad']

#Al tener la ultima fila solo valores inexistentes debemos eliminarla para poder aplicar la limpieza de datos
acc14 = acc14.iloc[:748, :]
acc14['horain'] = acc14.apply(extrae_hora, axis = 1)
acc14['fecha'] = acc14.fecha + ' ' + acc15.horain
acc14.fecha = acc14.fecha.apply(parse_fecha)
acc14['edad'] = acc14.apply(extrae_edad, axis = 1)
acc14['edad'] = pd.to_numeric(acc14['edad'], errors='coerce')
acc14['mes'] = acc14.apply(lambda fila: fila.fecha.month, axis=1)
acc14['direccion'] = acc14.apply(extrae_calle, axis = 1)
acc14 = acc14.apply(lambda fila: fila.str.strip() if fila.dtype == 'object' else fila)
acc14['numero'] = pd.to_numeric(acc14['numero'], errors='coerce')
acc14['direccion'] = acc14.apply(suma_num, axis = 1)

In [None]:
acc15['location'] = [location(i) for i in acc15.direccion]

In [None]:
acc15['point'] = acc15['location'].apply(lambda fila: tuple(fila.point) if fila else None)
acc15['latitud'] = acc15['location'].apply(lambda fila: fila.latitude if fila else None)
acc15['longitud'] = acc15['location'].apply(lambda fila: fila.longitude if fila else None)

In [None]:
acc14.lluvia = acc14.lluvia.astype('category')
acc14.mojado = acc14.mojado.astype('category')
acc14['victimas'] = pd.to_numeric(acc14['victimas'], errors='coerce', downcast='integer')

In [None]:
acc14 = acc14.drop(['rango_hora', 'rango_edad', 'lugar', 'numero', 'location'], 1)

In [None]:
acc14.to_csv('../dat/accidentes14.csv')

Realizamos varios `Concat` para juntar los conjuntos de datos

In [None]:
tmp = pd.concat([acc, acc17], ignore_index=True)
tmp2 = pd.concat([tmp, acc16], ignore_index=True)
tmp3 = pd.concat([tmp2, acc15], ignore_index=True)
acc_data = pd.concat([tmp3, acc14], ignore_index=True)

In [None]:
def limp(e):
    return e.direccion.replace("'", '')

acc_data['direccion'] = acc_data.apply(limp, axis = 1)

In [None]:
import math
def remove_Nan(element):
    if math.isnan(element):
        return 0
    else:
        return element
    
acc_data['edad'] = acc_data.edad.apply(remove_Nan)
acc_data['latitud'] = acc_data.latitud.apply(remove_Nan)
acc_data['longitud'] = acc_data.longitud.apply(remove_Nan)

Cargamos la información a la base de datos

In [None]:
import psycopg2 as pg

In [None]:
conn = pg.connect("postgres://user:paswword@postgre-sqltest.cpdzufj1.us-west-2.rds.amazonaws.com:0000/postgres")  

cur = conn.cursor()
for index, row in data2.iterrows():
    insert_query = "insert into accidents(date, week_day, district, rain, wet, victims, accident_type, sex, injury, age, adress, latitude, longitude) VALUES ('{0}', '{1}', '{2}', '{3}', '{4}', {5}, '{6}', '{7}', '{8}', {9}, '{10}', {11}, {12})".format(row.fecha, row.dia_semana, row.distrito, row.lluvia, row.mojado, row.victimas, row.tipo_accidente, row.sexo, row.lesividad, row.edad, row.direccion, row.latitud, row.longitud)
    cur.execute(insert_query)
conn.commit()
conn.close()

    Guardamos el archivo agrupado

In [None]:
acc_data.to_csv('../dat/accidents_ds.csv')