## Causalidad accidentes
A continuación se va a realizar la limpieza de los datos de accidentes gestionados por la Guardia Urbana en la ciudad de Barcelona según causalidad, obtenidos en la web de Open Data BCN

Importar la herramienta de pandas que permite trabajar sobre los datos 

In [1]:
import pandas as pd
import re
from datetime import date, datetime

Exportar los csv

In [2]:
causalidad_accidentes_2015 = pd.read_csv('causalidad15.csv', index_col=False)
causalidad_accidentes_2016 = pd.read_csv('causalidad16.csv', index_col=False)
causalidad_accidentes_2017 = pd.read_csv('causalidad17.csv', index_col=False)

Inspeccionar los tipos de datos de cada tabla y la cantidad de filas y columnas

In [3]:
causalidad_accidentes_2015.dtypes

Número d expedient          object
Codi districte               int64
Nom districte               object
Codi barri                   int64
Nom barri                   object
Codi carrer                  int64
Nom carrer                  object
Num postal caption          object
Descripció dia setmana      object
Dia setmana                 object
Descripció tipus dia        object
NK Any                       int64
Mes de any                   int64
Nom mes                     object
Dia de mes                   int64
Hora de dia                  int64
Descripció torn             object
Descripció causa mediata    object
Coordenada UTM (Y)          object
Coordenada UTM (X)          object
dtype: object

In [4]:
causalidad_accidentes_2015.shape

(10020, 20)

In [5]:
causalidad_accidentes_2016.dtypes

Número d'expedient           object
Codi districte                int64
Nom districte                object
Codi barri                    int64
Nom barri                    object
Codi carrer                   int64
Nom carrer                   object
Num postal caption           object
Descripció dia setmana       object
Dia setmana                  object
Descripció tipus dia         object
NK Any                        int64
Mes de any                    int64
Nom mes                      object
Dia de mes                    int64
Hora de dia                   int64
Descripció torn              object
Descripció causa mediata     object
Coordenada UTM (X)           object
Coordenada UTM (Y)           object
Long                        float64
Lat                         float64
dtype: object

In [6]:
causalidad_accidentes_2016.shape

(10157, 22)

In [7]:
causalidad_accidentes_2017.dtypes

Número_d'expedient           object
Codi_districte                int64
Nom_districte                object
Codi_barri                    int64
Nom_barri                    object
Codi_carrer                   int64
Nom_carrer                   object
Carrer_Original              object
Num_postal                   object
Descripció_dia_setmana       object
Dia_setmana                  object
Descripció_tipus_dia         object
NK Any                        int64
Mes_de_any                    int64
Nom_mes                      object
Dia_de_mes                    int64
Hora_de_dia                   int64
Descripció_torn              object
Descripció_causa_mediata     object
Coordenada_UTM_(X)           object
Coordenada_UTM_(Y)           object
Longitud                    float64
Latitud                     float64
dtype: object

In [8]:
causalidad_accidentes_2017.shape

(10343, 23)

A continuación se seleccionan en cada uno de los 3 DataFrames las columnas de interés; en el caso de causalidad de accidentes se utilizan el número de expediente, el codigo del distrito, el nombre del distrito, el codigo del barrio, el nombre del barrio, el día de la semana, el año, el mes, el día, la hora, la causalidad y las dos coordenadas UTM.
En segundo lugar se renombran los nombres de las columnas al castellano para luego poder juntar los 3 DataFrames.

In [9]:
columnas = [0,1,2,3,4,8,11,12,14,15,17,18,19]
causalidad_accidentes_2015 = causalidad_accidentes_2015.iloc[:,columnas]
causalidad_accidentes_2015.head()

Unnamed: 0,Número d expedient,Codi districte,Nom districte,Codi barri,Nom barri,Descripció dia setmana,NK Any,Mes de any,Dia de mes,Hora de dia,Descripció causa mediata,Coordenada UTM (Y),Coordenada UTM (X)
0,2015S005022,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dimarts,2015,6,30,0,No hi ha causa mediata,458529235,43183105
1,2015S000390,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dissabte,2015,1,17,0,No hi ha causa mediata,458515793,43147227
2,2015S001866,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dimecres,2015,3,11,8,No hi ha causa mediata,458545806,43163478
3,2015S004932,10,Sant Martí,64,el Camp de l'Arpa del Clot,Divendres,2015,6,26,14,No hi ha causa mediata,458496211,43147434
4,2015S007776,10,Sant Martí,64,el Camp de l'Arpa del Clot,Divendres,2015,10,16,16,No hi ha causa mediata,458501037,43137826


In [10]:
causalidad_accidentes_2015.rename(columns={"Número d expedient":'Num_expediente',"Codi districte":"Cod_distrito","Nom districte":"Nombre_distrito","Codi barri":"Cod_barrio","Nom barri":"Nombre_barrio","Descripció dia setmana":"Dia_semana","NK Any":"Anio","Mes de any":"Mes","Dia de mes":"Dia","Hora de dia":"Hora","Descripció causa mediata":"Causalidad","Coordenada UTM (Y)":"UTM_Y","Coordenada UTM (X)":"UTM_X"}, inplace=True)
causalidad_accidentes_2015.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Anio,Mes,Dia,Hora,Causalidad,UTM_Y,UTM_X
0,2015S005022,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dimarts,2015,6,30,0,No hi ha causa mediata,458529235,43183105
1,2015S000390,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dissabte,2015,1,17,0,No hi ha causa mediata,458515793,43147227
2,2015S001866,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dimecres,2015,3,11,8,No hi ha causa mediata,458545806,43163478
3,2015S004932,10,Sant Martí,64,el Camp de l'Arpa del Clot,Divendres,2015,6,26,14,No hi ha causa mediata,458496211,43147434
4,2015S007776,10,Sant Martí,64,el Camp de l'Arpa del Clot,Divendres,2015,10,16,16,No hi ha causa mediata,458501037,43137826


In [11]:
causalidad_accidentes_2016 = causalidad_accidentes_2016.iloc[:,columnas]
causalidad_accidentes_2016.head()

Unnamed: 0,Número d'expedient,Codi districte,Nom districte,Codi barri,Nom barri,Descripció dia setmana,NK Any,Mes de any,Dia de mes,Hora de dia,Descripció causa mediata,Coordenada UTM (X),Coordenada UTM (Y)
0,2016S004659,5,Sarrià-Sant Gervasi,22,"Vallvidrera, el Tibidabo i les Planes",Dimecres,2016,6,15,11,No hi ha causa mediata,42360683,458684304
1,2016S008630,5,Sarrià-Sant Gervasi,22,"Vallvidrera, el Tibidabo i les Planes",Dijous,2016,11,10,19,No hi ha causa mediata,42424909,458652704
2,2016S009877,5,Sarrià-Sant Gervasi,22,"Vallvidrera, el Tibidabo i les Planes",Dimecres,2016,12,21,18,No hi ha causa mediata,42426240,458654335
3,2016S002188,5,Sarrià-Sant Gervasi,22,"Vallvidrera, el Tibidabo i les Planes",Dissabte,2016,3,19,7,No hi ha causa mediata,42441265,458574393
4,2016S004036,5,Sarrià-Sant Gervasi,22,"Vallvidrera, el Tibidabo i les Planes",Dijous,2016,5,26,7,No hi ha causa mediata,42461052,458599505


In [12]:
causalidad_accidentes_2016.rename(columns={"Número d'expedient":'Num_expediente',"Codi districte":"Cod_distrito","Nom districte":"Nombre_distrito","Codi barri":"Cod_barrio","Nom barri":"Nombre_barrio","Descripció dia setmana":"Dia_semana","NK Any":"Anio","Mes de any":"Mes","Dia de mes":"Dia","Hora de dia":"Hora","Descripció causa mediata":"Causalidad","Coordenada UTM (Y)":"UTM_Y","Coordenada UTM (X)":"UTM_X"}, inplace=True)
causalidad_accidentes_2016.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Anio,Mes,Dia,Hora,Causalidad,UTM_X,UTM_Y
0,2016S004659,5,Sarrià-Sant Gervasi,22,"Vallvidrera, el Tibidabo i les Planes",Dimecres,2016,6,15,11,No hi ha causa mediata,42360683,458684304
1,2016S008630,5,Sarrià-Sant Gervasi,22,"Vallvidrera, el Tibidabo i les Planes",Dijous,2016,11,10,19,No hi ha causa mediata,42424909,458652704
2,2016S009877,5,Sarrià-Sant Gervasi,22,"Vallvidrera, el Tibidabo i les Planes",Dimecres,2016,12,21,18,No hi ha causa mediata,42426240,458654335
3,2016S002188,5,Sarrià-Sant Gervasi,22,"Vallvidrera, el Tibidabo i les Planes",Dissabte,2016,3,19,7,No hi ha causa mediata,42441265,458574393
4,2016S004036,5,Sarrià-Sant Gervasi,22,"Vallvidrera, el Tibidabo i les Planes",Dijous,2016,5,26,7,No hi ha causa mediata,42461052,458599505


In [13]:
columnas = [0,1,2,3,4,9,12,13,15,16,18,19,20]
causalidad_accidentes_2017 = causalidad_accidentes_2017.iloc[:,columnas]
causalidad_accidentes_2017.head()

Unnamed: 0,Número_d'expedient,Codi_districte,Nom_districte,Codi_barri,Nom_barri,Descripció_dia_setmana,NK Any,Mes_de_any,Dia_de_mes,Hora_de_dia,Descripció_causa_mediata,Coordenada_UTM_(X),Coordenada_UTM_(Y)
0,2017S009198,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dimarts,2017,11,7,14,No hi ha causa mediata,43194075,458540148
1,2017S008278,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dissabte,2017,10,7,12,No hi ha causa mediata,43157637,458521520
2,2017S008462,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dissabte,2017,10,14,13,No hi ha causa mediata,43138499,458487055
3,2017S001826,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dilluns,2017,3,6,4,Alcoholèmia,43170306,458479047
4,2017S009733,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dijous,2017,11,23,8,No hi ha causa mediata,43187703,458441310


In [14]:
causalidad_accidentes_2017.rename(columns={"Número_d'expedient":'Num_expediente',"Codi_districte":"Cod_distrito","Nom_districte":"Nombre_distrito","Codi_barri":"Cod_barrio","Nom_barri":"Nombre_barrio","Descripció_dia_setmana":"Dia_semana","NK Any":"Anio","Mes_de_any":"Mes","Dia_de_mes":"Dia","Hora_de_dia":"Hora","Descripció_causa_mediata":"Causalidad","Coordenada_UTM_(Y)":"UTM_Y","Coordenada_UTM_(X)":"UTM_X"}, inplace=True)
causalidad_accidentes_2017.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Anio,Mes,Dia,Hora,Causalidad,UTM_X,UTM_Y
0,2017S009198,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dimarts,2017,11,7,14,No hi ha causa mediata,43194075,458540148
1,2017S008278,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dissabte,2017,10,7,12,No hi ha causa mediata,43157637,458521520
2,2017S008462,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dissabte,2017,10,14,13,No hi ha causa mediata,43138499,458487055
3,2017S001826,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dilluns,2017,3,6,4,Alcoholèmia,43170306,458479047
4,2017S009733,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dijous,2017,11,23,8,No hi ha causa mediata,43187703,458441310


Se juntan los 3 DataFrames en un unico DataFrame

In [15]:
causalidad_accidentes = causalidad_accidentes_2015.append(causalidad_accidentes_2016, ignore_index=True, verify_integrity=True, sort=False)
causalidad_accidentes = causalidad_accidentes.append(causalidad_accidentes_2017, ignore_index=True, verify_integrity=True, sort=False)
len(causalidad_accidentes) == len(causalidad_accidentes_2015) + len(causalidad_accidentes_2016) + len(causalidad_accidentes_2017)

True

In [16]:
causalidad_accidentes.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Anio,Mes,Dia,Hora,Causalidad,UTM_Y,UTM_X
0,2015S005022,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dimarts,2015,6,30,0,No hi ha causa mediata,458529235,43183105
1,2015S000390,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dissabte,2015,1,17,0,No hi ha causa mediata,458515793,43147227
2,2015S001866,10,Sant Martí,64,el Camp de l'Arpa del Clot,Dimecres,2015,3,11,8,No hi ha causa mediata,458545806,43163478
3,2015S004932,10,Sant Martí,64,el Camp de l'Arpa del Clot,Divendres,2015,6,26,14,No hi ha causa mediata,458496211,43147434
4,2015S007776,10,Sant Martí,64,el Camp de l'Arpa del Clot,Divendres,2015,10,16,16,No hi ha causa mediata,458501037,43137826


Se verifica que los números de expediente sean integros. Se observa que hay números que terminan con espacios blancos, entonces se quitan.

In [17]:
causalidad_accidentes['Num_expediente'].unique()

array(['2015S005022', '2015S000390', '2015S001866', ...,
       '2017S009755    ', '2017S008017    ', '2017S009181    '],
      dtype=object)

In [18]:
def elimina_espacios(fila):
    return (fila.Num_expediente).strip()

causalidad_accidentes['Num_expediente'] = causalidad_accidentes.apply(elimina_espacios, axis=1)
causalidad_accidentes['Num_expediente'].unique()

array(['2015S005022', '2015S000390', '2015S001866', ..., '2017S009755',
       '2017S008017', '2017S009181'], dtype=object)

Se verifica que los datos del distrito (código y nombre) sean integros

In [19]:
filtra_distritos = causalidad_accidentes.iloc[:,1:3]
filtra_distritos = filtra_distritos.drop_duplicates()
filtra_distritos

Unnamed: 0,Cod_distrito,Nombre_distrito
0,10,Sant Martí
148,1,Ciutat Vella
222,2,Eixample
556,3,Sants-Montjuïc
734,4,Les Corts
818,5,Sarrià-Sant Gervasi
954,6,Gràcia
1024,7,Horta-Guinardó
1121,8,Nou Barris
1190,9,Sant Andreu


Se hace lo mismo por los barrios

In [20]:
filtra_barrios = causalidad_accidentes.iloc[:,3:5]
filtra_barrios = filtra_barrios.drop_duplicates()
filtra_barrios

Unnamed: 0,Cod_barrio,Nombre_barrio
0,64,el Camp de l'Arpa del Clot
21,65,el Clot
35,72,Sant Martí de Provençals
53,73,la Verneda i la Pau
56,70,el Besòs i el Maresme
63,71,Provençals del Poblenou
86,68,el Poblenou
106,69,Diagonal Mar i el Front Marítim del Poblenou
110,66,el Parc i la Llacuna del Poblenou
131,67,la Vila Olímpica del Poblenou


Se observa que el barrio de "el Poble Sec" aparece también con el nombre de "el Poble-sec", entonces se modifica

In [21]:
def modifica_barrio(a):
    barrio = a.Nombre_barrio
    if barrio == 'el Poble-sec':
        b = 'el Poble Sec'
    else:
        b = barrio
    return b
   
causalidad_accidentes['Nombre_barrio'] = causalidad_accidentes.apply(modifica_barrio, axis=1)  
filtra_barrios = causalidad_accidentes.iloc[:,3:5]
filtra_barrios = filtra_barrios.drop_duplicates()
filtra_barrios

Unnamed: 0,Cod_barrio,Nombre_barrio
0,64,el Camp de l'Arpa del Clot
21,65,el Clot
35,72,Sant Martí de Provençals
53,73,la Verneda i la Pau
56,70,el Besòs i el Maresme
63,71,Provençals del Poblenou
86,68,el Poblenou
106,69,Diagonal Mar i el Front Marítim del Poblenou
110,66,el Parc i la Llacuna del Poblenou
131,67,la Vila Olímpica del Poblenou


Buscando por internet, se puede verificar que efectivamente Barcelona tiene estos 10 distritos y 73 barrios (aquí 11 y 74 porque hay el valor "desconocido" en ambos casos). Entonces estos datos resultan ser integros.

Ahora se verifica que los datos de los días de la semana sean integros y se cambian los nombres al castellano

In [22]:
causalidad_accidentes.groupby('Dia_semana').count().iloc[:,1]   

Dia_semana
Dijous       5032
Dilluns      4519
Dimarts      4864
Dimecres     4970
Dissabte     3348
Diumenge     2571
Divendres    5216
Name: Cod_distrito, dtype: int64

In [23]:
def modifica_dia_semana(a):
    dia = a.Dia_semana
    if dia == 'Dijous':
        b='jueves'
    elif dia == 'Dilluns':
        b='lunes'
    elif dia == 'Dimarts':
        b='martes'
    elif dia == 'Dimecres':
        b='miercoles'
    elif dia == 'Dissabte':
        b='sabado'
    elif dia == 'Diumenge':
        b='domingo'
    elif dia == 'Divendres':
        b='viernes'
    return b
   
causalidad_accidentes['Dia_semana'] = causalidad_accidentes.apply(modifica_dia_semana, axis=1)       
causalidad_accidentes.groupby('Dia_semana').count().iloc[:,1]   

Dia_semana
domingo      2571
jueves       5032
lunes        4519
martes       4864
miercoles    4970
sabado       3348
viernes      5216
Name: Cod_distrito, dtype: int64

Se verifica que los datos de año, mes y día sean integros y se transforman estos 3 campos en un unico campo "fecha". Por eso, se tienen que transformar antes los 3 campos a string, luego juntarlos y en fin convertirlos en datetime.strptime

In [24]:
causalidad_accidentes['Anio'].unique()

array([2015, 2016, 2017])

In [25]:
causalidad_accidentes['Mes'].unique()

array([ 6,  1,  3, 10,  7,  9,  4,  8,  5, 11,  2, 12])

In [26]:
causalidad_accidentes['Dia'].unique()

array([30, 17, 11, 26, 16,  2, 23, 19, 14,  1,  4, 24, 27,  7,  8, 12, 22,
        3, 10, 25, 18, 29, 13,  9, 28, 21,  6,  5, 20, 15, 31])

In [27]:
causalidad_accidentes['Anio'] = causalidad_accidentes['Anio'].astype(str)
causalidad_accidentes['Mes'] = causalidad_accidentes['Mes'].astype(str)
causalidad_accidentes['Dia'] = causalidad_accidentes['Dia'].astype(str)

In [28]:
causalidad_accidentes.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Anio,Mes,Dia,Hora,Causalidad,UTM_Y,UTM_X
0,2015S005022,10,Sant Martí,64,el Camp de l'Arpa del Clot,martes,2015,6,30,0,No hi ha causa mediata,458529235,43183105
1,2015S000390,10,Sant Martí,64,el Camp de l'Arpa del Clot,sabado,2015,1,17,0,No hi ha causa mediata,458515793,43147227
2,2015S001866,10,Sant Martí,64,el Camp de l'Arpa del Clot,miercoles,2015,3,11,8,No hi ha causa mediata,458545806,43163478
3,2015S004932,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,2015,6,26,14,No hi ha causa mediata,458496211,43147434
4,2015S007776,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,2015,10,16,16,No hi ha causa mediata,458501037,43137826


In [29]:
causalidad_accidentes['Fecha'] = causalidad_accidentes.Dia + '/' + causalidad_accidentes.Mes + '/' + causalidad_accidentes.Anio
causalidad_accidentes.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Anio,Mes,Dia,Hora,Causalidad,UTM_Y,UTM_X,Fecha
0,2015S005022,10,Sant Martí,64,el Camp de l'Arpa del Clot,martes,2015,6,30,0,No hi ha causa mediata,458529235,43183105,30/6/2015
1,2015S000390,10,Sant Martí,64,el Camp de l'Arpa del Clot,sabado,2015,1,17,0,No hi ha causa mediata,458515793,43147227,17/1/2015
2,2015S001866,10,Sant Martí,64,el Camp de l'Arpa del Clot,miercoles,2015,3,11,8,No hi ha causa mediata,458545806,43163478,11/3/2015
3,2015S004932,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,2015,6,26,14,No hi ha causa mediata,458496211,43147434,26/6/2015
4,2015S007776,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,2015,10,16,16,No hi ha causa mediata,458501037,43137826,16/10/2015


In [30]:
def formato_fecha(fila):
    a = datetime.strptime(fila.Fecha,'%d/%m/%Y')
    return a
    
causalidad_accidentes['Fecha'] = causalidad_accidentes.apply(formato_fecha, axis=1)
causalidad_accidentes.dtypes

Num_expediente             object
Cod_distrito                int64
Nombre_distrito            object
Cod_barrio                  int64
Nombre_barrio              object
Dia_semana                 object
Anio                       object
Mes                        object
Dia                        object
Hora                        int64
Causalidad                 object
UTM_Y                      object
UTM_X                      object
Fecha              datetime64[ns]
dtype: object

In [31]:
causalidad_accidentes.drop(["Anio", "Mes", "Dia"], axis = 1, inplace = True)
causalidad_accidentes.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Hora,Causalidad,UTM_Y,UTM_X,Fecha
0,2015S005022,10,Sant Martí,64,el Camp de l'Arpa del Clot,martes,0,No hi ha causa mediata,458529235,43183105,2015-06-30
1,2015S000390,10,Sant Martí,64,el Camp de l'Arpa del Clot,sabado,0,No hi ha causa mediata,458515793,43147227,2015-01-17
2,2015S001866,10,Sant Martí,64,el Camp de l'Arpa del Clot,miercoles,8,No hi ha causa mediata,458545806,43163478,2015-03-11
3,2015S004932,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,14,No hi ha causa mediata,458496211,43147434,2015-06-26
4,2015S007776,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,16,No hi ha causa mediata,458501037,43137826,2015-10-16


Se tiene que verificar que todas las horas almacenadas sean >= 0 y < 24

In [32]:
causalidad_accidentes['Hora'].unique()

array([ 0,  8, 14, 16, 22, 10, 11,  7, 15, 17, 20, 12, 13, 21, 23, 18,  9,
       19,  3,  1,  5,  4,  6,  2])

Ahora se verifica que los datos de causalidad sean integros y se cambian los nombres al castellano

In [33]:
causalidad_accidentes['Causalidad'].unique()

array(['No hi ha causa mediata', 'Excés de velocitat o inadequada',
       'Alcoholèmia', 'Calçada en mal estat', 'Drogues o medicaments',
       'Estat de la senyalització', 'Factors meteorològics',
       'Objectes o animals a la calçada'], dtype=object)

In [34]:
def modifica_causalidad(a):
    causalidad = a.Causalidad
    if causalidad == 'No hi ha causa mediata':
        b='No hay causa mediata'
    elif causalidad == 'Excés de velocitat o inadequada':
        b='Exceso de velocidad o inadecuada'
    elif causalidad == 'Alcoholèmia':
        b='Alcoholemia'
    elif causalidad == 'Calçada en mal estat':
        b='Calzada en mal estado'
    elif causalidad == 'Drogues o medicaments':
        b='Drogas o medicamentos'
    elif causalidad == 'Estat de la senyalització':
        b='Estado de la señalización'
    elif causalidad == 'Factors meteorològics':
        b='Factores meteorológicos'
    elif causalidad == 'Objectes o animals a la calçada':
        b='Objetos o animales en la calzada'
    else:
        b = causalidad
    return b
   
causalidad_accidentes['Causalidad'] = causalidad_accidentes.apply(modifica_causalidad, axis=1)       
causalidad_accidentes['Causalidad'].unique() 

array(['No hay causa mediata', 'Exceso de velocidad o inadecuada',
       'Alcoholemia', 'Calzada en mal estado', 'Drogas o medicamentos',
       'Estado de la señalización', 'Factores meteorológicos',
       'Objetos o animales en la calzada'], dtype=object)

Ahora se quieren cambiar las coordenadas UTM a latitud y longitud, que se necesitan para diseñar los puntos en los mapas

In [35]:
def UTM(utm):
    if type(utm) is str:
        b = float(utm.replace(',' ,'.'))
    else:
        b = utm
    return b

causalidad_accidentes['UTM_Y'] = causalidad_accidentes['UTM_Y'].apply(UTM)
causalidad_accidentes['UTM_X'] = causalidad_accidentes['UTM_X'].apply(UTM)
causalidad_accidentes.dtypes

Num_expediente             object
Cod_distrito                int64
Nombre_distrito            object
Cod_barrio                  int64
Nombre_barrio              object
Dia_semana                 object
Hora                        int64
Causalidad                 object
UTM_Y                     float64
UTM_X                     float64
Fecha              datetime64[ns]
dtype: object

Se observa que hay una pareja de coordenadas negativas, que se asume sean desconocidas. En la conversión de UTM a latitud y longitud se ignora esta pareja y durante el estudio se asume desconocida 

In [36]:
causalidad_accidentes[causalidad_accidentes.index == 404]

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Hora,Causalidad,UTM_Y,UTM_X,Fecha
404,2015S008826,2,Eixample,7,la Dreta de l'Eixample,domingo,21,No hay causa mediata,-1.0,-1.0,2015-11-22


In [37]:
import utm

def ignora_negativos (fila):
    if fila.UTM_X > 0.0 and fila.UTM_Y > 0.0:
        return utm.to_latlon(fila.UTM_X, fila.UTM_Y, 31 ,'T')
    else:
        return (-1.0, -1.0)
        
causalidad_accidentes['latlon'] = causalidad_accidentes.apply(ignora_negativos, axis=1)
causalidad_accidentes.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Hora,Causalidad,UTM_Y,UTM_X,Fecha,latlon
0,2015S005022,10,Sant Martí,64,el Camp de l'Arpa del Clot,martes,0,No hay causa mediata,4585292.35,431831.05,2015-06-30,"(41.41629410168425, 2.184294161883998)"
1,2015S000390,10,Sant Martí,64,el Camp de l'Arpa del Clot,sabado,0,No hay causa mediata,4585157.93,431472.27,2015-01-17,"(41.41505291062014, 2.1800166681639714)"
2,2015S001866,10,Sant Martí,64,el Camp de l'Arpa del Clot,miercoles,8,No hay causa mediata,4585458.06,431634.78,2015-03-11,"(41.41776992245236, 2.181927106661357)"
3,2015S004932,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,14,No hay causa mediata,4584962.11,431474.34,2015-06-26,"(41.41328940203058, 2.180063615116817)"
4,2015S007776,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,16,No hay causa mediata,4585010.37,431378.26,2015-10-16,"(41.413715865571994, 2.1789086195051635)"


In [38]:
causalidad_accidentes['Latitud'] = causalidad_accidentes.apply(lambda f: f.latlon[0], axis=1)
causalidad_accidentes['Longitud'] = causalidad_accidentes.apply(lambda f: f.latlon[1], axis=1)
causalidad_accidentes.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Hora,Causalidad,UTM_Y,UTM_X,Fecha,latlon,Latitud,Longitud
0,2015S005022,10,Sant Martí,64,el Camp de l'Arpa del Clot,martes,0,No hay causa mediata,4585292.35,431831.05,2015-06-30,"(41.41629410168425, 2.184294161883998)",41.416294,2.184294
1,2015S000390,10,Sant Martí,64,el Camp de l'Arpa del Clot,sabado,0,No hay causa mediata,4585157.93,431472.27,2015-01-17,"(41.41505291062014, 2.1800166681639714)",41.415053,2.180017
2,2015S001866,10,Sant Martí,64,el Camp de l'Arpa del Clot,miercoles,8,No hay causa mediata,4585458.06,431634.78,2015-03-11,"(41.41776992245236, 2.181927106661357)",41.41777,2.181927
3,2015S004932,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,14,No hay causa mediata,4584962.11,431474.34,2015-06-26,"(41.41328940203058, 2.180063615116817)",41.413289,2.180064
4,2015S007776,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,16,No hay causa mediata,4585010.37,431378.26,2015-10-16,"(41.413715865571994, 2.1789086195051635)",41.413716,2.178909


In [39]:
causalidad_accidentes.drop(["UTM_Y", "UTM_X", "latlon"], axis = 1, inplace = True)
causalidad_accidentes.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Hora,Causalidad,Fecha,Latitud,Longitud
0,2015S005022,10,Sant Martí,64,el Camp de l'Arpa del Clot,martes,0,No hay causa mediata,2015-06-30,41.416294,2.184294
1,2015S000390,10,Sant Martí,64,el Camp de l'Arpa del Clot,sabado,0,No hay causa mediata,2015-01-17,41.415053,2.180017
2,2015S001866,10,Sant Martí,64,el Camp de l'Arpa del Clot,miercoles,8,No hay causa mediata,2015-03-11,41.41777,2.181927
3,2015S004932,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,14,No hay causa mediata,2015-06-26,41.413289,2.180064
4,2015S007776,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,16,No hay causa mediata,2015-10-16,41.413716,2.178909


Se intenta diseñar los puntos en el mapa y se observa que hay un gran número de accidentes en los parques. Esto parece raro, entonces se busca si hay un error de deslizamiento comparando las latitud y longitud obtenidas con los csv originales que tienen los datos de latitud y longitud. Se encuentra que hay un deslizamiento de 0.00185 en la latitud y 0.00111 en la longitud, entonces se arregla.

In [None]:
import geopandas as gpd
import folium

m = folium.Map(location=[41.4075163,2.1491085], zoom_start=20)
causalidad_accidentes.apply(lambda f: folium.Marker([f.Latitud, f.Longitud]).add_to(m), axis=1)
m

In [None]:
def arregla_latlon (fila):
    if fila.Latitud > 0.0 and fila.Longitud > 0.0:
        return (fila.Latitud - 0.00185, fila.Longitud - 0.001111)
    else:
        return (-1.0, -1.0)
        
causalidad_accidentes['Latitud','Longitud'] = causalidad_accidentes.apply(arregla_latlon, axis=1)

m = folium.Map(location=[41.4075163,2.1491085], zoom_start=20)
causalidad_accidentes.apply(lambda f: folium.Marker([f.Latitud, f.Longitud]).add_to(m), axis=1)
m

A continuación se exporta a un .csv

In [40]:
causalidad_accidentes.to_csv("Causalidad_Accidentes.csv",index=0, encoding="utf-8")

Se repite el proceso de importación pero esta vez con el nuevo csv para comprobar que se transformó correctamente

In [41]:
prueba=pd.read_csv('Causalidad_Accidentes.csv', index_col=False)

In [42]:
prueba.head()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Hora,Causalidad,Fecha,Latitud,Longitud
0,2015S005022,10,Sant Martí,64,el Camp de l'Arpa del Clot,martes,0,No hay causa mediata,2015-06-30,41.416294,2.184294
1,2015S000390,10,Sant Martí,64,el Camp de l'Arpa del Clot,sabado,0,No hay causa mediata,2015-01-17,41.415053,2.180017
2,2015S001866,10,Sant Martí,64,el Camp de l'Arpa del Clot,miercoles,8,No hay causa mediata,2015-03-11,41.41777,2.181927
3,2015S004932,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,14,No hay causa mediata,2015-06-26,41.413289,2.180064
4,2015S007776,10,Sant Martí,64,el Camp de l'Arpa del Clot,viernes,16,No hay causa mediata,2015-10-16,41.413716,2.178909


In [43]:
prueba.tail()

Unnamed: 0,Num_expediente,Cod_distrito,Nombre_distrito,Cod_barrio,Nombre_barrio,Dia_semana,Hora,Causalidad,Fecha,Latitud,Longitud
30515,2017S004066,3,Sants-Montjuïc,12,la Marina del Prat Vermell,lunes,13,No hay causa mediata,2017-05-08,41.37211,2.175281
30516,2017S009306,7,Horta-Guinardó,33,el Baix Guinardó,viernes,11,No hay causa mediata,2017-11-10,41.415769,2.168453
30517,2017S009755,10,Sant Martí,71,Provençals del Poblenou,jueves,19,No hay causa mediata,2017-11-23,41.41032,2.195
30518,2017S008017,5,Sarrià-Sant Gervasi,26,Sant Gervasi - Galvany,jueves,20,No hay causa mediata,2017-09-28,41.395153,2.146905
30519,2017S009181,6,Gràcia,32,el Camp d'en Grassot i Gràcia Nova,martes,9,No hay causa mediata,2017-11-07,41.406651,2.166765
