# **ANÁLISIS DE LOS RESULTADOS TOXICOLÓGICOS EN ACCIDENTES DE TRÁFICO POR NÚMERO DE VEHÍCULOS MATRICULADOS**

Este notebook explica el trabajo de preprocesamiento y preparación de los datos para implementar una serie de visualizaciónes que expliquen el análisis de los resultados toxicológicos llevados a cabo en accidentes de tráficos realizados al cruzar dichos datos con el parque nacional de vehículos matriculados.

Para llevar a cabo esta tarea de manera práctica hemos analizado el **dataset de resultados toxicológicos en accidentes** distribuido por el **Ministerio de Justicia** y lo hemos cruzado con los **datos de vehículos matriculados de la DGT**. A partir de estos datos calcularemos los ratios para las distintas sustancias, por tipo de vehículo y por CCAA.

Pero antes tenemos que realizar una serie de tareas para preparar los datos que posteriormente utilizaremos en las visualizaciones. A continuación, te explicamos cómo lo hacemos.

# Pasos que se seguirán para preparar los datos
1. Importación de librerias
2. Carga de datos a utilizar
3. Detención y tratamiento de datos ausentes (NAs)
4. Modificación y ajuste de las variables 
5. Creación de tablas de datos preprocesados para las visualizaciones

Una vez que has iniciado sesión con tu cuenta Gmail, podrás ejecutar cada script o celda de código. Tan solo debes hacer click en el símbolo de la esquina superior izquierda de cada celda con código. El resultado de la ejecución aparecera justo debajo de cada script.

También puedes ejecutar todos los scripts pulsando Ctrl+F9 o eligiendo en el menú superior la opción "Entorno de ejecución" y seleccionando "Ejecutar todas".

## 1 Importación de librerias
Lo primero que debemos hacer es importar las librerías para el preprocesamiento de los datos. 

*    [pandas](https://pandas.pydata.org/) es una librería de Python especializada en el manejo y análisis de estructuras de datos.

*    [os](https://docs.python.org/es/3.10/library/os.html) es una librería de Python que provee una manera versátil de usar funcionalidades dependientes del sistema operativo.

In [None]:
# Importamos las librerias necesarias para el ejercicio práctico de preprocesamiento de los datos
import pandas as pd
import os

## 2 Carga de datos

Cargamos el conjunto de datos **["Accidentes de tráfico.xlsx"](https://github.com/datosgobes/Laboratorio-de-Datos/blob/main/Visualizaciones/Analisis-toxicologicos/Datos-origen/Accidentes%20de%20tr%C3%A1fico.xlsx)** distribuido por el Ministerio de Justicia con información sobre los resultados toxicológicos realizados en las víctimas de accidentes de tráfico.


El conjunto de datos mencionado anteriormente, se encuentran almacenado en el **[repositorio](https://github.com/datosgobes/Laboratorio-de-Datos/tree/main/Visualizaciones/Analisis-toxicologicos/Datos-origen)** de GitHub de datos.gob.es, desde donde puede ser descargado o cargado directamente como es el caso mediante la siguiente línea de código. 

In [None]:
# Clonamos a google colaboratory desde Github el repositorio con los datos de origen que utilizaremos 
!git clone https://github.com/datosgobes/Laboratorio-de-Datos/ Visualizaciones/Analisis-toxicologicos/Datos-origen

Cloning into 'Visualizaciones/Analisis-toxicologicos/Datos-origen'...
remote: Enumerating objects: 2489, done.[K
remote: Counting objects: 100% (307/307), done.[K
remote: Compressing objects: 100% (140/140), done.[K
remote: Total 2489 (delta 175), reused 282 (delta 158), pack-reused 2182[K
Receiving objects: 100% (2489/2489), 171.61 MiB | 23.52 MiB/s, done.
Resolving deltas: 100% (1288/1288), done.
Checking out files: 100% (190/190), done.


In [None]:
# Importamos y visualizamos el dataset del Ministerio de Justicia con información sobre los resultados toxicológicos en los accidentes de tráfico. Este archivo se encuentra en la carpeta de Github "Datos de origen"
ruta = "/content/Visualizaciones/Analisis-toxicologicos/Datos-origen/Visualizaciones/Analisis-toxicologicos/Datos-origen/Accidentes de tráfico.xlsx"
accidentes = pd.read_excel(ruta)  
accidentes.head()


Unnamed: 0,Fecha,Territorio INTCF,CCAA,Provincia,Organismo,Zona,Rol siniestro,Tipo vehículo,Rango edad,Sexo,...,Opiáceos,Anfetamina y relacionados,Ketamina,Psicofármacos,Benzodiacepinas,Antipsicóticos,Antidepresivos,Antiepilépticos,Opioides,Víctimas mortales
0,2020-01-19,INTCF-Barcelona,Aragón,Zaragoza,IML-Aragón,Vías interurbanas,Peatón,Peatón,45-54,Hombre,...,-,-,-,-,-,-,-,-,-,1
1,2020-01-21,INTCF-Barcelona,Aragón,Zaragoza,IML-Aragón,Vías interurbanas,Conductor,Vehículo articulado,45-54,Hombre,...,-,-,-,-,-,-,-,-,-,1
2,2020-01-21,INTCF-Barcelona,Aragón,Zaragoza,IML-Aragón,Vías interurbanas,Conductor,Turismo sin remolque,55-64,Hombre,...,-,-,-,-,-,-,-,-,-,1
3,2020-01-21,INTCF-Barcelona,Aragón,Zaragoza,IML-Aragón,Vías interurbanas,Conductor,Vehículo articulado,55-64,Hombre,...,-,-,-,-,-,-,-,-,-,1
4,2020-01-27,INTCF-Barcelona,Aragón,Zaragoza,IML-Aragón,Vías interurbanas,Conductor,Furgoneta,45-54,Hombre,...,-,-,-,-,-,-,-,-,-,1


También cargaremos los conjuntos de datos correspondientes al **["parque de vehículos matriculados"](https://github.com/datosgobes/Laboratorio-de-Datos/tree/main/Visualizaciones/Analisis-toxicologicos/Datos-origen)** perteneciente a la Jefatura Central de Tráfico. Estos datos se encuentran divididos en distintos datasets, uno para cada mes. Importaremos los datasets correspondientes desde **Enero del 2020 hasta Diciembre de 2021**, un total de 24 datasets.

Los conjuntos de datos mencionados anteriormente, se encuentran almacenados en el **[repositorio](https://github.com/datosgobes/Laboratorio-de-Datos/tree/main/Visualizaciones/Analisis-toxicologicos/Datos-origen)** de GitHub de datos.gob.es, desde donde pueden ser descargados o cargados directamente como es el caso.

In [None]:
# Importamos los archivos con los datos del parque de vehículos. Estos archivos se encuentra en la carpeta de Github "Datos de origen" 

# Introducimos dentro de una lista el nombre de los archivos a importar
os.listdir("/content/Visualizaciones/Analisis-toxicologicos/Datos-origen/Visualizaciones/Analisis-toxicologicos/Datos-origen")
files = [f for f in os.listdir("/content/Visualizaciones/Analisis-toxicologicos/Datos-origen/Visualizaciones/Analisis-toxicologicos/Datos-origen")]

# Creamos un dataset vacío al que ir agragandole los distintos archivos importados 
parque_total = pd.DataFrame()

# Generamos un bucle para recorrer la carpeta e ir leyendo uno a uno los archivos correspondientes a los datos del parque de vehículos (cada uno de los archivos corresponde a los datos de un mes)
for f in files:
  # Leemos solamente los archivos .csv, ya que dentro de esta carpeta también se encuentran otro tipo de archivos
  if f.endswith(".csv"):
    parque = pd.read_csv("/content/Visualizaciones/Analisis-toxicologicos/Datos-origen/Visualizaciones/Analisis-toxicologicos/Datos-origen/" + f, encoding="latin1", header=4, sep=";")
    parque = parque[parque["Carburante"] == "TOTAL"]
    # Agregamos el archivo leido al dataset generado anteriormente
    parque_total = pd.concat([parque, parque_total])
parque_total.head(7)


Unnamed: 0,Comunidad Autónoma/Provincia residencia,Tipo de Vehículo,Carburante,Total
0,TOTAL,TOTAL,TOTAL,35522561
1,TOTAL,CAMIONES HASTA 3500kg,TOTAL,2166718
2,TOTAL,CAMIONES MÁS DE 3500kg,TOTAL,346586
3,TOTAL,CICLOMOTORES,TOTAL,1884308
4,TOTAL,FURGONETAS,TOTAL,2537904
5,TOTAL,MOTOCICLETAS,TOTAL,3777599
6,TOTAL,TURISMOS,TOTAL,24809446


## 3 Detención y tratamiento de datos ausentes (NAs)

La presencia de datos ausentes es una problemática habitual en muchos conjuntos de datos. Tratar con conjuntos de datos en los que existan puede generar problemas durante los posteriores análisis.


In [None]:
# Buscamos valores nulos por variable en el dataset "accidentes"
accidentes.isnull().sum()

Fecha                        0
Territorio INTCF             0
CCAA                         0
Provincia                    0
Organismo                    0
Zona                         0
Rol siniestro                0
Tipo vehículo                0
Rango edad                   0
Sexo                         0
Resultado toxicológico       0
Etanol                       0
Drogas                       0
Cocaína                      0
Cannabis                     0
Opiáceos                     0
Anfetamina y relacionados    0
Ketamina                     0
Psicofármacos                0
Benzodiacepinas              0
Antipsicóticos               0
Antidepresivos               0
Antiepilépticos              0
Opioides                     0
Víctimas mortales            0
dtype: int64

In [None]:
# Buscamos valores nulos por variable en el dataset "parque_total"
parque_total.isnull().sum()

Comunidad Autónoma/Provincia residencia    0
Tipo de Vehículo                           0
Carburante                                 0
Total                                      0
dtype: int64

## 4 Modificación y ajuste de las variables 

Una vez cargados los datos y comprobada la ausencia de valores nulos, se verifican las variables y **se modifican buscando que se adecuen a nuestras tablas de trabajo**.

### 4.1 Dataset "accidentes"

Modificamos los valores de las variables a valores numéricos para facilitar su posterior procesamiento.

In [None]:
# Sustituimos los valores "+", "-", "Positvo" y "Negativo" por valores numéricos "0" y "1" dentro del dataset "Accidentes de tráfico.xlsx"
columnas = ["Resultado toxicológico", "Etanol", "Drogas", "Cocaína", "Cannabis", "Opiáceos", "Anfetamina y relacionados", "Ketamina", "Psicofármacos", "Benzodiacepinas", "Antipsicóticos", "Antidepresivos", "Antiepilépticos", "Opioides"]
accidentes[columnas] = accidentes[columnas].replace(["-"], 0)
accidentes[columnas] = accidentes[columnas].replace(["+"], 1)
accidentes[columnas] = accidentes[columnas].replace(["Negativo"], 0)
accidentes[columnas] = accidentes[columnas].replace(["Positivo"], 1)
accidentes.head()

Unnamed: 0,Fecha,Territorio INTCF,CCAA,Provincia,Organismo,Zona,Rol siniestro,Tipo vehículo,Rango edad,Sexo,...,Opiáceos,Anfetamina y relacionados,Ketamina,Psicofármacos,Benzodiacepinas,Antipsicóticos,Antidepresivos,Antiepilépticos,Opioides,Víctimas mortales
0,2020-01-19,INTCF-Barcelona,Aragón,Zaragoza,IML-Aragón,Vías interurbanas,Peatón,Peatón,45-54,Hombre,...,0,0,0,0,0,0,0,0,0,1
1,2020-01-21,INTCF-Barcelona,Aragón,Zaragoza,IML-Aragón,Vías interurbanas,Conductor,Vehículo articulado,45-54,Hombre,...,0,0,0,0,0,0,0,0,0,1
2,2020-01-21,INTCF-Barcelona,Aragón,Zaragoza,IML-Aragón,Vías interurbanas,Conductor,Turismos,55-64,Hombre,...,0,0,0,0,0,0,0,0,0,1
3,2020-01-21,INTCF-Barcelona,Aragón,Zaragoza,IML-Aragón,Vías interurbanas,Conductor,Vehículo articulado,55-64,Hombre,...,0,0,0,0,0,0,0,0,0,1
4,2020-01-27,INTCF-Barcelona,Aragón,Zaragoza,IML-Aragón,Vías interurbanas,Conductor,Furgonetas,45-54,Hombre,...,0,0,0,0,0,0,0,0,0,1


Dentro de la variable "Tipo vehículo" observamos que hay más opciones de las que nos interesan para el análisis (turismos, camiones, motocicletas, furgonetas y ciclomotores), por lo que agruparemos las variables reemplazando sus nombres.

In [None]:
# Remplazamos los valores de las variables "Tipo de vehículos"
accidentes["Tipo vehículo"] = accidentes["Tipo vehículo"].replace(["Turismo sin remolque", "Turismo de SP hasta 9 plazas", "Turismo con remolque"], "Turismos")
accidentes["Tipo vehículo"] = accidentes["Tipo vehículo"].replace(["Camión <=3.500 kg sin remolque", "Camión >3.500 kg con remolque", "Camión >3.500 kg sin remolque"], "Camiones")
accidentes["Tipo vehículo"] = accidentes["Tipo vehículo"].replace(["Motocicleta"], "Motocicletas")
accidentes["Tipo vehículo"] = accidentes["Tipo vehículo"].replace(["Furgoneta"], "Furgonetas")
accidentes["Tipo vehículo"] = accidentes["Tipo vehículo"].replace(["Ciclomotor"], "Ciclomotores")

### 4.2 Dataset "parque"

Ajustamos las variables del dataset de cara a las necesidades que tenemos para generar las tablas de datos preprocesadas que se utilizarán en las visualizaciones.

In [None]:
# Dividimos la variable "Comunidad Autónoma/Provincia residencia" en variables independientes y eliminamos las que no nos interesan para el análisis
parque_total[["CCAA", "Provincia", "Eliminar"]]= parque_total["Comunidad Autónoma/Provincia residencia"].str.split("/", expand=True)
parque_total = parque_total.drop(["Eliminar","Comunidad Autónoma/Provincia residencia", "Carburante"], axis=1)

# Agrupamos el dataset por la media de los valores del parque de vehículos para cada provincia
parque_prov = round(parque_total.groupby(["Provincia", "CCAA", "Tipo de Vehículo"])["Total"].mean().reset_index(), 0)

# Agrupamos el dataset por CCAA realizando la suma de los valores del parque de vehículos
parque_ccaa = round(parque_prov.groupby(["CCAA", "Tipo de Vehículo"])["Total"].sum().reset_index(), 0)

# Visualizamos las primeras filas del dataset para comprobar que se ha generado correctamente
parque_ccaa.head(6)

Unnamed: 0,CCAA,Tipo de Vehículo,Total
0,Andalucía,CAMIONES HASTA 3500kg,396540.0
1,Andalucía,CAMIONES MÁS DE 3500kg,59027.0
2,Andalucía,CICLOMOTORES,565640.0
3,Andalucía,FURGONETAS,429915.0
4,Andalucía,MOTOCICLETAS,711974.0
5,Andalucía,TURISMOS,4235819.0


Modificamos los valores de la variable "CAAA" y "Tipo de Vehículo" del dataset "parque_ccaa" con la intención de hacerlo consistente con la nomenclatura utilizada en el dataset "accidentes" de cara a realizar un cruze de datos de ambos datasets

In [None]:
# Sustituimos la nomenclatura de la variable "CCAA"
parque_ccaa["CCAA"] = parque_ccaa["CCAA"].replace(["Balears (Illes)","Rioja (La)", "Asturias (Principado de)", "Madrid (Comunidad de)", "Comunitat Valenciana", "Murcia (Región de)", "Navarra (Comunidad Foral de)", "Ceuta"],
                                        ["Islas Baleares", "La Rioja", "Principado de Asturias", "Comunidad de Madrid", "Comunidad Valenciana", "Región de Murcia", "Comunidad Foral de Navarra", "Ciudad Autónoma de Ceuta"])

# Visualizamos la nomenclatura de ambos datasets para comprobar que sea consistente
print(accidentes["CCAA"].unique())
print(parque_ccaa["CCAA"].unique())

# Cambiamos la nomenclatura de la variable "Tipo de vehículo" del dataset "parque_ccaa"
parque_ccaa["Tipo de Vehículo"] = parque_ccaa["Tipo de Vehículo"].replace(["CAMIONES HASTA 3500kg", "CAMIONES MÁS DE 3500kg", "CICLOMOTORES", "FURGONETAS","MOTOCICLETAS", "TURISMOS"],
                                                                          ["Camiones", "Camiones", "Ciclomotores", "Furgonetas", "Motocicletas", "Turismos"])

['Aragón' 'Cataluña' 'Comunidad Valenciana' 'Islas Baleares' 'País Vasco'
 'Región de Murcia' 'Galicia' 'Comunidad Foral de Navarra' 'Canarias'
 'Comunidad de Madrid' 'Castilla-La Mancha' 'Cantabria' 'La Rioja'
 'Castilla y León' 'Principado de Asturias' 'Andalucía' 'Extremadura'
 'Ciudad Autónoma de Ceuta']
['Andalucía' 'Aragón' 'Principado de Asturias' 'Islas Baleares' 'Canarias'
 'Cantabria' 'Castilla y León' 'Castilla-La Mancha' 'Cataluña'
 'Ciudad Autónoma de Ceuta' 'Comunidad Valenciana' 'Extremadura' 'Galicia'
 'Comunidad de Madrid' 'Melilla' 'Región de Murcia'
 'Comunidad Foral de Navarra' 'País Vasco' 'La Rioja']


## 5 Creación de tablas de datos preprocesados para las visualizaciones



### 5.1 Primera tabla 

Generamos la primera tabla de datos preprocesados con la información sobre el parque de vehículos para alimentar la herramienta de visualización que vamos a utilizar para construir las representaciones gráficas usando Google Data Studio.


In [None]:
# Guardamos en un archivo csv procesable por la herramienta de visualización de datos la primera tabla de datos preprocesados
parque_ccaa.to_csv("parque_vehiculos.csv", sep=",", index=False, encoding="utf8")

# Visualizamos las primeras filas de la tabla para comprobar que la tabla se ha generado correctamente
parque_ccaa.head(6)

Unnamed: 0,CCAA,Tipo de Vehículo,Total
0,Andalucía,Camiones,396540.0
1,Andalucía,Camiones,59027.0
2,Andalucía,Ciclomotores,565640.0
3,Andalucía,Furgonetas,429915.0
4,Andalucía,Motocicletas,711974.0
5,Andalucía,Turismos,4235819.0


### 5.2 Segunda tabla 

Generamos la segunda tabla de datos preprocesados con la información sobre el ratio de resultados positivos por sustancia para los distintos tipos de vehículos. 

Para ello, realizaremos un **cruce de datos** del dataset "parque_ccaa" con los de "accidentes". De esta forma iremos rellenando un diccionario el cual lo transformaremos en un dataset final llamado "vis_2"


In [None]:
# Creamos una lista con el nombre de la variable del tipo de sustancias a analizar
lista = ["Etanol", "Drogas", "Cocaína", "Cannabis", "Opiáceos", "Anfetamina y relacionados", "Ketamina", "Psicofármacos", "Benzodiacepinas", "Antipsicóticos", "Antidepresivos", 
        "Antiepilépticos", "Opioides"]

# Definimos una función para la creación del dataset. Dentro de la función creamos un diccionario con los valores que después asignaremos al dataset
def Primera(x):
  d = {"Tipo vehículo": ["camiones", "ciclomotores", "furgonetas", "motocicletas", "turismos"],
       "Resultado positivo": [accidentes[accidentes["Tipo vehículo"] == "Camiones"][x].sum(), accidentes[accidentes["Tipo vehículo"] == "Ciclomotores"][x].sum(), accidentes[accidentes["Tipo vehículo"] == "Furgonetas"][x].sum(), accidentes[accidentes["Tipo vehículo"] == "Motocicletas"][x].sum(), accidentes[accidentes["Tipo vehículo"] == "Turismos"][x].sum()],
       "Parque": [parque_ccaa[parque_ccaa["Tipo de Vehículo"] == "Camiones"]["Total"].sum(), parque_ccaa[parque_ccaa["Tipo de Vehículo"] == "Ciclomotores"]["Total"].sum(), parque_ccaa[parque_ccaa["Tipo de Vehículo"] == "Furgonetas"]["Total"].sum(), parque_ccaa[parque_ccaa["Tipo de Vehículo"] == "Motocicletas"]["Total"].sum(), parque_ccaa[parque_ccaa["Tipo de Vehículo"] == "Turismos"]["Total"].sum()],
       "Droga": [x,x,x,x,x]
      }
  df = pd.DataFrame(d)
  return(df)
  
# Hacemos llamada a la función definida para cada uno de los valores de la lista de sustancias
dataframe_etanol = Primera(lista[0])
dataframe_drogas = Primera(lista[1])
dataframe_cocaina = Primera(lista[2])
dataframe_cannabis = Primera(lista[3])
dataframe_opiaceos = Primera(lista[4])
dataframe_anfetamina = Primera(lista[5])
dataframe_ketamina = Primera(lista[6])
dataframe_psicofarmacos = Primera(lista[7])
dataframe_benzodiacepinas = Primera(lista[8])
dataframe_antipsicoticos = Primera(lista[9])
dataframe_antidepresivos = Primera(lista[10])
dataframe_antiepilepticos = Primera(lista[11])
dataframe_opioides = Primera(lista[12])

# Juntamos en un mismo dataset los datasets de todas las sustancias de la lista
vis_2 = pd.concat([dataframe_etanol, dataframe_drogas, dataframe_cocaina, dataframe_cannabis, dataframe_opiaceos, dataframe_anfetamina, dataframe_ketamina, 
                   dataframe_psicofarmacos, dataframe_benzodiacepinas, dataframe_antipsicoticos, dataframe_antidepresivos, dataframe_antiepilepticos, dataframe_opioides])

# Agrupamos el dataset por la variable "Resultado positivo" y por la variable "Parque"
vis_2_1 = vis_2.groupby(["Droga", "Tipo vehículo"])["Resultado positivo"].sum().reset_index()
vis_2_2= vis_2.groupby(["Droga", "Tipo vehículo"])["Parque"].sum().reset_index()
vis_2_final = pd.merge(vis_2_1, vis_2_2)

# Generamos una nueva variable con el ratio de resultados positivos por parque de vehículos
vis_2_final["Ratio"] = (vis_2_final["Resultado positivo"]/ vis_2_final["Parque"])

# Guardamos en un archivo csv procesable por la herramienta de visualización de datos la segunda tabla
vis_2_final.to_csv("resultados_vehiculos.csv", sep=",", index=False, encoding="utf8")

# Visualizamos las primeras filas de la tabla para comprobar que la tabla se ha generado correctamente
vis_2_final.head()

Unnamed: 0,Droga,Tipo vehículo,Resultado positivo,Parque,Ratio
0,Anfetamina y relacionados,camiones,0,2523194.0,0.0
1,Anfetamina y relacionados,ciclomotores,0,1890396.0,0.0
2,Anfetamina y relacionados,furgonetas,0,2522839.0,0.0
3,Anfetamina y relacionados,motocicletas,6,3739213.0,1.604616e-06
4,Anfetamina y relacionados,turismos,21,24780782.0,8.474309e-07


### 5.3 Tercera tabla 

Generamos la tercera tabla de datos preprocesados con la información sobre el ratio de resultados positivos por CCAA para los distintos tipos de sustancias. 

Para ello, realizaremos un **cruce de datos** del dataset "parque_ccaa" con los de "accidentes". De esta forma iremos rellenando un diccionario el cual lo transformaremos en un dataset final llamado "vis_3"

In [None]:
# Creamos una lista con el nombre de las CCAA dentro de la variable CCAA del dataset "parque_CCAA"
ccaa = parque_ccaa["CCAA"].unique()

# Definimos una función para la creación del dataset. Dentro de la función creamos un diccionario con los valores que después asignaremos al dataset
def Segunda(x):
  # Creamos un nuevo dataset vacío
  df_final = pd.DataFrame()
  # Mediante un bluce for recorremos el listado con las CCAA
  for i in ccaa:
      d = {"CCAA": [i],
           "Droga": [x],
           "Parque": [parque_ccaa[parque_ccaa["CCAA"] == i]["Total"].sum()],
           "Resultado positivo": [accidentes[accidentes["CCAA"] == i][x].sum()]      
          }
      df = pd.DataFrame(d)
      # Añadimos el nuevo dataset generado en el bucle (df) for al dataset creado anteriormente (df_final)
      df_final = pd.concat([df, df_final])
  return(df_final)

# Hacemos llamada a la función definida para cada uno de los valores de la lista de sustancias
dataframe_etanol_v2 = Segunda(lista[0])
dataframe_drogas_v2 = Segunda(lista[1])
dataframe_cocaina_v2 = Segunda(lista[2])
dataframe_cannabis_v2 = Segunda(lista[3])
dataframe_opiaceos_v2 = Segunda(lista[4])
dataframe_anfetamina_v2 = Segunda(lista[5])
dataframe_ketamina_v2 = Segunda(lista[6])
dataframe_psicofarmacos_v2 = Segunda(lista[7])
dataframe_benzodiacepinas_v2 = Segunda(lista[8])
dataframe_antipsicoticos_v2 = Segunda(lista[9])
dataframe_antidepresivos_v2 = Segunda(lista[10])
dataframe_antiepilepticos_v2 = Segunda(lista[11])
dataframe_opioides_v2 = Segunda(lista[12])

# Juntamos en un mismo dataset los datasets de todas las sustancias de la lista
vis_3 = pd.concat([dataframe_etanol_v2, dataframe_drogas_v2, dataframe_cocaina_v2, dataframe_cannabis_v2, dataframe_opiaceos_v2, dataframe_anfetamina_v2, dataframe_ketamina_v2, 
                   dataframe_psicofarmacos_v2, dataframe_benzodiacepinas_v2, dataframe_antipsicoticos_v2, dataframe_antidepresivos_v2, dataframe_antiepilepticos_v2, dataframe_opioides_v2])

# Generamos una nueva variable con el ratio de resultados positivos por parque de vehículos
vis_3["Ratio"] = (vis_3["Resultado positivo"]/ vis_3["Parque"])

# Guardamos en un archivo csv procesable por la herramienta de visualización de datos la segunda tabla
vis_3.to_csv("resultados_ccaa.csv", sep=",", index=False, encoding="utf8")

# Visualizamos las primeras filas de la tabla para comprobar que la tabla se ha generado correctamente
vis_3.head()

Unnamed: 0,CCAA,Droga,Parque,Resultado positivo,Ratio
0,La Rioja,Etanol,217685.0,6,2.8e-05
0,País Vasco,Etanol,1375688.0,16,1.2e-05
0,Comunidad Foral de Navarra,Etanol,469899.0,9,1.9e-05
0,Región de Murcia,Etanol,1166017.0,22,1.9e-05
0,Melilla,Etanol,70780.0,0,0.0


Una vez ejecutadas todas las celdas, aparecerán en el menú de la izquierda de la interfaz, en la carpeta de archivos, las tablas de datos preprocesados "parque_vehiculos.csv", "resultados_vehiculos.csv" y "resultados_ccaa.csv".

Haciendo click sobre cada una de ellas podremos descargarlas de forma sencilla. No obstante, estas tablas están recogidas en el siguiente [repositorio de Github](https://github.com/datosgobes/Laboratorio-de-Datos/tree/main/Visualizaciones/Analisis-toxicologicos/Datos-preprocesados).