# 1. ETL

Tras buscar información de diferentes fuentes elijo los datos que voy a extraer:

- CIMAVET, agencia española de medicamentos y productos sanitarios.
    - Base de datos completa con el Nomenclátor de prescripción: ➡ [url](https://cimavet.aemps.es/cimavet/publico/nomenclator.html)

De aquí descargo el archivo PrescripciónVET.xml y el DICCIONARIO_REACCIONES_ADVERSAS.xml. El primero lo introduzco en el .gitignore porque es muy pesado y no me deja guardar el proyecto. Luego obtendré la información convirtiendo los archivos en diccionarios.


In [143]:
#%pip install xmltodict
#%pip install webdriver-manager
#%pip install pandas openpyxl

In [144]:
import re # utilizar expresiones regulares
import pandas as pd
import json
import xmltodict #para convertir archivos xml a diccionarios

import funciones
import importlib
importlib.reload(funciones)

<module 'funciones' from 'c:\\Users\\blanx\\ironhack\\labs_clase\\semana_5\\dia_5\\Visualization_proyect\\notebook\\funciones.py'>

### Extraer y transformar datos del archivo DICCIONARIO_REACCIONES_ADVERSAS.xml

In [145]:
reaccionesAdversas = funciones.abrir_xml("../data/data_raw/DICCIONARIO_REACCIONES_ADVERSAS.xml")

In [146]:
reaccionesAdversas

{'aemps_prescripcion_reacciones_adversas': {'@xmlns': 'http://schemas.aemps.es/prescripcionvet/aemps_prescripcion_reacciones_adversas',
  '@xsi:schemaLocation': 'http://schemas.aemps.es/prescripcionvet/aemps_prescripcion_reacciones_adversas http://schemas.aemps.es/prescripcionvet/aemps_prescripcion_reacciones_adversas.xsd',
  '@xmlns:xsi': 'http://www.w3.org/2001/XMLSchema-instance',
  'reacciones_adversas': [{'id_signo': '405', 'ds_signo': 'Aborto'},
   {'id_signo': '151', 'ds_signo': 'Absceso anal'},
   {'id_signo': '548', 'ds_signo': 'Absceso cutáneo'},
   {'id_signo': '28', 'ds_signo': 'Absceso en el punto de inyección'},
   {'id_signo': '89', 'ds_signo': 'Absceso en ganglios linfáticos'},
   {'id_signo': '8', 'ds_signo': 'Absceso local'},
   {'id_signo': '110543', 'ds_signo': 'Absorbentes orales'},
   {'id_signo': '110054', 'ds_signo': 'Acetilcolinesterasa'},
   {'id_signo': '110381', 'ds_signo': 'Acidificación de la orina'},
   {'id_signo': '110620', 'ds_signo': 'Acidos débiles'}

### Extraer y transformar datos del archivo PrescripciónVET.xml 

In [147]:
prescipcionVET = funciones.abrir_xml("../data/data_raw/PrescripcionVET.xml")

In [148]:
bloquePrescripcion = prescipcionVET['aemps_prescripcion_vet']['prescription'] # acceso 2 capas hacia abajo
especies = ['Bovino', 'Ovino', 'Caprino', 'Porcino', 'Gallinas', 'Pavos', 'Patos', 'Perros', 'Gatos', 'Caballos'] 

prescripciones = funciones.get_prescripcions_esp(bloquePrescripcion, especies)  #con esta función obtengo una lista de diccionarios
prescripciones

[{'cod_nacion': '570004',
  'nro_definitivo': '1077 ESP',
  'nombre_med': 'AEROFAR',
  'fec_primera_aut': '1996-03-27',
  'fecha_alta_nomenclator': '2014-12-04',
  'cod_estado_registro_medicamento': '1',
  'cod_situacion_administrativa_medicamento': '1',
  'cod_estado_registro_formato': '1',
  'comercializado': 'SI',
  'posologia': 'https://cimavet.aemps.es/cimavet/pdfs/es/ft/1077%20ESP/1077_ESP_ft.pdf',
  'formato': 'AEROFAR, Envase pulverizador con 250 ml (180 g)',
  'contenido_total_envase': '180',
  'unidad_contenido_total_envase': '2',
  'prescripcion': 'SI',
  'administracion_exclusiva_veterinario': 'NO',
  'administracion_bajo_control_veterinario': 'SI',
  'homeopatico': 'NO',
  'contiene_edo': 'SI',
  'estupefaciente': 'NO',
  'psicotropo': 'NO',
  'base_a_plantas': 'NO',
  'ficha_tecnica': 'https://cimavet.aemps.es/cimavet/pdfs/es/ft/1077%20ESP/1077_ESP_ft.pdf',
  'prospecto': 'https://cimavet.aemps.es/cimavet/pdfs/es/p/1077%20ESP/1077_ESP_p.pdf',
  'titular': '3901',
  'sw_an

In [149]:
especies = ['Bovino', 'Ovino', 'Caprino', 'Porcino', 'Gallinas', 'Pavos', 'Patos', 'Perros', 'Gatos', 'Caballos']

resultado = funciones.dict_meds(prescripciones, especies, reaccionesAdversas)
resultado #obtengo un dict

{'Medicamento': ['AEROFAR',
  'AEROFAR',
  'AEROFAR',
  'AEROFAR',
  'AEROFAR',
  'AEROFAR',
  'AEROFAR',
  'KETOKLASS',
  'KETOKLASS',
  'KETOKLASS',
  'BOVILIS BOVIPAST RSP',
  'BOVILIS BOVIPAST RSP',
  'ADOEQMINA 10 mg/ml SOLUCION CUTANEA # ADOEQMINA',
  'ADOEQMINA 10 mg/ml SOLUCION CUTANEA # ADOEQMINA',
  'ADOEQMINA 10 mg/ml SOLUCION CUTANEA # ADOEQMINA',
  'LOXICOM 5 mg/ml SOLUCION INYECTABLE PARA PERROS Y GATOS',
  'LOXICOM 5 mg/ml SOLUCION INYECTABLE PARA PERROS Y GATOS',
  'LOXICOM 5 mg/ml SOLUCION INYECTABLE PARA PERROS Y GATOS',
  'LOXICOM 5 mg/ml SOLUCION INYECTABLE PARA PERROS Y GATOS',
  'LOXICOM 5 mg/ml SOLUCION INYECTABLE PARA PERROS Y GATOS',
  'ADVOCIN 25 mg/ml SOLUCION INYECTABLE # ADVOCIN SOLUCION INYECTABLE',
  'ADVOCIN 25 mg/ml SOLUCION INYECTABLE # ADVOCIN SOLUCION INYECTABLE',
  'ADVOCIN 25 mg/ml SOLUCION INYECTABLE # ADVOCIN SOLUCION INYECTABLE',
  'ADVOCIN 25 mg/ml SOLUCION INYECTABLE # ADVOCIN SOLUCION INYECTABLE',
  'ADVOCIN 25 mg/ml SOLUCION INYECTABLE # ADV

In [150]:
data_meds = pd.DataFrame(resultado)
data_meds

Unnamed: 0,Medicamento,Especie de destino,Reacciones Adversas
0,AEROFAR,Caprino,Dermatitis local
1,AEROFAR,Porcino,Dermatitis local
2,AEROFAR,Bovino,Dermatitis local
3,AEROFAR,Perros,Dermatitis local
4,AEROFAR,Gatos,Dermatitis local
...,...,...,...
12812,ECOMECTIN 10 mg/ml SOLUCION INYECTABLE,Ovino,Inflamación en el punto de inyección
12813,VECTIMAX 10 mg/ml SOLUCION INYECTABLE,Porcino,Inflamación local
12814,VECTIMAX 10 mg/ml SOLUCION INYECTABLE,Ovino,Inflamación local
12815,VECTIMAX 10 mg/ml SOLUCION INYECTABLE,Bovino,Inflamación local


In [151]:
data_meds.duplicated().sum() #hay duplicados

10238

In [152]:
data_meds = data_meds.drop_duplicates()
data_meds

Unnamed: 0,Medicamento,Especie de destino,Reacciones Adversas
0,AEROFAR,Caprino,Dermatitis local
1,AEROFAR,Porcino,Dermatitis local
2,AEROFAR,Bovino,Dermatitis local
3,AEROFAR,Perros,Dermatitis local
4,AEROFAR,Gatos,Dermatitis local
...,...,...,...
12795,DIXIE COLLAR ANTIPARASITARIO GATO,Perros,Diarrea
12797,"OTISUR 23,0 mg/ml + 5,0 mg/ml + 5500 UI/ml GOT...",Gatos,Hemorragia local
12799,"OTISUR 23,0 mg/ml + 5,0 mg/ml + 5500 UI/ml GOT...",Perros,Hemorragia local
12804,FLUBORAL 200 mg/ml SUSPENSION PARA ADMINISTRAC...,Porcino,Ninguna


In [153]:
ruta_archivo = '../data/data_clean/data_meds.xlsx'
data_meds.to_excel(ruta_archivo, index=False)

In [154]:
ruta_archivo = '../data/data_clean/data_meds.csv'
data_meds.to_csv(ruta_archivo, index=False) 