# 0. Presentación

En este cuaderno se realiza la etapa del ***Proceso KDD de Selección de Datos*** en este caso, aplicándola sobre el conjunto de datos de casos clínicos de enfermedades, para poder realizar el análisis de datos en su vertiente de diagnosticar enfermedades infecciosas a través de los datos obtenidos.

# 1. Librerías 

Antes de iniciar cualquier tarea debemos de asegurarnos de que las librerías que sean necesarias están correctamente importadas. 

In [None]:
# Carga y manipulación de datos
from google.colab import files
import io
 
# Librería para manipular DataFrames
import pandas as pd

# 2. Carga de datos

El primer paso es subir todos los archivos CSV que sean necesarios para llevar a cabo este proceso. En este caso cargamos los datos correspondientes a la base de datos anonimizada encontrada en Kaggle. Para ello utilizaremos las herramientas que nos ofrece Google Colab a la hora de subir archivos. 



In [None]:
casos_clinicos = pd.read_csv("clinical_cases.csv", sep=',')
casos_clinicos.head()

Unnamed: 0,Disease,Symptom_1,Symptom_2,Symptom_3,Symptom_4,Symptom_5,Symptom_6,Symptom_7,Symptom_8,Symptom_9,Symptom_10,Symptom_11,Symptom_12,Symptom_13,Symptom_14,Symptom_15,Symptom_16,Symptom_17
0,Fungalinfection,itching,skin_rash,nodal_skin_eruptions,dischromic_patches,,,,,,,,,,,,,
1,Fungalinfection,skin_rash,nodal_skin_eruptions,dischromic_patches,,,,,,,,,,,,,,
2,Fungalinfection,itching,nodal_skin_eruptions,dischromic_patches,,,,,,,,,,,,,,
3,Fungalinfection,itching,skin_rash,dischromic_patches,,,,,,,,,,,,,,
4,Fungalinfection,itching,skin_rash,nodal_skin_eruptions,,,,,,,,,,,,,,


# 3. Selección de enf. infecciosas

Como se puede comprobar, estamos ante un conjunto de datos de casos clínicos de enfermedades, sin embargo para este estudio simplemente se necesitan ***enfermedades infecciosas***.

Por tanto, comprobamos cuales son cada una de las enfermedades que posee el conjunto de datos.

In [None]:
casos_clinicos["Disease"].unique()

array(['Fungalinfection', 'Allergy', 'GERD', 'Chroniccholestasis',
       'DrugReaction', 'Pepticulcerdiseae', 'AIDS', 'Diabetes',
       'Gastroenteritis', 'BronchialAsthma', 'Hypertension', 'Migraine',
       'Cervicalspondylosis', 'Paralysis(brainhemorrhage)', 'Jaundice',
       'Malaria', 'Chickenpox', 'Dengue', 'Typhoid', 'hepatitisA',
       'HepatitisB', 'HepatitisC', 'HepatitisD', 'HepatitisE',
       'Alcoholichepatitis', 'Tuberculosis', 'CommonCold', 'Pneumonia',
       'Dimorphichemmorhoids(piles)', 'Heartattack', 'Varicoseveins',
       'Hypothyroidism', 'Hyperthyroidism', 'Hypoglycemia',
       'Osteoarthristis', 'Arthritis',
       '(vertigo)ParoymsalPositionalVertigo', 'Acne',
       'Urinarytractinfection', 'Psoriasis', 'Impetigo'], dtype=object)

El dataset cuenta con un total de 41 enfermedades. De ellas, infecciosas son 18, que son las siguientes:

* Infección micótica
* Úlcera péptica
* Gastroenteritis
* Malaria
* Varicela
* Dengue
* Tifoidea
* Hepatitis A
* Hepatitis B
* Hepatitis C 
* Hepatitis D 
* Hepatitis E
* Tuberculosis 
* Resfriado común
* Neumonía
* Hipotiroidismo
* Hipertiroidismo
* Impétigo


Por tanto, se desechan las 22 enfermedades restantes, para ello, creamos un dataset nuevo, ***casos_infecciosas***.

In [None]:
## NUEVO DATASET CON SOLO ENFERMEDADES INFECCIOSAS.
casos_infecciosas = casos_clinicos
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Allergy'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='GERD'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Chroniccholestasis'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='DrugReaction'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='AIDS'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Diabetes'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='BronchialAsthma'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Hypertension'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Migraine'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Cervicalspondylosis'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Paralysis(brainhemorrhage)'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Alcoholichepatitis'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Dimorphichemmorhoids(piles)'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Heartattack'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Varicoseveins'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Hypoglycemia'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Osteoarthristis'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Arthritis'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='(vertigo)ParoymsalPositionalVertigo'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Urinarytractinfection'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Psoriasis'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Jaundice'].index)
casos_infecciosas = casos_infecciosas.drop(casos_infecciosas[casos_infecciosas['Disease']=='Acne'].index)

Mostramos el dataframe resultante

In [None]:
casos_infecciosas

Unnamed: 0,Disease,Symptom_1,Symptom_2,Symptom_3,Symptom_4,Symptom_5,Symptom_6,Symptom_7,Symptom_8,Symptom_9,Symptom_10,Symptom_11,Symptom_12,Symptom_13,Symptom_14,Symptom_15,Symptom_16,Symptom_17
0,Fungalinfection,itching,skin_rash,nodal_skin_eruptions,dischromic_patches,,,,,,,,,,,,,
1,Fungalinfection,skin_rash,nodal_skin_eruptions,dischromic_patches,,,,,,,,,,,,,,
2,Fungalinfection,itching,nodal_skin_eruptions,dischromic_patches,,,,,,,,,,,,,,
3,Fungalinfection,itching,skin_rash,dischromic_patches,,,,,,,,,,,,,,
4,Fungalinfection,itching,skin_rash,nodal_skin_eruptions,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4905,CommonCold,continuous_sneezing,chills,fatigue,cough,high_fever,headache,swelled_lymph_nodes,malaise,phlegm,throat_irritation,redness_of_eyes,sinus_pressure,runny_nose,congestion,chest_pain,loss_of_smell,muscle_pain
4906,Pneumonia,chills,fatigue,cough,high_fever,breathlessness,sweating,malaise,phlegm,chest_pain,fast_heart_rate,rusty_sputum,,,,,,
4910,Hypothyroidism,fatigue,weight_gain,cold_hands_and_feets,mood_swings,lethargy,dizziness,puffy_face_and_eyes,enlarged_thyroid,brittle_nails,swollen_extremeties,depression,irritability,abnormal_menstruation,,,,
4911,Hyperthyroidism,fatigue,mood_swings,weight_loss,restlessness,sweating,diarrhoea,fast_heart_rate,excessive_hunger,muscle_weakness,irritability,abnormal_menstruation,,,,,,


In [None]:
casos_infecciosas["Disease"].unique()

array(['Fungalinfection', 'Pepticulcerdiseae', 'Gastroenteritis',
       'Malaria', 'Chickenpox', 'Dengue', 'Typhoid', 'hepatitisA',
       'HepatitisB', 'HepatitisC', 'HepatitisD', 'HepatitisE',
       'Tuberculosis', 'CommonCold', 'Pneumonia', 'Hypothyroidism',
       'Hyperthyroidism', 'Impetigo'], dtype=object)

# 4. Datos de Web Scraping
Ahora, los datos extraidos mediante el uso de Web Scraping, deben de ser añadidos a la base de datos clínica. Para ello, se deben de adaptar a su formato, buscando semejanzas entre los síntomas, para ver si concuerdan con algunos de los ya presentes en la base de datos clínica, o por el contrario, no están presentes y por tanto, se deben de añadir.

In [None]:
sintomas_ws = pd.read_csv("ws_symptoms.csv", sep=',')
sintomas_ws = sintomas_ws.drop(['Unnamed: 0'], axis = 1)
sintomas_ws

Unnamed: 0,Disease,Symptom
0,Kawasaki Disease,aneurysms
1,Kawasaki Disease,aneurysm
2,Kawasaki Disease,coronary artery aneurysm
3,Kawasaki Disease,coronary aneurysm
4,Kawasaki Disease,coronary artery aneurysms
...,...,...
135,Pharyngotonsillitis,cough
136,Pharyngotonsillitis,fever
137,Pharyngotonsillitis,general discomfort
138,Pharyngotonsillitis,swollen tonsils


In [None]:
sintomas_ws['Disease'].unique()

array(['Kawasaki Disease', 'Bronchiolitis', 'Scarlet Fever', 'Influeza',
       'Measles', 'Pertussis', 'Enterobiasis', 'Mononucleosis',
       'Pharyngotonsillitis'], dtype=object)

Analicemos a continuación los síntomas de cada enfermedad, y con que sintomas los podemos relacionar del dataset de casos clínicos. Además, tendremos en cuenta los síntomas más importantes, para generar casos clínicos equilibrados y reales, para añadirlos al dataset clínico.

## Enfermedad de Kawasaki

In [None]:
sintomas_ws[sintomas_ws.Disease == 'Kawasaki Disease']

Unnamed: 0,Disease,Symptom
0,Kawasaki Disease,aneurysms
1,Kawasaki Disease,aneurysm
2,Kawasaki Disease,coronary artery aneurysm
3,Kawasaki Disease,coronary aneurysm
4,Kawasaki Disease,coronary artery aneurysms
5,Kawasaki Disease,coronary aneurysms
6,Kawasaki Disease,myocarditis
7,Kawasaki Disease,infarction
8,Kawasaki Disease,fever
9,Kawasaki Disease,vasculitis


En este caso podemos ver como existen síntomas no comunes y que por tanto un paciente no podrá expresar como síntoma a su médico. Por tanto, seleccionamos los siguientes: fiebre, lesiones de piel, labios rojos y secos y problemas cardíacos. De ellos, los siguientes existen en la base de datos clínica:

* fever --> high_fever / mild_fever
* skin lession --> skin_rash 
* problemas cardíacos --> fast_heart_rate

Además, para los problemas cardiacos se creara un síntoma adicional denominado vascular_complications. Para las lesiones de piel se añadirá un síntoma denominado red_skin (será necesario para otra enfermedad también) y se añade también el síntoma red_and_dry_tonge, haciendo referencia a los labios rojos y secos.

Procedemos por tanto a generar y añadir los casos clínicos de esta enfermedad a la base de datos clínica. Por cada enfermedad se añadirán 120 casos clínicos, para que coincida con el número de casos de las enfermedades propias de dicho dataset. Para ello, generamos un número menor de casos clínicos, y serán insertados tantas veces sean necesarias para sumar 120.

In [None]:
i = 0;

while i < 20:
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'KawasakiDisease' , 'Symptom_1' : 'vascular_complications' , 'Symptom_2' : 'red_and_dry_tongue', 'Symptom_3' : 'red_skin', 'Symptom_4' : 'high_fever'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'KawasakiDisease' , 'Symptom_1' : 'vascular_complications' , 'Symptom_2' : 'red_and_dry_tongue', 'Symptom_3' : 'red_skin', 'Symptom_4' : 'mild_fever'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'KawasakiDisease' , 'Symptom_1' : 'red_and_dry_tongue' , 'Symptom_2' : 'vascular_complications', 'Symptom_3' : 'red_skin'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'KawasakiDisease' , 'Symptom_1' : 'red_and_dry_tongue' , 'Symptom_2' : 'vascular_complications', 'Symptom_3' : 'mild_fever'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'KawasakiDisease' , 'Symptom_1' : 'red_and_dry_tongue' , 'Symptom_2' : 'vascular_complications', 'Symptom_3' : 'high_fever'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'KawasakiDisease' , 'Symptom_1' : 'vascular_complications' , 'Symptom_2' : 'red_and_dry_tongue'}, ignore_index=True)
  i = i + 1


## Bronquiolitis

In [None]:
sintomas_ws[sintomas_ws.Disease == 'Bronchiolitis']

Unnamed: 0,Disease,Symptom
32,Bronchiolitis,wheezing
33,Bronchiolitis,respiratory failure
34,Bronchiolitis,respiratory distress
35,Bronchiolitis,acute respiratory failure
36,Bronchiolitis,airway obstruction
37,Bronchiolitis,respiratory insufficiency
38,Bronchiolitis,wheeze
39,Bronchiolitis,respiratory symptoms


Se seleccionan 4 síntomas que representan a la enfermedad en su totalidad: fiebre, jadeos, insuficiencia respiratoria y dificultad para respirar. De estos 4, en la BBDD nos encontramos con dos de ellos:

* fever --> high_fever, mild_fever
* respiratory distress --> breathlessness

Añadimos por tanto como nuevos síntomas los dos restantes. Procedemos ahora a generar y añadir los casos clínicos

In [None]:
i = 0;

while i < 30:
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Bronchiolitis' , 'Symptom_1' : 'breathlessness' , 'Symptom_2' : 'wheeze', 'Symptom_3' : 'high_fever', 'Symptom_4' : 'respiratory_insufficiency'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Bronchiolitis' , 'Symptom_1' : 'wheeze' , 'Symptom_2' : 'breathlessness', 'Symptom_3' : 'respiratory_insufficiency', 'Symptom_4' : 'mild_fever'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Bronchiolitis' , 'Symptom_1' : 'wheeze' , 'Symptom_2' : 'high_fever', 'Symptom_3' : 'breathlessness'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Bronchiolitis' , 'Symptom_1' : 'mild_fever' , 'Symptom_2' : 'breathlessness', 'Symptom_3' : 'wheeze'}, ignore_index=True)
  i = i + 1

## Escarlatina

In [None]:
sintomas_ws[sintomas_ws.Disease == 'Scarlet Fever']

Unnamed: 0,Disease,Symptom
40,Scarlet Fever,hepatitis
41,Scarlet Fever,otitis
42,Scarlet Fever,rash
43,Scarlet Fever,otitis media
127,Scarlet Fever,high_fever


Nos quedamos con los dos síntomas principales, los cuales también aparecen en la base de datos clínica:

* high_fever --> high_fever
* rash --> skin_rash

Se creará un nuevo síntoma red_skin que represente el enrojecimiento de la piel, ya que además de generar erupciones en ella, esta enfermedad también enrojece la piel. Procedemos a generar y añadir los casos clínicos nuevos.

In [None]:
i = 0;

while i < 20:
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'ScarletFever' , 'Symptom_1' : 'high_fever' , 'Symptom_2' : 'skin_rash', 'Symptom_3' : 'red_skin'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'ScarletFever' , 'Symptom_1' : 'skin_rash' , 'Symptom_2' : 'red_skin', 'Symptom_3' : 'high_fever'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'ScarletFever' , 'Symptom_1' : 'red_skin' , 'Symptom_2' : 'high_fever', 'Symptom_3' : 'skin_rash'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'ScarletFever' , 'Symptom_1' : 'high_fever' , 'Symptom_2' : 'red_skin'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'ScarletFever' , 'Symptom_1' : 'skin_rash' , 'Symptom_2' : 'high_fever'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'ScarletFever' , 'Symptom_1' : 'skin_rash' , 'Symptom_2' : 'red_skin'}, ignore_index=True)    
  i = i + 1

## Gripe

In [None]:
sintomas_ws[sintomas_ws.Disease == 'Influeza']

Unnamed: 0,Disease,Symptom
44,Influeza,pneumonia
45,Influeza,fever
46,Influeza,respiratory failure
47,Influeza,myocarditis
48,Influeza,respiratory Disease
...,...,...
102,Influeza,ventricular fibrillation
103,Influeza,acute myopathy
104,Influeza,clonal evolution
105,Influeza,status asthmaticus


Seleccionamos los siguientes síntomas: fiebre, dolor de cabeza, inmunodepresión, debilidad muscular y mareos. De estos, el único no representado en la base de datos, es la inmunodepresión, que será añadido como nuevo síntoma. Además, también sera necesario para otra enfermedad. Se procede a generar y añadir estos casos clínicos.

In [None]:
i = 0;

while i < 20:
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Influenza' , 'Symptom_1' : 'high_fever' , 'Symptom_2' : 'immunosuppression', 'Symptom_3' : 'headache', 'Symptom_4' : 'dizziness', 'Symptom_5' : 'muscle_weakness'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Influenza' , 'Symptom_1' : 'headache' , 'Symptom_2' : 'mild_fever', 'Symptom_3' : 'immunosuppression', 'Symptom_4' : 'muscle_weakness', 'Symptom_5' : 'dizziness'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Influenza' , 'Symptom_1' : 'mild_fever' , 'Symptom_2' : 'headache', 'Symptom_3' : 'dizziness', 'Symptom_4' : 'immunosuppression'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Influenza' , 'Symptom_1' : 'headache' , 'Symptom_2' : 'high_fever', 'Symptom_3' : 'immunosuppression', 'Symptom_4' : 'muscle_weakness'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Influenza' , 'Symptom_1' : 'headache' , 'Symptom_2' : 'mild_fever', 'Symptom_3' : 'muscle_weakness'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Influenza' , 'Symptom_1' : 'high_fever' , 'Symptom_2' : 'headache', 'Symptom_3' : 'dizziness'}, ignore_index=True)  
  i = i + 1

## Sarampión

In [None]:
sintomas_ws[sintomas_ws.Disease == 'Measles']

Unnamed: 0,Disease,Symptom
107,Measles,fever
108,Measles,rash
109,Measles,pneumonia
110,Measles,encephalitis
111,Measles,immunosuppression
112,Measles,blindness
113,Measles,koplik's spots
114,Measles,lymphopenia
115,Measles,acute respiratory failure
116,Measles,bacterial pneumonia


En el caso del sarampión, seleccionamos los síntomas más conocidos por un paciente que pueda acudir a una consulta. Fiebre, erupciones en la piel, inmunosupresión, tos y diarrea. De estos, los siguientes se pueden asociar a síntomas de la base de datos clínica:

* cough --> cough
* fever --> high_fever / mild_fever
* rash --> skin_rash
* diarrhea --> diarrhoea

Se añadirá la inmunosupresión como síntoma nuevo. Se procede a generar y añadir dichos casos clínicos.

In [None]:
i = 0;

while i < 20:
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Measles' , 'Symptom_1' : 'high_fever' , 'Symptom_2' : 'immunosuppression', 'Symptom_3' : 'skin_rash', 'Symptom_4' : 'cough', 'Symptom_5' : 'diarrhoea'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Measles' , 'Symptom_1' : 'skin_rash' , 'Symptom_2' : 'mild_fever', 'Symptom_3' : 'immunosuppression', 'Symptom_4' : 'diarrhoea', 'Symptom_5' : 'cough'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Measles' , 'Symptom_1' : 'mild_fever' , 'Symptom_2' : 'skin_rash', 'Symptom_3' : 'cough', 'Symptom_4' : 'immunosuppression'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Measles' , 'Symptom_1' : 'skin_rash' , 'Symptom_2' : 'high_fever', 'Symptom_3' : 'immunosuppression', 'Symptom_4' : 'diarrhoea'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Measles' , 'Symptom_1' : 'skin_rash' , 'Symptom_2' : 'mild_fever', 'Symptom_3' : 'diarrhoea'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Measles' , 'Symptom_1' : 'high_fever' , 'Symptom_2' : 'skin_rash', 'Symptom_3' : 'cough'}, ignore_index=True)  
  i = i + 1

## Tos ferina

In [None]:
sintomas_ws[sintomas_ws.Disease == 'Pertussis']

Unnamed: 0,Disease,Symptom
121,Pertussis,cough
122,Pertussis,c syndrome
123,Pertussis,seizures
124,Pertussis,pulmonary hypertension
125,Pertussis,diarrhea
126,Pertussis,vomits


De los síntomas aquí existentes seleccionamos: tos, hipertensión pulmonar, diarrea y vomitos. De estos tres, solo no existen la hipertensión pulmonar. Por ello, se va a crear un nuevo síntoma que haga referencia a problemas pulmonares.

In [None]:
i = 0;

while i < 30:
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Pertussis' , 'Symptom_1' : 'cough' , 'Symptom_2' : 'vomiting', 'Symptom_3' : 'lung_pain', 'Symptom_4' : 'diarrhoea'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Pertussis' , 'Symptom_1' : 'diarrhoea' , 'Symptom_2' : 'lung_pain', 'Symptom_3' : 'cough', 'Symptom_4' : 'vomiting'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Pertussis' , 'Symptom_1' : 'vomiting' , 'Symptom_2' : 'lung_pain', 'Symptom_3' : 'cough'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Pertussis' , 'Symptom_1' : 'cough' , 'Symptom_2' : 'lung_pain', 'Symptom_3' : 'vomiting'}, ignore_index=True)
  i = i + 1

## Enterobiasis

In [None]:
sintomas_ws[sintomas_ws.Disease == 'Enterobiasis']

Unnamed: 0,Disease,Symptom
128,Enterobiasis,insomnia
129,Enterobiasis,itchy anus
130,Enterobiasis,fatigue


Solo uno de estos tres síntomas se encuentra en la base de datos clínica. La fatiga, que comparte el mismo nombre en las BBDD. Por tanto, se deben de añadir el insomnio y picor de ano como síntomas nuevos.

In [None]:
i = 0;

while i < 30:
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Enterobiasis' , 'Symptom_1' : 'itchy_anus' , 'Symptom_2' : 'insomia'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Enterobiasis' , 'Symptom_1' : 'fatigue' , 'Symptom_2' : 'itchy_anus', 'Symptom_3' : 'insomia'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Enterobiasis' , 'Symptom_1' : 'itchy_anus' , 'Symptom_2' : 'fatigue', 'Symptom_3' : 'insomia'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Enterobiasis' , 'Symptom_1' : 'insomia' , 'Symptom_2' : 'itchy_anus'}, ignore_index=True)
  i = i + 1

## Mononucleosis

In [None]:
sintomas_ws[sintomas_ws.Disease == 'Mononucleosis']

Unnamed: 0,Disease,Symptom
131,Mononucleosis,throat pain
132,Mononucleosis,fatigue
133,Mononucleosis,headache
134,Mononucleosis,lymph nodes


Todos los síntomas de la mononucleosis ya existen en la base de datos clínica:

* throat pain --> throat_irritation
* fatigue --> fatigue
* headache --> headache
* lymph nodes --> swelled_lymph_nodes

In [None]:
i = 0;

while i < 30:
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Mononucleosis' , 'Symptom_1' : 'throat_irritation' , 'Symptom_2' : 'fatigue', 'Symptom_3' : 'headache', 'Symptom_4' : 'swelled_lymph_nodes'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Mononucleosis' , 'Symptom_1' : 'fatigue' , 'Symptom_2' : 'swelled_lymph_nodes', 'Symptom_3' : 'throat_irritation', 'Symptom_4' : 'headache'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Mononucleosis' , 'Symptom_1' : 'swelled_lymph_nodes' , 'Symptom_2' : 'throat_irritation', 'Symptom_3' : 'fatigue'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Mononucleosis' , 'Symptom_1' : 'fatigue' , 'Symptom_2' : 'swelled_lymph_nodes', 'Symptom_3' : 'throat_irritation'}, ignore_index=True)
  i = i + 1

## Faringoamigdalitis

In [None]:
sintomas_ws[sintomas_ws.Disease == 'Pharyngotonsillitis']

Unnamed: 0,Disease,Symptom
135,Pharyngotonsillitis,cough
136,Pharyngotonsillitis,fever
137,Pharyngotonsillitis,general discomfort
138,Pharyngotonsillitis,swollen tonsils
139,Pharyngotonsillitis,red tonsils


Tres de los síntomas de esta enfermedad existen ya en la base de datos clínica:


*   cough --> cough
*   fever --> high_fever / mild_fever
*   general discomfort --> malaise

Sin embargo los síntomas swollen tonsils y red tonsils, referentes a las amígdalas, no existen, por tanto se añadirán.



In [None]:
i = 0;

while i < 20:
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Pharyngotonsillitis' , 'Symptom_1' : 'cough' , 'Symptom_2' : 'mild_fever', 'Symptom_3' : 'swollen_tonsils', 'Symptom_4' : 'red_tonsils', 'Symptom_5' : 'malaise'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Pharyngotonsillitis' , 'Symptom_1' : 'high_fever' , 'Symptom_2' : 'red_tonsils', 'Symptom_3' : 'malaise', 'Symptom_4' : 'swollen_tonsils', 'Symptom_5' : 'cough'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Pharyngotonsillitis' , 'Symptom_1' : 'malaise' , 'Symptom_2' : 'swollen_tonsils', 'Symptom_3' : 'cough', 'Symptom_4' : 'mild_fever'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Pharyngotonsillitis' , 'Symptom_1' : 'swollen_tonsils' , 'Symptom_2' : 'red_tonsils', 'Symptom_3' : 'high_fever', 'Symptom_4' : 'cough'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Pharyngotonsillitis' , 'Symptom_1' : 'high_fever' , 'Symptom_2' : 'cough', 'Symptom_3' : 'swollen_tonsils'}, ignore_index=True)
  casos_infecciosas = casos_infecciosas.append({'Disease' : 'Pharyngotonsillitis' , 'Symptom_1' : 'cough' , 'Symptom_2' : 'swollen_tonsils', 'Symptom_3' : 'mild_fever'}, ignore_index=True)  
  i = i + 1

Por tanto, una vez añadidos los casos clínicos conseguidos gracias al proceso de web scraping realizado, este es el dataset clínico resultante de la selección de datos.

In [None]:
casos_infecciosas

Unnamed: 0,Disease,Symptom_1,Symptom_2,Symptom_3,Symptom_4,Symptom_5,Symptom_6,Symptom_7,Symptom_8,Symptom_9,Symptom_10,Symptom_11,Symptom_12,Symptom_13,Symptom_14,Symptom_15,Symptom_16,Symptom_17
0,Fungalinfection,itching,skin_rash,nodal_skin_eruptions,dischromic_patches,,,,,,,,,,,,,
1,Fungalinfection,skin_rash,nodal_skin_eruptions,dischromic_patches,,,,,,,,,,,,,,
2,Fungalinfection,itching,nodal_skin_eruptions,dischromic_patches,,,,,,,,,,,,,,
3,Fungalinfection,itching,skin_rash,dischromic_patches,,,,,,,,,,,,,,
4,Fungalinfection,itching,skin_rash,nodal_skin_eruptions,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3235,Pharyngotonsillitis,high_fever,red_tonsils,malaise,swollen_tonsils,cough,,,,,,,,,,,,
3236,Pharyngotonsillitis,malaise,swollen_tonsils,cough,mild_fever,,,,,,,,,,,,,
3237,Pharyngotonsillitis,swollen_tonsils,red_tonsils,high_fever,cough,,,,,,,,,,,,,
3238,Pharyngotonsillitis,high_fever,cough,swollen_tonsils,,,,,,,,,,,,,,


# 5. Exportación de datos

Por último, convertimos el dataframe en un archivo CSV, para poder descargarlo.

In [None]:
casos_infecciosas.to_csv("casos_infecciosas.csv")