In [None]:
pip install datasets

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting datasets
  Downloading datasets-2.12.0-py3-none-any.whl (474 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m474.6/474.6 kB[0m [31m21.2 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.7,>=0.3.0 (from datasets)
  Downloading dill-0.3.6-py3-none-any.whl (110 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m110.5/110.5 kB[0m [31m13.6 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloading xxhash-3.2.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (212 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m212.5/212.5 kB[0m [31m24.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting multiprocess (from datasets)
  Downloading multiprocess-0.70.14-py310-none-any.whl (134 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.3/134.3 kB[0m [31m16.7 MB/s[0m eta [36m0:00:00[0m
Collec

In [None]:
from datasets import load_dataset, load_metric, Dataset

In [None]:
import os
import re
from tqdm import tqdm
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Importamos el dataset 
data = load_dataset("celikmus/mayo_clinic_symptoms_and_diseases_v1")

Downloading readme:   0%|          | 0.00/411 [00:00<?, ?B/s]

Downloading and preparing dataset None/None to /root/.cache/huggingface/datasets/celikmus___parquet/celikmus--mayo_clinic_symptoms_and_diseases_v1-4e51adaf795407cb/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/626k [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/1058 [00:00<?, ? examples/s]

Dataset parquet downloaded and prepared to /root/.cache/huggingface/datasets/celikmus___parquet/celikmus--mayo_clinic_symptoms_and_diseases_v1-4e51adaf795407cb/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec. Subsequent calls will reuse this data.


  0%|          | 0/1 [00:00<?, ?it/s]

In [None]:
data = data['train'].to_pandas()

Vemos que el dataset solo tiene una fila asociada a cada label, entonces podemos inferir desde ahora que quizas el modelo de clasificación no podrá hacer mucho

In [None]:
pd.set_option('display.max_rows', 100)
data.sample(100)

Unnamed: 0,text,label
102,The symptoms of radiation enteritis include di...,radiation-enteritis
147,Signs and symptoms of pouchitis can include di...,pouchitis
945,Hyperglycemia usually doesn't cause symptoms u...,hyperglycemia
834,\n\n\n\n\r\n\t Kidney stones\r\n\t Open ...,kidney-stones
710,Signs and symptoms of a salivary gland tumor m...,salivary-gland-cancer
625,Bulimia signs and symptoms may include: \nBein...,bulimia
988,Symptoms of an anal fistula can include: \nAn...,anal-fistula
883,The pain associated with a rotator cuff injury...,rotator-cuff-injury
447,Signs and symptoms of ehrlichiosis and anaplas...,ehrlichiosis
584,Signs and symptoms of trachoma usually affect ...,trachoma


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

data['label'].value_counts()

sun-allergy                     1
salivary-gland-cancer           1
chronic-myelogenous-leukemia    1
hypercalcemia                   1
metatarsalgia                   1
                               ..
hyperthyroidism                 1
premature-ejaculation           1
rickets                         1
mammary-duct-ectasia            1
gestational-diabetes            1
Name: label, Length: 1058, dtype: int64

In [None]:
# Hacemos un split aleatorio de los datos en: un conjunto de entrenamineto con el 
# 70% de los datos y un 30% como conjunto de prueba
from sklearn.model_selection import train_test_split

X = data.text.values
y = data.text.values

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
import torch

if torch.cuda.is_available():       
    device = torch.device("cuda")
    print(f'{torch.cuda.device_count()} GPU(s) available.')
    print('GPU name:', torch.cuda.get_device_name(0))

else:
    print('No GPU available, using the CPU.')
    device = torch.device("cpu")

1 GPU(s) available.
GPU name: Tesla T4


Como algortimo de clasifiación vamos a utilizar Naive Bayes que es una buena alternativa para datos de informacion en texto etiquetado y con un buen numero de ejemplares de entrada



Como se van a procesar los datos en fotma de un modelo bag-of-words, sabemos que este no preserva el orden y por lo tanto se pierde la semantica de la oración, por lo que es conveninente quitar palabras que se repiten mucho como signos de puntuacion, conjunciones y saltos de linea.

Para ello utilizaremos la biblioteca que contiene todas esas stopwords, o sea palabras comunes como "the", "a", "an", "in" en inglés


In [None]:
import nltk   
nltk.download("stopwords")
from nltk.corpus import stopwords

def clean_sentence(s):
  # Poner la oracion en minusculas 
  s = s.lower()
  # Quitar caracteres especiales y las puntuaciones excepto ? con una expresion
  # regular  
  s = re.sub(r'([\'\"\.\(\)\!\?\\\/\,])', r' \1 ', s)
  # Quitar las stopwords, excepto not de acuerdo a:
  # (https://www.cs.cmu.edu/~ark/EMNLP-2015/proceedings/WASSA/pdf/WASSA14.pdf)
  s = " ".join([word for word in s.split()
                  if word not in stopwords.words('english')
                or word in ['not']])
  # Quitar espacios en blanco
  s = re.sub(r'\s+', ' ', s).strip()
  return s



[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Utilizaremos el Tf-IDF vectorizer para vectorizar la información del texto. Lo que hace es calcular un factor para saber para cada palabra que tan significativa es en el documento.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Preprocess text
X_train_preprocessed = np.array([clean_sentence(sentence) for sentence in X_train])
X_val_preprocessed = np.array([clean_sentence(sentence) for sentence in X_val])

# Calculate TF-IDF
tf_idf = TfidfVectorizer(ngram_range=(1, 3),
                         smooth_idf=False)

X_train_tfidf = tf_idf.fit_transform(X_train_preprocessed)
X_val_tfidf = tf_idf.transform(X_val_preprocessed)

In [None]:
X_train_tfidf

<740x120472 sparse matrix of type '<class 'numpy.float64'>'
	with 188724 stored elements in Compressed Sparse Row format>

In [None]:
X_val_tfidf

<318x120472 sparse matrix of type '<class 'numpy.float64'>'
	with 33448 stored elements in Compressed Sparse Row format>

**Clasificador Naive Bayes**

Para determinar los mejores hiperparámetros vamos a usar cross-Validation y sobre el resultado de este sacaremos el promedio del AUC(area bajo la curva), pero al ser un dataset con un elemento por clase no es posible tener K_folds con mas de 1 un elemento por fold

In [None]:
from sklearn.naive_bayes import MultinomialNB

nb_model = MultinomialNB(alpha=1.3)
nb_model.fit(X_train_tfidf, y_train)
y_pred = nb_model.predict_proba(X_val_tfidf)

Fittear el modelo y hacer predicciones

In [None]:
print('Model accuracy score: {0:0.4f}'. format(nb_model.score(X_val_tfidf, y_val)))

Model accuracy score: 0.0000


Al estar entrenado en texto tokenizado bajo el modelo bag of words, cuando se haga la prediccion con un test set que no tiene ninguna label en comun con el training set, nunca tendremos una predicción acertada y por eso el accuracy es 0%