# ANÁLISIS DEL CONJUNTO DE DATOS Y EVALUACIÓN DEL MODELO

## 1. Conjuntos de datos

En este apartado, se describen los diferentes conjuntos de datos obtenidos en base a los diálogos. Cada registro está formado por una columna de entrada, que es el texto a clasificar, y una columna de salida, que es la intención en la que se clasifica el texto.

Según se define en el apartado **4. Identificación de requisitos** de la memoria, se van a tratar las siguientes intenciones:

- Registrar saludo
- Registrar toma de medicamento
- Registrar estado emocional
- Registrar cita médica
- Registrar despedida

El objetivo es conseguir un conjunto de datos balanceado y sin duplicados de un mínimo de 100 registros de las intenciones que se van a tratar.

In [3]:
import json
import matplotlib.pyplot as plt
import pandas as pd

def generate(version):
    path = f"/home/jovyan/data/dataset/{version}/data.json"
    with open(path, 'r') as f:
      data = json.load(f)
    return data

def dataToCSV(dataset, version):
    entries = []
    for entry in dataset:
        text = entry["text"]
        intent = entry["intent"]
        entryText = f"{text};{intent}"
        entries.append(entryText)
    path = f"/home/jovyan/data/dataset/{version}/data.csv"
    with open(path,'w') as f:
        for line in entries:
            f.write(line)
            f.write('\n')
    
def writeCSV(entries, version):
    path = f"/home/jovyan/data/dataset/{version}/data.csv"
    with open(path, 'w') as f:
      json.dump(entries, f)

def loadDataframe(version):
    dataset = generate(version)
    entries = dataToCSV(dataset, version)
    path = f"/home/jovyan/data/dataset/{version}/data.csv"
    df = pd.read_csv(path, names=["text", "intent"], sep=";")
    return df

def filterDataframe(df):
    filteredColumns = ['REGISTRAR_TOMA_MEDICAMENTO', 'REGISTRAR_ESTADO_EMOCIONAL', 'REGISTRAR_CITA_MEDICA', 'REGISTRAR_SALUDO', 'REGISTRAR_DESPEDIDA']
    filter = df['intent'].isin(filteredColumns)
    dfFiltered = df[filter]
    return dfFiltered

### 1.1. Conjunto v1

In [4]:
DATASET_VERSION = "v1" # Versión del conjunto de datos

df = loadDataframe(DATASET_VERSION)
df.head()

Unnamed: 0,text,intent
0,"Espero que no se enamore de ti como en Her, au...",NO_IDENTIFICADO
1,Hola estoy muy sola necesito de tus consejos y...,REGISTRAR_ESTADO_EMOCIONAL
2,Este mismo mes de junio a las 8'30 con el enfe...,REGISTRAR_CITA_MEDICA
3,"Hola, he estado un poco ocupado, lo siento, in...",REGISTRAR_ESTADO_EMOCIONAL
4,el rinialer me toca a las 9h,REGISTRAR_TOMA_MEDICAMENTO


In [5]:
df.shape

(176, 2)

In [6]:
df["intent"].unique()

array(['NO_IDENTIFICADO', 'REGISTRAR_ESTADO_EMOCIONAL',
       'REGISTRAR_CITA_MEDICA', 'REGISTRAR_TOMA_MEDICAMENTO',
       'REGISTRAR_NECESIDAD', 'REGISTRAR_DESPEDIDA', 'REGISTRAR_SALUDO',
       'REGISTRAR_ALABANZA', 'REGISTRAR_CONFIRMACION',
       'CONSULTAR_ESTADO_PERSONA_MAYOR', 'REGISTRAR_COVID',
       'REGISTRAR_SITUACION_ADVERSA', 'ANOTAR_TOMA_MEDICAMENTO',
       'ACTUALIZAR_TOMA_MEDICAMENTO', 'REGISTRAR_MEDIDA_MEDICA',
       'REGISTRAR_SINTOMA', 'REGISTRAR_ANECDOTA', 'REGISTRAR_DUDA',
       'REGISTRAR_DOMOTICA', 'RECORDAR_MEDICACION',
       'RECORDAR_CITA_MEDICA', 'REGISTRAR_ACTIVIDAD', 'CONSULTAR_TIEMPO',
       'REGISTRAR_TELEGRAM', 'REGISTRAR_RECHAZO', 'CONSULTAR_NUTRICION'],
      dtype=object)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176 entries, 0 to 175
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    176 non-null    object
 1   intent  176 non-null    object
dtypes: object(2)
memory usage: 2.9+ KB


In [8]:
df.describe()

Unnamed: 0,text,intent
count,176,176
unique,172,26
top,Hola,NO_IDENTIFICADO
freq,3,35


In [9]:
df[df['text']=='Hola']

Unnamed: 0,text,intent
16,Hola,REGISTRAR_SALUDO
136,Hola,REGISTRAR_SALUDO
161,Hola,REGISTRAR_SALUDO


In [11]:
df['intent'].value_counts()

NO_IDENTIFICADO                   35
REGISTRAR_TOMA_MEDICAMENTO        28
REGISTRAR_ESTADO_EMOCIONAL        26
REGISTRAR_CITA_MEDICA             17
REGISTRAR_SALUDO                  11
REGISTRAR_DESPEDIDA                9
REGISTRAR_ALABANZA                 7
REGISTRAR_SITUACION_ADVERSA        6
REGISTRAR_DOMOTICA                 5
REGISTRAR_NECESIDAD                4
REGISTRAR_CONFIRMACION             4
REGISTRAR_ANECDOTA                 3
REGISTRAR_COVID                    3
CONSULTAR_ESTADO_PERSONA_MAYOR     3
REGISTRAR_MEDIDA_MEDICA            2
REGISTRAR_SINTOMA                  2
REGISTRAR_ACTIVIDAD                2
REGISTRAR_RECHAZO                  1
REGISTRAR_TELEGRAM                 1
CONSULTAR_TIEMPO                   1
ACTUALIZAR_TOMA_MEDICAMENTO        1
RECORDAR_CITA_MEDICA               1
RECORDAR_MEDICACION                1
REGISTRAR_DUDA                     1
ANOTAR_TOMA_MEDICAMENTO            1
CONSULTAR_NUTRICION                1
Name: intent, dtype: int64

In [12]:
filteredColumns = ['REGISTRAR_TOMA_MEDICAMENTO', 'REGISTRAR_ESTADO_EMOCIONAL', 'REGISTRAR_CITA_MEDICA', 'REGISTRAR_SALUDO', 'REGISTRAR_DESPEDIDA']
filter = df['intent'].isin(filteredColumns)

In [13]:
dfFiltered = filterDataframe(df)
dfFiltered.head()

Unnamed: 0,text,intent
1,Hola estoy muy sola necesito de tus consejos y...,REGISTRAR_ESTADO_EMOCIONAL
2,Este mismo mes de junio a las 8'30 con el enfe...,REGISTRAR_CITA_MEDICA
3,"Hola, he estado un poco ocupado, lo siento, in...",REGISTRAR_ESTADO_EMOCIONAL
4,el rinialer me toca a las 9h,REGISTRAR_TOMA_MEDICAMENTO
6,Ahora voy a cenar luego hablamos 😊😊,REGISTRAR_DESPEDIDA


In [14]:
dfFiltered.shape

(91, 2)

In [15]:
dfFiltered['intent'].value_counts()

REGISTRAR_TOMA_MEDICAMENTO    28
REGISTRAR_ESTADO_EMOCIONAL    26
REGISTRAR_CITA_MEDICA         17
REGISTRAR_SALUDO              11
REGISTRAR_DESPEDIDA            9
Name: intent, dtype: int64

El conjunto de datos no cumple los criterios de evaluación, ya que no llega a 100 registros, sino a 91 (y con registros repetidos), y hay una notable diferencia entre el número de registros de REGISTRAR_TOMA_MEDICAMENTO (28) y REGISTRAR_DESPEDIDA (9), por lo que el conjunto **no es válido**.

### 1.2. Conjunto v2

Tras la generación de nuevos diálogos por parte de los usuarios y la mejora de la herramienta que genera el conjunto de datos a partir de los diálogos para que elimine registros duplicados, se procede a analizar el nuevo conjunto de datos generado.

In [16]:
DATASET_VERSION = "v2" # Versión del conjunto de datos

df = loadDataframe(DATASET_VERSION)
df.head()

FileNotFoundError: [Errno 2] No such file or directory: '/home/jovyan/data/dataset/v2/data.json'

In [5]:
df.shape

(176, 2)

In [6]:
df["intent"].unique()

array(['NO_IDENTIFICADO', 'REGISTRAR_ESTADO_EMOCIONAL',
       'REGISTRAR_CITA_MEDICA', 'REGISTRAR_TOMA_MEDICAMENTO',
       'REGISTRAR_NECESIDAD', 'REGISTRAR_DESPEDIDA', 'REGISTRAR_SALUDO',
       'REGISTRAR_ALABANZA', 'REGISTRAR_CONFIRMACION',
       'CONSULTAR_ESTADO_PERSONA_MAYOR', 'REGISTRAR_COVID',
       'REGISTRAR_SITUACION_ADVERSA', 'ANOTAR_TOMA_MEDICAMENTO',
       'ACTUALIZAR_TOMA_MEDICAMENTO', 'REGISTRAR_MEDIDA_MEDICA',
       'REGISTRAR_SINTOMA', 'REGISTRAR_ANECDOTA', 'REGISTRAR_DUDA',
       'REGISTRAR_DOMOTICA', 'RECORDAR_MEDICACION',
       'RECORDAR_CITA_MEDICA', 'REGISTRAR_ACTIVIDAD', 'CONSULTAR_TIEMPO',
       'REGISTRAR_TELEGRAM', 'REGISTRAR_RECHAZO', 'CONSULTAR_NUTRICION'],
      dtype=object)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176 entries, 0 to 175
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    176 non-null    object
 1   intent  176 non-null    object
dtypes: object(2)
memory usage: 2.9+ KB


In [8]:
df.describe()

Unnamed: 0,text,intent
count,176,176
unique,172,26
top,Hola,NO_IDENTIFICADO
freq,3,35


In [9]:
df[df['text']=='Hola']

Unnamed: 0,text,intent
16,Hola,REGISTRAR_SALUDO
136,Hola,REGISTRAR_SALUDO
161,Hola,REGISTRAR_SALUDO


In [11]:
df['intent'].value_counts()

NO_IDENTIFICADO                   35
REGISTRAR_TOMA_MEDICAMENTO        28
REGISTRAR_ESTADO_EMOCIONAL        26
REGISTRAR_CITA_MEDICA             17
REGISTRAR_SALUDO                  11
REGISTRAR_DESPEDIDA                9
REGISTRAR_ALABANZA                 7
REGISTRAR_SITUACION_ADVERSA        6
REGISTRAR_DOMOTICA                 5
REGISTRAR_NECESIDAD                4
REGISTRAR_CONFIRMACION             4
REGISTRAR_ANECDOTA                 3
REGISTRAR_COVID                    3
CONSULTAR_ESTADO_PERSONA_MAYOR     3
REGISTRAR_MEDIDA_MEDICA            2
REGISTRAR_SINTOMA                  2
REGISTRAR_ACTIVIDAD                2
REGISTRAR_RECHAZO                  1
REGISTRAR_TELEGRAM                 1
CONSULTAR_TIEMPO                   1
ACTUALIZAR_TOMA_MEDICAMENTO        1
RECORDAR_CITA_MEDICA               1
RECORDAR_MEDICACION                1
REGISTRAR_DUDA                     1
ANOTAR_TOMA_MEDICAMENTO            1
CONSULTAR_NUTRICION                1
Name: intent, dtype: int64

In [12]:
filteredColumns = ['REGISTRAR_TOMA_MEDICAMENTO', 'REGISTRAR_ESTADO_EMOCIONAL', 'REGISTRAR_CITA_MEDICA', 'REGISTRAR_SALUDO', 'REGISTRAR_DESPEDIDA']
filter = df['intent'].isin(filteredColumns)

In [13]:
dfFiltered = filterDataframe(df)
dfFiltered.head()

Unnamed: 0,text,intent
1,Hola estoy muy sola necesito de tus consejos y...,REGISTRAR_ESTADO_EMOCIONAL
2,Este mismo mes de junio a las 8'30 con el enfe...,REGISTRAR_CITA_MEDICA
3,"Hola, he estado un poco ocupado, lo siento, in...",REGISTRAR_ESTADO_EMOCIONAL
4,el rinialer me toca a las 9h,REGISTRAR_TOMA_MEDICAMENTO
6,Ahora voy a cenar luego hablamos 😊😊,REGISTRAR_DESPEDIDA


In [14]:
dfFiltered.shape

(91, 2)

In [15]:
dfFiltered['intent'].value_counts()

REGISTRAR_TOMA_MEDICAMENTO    28
REGISTRAR_ESTADO_EMOCIONAL    26
REGISTRAR_CITA_MEDICA         17
REGISTRAR_SALUDO              11
REGISTRAR_DESPEDIDA            9
Name: intent, dtype: int64

El conjunto de datos no cumple los criterios de evaluación, ya que no llega a 100 registros, sino a 91 (y con registros repetidos), y hay una notable diferencia entre el número de registros de REGISTRAR_TOMA_MEDICAMENTO (28) y REGISTRAR_DESPEDIDA (9), por lo que el conjunto **no es válido**.

### 1.3. Conjunto v3

In [4]:
DATASET_VERSION = "v1" # Versión del conjunto de datos

df = loadDataframe(DATASET_VERSION)
df.head()

Unnamed: 0,text,intent
0,"Espero que no se enamore de ti como en Her, au...",NO_IDENTIFICADO
1,Hola estoy muy sola necesito de tus consejos y...,REGISTRAR_ESTADO_EMOCIONAL
2,Este mismo mes de junio a las 8'30 con el enfe...,REGISTRAR_CITA_MEDICA
3,"Hola, he estado un poco ocupado, lo siento, in...",REGISTRAR_ESTADO_EMOCIONAL
4,el rinialer me toca a las 9h,REGISTRAR_TOMA_MEDICAMENTO


In [5]:
df.shape

(176, 2)

In [6]:
df["intent"].unique()

array(['NO_IDENTIFICADO', 'REGISTRAR_ESTADO_EMOCIONAL',
       'REGISTRAR_CITA_MEDICA', 'REGISTRAR_TOMA_MEDICAMENTO',
       'REGISTRAR_NECESIDAD', 'REGISTRAR_DESPEDIDA', 'REGISTRAR_SALUDO',
       'REGISTRAR_ALABANZA', 'REGISTRAR_CONFIRMACION',
       'CONSULTAR_ESTADO_PERSONA_MAYOR', 'REGISTRAR_COVID',
       'REGISTRAR_SITUACION_ADVERSA', 'ANOTAR_TOMA_MEDICAMENTO',
       'ACTUALIZAR_TOMA_MEDICAMENTO', 'REGISTRAR_MEDIDA_MEDICA',
       'REGISTRAR_SINTOMA', 'REGISTRAR_ANECDOTA', 'REGISTRAR_DUDA',
       'REGISTRAR_DOMOTICA', 'RECORDAR_MEDICACION',
       'RECORDAR_CITA_MEDICA', 'REGISTRAR_ACTIVIDAD', 'CONSULTAR_TIEMPO',
       'REGISTRAR_TELEGRAM', 'REGISTRAR_RECHAZO', 'CONSULTAR_NUTRICION'],
      dtype=object)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176 entries, 0 to 175
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    176 non-null    object
 1   intent  176 non-null    object
dtypes: object(2)
memory usage: 2.9+ KB


In [8]:
df.describe()

Unnamed: 0,text,intent
count,176,176
unique,172,26
top,Hola,NO_IDENTIFICADO
freq,3,35


In [9]:
df[df['text']=='Hola']

Unnamed: 0,text,intent
16,Hola,REGISTRAR_SALUDO
136,Hola,REGISTRAR_SALUDO
161,Hola,REGISTRAR_SALUDO


In [11]:
df['intent'].value_counts()

NO_IDENTIFICADO                   35
REGISTRAR_TOMA_MEDICAMENTO        28
REGISTRAR_ESTADO_EMOCIONAL        26
REGISTRAR_CITA_MEDICA             17
REGISTRAR_SALUDO                  11
REGISTRAR_DESPEDIDA                9
REGISTRAR_ALABANZA                 7
REGISTRAR_SITUACION_ADVERSA        6
REGISTRAR_DOMOTICA                 5
REGISTRAR_NECESIDAD                4
REGISTRAR_CONFIRMACION             4
REGISTRAR_ANECDOTA                 3
REGISTRAR_COVID                    3
CONSULTAR_ESTADO_PERSONA_MAYOR     3
REGISTRAR_MEDIDA_MEDICA            2
REGISTRAR_SINTOMA                  2
REGISTRAR_ACTIVIDAD                2
REGISTRAR_RECHAZO                  1
REGISTRAR_TELEGRAM                 1
CONSULTAR_TIEMPO                   1
ACTUALIZAR_TOMA_MEDICAMENTO        1
RECORDAR_CITA_MEDICA               1
RECORDAR_MEDICACION                1
REGISTRAR_DUDA                     1
ANOTAR_TOMA_MEDICAMENTO            1
CONSULTAR_NUTRICION                1
Name: intent, dtype: int64

In [12]:
filteredColumns = ['REGISTRAR_TOMA_MEDICAMENTO', 'REGISTRAR_ESTADO_EMOCIONAL', 'REGISTRAR_CITA_MEDICA', 'REGISTRAR_SALUDO', 'REGISTRAR_DESPEDIDA']
filter = df['intent'].isin(filteredColumns)

In [13]:
dfFiltered = filterDataframe(df)
dfFiltered.head()

Unnamed: 0,text,intent
1,Hola estoy muy sola necesito de tus consejos y...,REGISTRAR_ESTADO_EMOCIONAL
2,Este mismo mes de junio a las 8'30 con el enfe...,REGISTRAR_CITA_MEDICA
3,"Hola, he estado un poco ocupado, lo siento, in...",REGISTRAR_ESTADO_EMOCIONAL
4,el rinialer me toca a las 9h,REGISTRAR_TOMA_MEDICAMENTO
6,Ahora voy a cenar luego hablamos 😊😊,REGISTRAR_DESPEDIDA


In [14]:
dfFiltered.shape

(91, 2)

In [15]:
dfFiltered['intent'].value_counts()

REGISTRAR_TOMA_MEDICAMENTO    28
REGISTRAR_ESTADO_EMOCIONAL    26
REGISTRAR_CITA_MEDICA         17
REGISTRAR_SALUDO              11
REGISTRAR_DESPEDIDA            9
Name: intent, dtype: int64

El conjunto de datos no cumple los criterios de evaluación, ya que no llega a 100 registros, sino a 91 (y con registros repetidos), y hay una notable diferencia entre el número de registros de REGISTRAR_TOMA_MEDICAMENTO (28) y REGISTRAR_DESPEDIDA (9), por lo que el conjunto **no es válido**.

# 2. Modelos

In [None]:
MODEL_VERSION = "v1" # Versión del modelo
