# CONJUNTO DE DATOS Y MODELO

In [48]:
import json
import matplotlib.pyplot as plt

DATASET_VERSION = "v1" # Versión del conjunto de datos
MODEL_VERSION = "v1" # Versión del modelo

# 1. Conjuntos de datos

# 1.1. Creación de versión del conjunto de datos

In [49]:


def generate(version):
    path = f"/home/jovyan/data/dataset/{version}/data.json"
    with open(path, 'r') as f:
      data = json.load(f)
    return data

def dataToCSV(dataset, version):
    entries = []
    for entry in dataset:
        text = entry["text"]
        intent = entry["intent"]
        entryText = f"{text};{intent}"
        entries.append(entryText)
    path = f"/home/jovyan/data/dataset/{version}/data.csv"
    with open(path,'w') as f:
        for line in entries:
            f.write(line)
            f.write('\n')
    
def writeCSV(entries, version):
    path = f"/home/jovyan/data/dataset/{version}/data.csv"
    with open(path, 'w') as f:
      json.dump(entries, f)

dataset = generate(DATASET_VERSION)
entries = dataToCSV(dataset, DATASET_VERSION)

# 1.2. Carga del conjunto de datos

In [50]:
import pandas as pd

path = f"/home/jovyan/data/dataset/{DATASET_VERSION}/data.csv"
df = pd.read_csv(path, names=["text", "intent"], sep=";")
df.head()

Unnamed: 0,text,intent
0,"Espero que no se enamore de ti como en Her, au...",NO_IDENTIFICADO
1,Hola estoy muy sola necesito de tus consejos y...,REGISTRAR_ESTADO_EMOCIONAL
2,Este mismo mes de junio a las 8'30 con el enfe...,REGISTRAR_CITA_MEDICA
3,"Hola, he estado un poco ocupado, lo siento, in...",REGISTRAR_ESTADO_EMOCIONAL
4,el rinialer me toca a las 9h,REGISTRAR_TOMA_MEDICAMENTO


In [51]:
df.shape

(176, 2)

In [52]:
df["intent"].unique()

array(['NO_IDENTIFICADO', 'REGISTRAR_ESTADO_EMOCIONAL',
       'REGISTRAR_CITA_MEDICA', 'REGISTRAR_TOMA_MEDICAMENTO',
       'REGISTRAR_NECESIDAD', 'REGISTRAR_DESPEDIDA', 'REGISTRAR_SALUDO',
       'REGISTRAR_ALABANZA', 'REGISTRAR_CONFIRMACION',
       'CONSULTAR_ESTADO_PERSONA_MAYOR', 'REGISTRAR_COVID',
       'REGISTRAR_SITUACION_ADVERSA', 'ANOTAR_TOMA_MEDICAMENTO',
       'ACTUALIZAR_TOMA_MEDICAMENTO', 'REGISTRAR_MEDIDA_MEDICA',
       'REGISTRAR_SINTOMA', 'REGISTRAR_ANECDOTA', 'REGISTRAR_DUDA',
       'REGISTRAR_DOMOTICA', 'RECORDAR_MEDICACION',
       'RECORDAR_CITA_MEDICA', 'REGISTRAR_ACTIVIDAD', 'CONSULTAR_TIEMPO',
       'REGISTRAR_TELEGRAM', 'REGISTRAR_RECHAZO', 'CONSULTAR_NUTRICION'],
      dtype=object)

In [53]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176 entries, 0 to 175
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    176 non-null    object
 1   intent  176 non-null    object
dtypes: object(2)
memory usage: 2.9+ KB


In [54]:
df.describe()

Unnamed: 0,text,intent
count,176,176
unique,172,26
top,Hola,NO_IDENTIFICADO
freq,3,35


In [83]:
df[df['text']=='Hola']

Unnamed: 0,text,intent
16,Hola,REGISTRAR_SALUDO
136,Hola,REGISTRAR_SALUDO
161,Hola,REGISTRAR_SALUDO


In [58]:
df['intent'].value_counts()

NO_IDENTIFICADO                   35
REGISTRAR_TOMA_MEDICAMENTO        28
REGISTRAR_ESTADO_EMOCIONAL        26
REGISTRAR_CITA_MEDICA             17
REGISTRAR_SALUDO                  11
REGISTRAR_DESPEDIDA                9
REGISTRAR_ALABANZA                 7
REGISTRAR_SITUACION_ADVERSA        6
REGISTRAR_DOMOTICA                 5
REGISTRAR_NECESIDAD                4
REGISTRAR_CONFIRMACION             4
REGISTRAR_ANECDOTA                 3
REGISTRAR_COVID                    3
CONSULTAR_ESTADO_PERSONA_MAYOR     3
REGISTRAR_MEDIDA_MEDICA            2
REGISTRAR_SINTOMA                  2
REGISTRAR_ACTIVIDAD                2
REGISTRAR_RECHAZO                  1
REGISTRAR_TELEGRAM                 1
CONSULTAR_TIEMPO                   1
ACTUALIZAR_TOMA_MEDICAMENTO        1
RECORDAR_CITA_MEDICA               1
RECORDAR_MEDICACION                1
REGISTRAR_DUDA                     1
ANOTAR_TOMA_MEDICAMENTO            1
CONSULTAR_NUTRICION                1
Name: intent, dtype: int64

In [76]:
filteredColumns = ['REGISTRAR_TOMA_MEDICAMENTO', 'REGISTRAR_ESTADO_EMOCIONAL', 'REGISTRAR_CITA_MEDICA', 'REGISTRAR_SALUDO', 'REGISTRAR_DESPEDIDA']
filter = df['intent'].isin(filteredColumns)

In [79]:
dfFiltered = df[filter]
dfFiltered.head()

Unnamed: 0,text,intent
1,Hola estoy muy sola necesito de tus consejos y...,REGISTRAR_ESTADO_EMOCIONAL
2,Este mismo mes de junio a las 8'30 con el enfe...,REGISTRAR_CITA_MEDICA
3,"Hola, he estado un poco ocupado, lo siento, in...",REGISTRAR_ESTADO_EMOCIONAL
4,el rinialer me toca a las 9h,REGISTRAR_TOMA_MEDICAMENTO
6,Ahora voy a cenar luego hablamos 😊😊,REGISTRAR_DESPEDIDA


In [81]:
dfFiltered.shape

(91, 2)

# 2. Modelos