# Limpieza de datos - Inteligencia artificial grupo 15

# CSV

### Formato de salida: ```.csv```
### Columnas de archivo:
1. pregunta
2. respuesta

### Codificación: ```UTF-8```

---
### Estados de dataset:
- ```Disponible```: El dataset se puede utilizar.
- ```No disponible```: El dataset aún se está construyendo y no está disponible.

---


## Funciones de limpieza

Estas funciones ayudan a la limpieza de la información. Estas celdas se deben ejecutar siempre al inicializar el cuaderno



### Función para eliminar contracciones en inglés

In [114]:
import re

# Diccionario de contracciones comunes en inglés
contractions_dict = {
    "what's": "what is", "how's": "how is",
    "I'm": "I am", "i'm": "I am",
    "you're": "you are", "you've": "you have",
    "he's": "he is", "she's": "she is",
    "it's": "it is", "we're": "we are", "they're": "they are",
    "I've": "I have", "you've": "you have",
    "he's": "he has", "she's": "she has",
    "we've": "we have", "they've": "they have",
    "can't": "cannot", "won't": "will not",
    "don't": "do not", "doesn't": "does not",
    "didn't": "did not", "isn't": "is not", "wasn't": "was not",
    "aren't": "are not", "haven't": "have not", "hasn't": "has not",
    "hadn't": "had not", "wouldn't": "would not", "shouldn't": "should not"
}

# Función para limpiar contracciones, puntuación y convertir a minúsculas
def clean_text(text):
    # Convertir todo el texto a minúsculas
    text = text.lower()
    text = re.sub(r'’', "'", text)

    # Reemplazar contracciones usando el diccionario
    for contraction, replacement in contractions_dict.items():
        text = re.sub(r'\b' + re.escape(contraction) + r'\b', replacement, text)

    # Eliminar puntuación (comas, puntos, signos de exclamación, etc.)
    #text = re.sub(r'[^\w\s]', '', text)

    return text

### Función para agregar una columna de TAG al dataset

In [115]:
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords
import pandas as pd
import nltk

# Descargar palabras de parada de nltk
nltk.download("stopwords")
spanish_stop_words = stopwords.words("spanish")


# Esta función agrega una columna de tag y guarda el dataframe como CSV
def add_tag_column(lang, dataframe, filename):
  # Unir Pregunta y Respuesta
  text = dataframe["pregunta"] + " " + dataframe["respuesta"]

  vectorizer = None
  # Aplicar TF-IDF
  if (lang == "english"):
    vectorizer = TfidfVectorizer(stop_words="english")
  else:
    vectorizer = TfidfVectorizer(stop_words=spanish_stop_words)




  tfidf_matrix = vectorizer.fit_transform(text)
  features = vectorizer.get_feature_names_out()

  # Extraer palabras clave con mayor peso
  keywords = []
  for row in tfidf_matrix:
      scores = zip(features, row.toarray()[0])
      sorted_scores = sorted(scores, key=lambda x: x[1], reverse=True)
      top_keywords = [word for word, score in sorted_scores[:1]]  # La 1 palabra más relevantes
      value = ", ".join(top_keywords) # Convertir lista a string
      keywords.append(value)

  #Agrega una nueva llamada "tag" columna al dataframe
  dataframe["tag"] = keywords
  # Exportar a un nuevo CSV
  dataframe.to_csv(filename, index=False, encoding='utf-8')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


### Función exportar a JSON

In [116]:
from google.colab import files
import pandas as pd
import json

# Convierte un dataframe con las columnas "pregunta", "respuesta" y "tag" a CSV
def df_to_json(dataframe, filename):
  # Crear la estructura JSON
  intents = []

  # Filtrar las filas excluyendo los tags que contengan números
  df_filtered = dataframe[~dataframe["tag"].str.contains(r'\d', na=False)]

  # Agrupar por la columna "tag"
  grouped = df_filtered.groupby("tag")

  # Iterar por cada grupo (tag) para crear patrones y respuestas
  for tag, group in grouped:
      patterns = group["pregunta"].tolist()  # Extraer las preguntas de este grupo
      responses = group["respuesta"].tolist()  # Extraer las respuestas de este grupo

      # Agregar el intent al JSON
      intents.append({
          "tag": tag,
          "patterns": patterns,
          "responses": responses
      })

  # Estructura final
  dataset = {"root": {"intents": intents}}

  # Guardar como archivo JSON
  with open(filename, "w") as json_file:
      json.dump(dataset, json_file, indent=4)

  print("Archivo JSON generado")

  # Descargar el archivo CSV generado
  files.download(filename)

### Clasificación de temas

In [117]:
import pandas as pd
import re

# Crear lista de temas y palabras clave
temas_palabras = {
  'Saludos': ['hola', 'hey', 'buenas', 'qué tal', 'buen día', 'buenas noches', 'cómo estás', 'qué onda'],
  'Despedidas': ['adiós', 'chau', 'nos vemos', 'hasta luego', 'cuídate', 'bye', 'hasta pronto', 'buenas noches'],
  'Agradecimientos': ['gracias', 'muchas gracias', 'te lo agradezco', 'mil gracias', 'se agradece', 'gracias por todo'],
  'Ayuda': ['ayuda', 'puedes ayudarme', 'necesito asistencia', 'qué hago', 'no entiendo', 'me podrías explicar'],
  'Tiempo': ['hora', 'lunes', 'martes', 'miércoles', 'jueves', 'viernes', 'sábado', 'domingo', 'cuándo', 'fecha', 'calendario', 'ahora', 'mañana', 'ayer', 'tarde', 'noche'],
  'Clima': ['cómo está el clima', 'va a llover', 'temperatura', 'hace calor', 'frío', 'viento', 'pronóstico'],
  'ConversacionesInformales': ['qué cuentas', 'qué haces', 'cómo te ha ido', 'todo bien', 'nada nuevo', 'aquí andamos'],
  'PreguntasPersonales': ['cómo te llamas', 'qué edad tienes', 'dónde vives', 'estás bien', 'qué haces'],
  'InformaciónGeneral': ['qué es', 'cómo funciona', 'explicación', 'dime más', 'explícame', 'información'],
  'Académico': ['qué significa', 'tarea', 'examen', 'universidad', 'escuela', 'profesor', 'matemáticas', 'ciencia'],
  'Tecnología': ['celular', 'computadora', 'red', 'internet', 'wifi', 'aplicación', 'software', 'hardware', 'sistema operativo'],
  'RedesSociales': ['facebook', 'instagram', 'tiktok', 'twitter', 'like', 'follow', 'mensaje', 'post', 'historia'],
  'Ecommerce': ['amazon', 'mercadolibre', 'comprar', 'carrito', 'envío', 'precio', 'tienda', 'descuento'],
  'Comida': ['qué puedo comer', 'cena', 'almuerzo', 'desayuno', 'restaurante', 'pizza', 'hambre', 'menú'],
  'Salud': ['me siento mal', 'doctor', 'hospital', 'medicamento', 'enfermedad', 'cansancio', 'dolor', 'síntoma'],
  'Fitness': ['gimnasio', 'entrenamiento', 'yoga', 'ejercicios', 'calorías', 'pesas', 'running', 'correr', 'rutina'],
  'Turismo': ['viajar', 'aeropuerto', 'hotel', 'boleto', 'vacaciones', 'destino', 'playas', 'turismo', 'reservar'],
  'Cine': ['cine', 'netflix', 'película', 'serie', 'recomendación', 'género', 'actor', 'directores', 'estreno'],
  'Música': ['canción', 'banda', 'spotify', 'concierto', 'artista', 'género', 'álbum', 'letra', 'recomendación'],
  'Libros': ['leer', 'novela', 'autor', 'cuento', 'literatura', 'biblioteca', 'resumen', 'recomendación', 'libro'],
  'Animales': ['animal', 'animales', 'mascota', 'perro', 'gato', 'veterinario', 'adopción', 'alimentación', 'juguetes', 'raza', 'especie'],
  'Noticias': ['noticias', 'último minuto', 'política', 'economía', 'guerra', 'país', 'actualidad', 'crisis'],
  'Deportes': ['fútbol', 'baloncesto', 'equipo', 'partido', 'gol', 'jugador', 'torneo', 'entrenador', 'resultados'],
  'Educación': ['curso', 'certificación', 'plataforma', 'udemy', 'coursera', 'clases', 'virtual', 'tutoría', 'video'],
  'Trabajo': ['trabajo', 'cv', 'entrevista', 'vacante', 'oficina', 'salario', 'horario', 'renuncia', 'oferta laboral'],
  'Finanzas personales': ['ahorro', 'presupuesto', 'inversión', 'gasto', 'deuda', 'dinero', 'pago', 'tarjeta', 'interés'],
  'Lenguaje': ['cómo se dice', 'oración', 'traducción', 'palabra', 'idioma', 'definición', 'sinónimo', 'gramática'],
  'RelacionesPersonales': ['amistad', 'amor', 'novio', 'novia', 'familia', 'pareja', 'matrimonio', 'cita', 'problema'],
  'Ciencia': ['física', 'química', 'experimento', 'teoría', 'científico', 'avance', 'fórmula', 'laboratorio', 'descubrimiento'],
  'Historia': ['acontecimiento', 'año', 'guerra', 'siglo', 'civilización', 'personaje', 'pasado', 'cultura', 'batalla'],
  'Geografía': ['país', 'ciudad', 'mapa', 'continente', 'frontera', 'montaña', 'río', 'capital', 'ubicación'],
  'Arte': ['pintura', 'cuadro', 'escultura', 'artista', 'exposición', 'museo', 'dibujo', 'creatividad', 'estilo'],
  'Hogar': ['casa', 'limpieza', 'baño', 'cocina', 'ordenar', 'aspiradora', 'desinfectante', 'tarea doméstica'],
  'Vehículos': ['coche', 'moto', 'camión', 'conducir', 'reparación', 'gasolina', 'servicio', 'marca', 'viaje'],
  'Ropa': ['outfit', 'ropa', 'marca', 'estilo', 'zapatos', 'accesorios', 'vestido', 'combinación', 'moda'],
  'Belleza': ['maquillaje', 'cabello', 'uñas', 'crema', 'mascarilla', 'tratamiento', 'estética'],
  'Programación y desarrollo': ['código', 'lenguaje', 'error', 'bug', 'javascript', 'html', 'python', 'framework', 'app'],
  'Videojuegos': ['juego', 'consola', 'pc', 'playstation', 'xbox', 'online', 'multiplayer', 'nivel', 'torneo'],
  'Filosófia': ['qué sentido tiene', 'vida', 'existencia', 'realidad', 'ser', 'ética', 'pensar', 'reflexión'],
  'ProblemasTécnicos': ['error', 'no funciona', 'ayuda técnica', 'pantalla', 'reiniciar', 'configuración', 'soporte'],
  'Festividades': ['cumpleaños', 'navidad', 'año nuevo', 'fiesta', 'regalo', 'celebración', 'evento', 'tradición'],
  'SuperaciónPersonal': ['motivación', 'éxito', 'fracaso', 'meta', 'esfuerzo', 'disciplina', 'cambio', 'logro', 'inspiración'],
  'Cultura': ['pregunta común', 'saber', 'curiosidad', 'generalidades', 'datos', 'conocimiento', 'hecho'],
  'MedioAmbiente': ['reciclaje', 'contaminación', 'ecología', 'cambio climático', 'naturaleza', 'energía', 'reforestación'],
  'Espiritualidad': ['dios', 'meditar', 'paz', 'religión', 'creencia', 'almas', 'fe', 'energía espiritual'],
  'Tecnología': ['ia', 'blockchain', 'criptomoneda', 'chatgpt', 'robot', 'automatización', 'dron', 'innovación'],
  'Errores': ['problema', 'no entiendo', 'repetir', 'mal escrito', 'corregir', 'equivocación', 'error común'],
  'Seguridad': ['phishing', 'hackeo', 'contraseña', 'privacidad', 'virus', 'malware', 'antivirus', 'seguridad'],
  'Trámites': ['solicitud', 'registro', 'documento', 'identificación', 'pasaporte', 'licencia', 'renovar'],
  'Matemáticas': ['promedio', 'suma', 'resta', 'multiplicación', 'producto', 'producto']
}

# Función para asignar etiquetas a una fila del dataframe
def clasificar_tema(texto):
    texto = texto.lower()  # Convertir texto a minúsculas para evitar problemas
    for tema, palabras_clave in temas_palabras.items():
        for palabra in palabras_clave:
            if re.search(r'\b' + re.escape(palabra) + r'\b', texto):  # Busca coincidencias exactas
                return tema
    return 'Otro'  # Si no coincide con ningún tema

# Devuelve un nuevo dataframe
def get_tag(dataframe):
  # Clasificar cada fila en el dataframe
  df_tag = dataframe.apply(lambda row: clasificar_tema(str(row['pregunta'])), axis=1)
  return df_tag

## Dataset 1

Nivel: básico

Estado: ```Disponible```

Idioma: Inglés

Tema: Conversaciones básicas

Tamaño: 1.01MB

Origen: [conversations_beginners](https://huggingface.co/datasets/MD1998/conversations_beginners)

### Limpieza

In [None]:
import pandas as pd

# Importa del sitio https://huggingface.co/
df_conversations_beginners = pd.read_parquet("hf://datasets/MD1998/conversations_beginners/data/train-00000-of-00001.parquet")

# Obtiene un resumen de los datos, incluyendo tipos de columnas y valores nulos
print(df_conversations_beginners.info())

# Selecciona las columnas necesarias y renombrarlas
df_conversations_beginners = df_conversations_beginners[['question', 'answer']].rename(columns={'question': 'pregunta', 'answer': 'respuesta'})

# Limpiar la columna "pregunta" y "respuesta"
df_conversations_beginners['pregunta'] = df_conversations_beginners['pregunta'].apply(clean_text)
df_conversations_beginners['respuesta'] = df_conversations_beginners['respuesta'].apply(clean_text)

# Agrega una nueva columna tag al dataframe
#add_tag_column("english", df_conversations_beginners, "conversations_beginners.csv")

# Guardar el archivo como CSV
df_conversations_beginners.to_csv("conversations_beginners.csv", index=False, encoding='utf-8')

print("Archivo CSV creado con éxito: conversations_beginners.csv")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15144 entries, 0 to 15143
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        15144 non-null  int64 
 1   question  15144 non-null  object
 2   answer    15144 non-null  object
dtypes: int64(1), object(2)
memory usage: 355.1+ KB
None
Archivo CSV creado con éxito: conversations_beginners.csv


### Generar y exportar a JSON


In [None]:
#df_to_json(df_conversations_beginners, "conversations_beginners.json")

### Descarga del archivo ```conversations_beginners.csv```

In [None]:
from google.colab import files

# Descargar el archivo CSV generado
files.download("conversations_beginners.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Dataset 2

Nivel: Intermedio

Estado: ```Disponible```

Idioma: Español

Tema: Preguntas y respuestas variadas

Tamaño: 1.84MB (5k registros)

Origen: [alpaca-spanish](https://huggingface.co/datasets/bertin-project/alpaca-spanish)  


### Limpieza

In [None]:
import pandas as pd

# Importa el dataset de https://huggingface.co/datasets/bertin-project/alpaca-spanish
df_alpaca_spanish = pd.read_parquet("hf://datasets/bertin-project/alpaca-spanish/data/train-00000-of-00001-3a8ceb2c27df896f.parquet")

# limita el dataset a solo las primeras 5000 lineas.
df_alpaca_spanish = df_alpaca_spanish.head(5000)

# Visualiza la información del dataset antes de ser modificado
print('Dataset antes de modificar:\n')
print(df_alpaca_spanish.info())

#Concatena la columna instruction e input. El resultado se agrega como una nueva columna en el indice 2.
df_alpaca_spanish["pregunta"] = df_alpaca_spanish['instruction'] + ' ' + df_alpaca_spanish['input']

# Selecciona las columnas pregunta y output. Luego renombra la columna output por respuesta. El resultado se reemplaza al dataset original
df_alpaca_spanish = df_alpaca_spanish[['pregunta', 'output']].rename(columns={'output': 'respuesta'})


# Agrega una nueva columna tag al dataframe
#add_tag_column("spanish", df_alpaca_spanish, "alpaca_spanish.csv")

# Agrega una nueva columna de tag
#df_alpaca_spanish["tags"]= get_tag(df_alpaca_spanish)

# Visualiza la información del dataset después de ser modificado
print('\nDataset después de modificar:\n')
print(df_alpaca_spanish.info())

# Guardar el archivo como CSV
df_alpaca_spanish.to_csv("alpaca_spanish.csv", index=False, encoding='utf-8')

print("Archivo CSV creado con éxito: alpaca_spanish.csv")


Dataset antes de modificar:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   instruction  5000 non-null   object
 1   input        5000 non-null   object
 2   output       5000 non-null   object
dtypes: object(3)
memory usage: 117.3+ KB
None

Dataset después de modificar:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   pregunta   5000 non-null   object
 1   respuesta  5000 non-null   object
dtypes: object(2)
memory usage: 78.2+ KB
None
Archivo CSV creado con éxito: alpaca_spanish.csv


### Generar y exportar a JSON

In [None]:
#df_to_json(df_alpaca_spanish, "alpaca_spanish.json")

### Descarga del archivo ```alpaca_spanish.csv```

In [None]:
from google.colab import files

# Descargar el archivo CSV generado
files.download("alpaca_spanish.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Dataset 3

Nivel: Intermedio

Estado: ```Disponible```

Idioma: Inglés

Tema: Diccionario de definiciones

Tamaño: 1.02MB (10k registros)

Origen: [english_dictionary](https://huggingface.co/datasets/MAKILINGDING/english_dictionary)  


### Limpieza

In [None]:
import pandas as pd

# Importa del sitio https://huggingface.co/
# Únicamente lee 5000 registros
df_english_dictionary = pd.read_csv("hf://datasets/MAKILINGDING/english_dictionary/ee.csv", nrows=10000)

# Obtiene un resumen de los datos, incluyendo tipos de columnas y valores nulos
print(df_english_dictionary.info())

# Selecciona las columnas necesarias y renombrarlas
df_english_dictionary = df_english_dictionary[['word', 'definition']].rename(columns={'word': 'pregunta', 'definition': 'respuesta'})

# Guardar el archivo como CSV
df_english_dictionary.to_csv("english_dictionary.csv", index=False, encoding='utf-8')

print("Archivo CSV creado con éxito: english_dictionary.csv")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   word        10000 non-null  object
 1   definition  10000 non-null  object
dtypes: object(2)
memory usage: 156.4+ KB
None
Archivo CSV creado con éxito: english_dictionary.csv


### Descarga del archivo ```english_dictionary.csv```

In [None]:
from google.colab import files

# Descargar el archivo CSV generado
files.download("english_dictionary.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Dataset 4

Nivel: Básico

Estado: ```Disponible```

Idioma: Inglés

Tema: Conversaciones de chatbot

Tamaño: 243.9KB

Origen: [Dataset for chatbot](https://www.kaggle.com/datasets/grafstor/simple-dialogs-for-chatbot)  

### Limpieza

In [None]:
import kagglehub
import pandas as pd

# Download latest version
path = kagglehub.dataset_download("grafstor/simple-dialogs-for-chatbot")

file_path = f"{path}/dialogs.txt"

df_simple_dialogs = pd.read_csv(file_path, delimiter="\t", header= None,names=["pregunta", "respuesta"])

# Obtiene un resumen de los datos, incluyendo tipos de columnas y valores nulos
print(df_simple_dialogs.info())

# Guardar el archivo como CSV
df_simple_dialogs.to_csv("simple-dialogs-for-chatbot.csv", index=False, encoding='utf-8')

print("Archivo CSV creado con éxito: simple-dialogs-for-chatbot.csv")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3725 entries, 0 to 3724
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   pregunta   3725 non-null   object
 1   respuesta  3725 non-null   object
dtypes: object(2)
memory usage: 58.3+ KB
None
Archivo CSV creado con éxito: simple-dialogs-for-chatbot.csv


### Descarga del archivo ```simple-dialogs-for-chatbot.csv```

In [None]:
from google.colab import files

# Descargar el archivo CSV generado
files.download("simple-dialogs-for-chatbot.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Dataset 5

Nivel: Intermedio

Estado: ```Disponible```

Idioma: Español

Tema: Conversaciones variadas

Tamaño: 1.98MB (4k registros)

Origen: [Dataset for chatbot](https://www.kaggle.com/datasets/grafstor/simple-dialogs-for-chatbot)  

### Limpieza

In [None]:
import pandas as pd

#splits = {'train': 'ar/train-00000-of-00001.parquet', 'test': 'ar/test-00000-of-00001.parquet'}
#df_spanish_ar = pd.read_parquet("hf://datasets/spanish-ir/messirve/" + splits["train"])

#splits = {'train': 'bo/train-00000-of-00001.parquet', 'test': 'bo/test-00000-of-00001.parquet'}
#df_spanish_bo = pd.read_parquet("hf://datasets/spanish-ir/messirve/" + splits["train"])

splits = {'train': 'cl/train-00000-of-00001.parquet', 'test': 'cl/test-00000-of-00001.parquet'}
df_spanish_cl = pd.read_parquet("hf://datasets/spanish-ir/messirve/" + splits["train"])

# Obtiene un resumen de los datos, incluyendo tipos de columnas y valores nulos
print(df_spanish_cl.info())

# Solo procesa los primeros 4000 registros
df_spanish_cl = df_spanish_cl.head(4000)

# Selecciona las columnas necesarias y renombrarlas
df_spanish_cl = df_spanish_cl[['query', 'docid_text']].rename(columns={'query': 'pregunta', 'docid_text': 'respuesta'})

# Visualiza la información del dataset después de ser modificado
print('\nDataset después de modificar:\n')
print(df_spanish_cl.info())

# Guardar el archivo como CSV
df_spanish_cl.to_csv("conversaciones_cl.csv", index=False, encoding='utf-8')

print("Archivo CSV creado con éxito: conversaciones_cl.csv")



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22486 entries, 0 to 22485
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id               22486 non-null  int64  
 1   query            22486 non-null  object 
 2   docid            22486 non-null  object 
 3   docid_text       22486 non-null  object 
 4   query_date       22486 non-null  object 
 5   answer_date      22486 non-null  object 
 6   match_score      22486 non-null  float32
 7   expanded_search  22486 non-null  bool   
 8   answer_type      22486 non-null  object 
dtypes: bool(1), float32(1), int64(1), object(6)
memory usage: 1.3+ MB
None

Dataset después de modificar:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4000 entries, 0 to 3999
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   pregunta   4000 non-null   object
 1   respuesta  4000 non-null   object
dtypes: object(2

### Descarga del archivo ```conversaciones_cl.csv```

In [None]:
from google.colab import files

# Descargar el archivo CSV generado
files.download("conversaciones_cl.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Dataset 6

Nivel: Avanzado

Estado: ```No Disponible```

Idioma: Inglés

Tema: Conversaciones de agencia bancaria

Tamaño: 710MB

Origen: [banking conversation](https://huggingface.co/datasets/talkmap/banking-conversation-corpus)  

### Limpieza

In [None]:
import pandas as pd

from huggingface_hub import login

# Token de acceso
hf_token = "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"

# Autenticarte con Hugging Face
login(hf_token)


# Leer y procesar en bloques de 1,000 filas

df_banking_conversation = pd.read_csv("hf://datasets/talkmap/banking-conversation-corpus/banking_300k.csv", usecols=["speaker", "text"], nrows=1000)

# Obtiene un resumen de los datos, incluyendo tipos de columnas y valores nulos
print(df_banking_conversation.head())

# Guardar el archivo como CSV
df_banking_conversation.to_csv("banking_conversation.csv", index=False, encoding='utf-8')

print("Archivo CSV creado con éxito: banking_conversation.csv")


  speaker                                               text
0   agent  Good morning, thank you for calling Union Fina...
1  client  Hi Monroe, my name is Della. I need help manag...
2   agent  Of course, Della. I'd be happy to help you wit...
3  client       Sure thing. My account number is 1234567890.
4   agent  Thank, thank you for providing that informatio...
Archivo CSV creado con éxito: banking_conversation.csv


### Descarga

In [None]:
from google.colab import files

# Descargar el archivo CSV generado
files.download("banking_conversation.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Dataset 7

Nivel: Intermedio

Estado: ```Disponible```

Idioma: Inglés

Tema: Preguntas y respuestas de fútbol y baloncesto E.E.U.U.

Tamaño: 1.64MB (40k registros)

Origen: [QASports](https://huggingface.co/datasets/PedroCJardim/QASports)  

### Limpieza

In [None]:
import pandas as pd
from huggingface_hub import login
import ast  # Para convertir strings con formato JSON a un diccionario

def eliminar_registros_vacios(dataset):
  # Eliminar filas donde la respuesta sea nula o esté vacía
  return dataset[dataset['respuesta'].notnull() & (dataset['respuesta'] != "")]


# Función para extraer el campo 'text' del JSON en la columna 'respuesta'
def extraer_respuesta(json_str):
  try:
    # Convertir el string JSON a un diccionario
    json_data = ast.literal_eval(json_str)
    # Devolver el valor de la clave 'text'
    return json_data['text']
  except (ValueError, KeyError):
      return None

# Número de lineas leidas
max_lines=20000

# Token de acceso
hf_token = "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"

# Autenticarte con Hugging Face
login(hf_token)

# Baloncesto
splits = {'train': 'trainBask.csv', 'test': 'testBask.csv', 'validation': 'validationBask.csv'}
df_bask = pd.read_csv("hf://datasets/PedroCJardim/QASports/" + splits["train"], nrows=max_lines)

# Selecciona las columnas necesarias y renombrarlas
df_bask = df_bask[['question', 'answer']].rename(columns={'question': 'pregunta', 'answer': 'respuesta'})

# Extrae la respuesta adentro de un json
df_bask['respuesta'] = df_bask['respuesta'].apply(extraer_respuesta)

# Eliminar filas donde la respuesta sea nula o esté vacía
df_bask = eliminar_registros_vacios(df_bask)

# Fútbol
splits = {'train': 'trainFoot.csv', 'test': 'testFoot.csv', 'validation': 'validationFoot.csv'}
df_foot = pd.read_csv("hf://datasets/PedroCJardim/QASports/" + splits["train"], nrows=max_lines)
# Selecciona las columnas necesarias y renombrarlas
df_foot = df_foot[['question', 'answer']].rename(columns={'question': 'pregunta', 'answer': 'respuesta'})

# Extrae la respuesta adentro de un json
df_foot['respuesta'] = df_foot['respuesta'].apply(extraer_respuesta)

# Eliminar filas donde la respuesta sea nula o esté vacía
df_foot = eliminar_registros_vacios(df_foot)

# Obtiene un resumen de los datos, incluyendo tipos de columnas y valores nulos
print(df_bask.info())
print(df_foot.info())

# Combinar DataFrame de fútbol y Baloncesto
df_sport = pd.concat([df_bask, df_foot], ignore_index=True)

# Guardar el archivo como CSV
df_sport.to_csv("usa_sports.csv", index=False, encoding='utf-8')

print("Archivo CSV creado con éxito: usa_sports.csv")


                                            pregunta        respuesta
0        How many field goals did Kobe Bryant score?            9,936
1  Which Lakers forward scored a Finals record 61...     Elgin Baylor
2                             Who owns the building?  City of Memphis
5  Who was the team's president, front office man...      Rick Pitino
7                What college did Marbury commit to?     Georgia Tech
                                            pregunta  respuesta
0   How many seasons was Mickey Matthews Head Coach?       13th
1                How many plays did the Browns have?          6
3  How many seasons would the Frankford-Green Bay...       five
4      What did Aaron Rodgers pass to Greg Jennings?    11-yard
5           What was the Dolphin's per-game average?  17 points
Archivo CSV creado con éxito: usa_sports.csv


### Descarga

In [None]:
from google.colab import files

# Descargar el archivo CSV generado
files.download("usa_sports.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Dataset 8

Nivel: Básico

Estado: ```Disponible```

Idioma: Inglés

Tema: Conversaciones casuales

Tamaño: 243KB (3725 registros)

Origen: [casual-conversation](https://huggingface.co/datasets/SohamGhadge/casual-conversation)  

### Limpieza

In [None]:
import pandas as pd

# Número de lineas leidas
max_lines=3725

df_casual_conv = pd.read_csv("hf://datasets/SohamGhadge/casual-conversation/dialog.zip", nrows=max_lines)

# Selecciona las columnas necesarias y renombrarlas
df_casual_conv = df_casual_conv[['question', 'answer']].rename(columns={'question': 'pregunta', 'answer': 'respuesta'})

# Reemplaza las contracciones del inglés
df_casual_conv['pregunta'] = df_casual_conv['pregunta'].apply(clean_text)
df_casual_conv['respuesta'] = df_casual_conv['respuesta'].apply(clean_text)

# Obtiene un resumen de los datos, incluyendo tipos de columnas y valores nulos
print(df_casual_conv.info())

# Guardar el archivo como CSV
df_casual_conv.to_csv("casual_conversation.csv", index=False, encoding='utf-8')

print("Archivo CSV creado con éxito: casual_conversation.csv")


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3725 entries, 0 to 3724
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   pregunta   3725 non-null   object
 1   respuesta  3725 non-null   object
dtypes: object(2)
memory usage: 58.3+ KB
None
Archivo CSV creado con éxito: casual_conversation.csv


### Descarga

In [None]:
from google.colab import files

# Descargar el archivo CSV generado
files.download("casual_conversation.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Dataset 9

Nivel: Básico

Estado: ```Disponible```

Idioma: Inglés y Español

Tema: Frases de conversaciones casuales, frases de ayuda, frases de agradecimientos, saludos y despedidas.

Tamaño: 10Kb ( 238 registros)

### Limpieza

In [None]:
import pandas as pd

df_es= pd.DataFrame()
df_en= pd.DataFrame()

# Dataset de frases de ayuda
# Dataset con igual cantidad de entradas y salidas
input_es = [
  "Hola",
  "Que tal",
  "Hola, buenos días",
  "Hola buenas tardes",
  "Hola buenas noches",
  "¿Cómo estás?",
  "¿Qué tal?",
  "Hola, ¿cómo te va?",
  "Hola, ¿qué haces?",
  "Buenas, ¿cómo estás?",
  "Hola, ¿qué tal tu día?",
  "Buenas noches",
  "Hola, ¿qué cuentas?",
  "¡Hola!",
  "¡Hey, cómo andas!",
  "Buenos días, ¿cómo has estado?",
  "Hola, amigo",
  "¡Hola! ¿Qué hay de nuevo?",
  "¿Cómo va todo?",
  "Hola, ¿qué tal tu semana?",
  "Hola, ¿cómo van las cosas?",
  "Hola, ¿me recuerdas?",
  "¿Cómo estás, amigo?",
  "Hola, un gusto verte",
  "¡Hola de nuevo!",
  "Hola, ¿cómo sigue todo?",
  "Hola, ¿qué hay por acá?",
  "Buenas tardes, ¿cómo te encuentras?",
  "Hola, ¿qué tal tu familia?",
  "¿Cómo estuvo tu día?",
  "Hola, espero que estés bien",
  "Buenas, ¿cómo va todo?",
  "Necesito ayuda",
  "Me puedes ayudar",
  "Tengo un problema",
  "¿Me puedes explicar algo?",
  "¿Puedes resolver mi duda?",
  "No entiendo esto",
  "Quiero saber cómo hacer algo",
  "Tengo una consulta",
  "Por favor, ayúdame",
  "Estoy atascado",
  "No sé qué hacer",
  "¿Puedes guiarme?",
  "Necesito tu apoyo",
  "¿Puedes darme un consejo?",
  "¿Qué debo hacer en esta situación?",
  "¿Puedes sugerir algo?",
  "Quiero aprender algo nuevo",
  "Tengo una pregunta específica",
  "¿Qué me recomiendas hacer?",
  "Estoy buscando información",
  "¿Cómo puedo resolver este problema?",
  "¿Puedes decirme qué hacer?",
  "Adiós, cuídate",
  "Nos vemos pronto",
  "Hasta luego",
  "Hasta mañana",
  "Buenas noches, que descanses",
  "Nos vemos más tarde",
  "Adiós, que te vaya bien",
  "Hasta la próxima",
  "Cuídate mucho",
  "Nos vemos después",
  "Hasta pronto",
  "Bye",
  "Chao",
  "Que tengas buen día",
  "Que tengas buena noche",
  "Que tengas buena tarde",
  "Nos vemos al rato",
  "Adiós, un gusto hablar contigo",
  "Cuídense todos",
  "Adiós, ¡éxitos!",
  "Nos vemos pronto, amigo",
  "Cuídalo bien",
  "Que tengas un buen día",
  "Hasta nunca",
  "Hasta otra ocasión",
  "Te veo luego",
  "Hasta pronto, amigo",
  "Cuídate, nos hablamos luego",
  "Que te vaya bien",
  "Te espero pronto",
  "Chao, un gusto verte",
  "Nos vemos más adelante",
  "Buenas noches, descansa",
  "Nos vemos el fin de semana",
  "Hasta entonces",
  "Te hablo después",
  "Nos vemos, adiós",
  "Buenas noches a todos",
  "Que duermas bien",
  "Hasta pronto, cuídate",
  "Gracias",
  "Muchas gracias",
  "Gracias por tu ayuda",
  "Te agradezco mucho",
  "Mil gracias",
  "Gracias de corazón",
  "Agradezco tu apoyo",
  "Gracias por estar ahí",
  "Te lo agradezco enormemente",
  "Infinitas gracias",
  "Gracias por todo",
  "Estoy muy agradecido",
  "Gracias por tu tiempo",
  "Gracias por tu paciencia",
  "Gracias por explicarme",
  "Muchas gracias por tu apoyo",
  "Gracias, en serio",
  "Gracias por tu consejo",
  "Te debo una, gracias",
  "Gracias por responder",
  "Gracias por tu disposición",
  "Gracias por tu amabilidad",
  "Gracias por la información",
  "Muchísimas gracias",
  "Te estoy muy agradecido"
]

output_es = [
  "Hola",
  "Hola",
  "Buenos días",
  "Buenas tardes",
  "Buenas noches",
  "Bien, gracias",
  "Todo bien",
  "Muy bien, gracias",
  "Nada importante",
  "Bien aquí",
  "Fue muy productivo",
  "Buenas noches",
  "Todo tranquilo",
  "Hola",
  "Todo excelente",
  "Muy bien, gracias",
  "Un gusto saludarte",
  "¡Qué alegría verte!",
  "Todo marcha bien",
  "Me ha ido bien, gracias",
  "Van bien las cosas",
  "Claro que sí, ¿cómo olvidarte?",
  "Estoy bien, ¿y tú?",
  "Igualmente",
  "¡Qué alegría verte de nuevo!",
  "Todo está bien",
  "Hay muchas novedades",
  "Bastante bien, gracias",
  "Todo va mejorando",
  "Fue un día interesante",
  "Igual para ti",
  "Aquí todo bien",
  "Claro, ¿cómo puedo ayudarte?",
  "Dime qué necesitas",
  "Estoy aquí para ayudarte",
  "Por supuesto, ¿qué quieres saber?",
  "Claro, ¿cuál es tu duda?",
  "Déjame ayudarte con eso",
  "Te puedo ayudar con eso",
  "Dime tu consulta",
  "Si, dime",
  "Claro, cuéntame más",
  "Vamos a solucionarlo juntos",
  "Te guiaré paso a paso",
  "Estoy aquí para apoyarte",
  "Por supuesto, aquí va mi consejo",
  "Primero, tranquilízate y vamos paso a paso",
  "Te sugiero que intentes esto",
  "¿Qué necesitas que te explique?",
  "Investiguemos juntos",
  "Te sugiero lo siguiente",
  "Aquí tienes la información que buscas",
  "Prueba con esta solución",
  "Espero que esto te ayude",
  "Nos vemos luego",
  "Hasta entonces",
  "Nos vemos pronto",
  "Igualmente",
  "¡Éxitos también para ti!",
  "Que tengas buen día",
  "Hasta pronto, amigo",
  "Gracias, cuídate",
  "Hasta luego",
  "¡Adiós!",
  "Adiós",
  "Que tengas un buen día",
  "Que descanses bien",
  "Que tengas buenas tardes",
  "Nos vemos pronto",
  "Un placer hablar contigo",
  "Cuídense mucho",
  "¡Hasta luego!",
  "Nos vemos pronto",
  "Cuídalo también",
  "Espero verte otra vez",
  "Que estés bien",
  "Muchas gracias, igualmente",
  "Hasta siempre",
  "Nos vemos luego",
  "Nos vemos, amigo",
  "Que te cuides mucho",
  "Espero verte luego",
  "Hasta luego, amigo",
  "Que estés bien, hasta la próxima",
  "Hasta entonces",
  "Espero que duermas bien",
  "Igualmente",
  "Si, con gusto",
  "Estamos en contacto",
  "Hablamos luego",
  "Hasta la vista",
  "Nos vemos, un abrazo",
  "Descansa bien",
  "Hasta pronto",
  "De nada",
  "Con gusto",
  "Para eso estamos",
  "Es un placer ayudarte",
  "No hay de qué",
  "Siempre a la orden",
  "Me alegra haberte ayudado",
  "Cuenta conmigo siempre",
  "No es nada",
  "Es un gusto apoyarte",
  "Para servirte",
  "Me alegro de haberte sido útil",
  "No te preocupes, aquí estoy",
  "Siempre dispuesto a ayudar",
  "Qué bueno que te sirvió",
  "¡De nada, para eso estamos!",
  "Espero que todo salga bien",
  "Gracias a ti por confiar en mí",
  "Lo que necesites, aquí estaré",
  "Cuando quieras, vuelve a preguntar",
  "Es un gusto ayudarte",
  "Estoy aquí para eso",
  "Me alegra haberte podido ayudar",
  "Espero que te sea útil",
  "De nada, cualquier cosa me avisas"
]


df_es['pregunta'] = input_es
df_es['respuesta'] = output_es

# Dataset con frases en inglés
input_en = [
    "Hello",
    "How are you",
    "Hello, good morning",
    "Hello, good afternoon",
    "Hello, good evening",
    "How are you doing",
    "How is it going",
    "Hello, how are you",
    "Hello, what are you doing",
    "Good day, how are you",
    "Hello, how was your day",
    "Good evening",
    "Hello, what is new",
    "Hello",
    "Hey, how have you been",
    "Good morning, how have you been",
    "Hello, friend",
    "Hello, what is new",
    "How is everything going",
    "Hello, how was your week",
    "Hello, how are things going",
    "Hello, do you remember me",
    "How are you, friend",
    "Hello, it is nice to see you",
    "Hello again",
    "Hello, how is everything",
    "Hello, what is happening here",
    "Good afternoon, how are you",
    "Hello, how is your family",
    "How was your day",
    "Hello, I hope you are well",
    "Good day, how is everything",
    "I need help",
    "Can you help me",
    "I have a problem",
    "Can you explain something to me",
    "Can you solve my question",
    "I do not understand this",
    "I want to know how to do something",
    "I have a question",
    "Please help me",
    "I am stuck",
    "I do not know what to do",
    "Can you guide me",
    "I need your support",
    "Can you give me advice",
    "What should I do in this situation",
    "Can you suggest something",
    "I want to learn something new",
    "I have a specific question",
    "What do you recommend I do",
    "I am looking for information",
    "How can I solve this problem",
    "Can you tell me what to do",
    "Goodbye, take care",
    "See you soon",
    "See you later",
    "See you tomorrow",
    "Good night, rest well",
    "See you later",
    "Goodbye, have a great day",
    "See you next time",
    "Take care",
    "See you afterwards",
    "See you soon",
    "Goodbye",
    "Bye",
    "Have a good day",
    "Have a good night",
    "Have a good afternoon",
    "See you in a bit",
    "Goodbye, it was nice talking to you",
    "Take care, everyone",
    "Goodbye, best wishes",
    "See you soon, friend",
    "Take care of it well",
    "Have a great day",
    "Goodbye forever",
    "Until another time",
    "I will see you later",
    "See you soon, friend",
    "Take care, we will talk later",
    "Hope it goes well",
    "I will wait for you soon",
    "Goodbye, nice to see you",
    "See you later",
    "Good evening, rest well",
    "See you on the weekend",
    "Until then",
    "I will talk to you later",
    "See you, goodbye",
    "Good night, everyone",
    "Sleep well",
    "See you soon, take care",
    "Thank you",
    "Thank you very much",
    "Thank you for your help",
    "I am very grateful",
    "A thousand thanks",
    "Thanks from the heart",
    "I appreciate your support",
    "Thank you for being there",
    "I greatly appreciate it",
    "Infinite thanks",
    "Thank you for everything",
    "I am very thankful",
    "Thank you for your time",
    "Thank you for your patience",
    "Thank you for explaining",
    "Thank you very much for your support",
    "Thank you, seriously",
    "Thank you for your advice",
    "I owe you one, thanks",
    "Thank you for answering",
    "Thank you for your willingness",
    "Thank you for your kindness",
    "Thank you for the information",
    "Many thanks",
    "I am very grateful"
]

output_en = [
    "Hello",
    "Hello",
    "Good morning",
    "Good afternoon",
    "Good evening",
    "I am good, thank you",
    "All is well",
    "Very well, thank you",
    "Nothing important",
    "All good here",
    "It was very productive",
    "Good night",
    "Everything is calm",
    "Hello",
    "Everything is excellent",
    "Very well, thank you",
    "It is a pleasure to greet you",
    "What a joy to see you",
    "Everything is going well",
    "I have been well, thank you",
    "Things are going fine",
    "Of course, how could I forget you",
    "I am well, how about you",
    "The same to you",
    "It is a joy to see you again",
    "Everything is fine",
    "There is a lot of news",
    "Quite good, thank you",
    "Everything is improving",
    "It was an interesting day",
    "The same for you",
    "Everything is good here",
    "Of course, how can I assist you",
    "Tell me what you need",
    "I am here to assist you",
    "Of course, what would you like to know",
    "Sure, what is your question",
    "Let me assist you with that",
    "I can assist you with that",
    "Tell me your question",
    "Yes, tell me",
    "Of course, tell me more",
    "Let us solve it together",
    "I will guide you step by step",
    "I am here to support you",
    "Of course, here is my advice",
    "First, calm down and let us go step by step",
    "I suggest that you try this",
    "What do you need me to explain",
    "Let us investigate together",
    "I suggest the following",
    "Here is the information you are looking for",
    "Try this solution",
    "I hope this helps you",
    "See you later",
    "Until then",
    "See you soon",
    "The same to you",
    "Best wishes to you as well",
    "Have a good day",
    "See you soon, friend",
    "Thank you, take care",
    "See you later",
    "Goodbye",
    "Goodbye",
    "Have a great day",
    "Rest well",
    "Have a good afternoon",
    "See you soon",
    "It was a pleasure talking to you",
    "Take care, everyone",
    "See you later",
    "See you soon",
    "Take care of it too",
    "I hope to see you again",
    "Take care",
    "Thank you very much, the same to you",
    "Goodbye forever",
    "See you later",
    "See you, friend",
    "Take care of yourself",
    "I hope to see you later",
    "See you later, friend",
    "Take care, until next time",
    "Until then",
    "I hope you sleep well",
    "The same to you",
    "Yes, gladly",
    "We will stay in touch",
    "We will talk later",
    "Goodbye",
    "See you, a hug",
    "Rest well",
    "See you soon",
    "You are welcome",
    "With pleasure",
    "That is what I am here for",
    "It is a pleasure to assist you",
    "No problem",
    "Always at your service",
    "I am glad I could assist",
    "You can always count on me",
    "It is nothing",
    "It is a pleasure to support you",
    "At your service",
    "I am glad I could be helpful",
    "Do not worry, I am here",
    "Always ready to assist",
    "I am glad it was helpful",
    "You are welcome, that is what I am here for",
    "I hope everything goes well",
    "Thank you for trusting me",
    "Whatever you need, I will be here",
    "Feel free to ask anytime",
    "It is a pleasure to assist you",
    "I am here for that",
    "I am glad I could assist",
    "I hope it is useful to you",
    "You are welcome, let me know if you need anything else"
]


df_en['pregunta'] = input_en
df_en['respuesta'] = output_en

# Combinar DataFrame de fútbol y Baloncesto
df_frases = pd.concat([df_es, df_en], ignore_index=True)

#Limpiando posibles contracciones
df_frases['pregunta'] = df_frases['pregunta'].apply(clean_text)
df_frases['respuesta'] = df_frases['respuesta'].apply(clean_text)

# Obtiene un resumen de los datos, incluyendo tipos de columnas y valores nulos
print(df_frases.info())

# Guardar el archivo como CSV
df_frases.to_csv("frases.csv", index=False, encoding='utf-8')

print("Archivo CSV creado con éxito: frases.csv")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 238 entries, 0 to 237
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   pregunta   238 non-null    object
 1   respuesta  238 non-null    object
dtypes: object(2)
memory usage: 3.8+ KB
None
Archivo CSV creado con éxito: frases.csv


### Descargar

In [None]:
from google.colab import files

# Descargar el archivo CSV generado
files.download("frases.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Dataset 10

Nivel: Intermedio

Estado: ```No Disponible```

Idioma: Inglés

Tema: Contiene preguntas y respuestas sobre teléfonos móviles y accesorios de Amazon.

Tamaño: --- (registros)

Origen: [Amazon Top cell Phones and Accessories QA](https://www.kaggle.com/datasets/validmodel/amazon-top-cell-phones-and-accessories-qa)  

### Limpieza

In [137]:
import re
import json
import kagglehub
import pandas as pd

# Download latest version
path = kagglehub.dataset_download("validmodel/amazon-top-cell-phones-and-accessories-qa")

filename = f"{path}/qa_Cell_Phones_and_Accessories.json"

#!cat "/root/.cache/kagglehub/datasets/validmodel/amazon-top-cell-phones-and-accessories-qa/versions/27/qa_Cell_Phones_and_Accessories.json"

corrected_lines = []
corrected_lines.append("[")
# Leer el archivo y corregir las comillas simples
with open(filename, 'r') as file:
    for line in file:
      # Reemplazar solo las comillas simples que delimitan claves y valores
      corrected_line = re.sub(r"\\", "", line)
      corrected_line = re.sub(r'"}', '"},', corrected_line)
      corrected_line = re.sub(r"'}", '"},', corrected_line)
      corrected_line = re.sub(r"{'", '{"', corrected_line)
      corrected_line = re.sub(r"': '", '": "', corrected_line)
      corrected_line = re.sub(r"', '", '", "', corrected_line)
      corrected_line = re.sub(r", '", ', "', corrected_line)
      corrected_line = re.sub(r"': ", '": ', corrected_line)
      #corrected_line = re.sub(r"(?<!\w)'(?!\w)", '"', line)  # Solo reemplaza comillas simples fuera de palabras
      corrected_lines.append(corrected_line)

#print(corrected_lines)
corrected_lines.append("\n]")

# Crear un archivo temporal con el contenido corregido
corrected_filename = "nuevo.json"
with open(corrected_filename, 'w') as corrected_file:
    corrected_file.writelines(corrected_lines)

#df_cell_phones = pd.read_json("nuevo.json", lines=True)

#print(df_cell_phones.info())  # Muestra las primeras filas del DataFrame

### Descarga

In [138]:
from google.colab import files

# Descargar el archivo CSV generado
files.download("nuevo.json")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Intent - JSON

## Dataset 1

Nivel: Intermedio

Estado: ```No disponible```

Idioma: Inglés

Tema: Conversaciones variadas

Tamaño: 20KB

Origen: [Dataset for chatbot](https://www.kaggle.com/datasets/niraliivaghani/chatbot-dataset)  

### Limpieza

In [None]:
import kagglehub
import pandas as pd
from google.colab import files

# Download latest version
path = kagglehub.dataset_download("niraliivaghani/chatbot-dataset")
filepath = f"{path}/intents.json"

df = pd.read_json(filepath, orient='records')

print(df.info())  # Muestra las primeras filas del DataFrame

# Descargar el archivo json
files.download(filepath)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38 entries, 0 to 37
Data columns (total 1 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   intents  38 non-null     object
dtypes: object(1)
memory usage: 432.0+ bytes
None


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>