In [None]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
from requests.exceptions import ChunkedEncodingError
import re
import os
from deep_translator import GoogleTranslator
import glob
import nltk
from nltk import FreqDist, word_tokenize
from nltk.corpus import stopwords


In [None]:
nltk.download('punkt')
nltk.download('stopwords')

In [None]:
# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('ideas_limpias.csv')

# Crear la carpeta si no existe
carpeta_export = 'csv-export'
os.makedirs(carpeta_export, exist_ok=True)

# Dividir el DataFrame por etiquetas y guardar cada subconjunto en un archivo en la carpeta
for etiqueta, subconjunto in df.groupby('Tag'):
    # Crear el nombre del archivo y la ruta en la carpeta
    nombre_archivo = f'{etiqueta}_subconjunto.csv'
    ruta_archivo = os.path.join(carpeta_export, nombre_archivo)
    
    # Guardar el subconjunto en el archivo en la carpeta
    subconjunto.to_csv(ruta_archivo, index=False)

    print(f'Se ha creado el archivo {ruta_archivo} con {len(subconjunto)} filas.')

In [7]:
# Carpeta que contiene los archivos CSV exportados
carpeta_export = 'csv-export'

# Obtener la lista de archivos CSV en la carpeta csv-export
archivos_csv = [f for f in os.listdir(carpeta_export) if f.endswith('.csv')]

# Función para obtener las palabras clave de un texto
def obtener_palabras_clave(texto, cantidad_palabras=5):
    tokens = word_tokenize(texto)
    tokens = [token.lower() for token in tokens if token.isalnum() and token.lower() not in stopwords.words('english')]
    frecuencia = FreqDist(tokens)
    return [palabra for palabra, _ in frecuencia.most_common(cantidad_palabras)]

# Iterar sobre los archivos CSV
for archivo_csv in archivos_csv:
    
    # Leer el archivo CSV en un DataFrame
    df = pd.read_csv(os.path.join(carpeta_export, archivo_csv))

    # Agregar una columna para las palabras clave
    df['Palabras clave'] = df['Idea'].apply(lambda x: obtener_palabras_clave(x))

    # Guardar el DataFrame actualizado en el mismo archivo CSV
    df.to_csv(os.path.join(carpeta_export, archivo_csv), index=False)

    # Imprimir el DataFrame con las palabras clave
    print(f'DataFrame con palabras clave para {archivo_csv}\n')
    
    # Imprimir el numero de archvivos recorridos y lo que faltan
    print(f'Archivo {archivo_csv} de {len(archivos_csv)}')
    print(f'Faltan {len(archivos_csv) - archivos_csv.index(archivo_csv) - 1} archivos\n')


DataFrame con palabras clave para 3d Startup Ideas_subconjunto.csv

Archivo 3d Startup Ideas_subconjunto.csv de 1637
Faltan 1636 archivos

DataFrame con palabras clave para Ability Startup Ideas_subconjunto.csv

Archivo Ability Startup Ideas_subconjunto.csv de 1637
Faltan 1635 archivos

DataFrame con palabras clave para Able Startup Ideas_subconjunto.csv

Archivo Able Startup Ideas_subconjunto.csv de 1637
Faltan 1634 archivos

DataFrame con palabras clave para Abroad Startup Ideas_subconjunto.csv

Archivo Abroad Startup Ideas_subconjunto.csv de 1637
Faltan 1633 archivos

DataFrame con palabras clave para Accelerator Startup Ideas_subconjunto.csv

Archivo Accelerator Startup Ideas_subconjunto.csv de 1637
Faltan 1632 archivos

DataFrame con palabras clave para Accept Startup Ideas_subconjunto.csv

Archivo Accept Startup Ideas_subconjunto.csv de 1637
Faltan 1631 archivos

DataFrame con palabras clave para Accepted Startup Ideas_subconjunto.csv

Archivo Accepted Startup Ideas_subconjunto.c

In [None]:
# Carpeta de exportación para CSV y JSON
carpeta_csv = 'csv-export'
carpeta_export = 'json-export'
os.makedirs(carpeta_export, exist_ok=True)

# Obtener la lista de archivos CSV en la carpeta csv-export
archivos_csv = glob.glob(os.path.join(carpeta_csv, '*.csv'))

# Iterar sobre los archivos CSV
for archivo_csv in archivos_csv:
    # Leer el archivo CSV en un DataFrame
    df = pd.read_csv(archivo_csv)

    # Agregar un campo ID al DataFrame
    df['ID'] = range(1, len(df) + 1)

    # Reorganizar las columnas para tener el campo "ID" primero
    df = df[['ID', 'Tag', 'Idea']]

    # Crear el nombre del archivo JSON
    nombre_json = os.path.splitext(os.path.basename(archivo_csv))[0] + '.json'
    ruta_json = os.path.join(carpeta_export, nombre_json)

    # Guardar el DataFrame como JSON en la carpeta de exportación
    df.to_json(ruta_json, orient='records', lines=True)
print(f'Se han creado {len(archivos_csv)} archivos JSON en la carpeta {carpeta_export}.')