In [28]:
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from collections import Counter
import nltk

# Supongamos que tenemos los datos en un DataFrame de pandas llamado 'data' con las columnas: curso, grupo, estudiante, comentario

# Cargar los datos desde el archivo o fuente correspondiente
# data = pd.read_csv('ruta_del_archivo.csv')


In [31]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\DIFODS103\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [71]:
# Por simplicidad, crearemos un DataFrame de ejemplo:
data = pd.DataFrame({
    'curso': ['Matemáticas', 'Historia', 'Ciencias'],
    'grupo': ['A', 'B', 'A'],
    'estudiante': ['Juan', 'María', 'Pedro'],
    'comentario': [
        'El curso es interesante, pero algunas lecciones son complicadas, he notado que en ocasiones la vida no es facil pero siempre hay curso',
        'La historia antigua siempre me ha fascinado.',
        'La ciencia es emocionante y quiero aprender más.'
    ]
})


In [72]:
data

Unnamed: 0,curso,grupo,estudiante,comentario
0,Matemáticas,A,Juan,"El curso es interesante, pero algunas leccione..."
1,Historia,B,María,La historia antigua siempre me ha fascinado.
2,Ciencias,A,Pedro,La ciencia es emocionante y quiero aprender más.


In [73]:
# Función para procesar el texto
def process_text(text):
    stop_words = set(stopwords.words('spanish'))  # Palabras comunes que no aportan mucho al análisis
    tokens = word_tokenize(text.lower())  # Convertir a minúsculas y tokenizar el texto
    return [word for word in tokens if word.isalpha() and word not in stop_words]

# Procesar cada comentario y obtener las palabras más relevantes
def get_main_ideas(data):
    main_ideas = {}
    for _, row in data.iterrows():
        comment = row['comentario']
        words = process_text(comment)
        word_counter = Counter(words)
        main_ideas[(row['curso'], row['grupo'], row['estudiante'])] = word_counter.most_common(5) # Obtener las 3 palabras más frecuentes

    return main_ideas


In [83]:
# Obtener las ideas principales de cada comentario
ideas_principales = get_main_ideas(data)

In [87]:
ideas=list(ideas_principales.values())
ideas

[[('curso', 2),
  ('interesante', 1),
  ('lecciones', 1),
  ('complicadas', 1),
  ('notado', 1)],
 [('historia', 1), ('antigua', 1), ('siempre', 1), ('fascinado', 1)],
 [('ciencia', 1), ('emocionante', 1), ('quiero', 1), ('aprender', 1)]]

In [88]:
 ideas.most_common(2)

AttributeError: 'list' object has no attribute 'most_common'

In [76]:
# Imprimir los resultados
for key, value in ideas_principales.items():
    print(f"Ideas principales de {key}: {value}")

Ideas principales de ('Matemáticas', 'A', 'Juan'): [('curso', 2), ('interesante', 1), ('lecciones', 1), ('complicadas', 1), ('notado', 1)]
Ideas principales de ('Historia', 'B', 'María'): [('historia', 1), ('antigua', 1), ('siempre', 1), ('fascinado', 1)]
Ideas principales de ('Ciencias', 'A', 'Pedro'): [('ciencia', 1), ('emocionante', 1), ('quiero', 1), ('aprender', 1)]


In [44]:
pd.DataFrame(ideas_principales).T.reset_index()

Unnamed: 0,level_0,level_1,level_2,0,1,2
0,Matemáticas,A,Juan,"(curso, 1)","(interesante, 1)","(lecciones, 1)"
1,Historia,B,María,"(historia, 1)","(antigua, 1)","(siempre, 1)"
2,Ciencias,A,Pedro,"(ciencia, 1)","(emocionante, 1)","(quiero, 1)"


In [50]:
pd.DataFrame.from_dict(ideas_principales)

Unnamed: 0_level_0,Matemáticas,Historia,Ciencias
Unnamed: 0_level_1,A,B,A
Unnamed: 0_level_2,Juan,María,Pedro
0,"(curso, 1)","(historia, 1)","(ciencia, 1)"
1,"(interesante, 1)","(antigua, 1)","(emocionante, 1)"
2,"(lecciones, 1)","(siempre, 1)","(quiero, 1)"


In [53]:

# Función para procesar el texto
def process_text(text):
    stop_words = set(stopwords.words('spanish'))  # Palabras comunes que no aportan mucho al análisis
    tokens = word_tokenize(text.lower())  # Convertir a minúsculas y tokenizar el texto
    return [word for word in tokens if word.isalpha() and word not in stop_words]

# Procesar cada comentario y obtener las palabras más relevantes
def get_main_ideas(data):
    main_ideas = []
    for _, row in data.iterrows():
        comment = row['comentario']
        words = process_text(comment)
        word_counter = Counter(words)
        top_words = word_counter.most_common(3)
        main_ideas.append({
            'curso': row['curso'],
            'grupo': row['grupo'],
            #'estudiante': row['estudiante'],
            'palabra_1': top_words[0][0] if len(top_words) >= 1 else None,
            'frecuencia_1': top_words[0][1] if len(top_words) >= 1 else None,
            'palabra_2': top_words[1][0] if len(top_words) >= 2 else None,
            'frecuencia_2': top_words[1][1] if len(top_words) >= 2 else None,
            'palabra_3': top_words[2][0] if len(top_words) >= 3 else None,
            'frecuencia_3': top_words[2][1] if len(top_words) >= 3 else None
        })

    return main_ideas

# Obtener las ideas principales de cada comentario
ideas_principales = get_main_ideas(data)

# Convertir la lista de diccionarios en un DataFrame
df_ideas_principales = pd.DataFrame(ideas_principales)

print(df_ideas_principales)

         curso grupo palabra_1  frecuencia_1    palabra_2  frecuencia_2   
0  Matemáticas     A     curso             1  interesante             1  \
1     Historia     B  historia             1      antigua             1   
2     Ciencias     A   ciencia             1  emocionante             1   

   palabra_3  frecuencia_3  
0  lecciones             1  
1    siempre             1  
2     quiero             1  


In [52]:
df_ideas_principales

Unnamed: 0,curso,grupo,estudiante,palabra_1,frecuencia_1,palabra_2,frecuencia_2,palabra_3,frecuencia_3
0,Matemáticas,A,Juan,curso,1,interesante,1,lecciones,1
1,Historia,B,María,historia,1,antigua,1,siempre,1
2,Ciencias,A,Pedro,ciencia,1,emocionante,1,quiero,1
