# Frecuencia de Palabras

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
import matplotlib.pyplot as plt

In [None]:
# Clase para encontrar palabras comunes en los abstracts
class MostCommonWords:
    def __init__(self, df):
        self.df = df
    
    def find_most_common_words(self, n=1000):
        # Obtener los abstracts como una lista de strings
        abstracts = self.df['Abstract'].tolist()
        
        # Inicializar CountVectorizer
        vectorizer = CountVectorizer()
        
        # Ajustar y transformar los abstracts
        X = vectorizer.fit_transform(abstracts)
        
        # Obtener el vocabulario del CountVectorizer
        vocabulary = vectorizer.get_feature_names_out()
        
        # Obtener las frecuencias de las palabras
        word_frequencies = zip(vocabulary, X.sum(axis=0).tolist()[0])
        
        # Ordenar las palabras por frecuencia
        sorted_words = sorted(word_frequencies, key=lambda x: x[1], reverse=True)
        
        # Obtener las palabras más comunes
        most_common_words = sorted_words[:n]
        
        return most_common_words

In [None]:
# Cargar el DataFrame df_definitivo desde el archivo CSV
df_definitivo = pd.read_csv('df_definitivo.csv')

# Crear una instancia de la clase MostCommonWords
most_common_analyzer = MostCommonWords(df_definitivo)

In [None]:
# Encontrar las palabras más comunes
most_common_words = most_common_analyzer.find_most_common_words(n=1000)
print("Las 1000 palabras más comunes son:")
for word, frequency in most_common_words:
    print(f"{word}: {frequency}")

# Guardar los resultados en un archivo CSV
df_palabras_comunes = pd.DataFrame(most_common_words, columns=['Palabra', 'Frecuencia'])
df_palabras_comunes.to_csv('palabras_comunes.csv', index=False)

In [None]:
# Cargar el archivo CSV con las palabras comunes
archivo_palabras_comunes = 'palabras_comunes.csv'
df_palabras_comunes = pd.read_csv(archivo_palabras_comunes)

# Obtener las 60 primeras palabras más comunes y sus frecuencias
palabras_mas_comunes = df_palabras_comunes['Palabra'].head(60)
frecuencias = df_palabras_comunes['Frecuencia'].head(60)

In [None]:
# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(palabras_mas_comunes, frecuencias, color='skyblue')

# Añadir título y etiquetas
plt.title('Frecuencia de las 60 palabras más comunes en los abstracts')
plt.xlabel('Palabra')
plt.ylabel('Frecuencia')
plt.xticks(rotation=90, ha='right')

# Mostrar el gráfico
plt.tight_layout()
plt.show()