In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# Supongamos que tienes un DataFrame 'df' con una columna 'comentarios'
# Puedes cargar tus datos reales aquí
df = pd.DataFrame({'comentarios': ["Este es un comentario.", "Otro comentario interesante.", "Un comentario más."]})

In [None]:
df.head()

Unnamed: 0,comentarios
0,Este es un comentario.
1,Otro comentario interesante.
2,Un comentario más.


In [None]:
df['time'] = pd.to_datetime(['2022-01-01 10:00:00', '2022-01-02 12:30:00', '2022-01-03 15:45:00'])

In [None]:
df

Unnamed: 0,comentarios,time
0,Este es un comentario.,2022-01-01 10:00:00
1,Otro comentario interesante.,2022-01-02 12:30:00
2,Un comentario más.,2022-01-03 15:45:00


In [None]:
# Paso 1: Extracción de Comentarios
comentarios = df['comentarios']

In [None]:
comentarios.shape

(3,)

In [None]:
# Paso 2: Vectorización de Palabras
vectorizador = CountVectorizer()
matriz_bolsa_de_palabras = vectorizador.fit_transform(comentarios)

In [None]:
print(matriz_bolsa_de_palabras.toarray())

[[1 1 1 0 0 0 1]
 [1 0 0 1 0 1 0]
 [1 0 0 0 1 0 1]]


In [None]:
# Suma de frecuencias de palabras en la matriz
frecuencias = matriz_bolsa_de_palabras.sum(axis=0)

In [None]:
frecuencias

matrix([[3, 1, 1, 1, 1, 1, 2]])

In [None]:
# Obtención de palabras únicas en el orden del vocabulario
palabras_unicas = vectorizador.get_feature_names_out()

In [None]:
palabras_unicas

array(['comentario', 'es', 'este', 'interesante', 'más', 'otro', 'un'],
      dtype=object)

In [None]:
# Creación de un DataFrame con las palabras y sus frecuencias
df_frecuencias = pd.DataFrame({'Palabra': palabras_unicas, 'Frecuencia': frecuencias.A1})

In [None]:
df_frecuencias

Unnamed: 0,Palabra,Frecuencia
0,comentario,3
1,es,1
2,este,1
3,interesante,1
4,más,1
5,otro,1
6,un,2


In [None]:
df_frecuencias = df_frecuencias.sort_values(by='Frecuencia', ascending=False)

In [None]:
df_frecuencias

Unnamed: 0,Palabra,Frecuencia
0,comentario,3
6,un,2
1,es,1
2,este,1
3,interesante,1
4,más,1
5,otro,1


In [None]:
def obtener_palabra_comentario(frase):
    return 'comentario' if 'comentario' in frase.lower() else "-" # el frase.lower desprecia las mayusculas.


In [None]:
# Aplicar la función a la columna 'comentarios'
df['tiene_comentarios'] = df['comentarios'].apply(obtener_palabra_comentario)

In [None]:
df

Unnamed: 0,comentarios,time,tiene_comentarios
0,Este es un comentario.,2022-01-01 10:00:00,comentario
1,Otro comentario interesante.,2022-01-02 12:30:00,comentario
2,Un comentario más.,2022-01-03 15:45:00,comentario


In [None]:
def obtener_un(frase):
    return 'un' if 'un' in frase.lower() else "-"

In [None]:
df["tiene_un"]= df["comentarios"].apply(obtener_un)

In [None]:
df

Unnamed: 0,comentarios,time,tiene_comentarios,tiene_un
0,Este es un comentario.,2022-01-01 10:00:00,comentario,un
1,Otro comentario interesante.,2022-01-02 12:30:00,comentario,-
2,Un comentario más.,2022-01-03 15:45:00,comentario,un


In [None]:
df_filtrado = df.query('tiene_un == "un"')

In [None]:
df_filtrado

Unnamed: 0,comentarios,time,tiene_comentarios,tiene_un
0,Este es un comentario.,2022-01-01 10:00:00,comentario,un
2,Un comentario más.,2022-01-03 15:45:00,comentario,un
