# Carga de base de datos

In [1]:
import pandas as pd
comentarios = list(pd.read_csv('C:/Users/santi/OneDrive/Escritorio/Javeriana/Semillero/prueba_semillero/archive/spanish_tweets_suggesting_signs_of_depression_v1.csv')[ 'TWEET_TEXT'])

In [2]:
comentarios

['Deberían eliminar a las malas personas y a los que odiamos vivir\n... el mundo sería mejor sin nosotros',
 'Ya deja de intentar contarle tus problemas a alguien. Entiende A NADIE LE IMPORTAS!!!!!',
 'La tristeza es lo más fácil de ocultar de todos los sentimientos que trae consigo la depresión\n\n#LaDepresiónEsMulticolor',
 'De las peores cosas de la depresión es que no te deja ganas de vivir... Ni de matarte.\nSólo te tiene aquí, agonizando',
 'La soledad es lo único constante en mi vida. Creo que nunca conoceré el AMOR, la AMISTAD, la FELICIDAD... lo que es VIVIR\rYa me cansé!',
 'Quiero desaparecer, pero al mismo tiempo quisiera que alguien se diera cuenta el infierno en el que vivo',
 'No madre, no estoy enferma de flojera\nno, no tengo narcolepsia\n\n...ME ESTÁ CONSUMIENDO LA DEPRESIÓN',
 'Mi vida no tiene sentido.\n\n...tengo las mismas ganas de irme de este mundo, como aquel que está en una fiesta donde… EXTERNAL_LINK',
 'Ya me cansé de ser gorda\nYa me cansé de ser un fracaso

# Parte 1: Funcion de normalización

## Inicialización paquetes para la función

In [3]:
import spacy
from spellchecker import SpellChecker
import string
import time

# Carga del modelo de spaCy para español
nlp = spacy.load('es_core_news_lg')

# Inicialización del corrector ortográfico en español
spell = SpellChecker(language='es')

## Función

In [4]:
def normalizacion(comentarios, correcion_ortografia, lematizacion, stopwords, caracteres_especiales, signos_de_puntuacion, numeros, eliminar_palabras, minuscula, hashtags):
  comentarios_procesados = []

  inicio_funcion = time.time()
  iteration = 0
  for comentario in comentarios:
    if minuscula:
      comentario = comentario.lower()
    if hashtags:
      comentario = " ".join([palabra for palabra in comentario.split() if not palabra.startswith('#')])

    comentario = " ".join([palabra for palabra in comentario.split() if not palabra.startswith('#')])
    # Corrección ortográfica
    if correcion_ortografia:
      #comentario = " ".join([spell.correction(palabra) for palabra in comentario.split()])
      comentario = " ".join([spell.correction(palabra) if spell.correction(palabra) is not None else palabra for palabra in comentario.split()])


    # Procesamiento con spaCy (tokenización)
    doc = nlp(comentario)

    # Filtrado de tokens
    tokens_filtrados = doc
    if stopwords:
      tokens_filtrados = [token for token in tokens_filtrados if not token.is_stop]
    if signos_de_puntuacion:
      tokens_filtrados = [token for token in tokens_filtrados if not token.is_punct]
    if numeros:
      tokens_filtrados = [token for token in tokens_filtrados if not token.like_num]
    if eliminar_palabras:
      tokens_filtrados = [token for token in tokens_filtrados if token.text.lower() not in eliminar_palabras]

    # Lematización o uso de texto original del token
    if lematizacion:
      palabras_procesadas = [token.lemma_ for token in tokens_filtrados]
    else:
      palabras_procesadas = [token.text for token in tokens_filtrados]

    # Eliminación de caracteres especiales y normalización de texto
    if caracteres_especiales:
      palabras_procesadas = [palabra.translate(str.maketrans('', '', string.punctuation)) for palabra in palabras_procesadas]

    palabras_procesadas = [palabra.strip() for palabra in palabras_procesadas if palabra.strip()]

    # Uniendo las palabras procesadas en un comentario normalizado
    comentario_normalizado = " ".join(palabras_procesadas)
    comentarios_procesados.append(comentario_normalizado)
    iteration += 1

    # Tiempos de procesamientto
    if iteration == round(len(comentarios)*0.25,1):
      medio_tiempo = time.time()
      print(f"Va por el 25% ({iteration} comentarios procesados) con un tiempo de {round(medio_tiempo-inicio_funcion,3)} segundos.")
    if iteration == round(len(comentarios)*0.5,1):
      medio_tiempo = time.time()
      print(f"Va por el 50% ({iteration} comentarios procesados) con un tiempo de {round(medio_tiempo-inicio_funcion,3)} segundos.")
    if iteration == round(len(comentarios)*0.75,1):
      medio_tiempo = time.time()
      print(f"Va por el 75% ({iteration} comentarios procesados) con un tiempo de {round(medio_tiempo-inicio_funcion,3)} segundos.")
  fin_funcion = time.time()
  print(f"Para procesar {len(comentarios)} comentarios se demoró un tiempo total de: {round(fin_funcion-inicio_funcion,3)} segundos")

  return comentarios_procesados


In [5]:
cp = normalizacion(comentarios, correcion_ortografia = True, lematizacion = False, stopwords = True, caracteres_especiales = True, signos_de_puntuacion = True, numeros = True, eliminar_palabras = ['external_link'], minuscula = True, hashtags = True )

Va por el 25% (250 comentarios procesados) con un tiempo de 31.33 segundos.
Va por el 50% (500 comentarios procesados) con un tiempo de 51.302 segundos.
Va por el 75% (750 comentarios procesados) con un tiempo de 73.711 segundos.
Para procesar 1000 comentarios se demoró un tiempo total de: 96.084 segundos


In [23]:
cp #Para visualizar como quedaron los comentarios

['deberían eliminar malas personas odiamos vivir mundo',
 'deja intentar contarle problemas alguien entiende importas',
 'tristeza fácil ocultar sentimientos trae depresión',
 'peores cosas depresión deja ganas vivir matarte agonizando',
 'soledad único constante vida conoceré amor amistad felicidad vivir cansé',
 'quiero desaparecer tiempo quisiera alguien diera infierno vivo',
 'madre enferma flojera narcolepsia consumiendo depresión',
 'vida sentido ganas irme mundo fiesta',
 'cansé gorda cansé fracaso cansé quiero irmeeeeeeeee',
 'cálculos debería muerta',
 'odio sentirme incómoda rodeada gente odio sentirme insegura gente mira',
 'ganas morir',
 'raro siente neutro triste feliz estás sentir',
 'tóxica pongo pensar cosas imagino situaciones ponerme doy pelotuda',
 'paso empiezan sentir triste sentis vacío llenar',
 'necesito atención contención constante estabilidad mental emocional paja relacionarse',
 'ultimamente estabilidad emocional inestable clima otoño encantaría botón digas

# Parte 3: Palabras y frases claves

## Inicialización paquetes para la función

In [6]:
import pandas as pd
from collections import Counter

## Función

In [7]:
def palabras_claves(comentarios, metodo,num_palabras):
  if metodo == "TF": #Método por conteo de palabras
    texto = " ".join(comentarios)  # Combina todos los comentarios en un solo texto
    palabras = texto.split()  # Divide el texto en palabras
    # Contar la frecuencia de cada palabra
    frecuencias = Counter(palabras)
    porcentaje = [round(int(i)/len(comentarios),3)*100 for i in list(frecuencias.values())]
    # Crear un DataFrame con los resultados
    df_frecuencias = pd.DataFrame(frecuencias.items(), columns=['Palabra', 'Frecuencia'])
    df_frecuencias['%'] = porcentaje
    df_frecuencias = df_frecuencias.sort_values(by='Frecuencia', ascending=False)
    print(df_frecuencias.head(num_palabras))
    return  list(df_frecuencias['Palabra'][0:num_palabras])

In [8]:
pc = palabras_claves(cp,"TF",20)

       Palabra  Frecuencia     %
117     siento         118  11.8
34      quiero         109  10.9
28        vida          81   8.1
145     mierda          81   8.1
22       ganas          75   7.5
121     llorar          56   5.6
170     dormir          46   4.6
19   depresión          44   4.4
55        odio          37   3.7
182    cansada          34   3.4
69      sentir          32   3.2
66      triste          32   3.2
101   ansiedad          32   3.2
36      tiempo          31   3.1
56    sentirme          29   2.9
21       cosas          28   2.8
5        vivir          26   2.6
11     alguien          25   2.5
59       gente          22   2.2
224    morirme          22   2.2


In [None]:
print(pc)

['siento', 'quiero', 'vida', 'mierda', 'ganas', 'llorar', 'dormir', 'depresión', 'odio', 'cansada', 'sentir', 'triste', 'ansiedad', 'tiempo', 'sentirme', 'cosas', 'vivir', 'alguien', 'gente', 'morirme']


# Parte 4: n-gramas

## Inicialización paquetes para la función

In [9]:
import nltk
from nltk import bigrams, trigrams
from collections import Counter

nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\santi\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Función: Frases

In [10]:
import nltk
from nltk.util import trigrams
from collections import Counter

def procesar_palabras_clave(comentarios, palabras_clave):
    conteo_bigramas = Counter()
    conteo_trigramas = Counter()

    for palabra_clave in palabras_clave:
        # Procesar cada comentario
        for comentario in comentarios:
            tokens = nltk.word_tokenize(comentario.lower())

            # Bigramas
            for i in range(len(tokens)-1):
                if tokens[i] == palabra_clave or tokens[i+1] == palabra_clave:
                    conteo_bigramas[(tokens[i], tokens[i+1])] += 1

            # Trigramas
            for tri in trigrams(tokens):
                if palabra_clave in tri:
                    conteo_trigramas[tri] += 1

    # Mostrar los bigramas más comunes en general
    print("\nBigramas más comunes en general: \n")
    for bigrama, frecuencia in conteo_bigramas.most_common(20):
        print(f"{bigrama}: {frecuencia}")

    # Mostrar los trigramas más comunes en general
    print("\nTrigramas más comunes en general: \n")
    for trigrama, frecuencia in conteo_trigramas.most_common(20):
        print(f"{trigrama}: {frecuencia}")

# Ejemplo de uso


procesar_palabras_clave(cp, pc)



Bigramas más comunes en general: 

('ganas', 'morirme'): 26
('quiero', 'dormir'): 18
('vida', 'mierda'): 18
('quiero', 'llorar'): 16
('ganas', 'llorar'): 16
('siento', 'triste'): 12
('ganas', 'dormir'): 12
('ansiedad', 'ansiedad'): 12
('quiero', 'morir'): 10
('quiero', 'vivir'): 8
('quiero', 'morirme'): 8
('mierda', 'vida'): 8
('ganas', 'vivir'): 8
('quiero', 'desaparecer'): 7
('tiempo', 'siento'): 6
('siento', 'vacía'): 6
('quiero', 'sentirme'): 6
('sentirme', 'mierda'): 6
('ganas', 'morir'): 6
('quiero', 'matar'): 5

Trigramas más comunes en general: 

('ansiedad', 'ansiedad', 'ansiedad'): 11
('sacar', 'ganas', 'morirme'): 4
('semana', 'ganas', 'morirme'): 4
('ganas', 'morirme', 'perder'): 4
('empiezan', 'sentir', 'triste'): 4
('sentir', 'triste', 'sentis'): 4
('siento', 'cansada', 'triste'): 3
('tiempo', 'siento', 'triste'): 3
('siento', 'triste', 'vida'): 3
('quiero', 'dormir', 'llorar'): 3
('cansada', 'quiero', 'sentirme'): 3
('cansada', 'quiero', 'dormir'): 3
('odio', 'quiero', 

# Parte 5: Embedings

## Paquetes que se deben instalar para usar la función

In [26]:
!pip install sentence_transformers

^C


Collecting sentence_transformers
  Using cached sentence-transformers-2.2.2.tar.gz (85 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Collecting transformers<5.0.0,>=4.6.0 (from sentence_transformers)
  Using cached transformers-4.36.2-py3-none-any.whl.metadata (126 kB)
INFO: pip is looking at multiple versions of sentence-transformers to determine which version is compatible with other requirements. This could take a while.
Collecting sentence_transformers
  Using cached sentence-transformers-2.2.1.tar.gz (84 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finis

  error: subprocess-exited-with-error
  
  × Preparing metadata (pyproject.toml) did not run successfully.
  │ exit code: 1
  ╰─> [6 lines of output]
      Checking for Rust toolchain....
      
      Cargo, the Rust package manager, is not installed or is not on PATH.
      This package requires Rust and Cargo to compile extensions. Install it through
      the system's package manager or via https://rustup.rs/
      
      [end of output]
  
  note: This error originates from a subprocess, and is likely not a problem with pip.
error: metadata-generation-failed

× Encountered error while generating package metadata.
╰─> See above for output.

note: This is an issue with the package mentioned above, not pip.
hint: See above for details.


## Inicialización paquetes para la función

In [11]:
import numpy as np
import time
from sentence_transformers import SentenceTransformer
model_sentence = SentenceTransformer('hackathon-pln-es/paraphrase-spanish-distilroberta')

ModuleNotFoundError: No module named 'sentence_transformers'

## Función

In [None]:
#frases_claves = ['siento vacía','siento triste','siento perdida','siento necesidad autolesionarse','quiero morir','quiero dormir','quiero llorar','quiero desaparecer','vida mierda','ganas morirme','ganas llorar','ganas morir','ganas vivir','ganas cortarme','ganas matarme','llorar dejar existir','dormir mente calla','ansiedad depresion','soledad depresión','sentimientos trae depresión','cansada vivir']
#frases_claves = ['quiero dormir','vida mierda','ganas llorar','quiero morir','quiero desaparecer','siento vacía']
'''
frases_claves = ['ganas morirme',
'quiero dormir',
'vida mierda',
'quiero llorar',
'ganas llorar',
'siento triste',
'ganas dormir',
'ansiedad ansiedad',
'quiero morir',
'quiero vivir',
'quiero morirme',
'mierda vida',
'ganas vivir',
'quiero desaparecer',
'tiempo siento',
'siento vacía',
'quiero sentirme',
'sentirme mierda',
'ganas morir',
'quiero matar'
]
'''

frases_claves = ['sentir yo',
'morir yo',
'gana morir',
'querer morir',
'sentir vacío',
'querer dormir',
'querer llorar',
'vida mierda',
'sentir triste',
'gana llorar',
'querer sentir',
'sentir él',
'gana dormir',
'ansiedad ansiedad',
'ir yo',
'dejar sentir',
'yo querer',
'cortar yo',
'dejar llorar',
'dejar pensar']



vec_comentarios = []

vec_frases_claves =[]

inicio = time.time()
for i in comentarios:
  vec_comentarios.append(model_sentence.encode(i))
entre_tiempo = time.time()

print(f"Vectorizó exitosamente los {len(comentarios)} comentarios sin procesar en {round(entre_tiempo-inicio,2)} segundos")

for i in frases_claves:
  vec_frases_claves.append(model_sentence.encode(i))

fin = time.time()

print(f"Vectorizó exitosamente las {len(frases_claves)} frases claves en {round(fin - entre_tiempo,2)} segundos")

print(f"Haciendo este proceso de conversión de {len(comentarios) + len(frases_claves)} frases se demoró un total de {round(fin - inicio,2)} segundos")



Vectorizó exitosamente los 1000 comentarios sin procesar en 169.86 segundos
Vectorizó exitosamente las 20 frases claves en 2.08 segundos
Haciendo este proceso de conversión de 1020 frases se demoró un total de 171.94 segundos


# Parte 6: Reticulo

## Inicialización paquetes para la función

In [None]:
from concepts import Context
import numpy as np
import pandas as pd

## Función: Matriz de distancias

In [None]:
n = len(vec_comentarios)
m = len(vec_frases_claves)

distancias_contexto = np.zeros([n,m])

for i in range(n):
  for j in range(m):
    distancias_contexto[i,j]= np.linalg.norm(vec_comentarios[i]-vec_frases_claves[j],2)

## Función: Criterio de selcción

In [None]:
datos_aplanados = distancias_contexto.flatten()

# Calcular el primer cuartil (Q1)
q1 = np.percentile(datos_aplanados, 10)

q1

12.065920734405518

## Función: Creación del contexto

In [None]:
df_r1 = pd.DataFrame(columns=frases_claves,index=list(range(1,1001)) )

# Asignar nombres de filas (índices)

for i in range(n):
  for j in range(m):
    if distancias_contexto[i,j] <= q1:
      #df_r1.values[i,j]='X'
      df_r1.values[i,j]='1'
    else:
      #df_r1.values[i,j]=''
      df_r1.values[i,j]='0'

#df_r1 = df_r1[df_r1.apply(lambda row: row.str.contains('X').any(), axis=1)]
df_r1 = df_r1[df_r1.apply(lambda row: row.str.contains('1').any(), axis=1)]
#df_r1 = df_r1[df_r1.apply(lambda row: row.contains(1).any(), axis=1)]
df_r1

Unnamed: 0,sentir yo,morir yo,gana morir,querer morir,sentir vacío,querer dormir,querer llorar,vida mierda,sentir triste,gana llorar,querer sentir,sentir él,gana dormir,ansiedad ansiedad,ir yo,dejar sentir,yo querer,cortar yo,dejar llorar,dejar pensar
3,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,1,0,0,0,0,1,1,0,0,0,0,0,0
8,1,0,0,0,0,0,0,1,0,0,1,0,1,0,0,0,0,1,0,0
9,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0
10,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
996,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0
997,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,1,1,0,0
998,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0
999,1,1,1,1,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0


In [None]:
df = pd.DataFrame(index=range(1, len(cp) + 1), columns=frases_claves)

# Rellenar el DataFrame
for index, tweet in enumerate(cp, start=1):
    for frase in frases_claves:
        # Comprobar si el tweet contiene alguna palabra de la frase clave
        df.at[index, frase] = '1' if any(palabra in tweet for palabra in frase.split()) else '0'

df = df[df.apply(lambda row: row.str.contains('1').any(), axis=1)]

df
# Mostrar el DataFrame

Unnamed: 0,sentir yo,morir yo,gana morir,querer morir,sentir vacío,querer dormir,querer llorar,vida mierda,sentir triste,gana llorar,querer sentir,sentir él,gana dormir,ansiedad ansiedad,ir yo,dejar sentir,yo querer,cortar yo,dejar llorar,dejar pensar
1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,1,1
3,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0
4,0,0,1,0,0,0,0,0,0,1,0,0,1,0,1,1,0,0,1,1
5,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
993,1,1,1,1,0,0,0,0,0,1,0,0,1,0,1,0,1,1,0,0
996,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
997,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0
998,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0


In [None]:
df_r1.to_csv('primero.csv', index=True)
df.to_csv('contenencia.csv', index=True)
#z=Context.fromfile('primero.csv',frmat='csv')
#z.lattice.graphviz()