In [None]:
from IPython.display import display, HTML

def show_image(url, width=1600):
    display(HTML(f"<img src='{url}' width={width}>"))

show_image('https://i.imgur.com/XLD0c0o.png')

# 1. Problema a resolver
El problema abordado es la falta de comprensi√≥n estructurada sobre c√≥mo los usuarios perciben productos o servicios. Las empresas reciben miles de comentarios, pero no cuentan con herramientas efectivas para analizarlos emocionalmente.


##  2. Diccionario de datos
El dataset 'ComentarioTikTok' contiene informaci√≥n de **10,000 comentarios** del hist√≥rico naufragio. A continuaci√≥n, se describen las variables disponibles:

| Variable            | Tipo       | Descripci√≥n |
|---------------------|------------|-------------|
| `user`              | Object    | Nombre de usuario |
| `user_id`           | int    | ID del usuario |
| `text`              | object | Comentario realizado por el usuario |
| `like`              | int  | Cantidad de likes en un comentario |
| `reply_count`       | int    | Cantidad de respuestas en un comentario |
| `timestamp`         | object  | Codigo de la fecha |
| `fecha_legible`     | object  | fecha del comentario realizado |




## 3. Exploraci√≥n inicial
Cargar el dataset desde Google Drive, se habilitan los permisos
Ademas, se importa las librerias pandas para el analisis del dataset

In [None]:
from google.colab import drive
drive.mount('/content/drive')



Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
#Importamos liberias
import pandas as pd


In [None]:
# Lectura de archivo
ruta = '/content/drive/MyDrive/PROYECTO/COMENTARIOTIKTOK-SELECCION.csv'
df = pd.read_csv(ruta)



In [None]:

print(df.shape)
df.head()

(1769, 7)


Unnamed: 0,user,user_id,text,likes,reply_count,timestamp,fecha_legible
0,skyevil6,6903611670226437121,Nadie va agradecer a Zambrano por ese gran pas...,4912,37,1728708544,2024-10-11 23:49:04
1,YWH üêê,6977605408710394885,Alianza Lima y la U le ganaron al liverpool y ...,3477,37,1728721058,2024-10-12 03:17:38
2,Joseca_08,6836139685942576134,Para mi sonne fue el sacrificado del partido. ...,3629,22,1728745821,2024-10-12 10:10:21
3,Ronal Ramos Sanchez,6786196328880817157,"Zambrano fue un ""crack "" y es el tipo de jugad...",1235,10,1728738245,2024-10-12 08:04:05
4,‚ô°Lu!$ @LF‚óãN$‚óè‚ôß,6980168612896048134,hablan de quispe pero el pase para quispe de q...,1252,40,1728733689,2024-10-12 06:48:09


In [None]:

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1769 entries, 0 to 1768
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   user           1769 non-null   object
 1   user_id        1769 non-null   int64 
 2   text           1769 non-null   object
 3   likes          1769 non-null   int64 
 4   reply_count    1769 non-null   int64 
 5   timestamp      1769 non-null   int64 
 6   fecha_legible  1769 non-null   object
dtypes: int64(4), object(3)
memory usage: 96.9+ KB


## 4. Limpieza de datos


*   Traducci√≥n autom√°tica de comentarios al espa√±ol
*   Limpieza b√°sica del texto
*   Tokenizaci√≥n, lematizaci√≥n y limpieza de palabras vac√≠as con spaCy
*   Aplicar procesamiento NLP al texto limpio
*   Eliminaci√≥n columnas irrelevantes



# Instalaci√≥n de librer√≠as para procesamiento de texto
En este paso se instalan las herramientas principales para el procesamiento de texto en lenguaje natural:


*   spaCy: Para lematizaci√≥n, tokenizaci√≥n y an√°lisis
*   deep-translator: Para traducir los comentarios a espa√±ol si est√°n en otro idioma.




In [None]:
!pip install -q spacy
!python -m spacy download es_core_news_sm
!python -m spacy download en_core_web_sm


Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m12.9/12.9 MB[0m [31m74.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m‚ö† Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-no

In [None]:
!pip install -q deep-translator


[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/42.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m[90m‚îÅ[0m [32m41.0/42.3 kB[0m [31m2.6 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m42.3/42.3 kB[0m [31m835.7 kB/s[0m eta [36m0:00:00[0m
[?25h

#4.1 Traducci√≥n autom√°tica de comentarios al espa√±ol
Esta funci√≥n detecta autom√°ticamente el idioma del texto y lo traduce al espa√±ol utilizando Google Translate.


In [None]:
from deep_translator import GoogleTranslator

def traducir_a_espanol(texto):
    try:
        return GoogleTranslator(source='auto', target='es').translate(texto)
    except:
        return texto


In [None]:
# Traducir los comentarios al espa√±ol
df['texto_es'] = df['text'].astype(str).apply(traducir_a_espanol)
df.head()

Unnamed: 0,user,user_id,text,likes,reply_count,timestamp,fecha_legible,texto_es
0,skyevil6,6903611670226437121,Nadie va agradecer a Zambrano por ese gran pas...,4912,37,1728708544,2024-10-11 23:49:04,Nadie va agradecer a Zambrano por ese gran pas...
1,YWH üêê,6977605408710394885,Alianza Lima y la U le ganaron al liverpool y ...,3477,37,1728721058,2024-10-12 03:17:38,Alianza Lima y la U le ganaron al liverpool y ...
2,Joseca_08,6836139685942576134,Para mi sonne fue el sacrificado del partido. ...,3629,22,1728745821,2024-10-12 10:10:21,Para mi sonne fue el sacrificado del partido. ...
3,Ronal Ramos Sanchez,6786196328880817157,"Zambrano fue un ""crack "" y es el tipo de jugad...",1235,10,1728738245,2024-10-12 08:04:05,"Zambrano fue un ""crack "" y es el tipo de jugad..."
4,‚ô°Lu!$ @LF‚óãN$‚óè‚ôß,6980168612896048134,hablan de quispe pero el pase para quispe de q...,1252,40,1728733689,2024-10-12 06:48:09,hablan de quispe pero el pase para quispe de q...


Diccionario de Emojis

# 4.2 Limpieza b√°sica del texto


Se realiza una limpieza para eliminar elementos no √∫tiles como URLs, menciones, hashtags, s√≠mbolos y se convierten los textos a min√∫sculas.Es un paso clave para dejar los comentarios listos para an√°lisis.

In [None]:
import re

def limpiar_texto(texto):
    texto = re.sub(r"http\S+", "", texto)
    texto = re.sub(r"@\w+", "", texto)
    texto = re.sub(r"#\w+", "", texto)
    texto = re.sub(r"[^A-Za-z√Å-√ø√±√ë\s]", "", texto)
    texto = texto.lower().strip()
    return texto

df['texto_limpio'] = df['texto_es'].astype(str).apply(limpiar_texto)

df


Unnamed: 0,user,user_id,text,likes,reply_count,timestamp,fecha_legible,texto_es,texto_limpio
0,skyevil6,6903611670226437121,Nadie va agradecer a Zambrano por ese gran pas...,4912,37,1728708544,2024-10-11 23:49:04,Nadie va agradecer a Zambrano por ese gran pas...,nadie va agradecer a zambrano por ese gran pas...
1,YWH üêê,6977605408710394885,Alianza Lima y la U le ganaron al liverpool y ...,3477,37,1728721058,2024-10-12 03:17:38,Alianza Lima y la U le ganaron al liverpool y ...,alianza lima y la u le ganaron al liverpool y ...
2,Joseca_08,6836139685942576134,Para mi sonne fue el sacrificado del partido. ...,3629,22,1728745821,2024-10-12 10:10:21,Para mi sonne fue el sacrificado del partido. ...,para mi sonne fue el sacrificado del partido j...
3,Ronal Ramos Sanchez,6786196328880817157,"Zambrano fue un ""crack "" y es el tipo de jugad...",1235,10,1728738245,2024-10-12 08:04:05,"Zambrano fue un ""crack "" y es el tipo de jugad...",zambrano fue un crack y es el tipo de jugador...
4,‚ô°Lu!$ @LF‚óãN$‚óè‚ôß,6980168612896048134,hablan de quispe pero el pase para quispe de q...,1252,40,1728733689,2024-10-12 06:48:09,hablan de quispe pero el pase para quispe de q...,hablan de quispe pero el pase para quispe de q...
...,...,...,...,...,...,...,...,...,...
1764,DADDY.JARA the_üíõüåΩ,7190494677957837829,era hoy Ram√≥n,0,0,1728708231,2024-10-11 23:43:51,era hoy Ram√≥n,era hoy ram√≥n
1765,noriegaa_6,6659074731578802181,‚ù§Ô∏è‚ù§Ô∏è,0,0,1728707867,2024-10-11 23:37:47,,none
1766,pasi√≥n x la bicolor üáµüá™‚öΩüí™,7105726994259657734,la casa se respeta üí™üáµüá™üáµüá™üáµüá™üò≠,0,0,1728707828,2024-10-11 23:37:08,la casa se respeta üí™üáµüá™üáµüá™üáµüá™üò≠,la casa se respeta
1767,usuario,6885896340833780737,era hoy ramon,0,0,1728707349,2024-10-11 23:29:09,era hoy ramon,era hoy ramon


# 4.3 Tokenizaci√≥n, lematizaci√≥n y limpieza de palabras vac√≠as con spaCy

spaCy se utiliza para descomponer el texto en palabras significativas (tokens), eliminar palabras vac√≠as (stopwords) y obtener la forma base (lema) de cada palabra.



In [None]:
import spacy

nlp_es = spacy.load("es_core_news_sm")

def procesar_con_spacy(texto, nlp_model):
    doc = nlp_model(texto)
    tokens_limpios = [
        token.lemma_ for token in doc
        if not token.is_stop and not token.is_punct and len(token.text) > 2
    ]
    return " ".join(tokens_limpios)


# 4.4 Aplicar procesamiento NLP al texto limpio
Ahora se aplica spaCy al texto ya limpio para obtener una versi√≥n optimizada del contenido textual.

In [None]:
df['texto_procesado'] = df['texto_limpio'].apply(lambda x: procesar_con_spacy(x, nlp_es))

df

Unnamed: 0,user,user_id,text,likes,reply_count,timestamp,fecha_legible,texto_es,texto_limpio,texto_procesado
0,skyevil6,6903611670226437121,Nadie va agradecer a Zambrano por ese gran pas...,4912,37,1728708544,2024-10-11 23:49:04,Nadie va agradecer a Zambrano por ese gran pas...,nadie va agradecer a zambrano por ese gran pas...,agradecer zambrano pase quispe centrar araujo ...
1,YWH üêê,6977605408710394885,Alianza Lima y la U le ganaron al liverpool y ...,3477,37,1728721058,2024-10-12 03:17:38,Alianza Lima y la U le ganaron al liverpool y ...,alianza lima y la u le ganaron al liverpool y ...,alianza lima ganar liverpool real madrid
2,Joseca_08,6836139685942576134,Para mi sonne fue el sacrificado del partido. ...,3629,22,1728745821,2024-10-12 10:10:21,Para mi sonne fue el sacrificado del partido. ...,para mi sonne fue el sacrificado del partido j...,sonne sacrificado partido jugar lateral centra...
3,Ronal Ramos Sanchez,6786196328880817157,"Zambrano fue un ""crack "" y es el tipo de jugad...",1235,10,1728738245,2024-10-12 08:04:05,"Zambrano fue un ""crack "" y es el tipo de jugad...",zambrano fue un crack y es el tipo de jugador...,zambrano crack tipo jugador hacer falta
4,‚ô°Lu!$ @LF‚óãN$‚óè‚ôß,6980168612896048134,hablan de quispe pero el pase para quispe de q...,1252,40,1728733689,2024-10-12 06:48:09,hablan de quispe pero el pase para quispe de q...,hablan de quispe pero el pase para quispe de q...,quispe pase quispe le√≥n zambrano pase pie quispe
...,...,...,...,...,...,...,...,...,...,...
1764,DADDY.JARA the_üíõüåΩ,7190494677957837829,era hoy Ram√≥n,0,0,1728708231,2024-10-11 23:43:51,era hoy Ram√≥n,era hoy ram√≥n,ram√≥n
1765,noriegaa_6,6659074731578802181,‚ù§Ô∏è‚ù§Ô∏è,0,0,1728707867,2024-10-11 23:37:47,,none,none
1766,pasi√≥n x la bicolor üáµüá™‚öΩüí™,7105726994259657734,la casa se respeta üí™üáµüá™üáµüá™üáµüá™üò≠,0,0,1728707828,2024-10-11 23:37:08,la casa se respeta üí™üáµüá™üáµüá™üáµüá™üò≠,la casa se respeta,casa respetar
1767,usuario,6885896340833780737,era hoy ramon,0,0,1728707349,2024-10-11 23:29:09,era hoy ramon,era hoy ramon,ramon


# 4.5 Eliminaci√≥n columnas irrelevantes
Para facilitar el an√°lisis posterior, se eliminan columnas que no aportan valor directo al an√°lisis textual.

In [None]:
columnas_a_eliminar = ['user', 'user_id', 'timestamp', 'text']
df.drop(columns=columnas_a_eliminar, inplace=True, errors='ignore')

df

Unnamed: 0,likes,reply_count,fecha_legible,texto_es,texto_limpio,texto_procesado
0,4912,37,2024-10-11 23:49:04,Nadie va agradecer a Zambrano por ese gran pas...,nadie va agradecer a zambrano por ese gran pas...,agradecer zambrano pase quispe centrar araujo ...
1,3477,37,2024-10-12 03:17:38,Alianza Lima y la U le ganaron al liverpool y ...,alianza lima y la u le ganaron al liverpool y ...,alianza lima ganar liverpool real madrid
2,3629,22,2024-10-12 10:10:21,Para mi sonne fue el sacrificado del partido. ...,para mi sonne fue el sacrificado del partido j...,sonne sacrificado partido jugar lateral centra...
3,1235,10,2024-10-12 08:04:05,"Zambrano fue un ""crack "" y es el tipo de jugad...",zambrano fue un crack y es el tipo de jugador...,zambrano crack tipo jugador hacer falta
4,1252,40,2024-10-12 06:48:09,hablan de quispe pero el pase para quispe de q...,hablan de quispe pero el pase para quispe de q...,quispe pase quispe le√≥n zambrano pase pie quispe
...,...,...,...,...,...,...
1764,0,0,2024-10-11 23:43:51,era hoy Ram√≥n,era hoy ram√≥n,ram√≥n
1765,0,0,2024-10-11 23:37:47,,none,none
1766,0,0,2024-10-11 23:37:08,la casa se respeta üí™üáµüá™üáµüá™üáµüá™üò≠,la casa se respeta,casa respetar
1767,0,0,2024-10-11 23:29:09,era hoy ramon,era hoy ramon,ramon


# Visualizaci√≥n del dataset

Finalmente se muestra una muestra aleatoria de los comentarios ya procesados, junto con su n√∫mero de likes y respuestas.

In [None]:
df[['texto_procesado', 'likes', 'reply_count']].sample(20)


Unnamed: 0,texto_procesado,likes,reply_count
1325,,0,0
360,none,0,0
41,guerrero carrillo advinculo,51,7
511,buenasoooo,0,0
1748,none,0,0
1039,jugador tirado obtruccoon,0,0
297,per√∫ clasificado gritar gol mundial porq tierr...,1,0
909,aguante peru cerrar boca uruguayo preciar,0,0
169,suelo desparece√≠r gol,2,0
1764,ram√≥n,0,0


# 4.6 Eliminaci√≥n de textos vac√≠os
Aunque ya se han limpiado los textos, es posible que queden valores "nulos disfrazados" como cadenas vac√≠as, espacios o valores mal parseados.

In [None]:
# Reemplazar textos no informativos con NaN de forma segura
df['texto_procesado'] = df['texto_procesado'].replace(['', ' ', 'nan', 'None', 'none', None], pd.NA)

# Eliminar filas con texto procesado vac√≠o o no v√°lido
df.dropna(subset=['texto_procesado'], inplace=True)

# Reiniciar √≠ndice despu√©s de limpiar
df.reset_index(drop=True, inplace=True)



In [None]:
df[['texto_procesado', 'likes', 'reply_count']].sample(20)

Unnamed: 0,texto_procesado,likes,reply_count
1088,decir hablar franz gol,0,0
786,sorry conche medre franc√©s fino,0,0
43,f√∫tbol peruano elegancia m√°ximo explendor,70,1
75,sufra tranquilo doma,0,1
577,sonne m√≠ralo grito,0,0
1269,ganar paolo,0,0
820,peru meze,0,0
797,brasil venir goleada,0,0
420,tr√≠o perfecto gol impresionante,0,1
1347,merecer peruano levantars yo,0,0


Eliminamos las columnas temporales

In [None]:
columnas_a_eliminar = ['texto_es', 'texto_limpio']
df.drop(columns=columnas_a_eliminar, inplace=True, errors='ignore')


print(df.shape)
df

(1132, 4)


Unnamed: 0,likes,reply_count,fecha_legible,texto_procesado
0,4912,37,2024-10-11 23:49:04,agradecer zambrano pase quispe centrar araujo ...
1,3477,37,2024-10-12 03:17:38,alianza lima ganar liverpool real madrid
2,3629,22,2024-10-12 10:10:21,sonne sacrificado partido jugar lateral centra...
3,1235,10,2024-10-12 08:04:05,zambrano crack tipo jugador hacer falta
4,1252,40,2024-10-12 06:48:09,quispe pase quispe le√≥n zambrano pase pie quispe
...,...,...,...,...
1127,0,0,2024-10-12 00:02:54,preocupar abran
1128,0,0,2024-10-11 23:58:13,goooolllll ptmreeee
1129,0,0,2024-10-11 23:50:33,ganar muchacho crecimiento sed victoria
1130,0,0,2024-10-11 23:46:08,hermoso gracias equipo realmente partido s√≥lid...
