# **EDA: 📊 Análisis de Comentarios de TikTok**


*   Exploración de tendencias
*   Sentimientos y patrones en comentarios de videos



In [None]:
from IPython.core.display import display, HTML

def show_image(url, width=400):
    display(HTML(f"<img src='{url}' width={width}>"))

show_image('https://i.imgur.com/zcUzPuH.png')

# **1. Introducción**

📌 **Objetivo:**  
Explorar cómo los usuarios interactúan con los videos de TikTok a través de comentarios.

💾**Preguntas clave:**  
1. ¿Qué comentarios generan más engagement (likes/respuestas)?  
2. ¿Hay horarios específicos con mayor actividad?  
3. ¿Algún usuario destaca por su interacción?  

# Diccionario de datos
El dataset 'ComentarioTikTok' contiene alrededor de +1000 comentarios de un video en su plataforma. A continuación, se describen las variables disponibles del video:


| Variable            | Tipo       | Descripción |
|---------------------|------------|-------------|
| `user`              | Object    | Nombre de usuario |
| `user_id`           | int    | ID del usuario |
| `text`              | object | Comentario realizado por el usuario |
| `like`              | int  | Cantidad de likes en un comentario |
| `reply_count`       | int    | Cantidad de respuestas en un comentario |
| `timestamp`         | object  | Codigo de la fecha |
| `fecha_legible`     | object  | fecha del comentario realizado |

Nota:

*  `timestamp` el valor de fecha en formato de código o numérico (como marca de tiempo)
*  `fecha_legible` convierte ese código en una fecha comprensible para humanos, mostrando día, mes y año claramente.

# 3.  **Exploración**

 **En este punto abarcaremos lo siguiente:**



          *   3.1 Preparar el entorno para la carga del dataset desde Google Drive
          *   3.2 Importación de librerías
          *   3.3 Lectura del archivo (Enlace de ubicación del dataset)



In [None]:
# ------------------------------------------------------------------------------
# 3.1 Conexión a Google Drive
# ------------------------------------------------------------------------------

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


✅ Google Drive ya está montado en /content/drive. Acceso a archivos disponible.

In [None]:
# ------------------------------------------------------------------------------
# 3.2 Importación de Librerías
# ------------------------------------------------------------------------------

import pandas as pd

✅ Pandas importado correctamente ¡Listo para el análisis de datos!

In [None]:
# ------------------------------------------------------------------------------
# 3.3 Carga del Dataset
# ------------------------------------------------------------------------------

ruta_archivo = '/content/drive/MyDrive/COMENTARIOTIKTOK-SELECCION.csv'
df = pd.read_csv(ruta_archivo)

✅ Datos de TikTok cargados en el DataFrame 'df' 📈 ¡Listo para la exploración!

# **Visualización Inicial de Datos 🔎📊**

In [None]:
print(df.shape)
df.head()

(1769, 7)


Unnamed: 0,user,user_id,text,likes,reply_count,timestamp,fecha_legible
0,skyevil6,6903611670226437121,Nadie va agradecer a Zambrano por ese gran pas...,4912,37,1728708544,2024-10-11 23:49:04
1,YWH 🐐,6977605408710394885,Alianza Lima y la U le ganaron al liverpool y ...,3477,37,1728721058,2024-10-12 03:17:38
2,Joseca_08,6836139685942576134,Para mi sonne fue el sacrificado del partido. ...,3629,22,1728745821,2024-10-12 10:10:21
3,Ronal Ramos Sanchez,6786196328880817157,"Zambrano fue un ""crack "" y es el tipo de jugad...",1235,10,1728738245,2024-10-12 08:04:05
4,♡Lu!$ @LF○N$●♧,6980168612896048134,hablan de quispe pero el pase para quispe de q...,1252,40,1728733689,2024-10-12 06:48:09


Se cargó el dataset 📂 de TikTok con éxito ✅ y se visualizó un resumen inicial 📈 con dimensiones 📏 y primeras filas 🔢.

# **📖 Información del dataset**

A travéz de `df.info()` se revelará la estructura del dataset: columnas, tipos de datos y valores no nulos.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1769 entries, 0 to 1768
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   user           1769 non-null   object
 1   user_id        1769 non-null   int64 
 2   text           1769 non-null   object
 3   likes          1769 non-null   int64 
 4   reply_count    1769 non-null   int64 
 5   timestamp      1769 non-null   int64 
 6   fecha_legible  1769 non-null   object
dtypes: int64(4), object(3)
memory usage: 96.9+ KB


📊 `df.info()` reveló:
```
# 1769 comentarios 🗣️ en 7 columnas 🗂️ (usuario, texto, likes, número de respuestas, etc.). Sin datos faltantes 👌.
```

# **🧹 Limpieza de Datos**
En esta etapa, prepararemos los datos para el análisis, abordando los siguientes puntos:

En esta etapa, prepararemos los datos para el análisis, abordando los siguientes puntos:

*   **Objetivo:** Identificar y, si es necesario, eliminar o traducir comentarios que no estén en español.
*   **Herramientas:** Podemos utilizar librerías como langdetect para detectar el idioma de cada comentario. Si la mayoría de los datos están en español, podemos filtrar los que no lo estén. En caso de necesitar la información de los comentarios en otros idiomas, podríamos explorar opciones de traducción automática.

Para detectar el idioma se necesita instalar la librería `langdetect` utilizando `pip`, el gestor de paquetes de Python.

In [None]:
!pip install langdetect

Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/981.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m972.8/981.5 kB[0m [31m37.6 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m20.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py) ... [?25l[?25hdone
  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993223 sha256=29941c7fdcb22280ae199720e8739945536961b4325b792ea03d211e2a740760
  Stored in directory: /root/.cache/pip/wheels/0a/f2/b2/e5ca405801e05eb7c8ed5b3b4bcf1fcabcd6272c167640072e
Successfully built langdetect
Installing collected packages: langdetect
Successfully installed langdetect-1.0.9


In [None]:
from langdetect import detect

# Ejemplo: Detectar el idioma de un comentario
idioma = detect("Este es un ejemplo en español")
print(idioma)  # Salida: es

es


Se ha detectado el idioma: `ES`

# **2. Recopilación de comentarios con emoticonos y creación de un diccionario**

`Objetivo: `

Identificar y extraer los emoticonos presentes en los comentarios, creando un diccionario para su análisis posterior.

`Herramientas:`

Usaremos expresiones regulares o la librería emoji para extraer los emoticonos. Luego, crearemos un diccionario que mapee cada emoticono a su significado o categoría (por ejemplo, alegría, tristeza, etc.). Esto facilitará el análisis de la frecuencia y el significado de los emoticonos en los comentarios.

**"emoji" se instala para detectar emoticonos en texto.**

In [None]:
!pip install emoji

Collecting emoji
  Downloading emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Downloading emoji-2.14.1-py3-none-any.whl (590 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/590.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m583.7/590.6 kB[0m [31m17.9 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m590.6/590.6 kB[0m [31m8.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: emoji
Successfully installed emoji-2.14.1


**Actualización:
Confirma que la versión 2.14.1 ya está instalada.**

In [None]:
!pip install --upgrade emoji



In [None]:
import emoji

# Ejemplo: Extraer emoticonos de un comentario
texto = "Me encanta este video! 😂👍"
emojis = [c for c in texto if c in emoji.EMOJI_DATA]  # Cambio aquí
print(emojis)  # Salida: ['😂', '👍']

['😂', '👍']


**Resultado:**
`Muestra los emoticonos encontrados: 😊 y 🟠.`

**Extración de emojis de los comentarios**

In [None]:
def extraer_emojis(texto):
    return [c for c in texto if c in emoji.EMOJI_DATA]

df['emojis'] = df['text'].apply(extraer_emojis)

Definimos una función extraer_emojis para encontrar todos los emojis en un texto dado.
Aplicamos esta función a la columna text de tu DataFrame (df) y guardamos los resultados en una nueva columna llamada emojis.

😀😃Creamos el diccionario de emojis😄😁

In [None]:
diccionario_emojis = {}

for lista_emojis in df['emojis']:
    for emoji_individual in lista_emojis:
        if emoji_individual in diccionario_emojis:
            diccionario_emojis[emoji_individual] += 1  # Si ya existe, aumenta el contador
        else:
            diccionario_emojis[emoji_individual] = 1   # Si no existe, lo agrega con contador 1

print(diccionario_emojis)  # Imprime el diccionario para ver los resultados

{'💀': 29, '🗿': 4, '😌': 9, '🥺': 55, '💪': 76, '👏': 175, '🥚': 3, '❤': 252, '🙌': 7, '😅': 46, '🤷': 2, '🏻': 27, '♂': 2, '🦁': 7, '🥰': 266, '💙': 13, '🤍': 12, '🗣': 3, '🤣': 79, '😏': 22, '👌': 12, '👍': 98, '🏾': 4, '💯': 36, '😭': 127, '🔥': 32, '🔱': 1, '🏼': 15, '😎': 52, '😔': 4, '🙏': 55, '😳': 56, '😮': 3, '💨': 3, '🫂': 1, '😁': 67, '🤔': 15, '🤭': 10, '✌': 6, '✨': 13, '😬': 4, '😂': 126, '💗': 8, '☹': 4, '😘': 5, '😃': 17, '😛': 1, '🏆': 3, '😍': 37, '⚽': 18, '🏃': 1, '‼': 11, '🤜': 1, '🤛': 1, '😒': 1, '🛐': 2, '🛰': 2, '👀': 3, '♥': 34, '💕': 10, '💜': 8, '🤗': 28, '🙃': 1, '😜': 5, '💛': 3, '😯': 2, '🤦': 2, '\U0001faf8': 2, '\U0001faf7': 2, '💔': 1, '🫶': 11, '😢': 14, '😑': 1, '🥹': 12, '👻': 1, '⚡': 1, '🤙': 2, '😄': 8, '😉': 7, '🤩': 10, '😥': 3, '🍀': 6, '☺': 4, '💖': 5, '🪂': 1, '🙂': 3, '🤪': 2, '😈': 1, '😆': 20, '🙄': 8, '💩': 1, '👋': 6, '🥵': 1, '🤞': 2, '😡': 1, '🥅': 2, '☝': 1, '🥳': 3, '👑': 6, '😇': 4, '😻': 8, '🫡': 2, '🏽': 7, '👉': 1, '👈': 1, '👊': 1, '🩹': 1, '🤚': 1, '😫': 3, '😱': 9, '😊': 4, '❓': 1, '😞': 6, '🥶': 1, '🫵': 2, '🤫': 1, '😹': 3, '🆙

In [None]:
# Crea el DataFrame df_emojis
df_emojis = pd.DataFrame(list(diccionario_emojis.items()), columns=['Emoji', 'Frecuencia'])

# Configura las opciones de visualización de Pandas
pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)

# Imprime el DataFrame
print(df_emojis.to_string())

    Emoji  Frecuencia
0       💀          29
1       🗿           4
2       😌           9
3       🥺          55
4       💪          76
5       👏         175
6       🥚           3
7       ❤         252
8       🙌           7
9       😅          46
10      🤷           2
11      🏻          27
12      ♂           2
13      🦁           7
14      🥰         266
15      💙          13
16      🤍          12
17      🗣           3
18      🤣          79
19      😏          22
20      👌          12
21      👍          98
22      🏾           4
23      💯          36
24      😭         127
25      🔥          32
26      🔱           1
27      🏼          15
28      😎          52
29      😔           4
30      🙏          55
31      😳          56
32      😮           3
33      💨           3
34      🫂           1
35      😁          67
36      🤔          15
37      🤭          10
38      ✌           6
39      ✨          13
40      😬           4
41      😂         126
42      💗           8
43      ☹           4
44      😘 

# **3. Tokenización, lematización, limpieza de palabras vacías y generación de Word Embeddings con spaCy**

`Objetivo:`

Preparar el texto para el análisis, incluyendo la generación de word embeddings que representen las palabras como vectores numéricos.

`Herramientas:`

Utilizaremos spaCy para tokenizar, lematizar y eliminar palabras vacías. Además, aprovecharemos la capacidad de spaCy para generar word embeddings pre-entrenados o entrenar nuevos embeddings específicos para el dataset de TikTok. Los word embeddings capturan el significado semántico de las palabras, permitiendo realizar análisis más avanzados como la similitud entre palabras o la detección de temas.

In [None]:
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m17.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-md
Successfully installed es-core-news-md-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


**Importar y Cargar el Modelo de spaCy 🧰**

In [None]:
import spacy

nlp = spacy.load("es_core_news_md")  # Carga modelo con word embeddings

✅ Importando la biblioteca spaCy y cargando el modelo de lenguaje español. Bitácora: Se ha importado spaCy y se ha cargado el modelo "es_core_news_md" que contiene información sobre el idioma español y word embeddings pre-entrenados.

**Limpiar y Generar Embeddings: Una Función Mágica ✨**

**‼️🎯 Breve ejemplo de word embedding: 🎯‼️**


Imagina que "gato" se representa con los números [0.5, 0.8, -0.2] y "perro" con [0.6, 0.7, -0.1].

Como los números son parecidos, la computadora entiende que "gato" y "perro" son conceptos relacionados (animales).

¡Eso es word embedding! Convertir palabras en números con significado. 🪄

In [None]:
def limpiar_texto_y_generar_embeddings(texto):
    doc = nlp(texto)
    tokens = [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
    texto_limpio = " ".join(tokens)
    embedding = doc.vector  # Obtiene el word embedding del documento
    return texto_limpio, embedding

Se ha definido la función `limpiar_texto_y_generar_embeddings` que recibirá un texto, lo limpiará y generará su representación numérica (embedding). 🪄

**"Hola Mundo" en Números 🔢**

In [None]:
texto_original = "Hola mundo, este es un ejemplo sencillo."
texto_limpio, embedding = limpiar_texto_y_generar_embeddings(texto_original)
print("Texto limpio:", texto_limpio)
print("\nWord Embedding (Ejemplo):", embedding[:5]) # Mostramos solo las primeras 5 dimensiones del embedding

Texto limpio: Hola mundo ejemplo sencillo

Word Embedding (Ejemplo): [-0.59945995  0.82850105 -2.811138    1.5797311  -1.1554353 ]


*   Se definió el texto "Hola mundo, este es un ejemplo sencillo." 💬
*   Se aplicó la función limpiar_texto_y_generar_embeddings para obtener el texto limpio ("hola mundo ejemplo sencillo") y su embedding. 🧹
*   Se imprimió el texto limpio y las primeras 5 dimensiones del embedding para visualizar un ejemplo de su representación numérica. 📊



***🖇️ Ejemplo utilizando el Dataset de TikTok***

In [None]:
# Obtén los primeros 5 comentarios
comentarios = df['text'].head(5).tolist()
#------------------------------------------------------------------------------

# Procesa los comentarios con spaCy y obtén los embeddings
embeddings = [nlp(texto).vector for texto in comentarios]
#------------------------------------------------------------------------------
# Muestra la forma del embedding del primer comentario
print("Forma del embedding:", embeddings[0].shape)
#------------------------------------------------------------------------------
# Muestra las primeras 10 dimensiones del embedding del primer comentario
print("Primeras 10 dimensiones:", embeddings[0][:10])
#------------------------------------------------------------------------------
# Imprime los comentarios y sus embeddings correspondientes
for i in range(len(comentarios)):
    print(f"\nComentario {i+1}: {comentarios[i]}")
    print(f"Embedding: {embeddings[i][:10]}...") # Mostramos solo las primeras 10 dimensiones

Forma del embedding: (300,)
Primeras 10 dimensiones: [ 1.4017578   1.0962886  -0.31833303  0.28743652 -0.00327521 -1.4068167
  0.75603485  1.0569735   0.04694959  0.6418027 ]

Comentario 1: Nadie va agradecer a Zambrano por ese gran pase a Quispe y el centrar a Araujo para que meta el gol? 💀
Embedding: [ 1.4017578   1.0962886  -0.31833303  0.28743652 -0.00327521 -1.4068167
  0.75603485  1.0569735   0.04694959  0.6418027 ]...

Comentario 2: Alianza Lima y la U le ganaron al liverpool y al Real Madrid 🗿
Embedding: [ 2.2939868   1.2247286   0.39095074  0.10078853  1.4145957   0.55793077
  0.6823471  -0.95815426  2.333762    0.6546613 ]...

Comentario 3: Para mi sonne fue el sacrificado del partido. Jugó de lateral, central, medio derecho, medio izquierdo, mediocampista, punta y extremo. Vean donde estaba en todo el partido. Sin duda alguna, diferente
Embedding: [ 1.1052463   1.363045   -0.0395394  -0.10237775  0.30325165 -0.5519848
  0.13116316  0.9384802  -0.15251848  0.43142527]...

Com

**✴️ Resultados interpretados:**

*   Cada comentario se transforma en un vector numérico de 300 dimensiones (su embedding).
*   Comentarios con significados similares tendrán embeddings numéricamente cercanos.
*   Estos embeddings se pueden usar para análisis como: encontrar comentarios similares, agrupar por temas, analizar sentimientos, etc.