# Análisis exploratorio de datos de TikTok

In [None]:
import sys
import os
import pandas as pd

# Agregar el directorio raiz al PYTHONPATH
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

# Bibliotecas

In [3]:
from src.statistics.statistics import *
from src.statistics.plots import *

from config.constants_tiktok import TIKTOK_TRANSCRIBED_VIDEOS_PATH

from src.nlp.nlp_spacy import get_sentences, get_no_stopwords

# Cargar los datos

In [3]:

df =  pd.read_csv(TIKTOK_TRANSCRIBED_VIDEOS_PATH, header=None, encoding="utf-8")
# Establecer nombre a las columnas
cols = ['date','fecha_recuperacion','termino','vistas','url','titulo','hashtags','descargado','text','idioma']
df.columns = cols
print(df.head())
print(df.tail())
print(df.info())

        date fecha_recuperacion   termino  vistas  \
0  2023-3-11         2025-01-22  #opinion    6845   
1   2023-2-2         2025-01-22  #opinion    1470   
2  2023-8-11         2025-01-22  #opinion    1276   
3   2024-7-5         2025-01-22  #opinion   70700   
4  2022-6-29         2025-01-22  #opinion  129500   

                                                 url             titulo  \
0  https://www.tiktok.com/@heavensblaze/video/720...              ❤️‍🩹    
1  https://www.tiktok.com/@mr.cactus_avt/video/71...       Respuesta a    
2  https://www.tiktok.com/@al3xflores/video/72662...  El Subsidio Azul    
3  https://www.tiktok.com/@alecastilla_/video/738...     La realidad …    
4  https://www.tiktok.com/@ibarrechejavier/video/...       Responder a    

                                            hashtags  descargado  \
0  #whitexicans,#streaming,#videojuegos,#videogam...        True   
1  @lokilove009,#mujercitas,#libros,#librosen60se...        True   
2  #machismo,#feminismo,#o

* El campo 'date' representa la fecha en la que fué publicado el video en TikTok. Es una fecha relativa a la fecha de recuperación del video.

* El campo 'fecha_recuperacion' reprenta la fecha en la que el video fué recolectado de TikTok.

* El campo 'termino' representa el texto con el cual fué encontrado el video recolectado en el buscador de TikTok.

* El campo 'vistas' indica el número de visualizaciones del video en la fecha que fueron consultados.

* El campo 'url' representa la dirección url de TikTok del video.

* El campo 'titulo' es el texto recuperado como titulo del video.

* El campo 'hashtags' contiene las etiquetas usadas en el video.

* El campo 'descargado' indica si fué posible descargar el video.

* EL campo 'text' contiene la transcripción del video.

* El campo 'idioma' indica el idioma de la transcripción del video.

# Estadísticas y visualización de los datos recolectados

## Estadisticas básicas

In [4]:
estadisticas_basicas(df)

--- Estadísticas para la columna: date ---
Total de elementos de la columna date: 6059
+ Valores únicos   :	1327
+ Valores repetidos:	999
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: fecha_recuperacion ---
Total de elementos de la columna fecha_recuperacion: 6059
+ 2025-01-22: 6059 - 100.00%
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: termino ---
Total de elementos de la columna termino: 6059
+ lo_bueno_de_samsung   :  328 - 5.41%
+ lo_bueno_de_mexico    :  300 - 4.95%
+ lo_bueno_de_ipn       :  297 - 4.90%
+ lo_bueno_de_uam       :  289 - 4.77%
+ lo_peor_de            :  280 - 4.62%
+ crítica_de            :  271 - 4.47%
+ #opinion              :  271 - 4.47%
+ #reseña               :  269 - 4.44%
+ lo_bueno_de_unam      :  264 - 4.36%
+ lo_malo_de_iphone     :  260 - 4.29%
+ lo_bueno_de_huawei    :  255 - 4.21%
+ experiencia_con       :  254 - 4.19%
+ lo_malo_de_mexico     :  254 - 4.19%
+ lo_malo_de_samsung    :  237 - 3.91%
+ recomendaciones_de   

## Visualización

In [5]:

visualización_univariable(df)

Gráficos de la variable date omitidos


Gráficos de la variable url omitidos
Gráficos de la variable titulo omitidos
Gráficos de la variable hashtags omitidos


Gráficos de la variable text omitidos


## Observaciones sobre los datos

**date**

El campo 'date' es reconocido como una cadena, sin embargo tiene un total de 1327 valores únicos y 999 valores repetidos. Lo que puede significar que los valores del campo no son consistentes o no son reconocidos como fechas por la biblioteca pandas. Se recomienda un análisis más profundo

**fecha_recuperacion**

El campo 'fecha_recuperación' es reconocido como una cadena. Por lo tanto, se muestran los valores únicos de dicho campo. Se puede notar que solo hay un valor o fecha de recupéración. Se recomienda indicar a pandas su tratamiento como una fecha.

**Termino**

El término más frecuente es 'lo bueno de samsumg' con un 5.41% del total y el menos frecuente es el ltérmino 'opinion sobre estudiar' con un 1.30% del total.

**Descargado**

Un total de 5967 videos fueron descargados con exito, el cual representa el 98.48% del total. Sin embargo 92 videos no fueron descargados, lo cual representaba el 1.52% restante. Es posible que los videos hayan sido eliminados de la red social TikTok o las publicaciones eran imagenes. Se recomienda utilizar el título o hashtags de los videos no descargados como texto.

**text**

Se encontraron un total de 5710 valores únicos, 19 valores repetidos y 306 valores nulos. Se recomienda un análisis más profundo para su tratamiento.

**idioma**

El idioma que predomina en los datos es el español con un 84.98% del total, seguido del inglés con un 10.63%. Además, hay 93 datos que no fueron clasificados en algún idioma. Se sugiere traducir los textos al español.

**Vistas**

La media de vistas es de 134491.60, con una mediana de 17500.0, lo que sugiere la presencia de valores extremadamente altos y una posible distribución sesgada a la derecha. Además el rango es de 7100000 y una desviación estándar de 361075.06, lo que indica una alta variabilidad en el número de vistas.

**URL**

Hay 6059 urls únicas, 0 valores repetidos y 0 valores núlos.

**titulo**

Hay 3167 valores únicos, 32 valores repetidos y 2128 valores núlos. Se recomienda un análisis más profundo del campo título.

**hashtags**

Hay 5323 valores únicos, 79 valores repetidos y 548 valores núlos. Se recomienda un análiis más profundo

# Análisis profundo

## Análisis del campo 'date'

### ¿Qué valores no siguen el formato yyyy-mm-dd o yyyy-m-d?

In [6]:
# Filtrar por valores que no tengan la estructura yyy-mm-dd
regex_yyyy_mm_dd = r'^\d{4}-\d{1,2}-\d{1,2}$'
df_invalid_date = df[~df['date'].str.match(regex_yyyy_mm_dd, na=False)]

print("Valores que no siguen el formato yyyy-mm-dd:")
estadisticas_categoricas(df_invalid_date, 'date',45)

Valores que no siguen el formato yyyy-mm-dd:
Total de elementos de la columna date: 537
+ Hace 5 día(s)   :   33 - 6.15%
+ Hace 1 día(s)   :   29 - 5.40%
+ Hace 6 día(s)   :   26 - 4.84%
+ 1-7             :   25 - 4.66%
+ Hace 1 semana(s):   25 - 4.66%
+ 1-9             :   24 - 4.47%
+ Hace 4 día(s)   :   24 - 4.47%
+ 1-10            :   21 - 3.91%
+ Hace 4 h        :   21 - 3.91%
+ 1-11            :   21 - 3.91%
+ 1-6             :   21 - 3.91%
+ 1-8             :   20 - 3.72%
+ Hace 6 h        :   18 - 3.35%
+ Hace 2 día(s)   :   17 - 3.17%
+ 1-12            :   17 - 3.17%
+ 1-5             :   17 - 3.17%
+ 1-4             :   16 - 2.98%
+ 1-2             :   16 - 2.98%
+ Hace 3 día(s)   :   16 - 2.98%
+ Hace 3 h        :   14 - 2.61%
+ 1-13            :   13 - 2.42%
+ 1-1             :   12 - 2.23%
+ Hace 2 h        :   11 - 2.05%
+ Hace 5 h        :   11 - 2.05%
+ Hace 7 h        :   10 - 1.86%
+ Hace 10 h       :    8 - 1.49%
+ 1-3             :    7 - 1.30%
+ Hace 9 h        :  

Se tiene un total de 43 valores únicos de fechas que no siguen el formato yyyy-mm-dd o yyyy-m-d.
* **Recomendación** Reconstruir la fecha de publicación del video usando los valores de los campos 'date' y 'fecha_recuperación'

## Análisis del campo 'descargado'

### Videos no descargados

* Cuantos videos no descargados tienen título
* Cuántos videos no descargados tienen hashtags

In [7]:
df_no_descargado = df[df['descargado'] == False].reset_index(drop=True)

count_no_descargados_con_titulo = (~df_no_descargado['titulo'].str.strip().replace("",pd.NA).isnull()).sum()
count_no_descargados_con_hashtags = (~df_no_descargado['hashtags'].str.strip().replace("",pd.NA).isnull()).sum()

print(f"Videos no descargados pero con titulo: {count_no_descargados_con_titulo}")
print(f"Videos no descargados pero con hashtags: {count_no_descargados_con_hashtags}")

# Videos no descargados sin hashtags ni titulos
count_no_descargado_sin_titulo_hashtags = df_no_descargado[df_no_descargado['titulo'].str.strip().replace("",pd.NA).isnull() & df_no_descargado['hashtags'].str.strip().replace("",pd.NA).isnull()].shape[0]
print(f"Hay {count_no_descargado_sin_titulo_hashtags} videos no descargados sin titulos ni hashtags")

Videos no descargados pero con titulo: 44
Videos no descargados pero con hashtags: 80
Hay 3 videos no descargados sin titulos ni hashtags


* **Recomendación:** Se recomienda eliminar los videos 3 que no fueron descargados, no tienen titulos y tampoco tienen hashtags.

## Análisis del campo 'text'


### Registros sin texto pero con titulos o hashtags

In [8]:
# Filtrar los registros con valores nulos o cadenas vacias
df_no_text = df[df['text'].str.strip().replace("",pd.NA).isnull()].reset_index(drop=True)

count_titulo_no_text = (~df_no_text['titulo'].str.strip().replace("",pd.NA).isnull()).sum()
count_hashtags_no_text = (~df_no_text['hashtags'].str.strip().replace("",pd.NA).isnull()).sum()

print(f"Valores sin texto pero con titulo: {count_titulo_no_text}")
print(f"Valores sin texto pero con hashtags: {count_hashtags_no_text}")

# Valores sin texto, sin hashtags y sin titulo
count_no_text_sin_titulo_hashtags = df_no_text[df_no_text['titulo'].str.strip().replace("",pd.NA).isnull() & df_no_text['hashtags'].str.strip().replace("",pd.NA).isnull()].shape[0]
print(f"Hay {count_no_text_sin_titulo_hashtags} registros sin texto, sin titulo y sin hashtags")

Valores sin texto pero con titulo: 148
Valores sin texto pero con hashtags: 265
Hay 24 registros sin texto, sin titulo y sin hashtags


Hay 148 valores sin texto pero con titulo y 265 sin texto pero con hashtags.

Hay 24 registros sin texto sin titulo y sin hashtags.

* **Recomendación:** Se recomienda eliminar los 24 registros que no tienen texto, titulo o hashtags

### Número de palabras por textos

In [9]:
palabras_por_texto = df["text"].str.split().str.len().to_frame("palabras_por_texto")

estadisticas_numericas(palabras_por_texto, "palabras_por_texto")
grafica_numerica(palabras_por_texto, "palabras_por_texto")

+ Promedio           : 234.61
+ Mediana            : 173.0
+ Moda               : 1.0
+ Varianza           : 69246.47
+ Desviación estándar: 263.15
+ Mínimo             : 1.0
+ Máximo             : 3300.0
+ Rango              : 3299.0



En promedio hay 234.61 palabras por texto, con una mediana de 173.0, lo que sugiera una distribución sesgada a la derecha. Es decir, hay algunos textos que tienen una cantidad de palabras mayor que el promedio. Lo cual puede afectar en el entrenamiento de un modelo de clasificación de textos.

La máxima cantidad de palabra que tiene un texto es 3300 palabras y la mínima cantidad de palabras que tiene un texto es 1 palabra. Además se tiene una desviación estándar de 263.15 y un rango de 3299.0, lo que indica una alta dispersión en la cantidad de palabras.

* **Recomendación:** Se recomienda analizar la cantidad de oraciones por texto

### Número de oraciones por texto

In [None]:
oraciones_por_texto = get_sentences(df['text'].astype('string').dropna())

conteo_oraciones_por_texto = pd.DataFrame(list(map(lambda oraciones: len(oraciones),oraciones_por_texto)))
conteo_oraciones_por_texto.columns = ['oraciones_por_texto']

estadisticas_numericas(conteo_oraciones_por_texto, "oraciones_por_texto")
grafica_numerica(conteo_oraciones_por_texto, "oraciones_por_texto")

Se tiene un promedio de 13.77 oraciones por texto, una mediana de 9 y una moda 2. Esto sugiere una distribución sesgada a la derecha. También se tiene una desviación estandar de 17.08.

* **Recomendación:** Se recomeinda dividir el texto en oraciones.

### Cantidad de no stopwords en promedio

In [10]:
no_stopwords = get_no_stopwords(df['text'].astype('string').dropna())

df_count_no_stopwords = pd.DataFrame(list(map(lambda text: len(str(text).split()), no_stopwords)))
df_count_no_stopwords.columns = ['no_stopwords']

estadisticas_numericas(df_count_no_stopwords, "no_stopwords")
grafica_numerica(df_count_no_stopwords, "no_stopwords")

5753it [02:27, 39.02it/s]

+ Promedio           : 118.71
+ Mediana            : 89.0
+ Moda               : 6
+ Varianza           : 16216.10
+ Desviación estándar: 127.34
+ Mínimo             : 0
+ Máximo             : 1750
+ Rango              : 1750





Como se puede observar, la cantidad de palabras que no son stopwords por texto son 118.71 en promedio y con una mediana de 89, lo que indica un sesgo a la derecha en la distribución. Además la desviación estándar es de 127.34, es una variabilidad menor en el tamaño de los textos a diferencia de no eliminar las stopwords.

* **Recomendación:** Se recomienda eliminar las stopwords para reducir el tamaño de los textos.

### Palabras frecuentes

In [11]:
print("Palabras más frecuentes")
print(estadisticas_vocabulario(df, 'text', False, None))

Palabras más frecuentes
Palabras únicas:  59453
       Palabra  Frecuencia
0          que       60186
1           de       57705
2           la       35836
3           en       27333
4           no       26751
...        ...         ...
59448  gateway           1
59449  gatunos           1
59450    gauil           1
59451     gava           1
59452     프로蘭a           1

[59453 rows x 2 columns]


* **Recomendación:** Se recomienda eliminar las palabras que sean solo valores numéricos


## Análisis del campo titulo

### Palabras promedio por titulo

In [12]:

palabras_por_titulo = df["titulo"].str.split().str.len().to_frame("num_palabras")

estadisticas_numericas(palabras_por_titulo, "num_palabras")
grafica_numerica(palabras_por_titulo, "num_palabras")

+ Promedio           : 11.85
+ Mediana            : 7.0
+ Moda               : 2.0
+ Varianza           : 369.47
+ Desviación estándar: 19.22
+ Mínimo             : 0.0
+ Máximo             : 377.0
+ Rango              : 377.0


En promedio hay 11.85 palabras por titulo, con una mediana de 7 y una moda de 2. El mínimo númerod e palabras es 0 y el máximo es 377.

* **REcomendación:** Análizar las opraciones promedio del campo titulo

### Oraciones promedio por titulo

In [13]:

oraciones_por_titulo= get_sentences(df['titulo'].astype('string').dropna())

conteo_oraciones_por_titulo = pd.DataFrame(list(map(lambda oraciones: len(oraciones),oraciones_por_titulo)))
conteo_oraciones_por_titulo.columns = ['oraciones_por_titulo']

estadisticas_numericas(conteo_oraciones_por_titulo, "oraciones_por_titulo")
grafica_numerica(conteo_oraciones_por_titulo, "oraciones_por_titulo")

3931it [00:06, 629.94it/s]

+ Promedio           : 1.56
+ Mediana            : 1.0
+ Moda               : 1
+ Varianza           : 1.19
+ Desviación estándar: 1.09
+ Mínimo             : 1
+ Máximo             : 25
+ Rango              : 24





El promedio de oraciones por titulo es de 1.56, la mediana es de 1 y la moda de 1. sin embargo minimo número de oracinoes es 1 y el máximo es 25.

La cantidad de oraciones en promedio por titulo es menor que la del campo text.

* **Recomendación:** Dividir los títulos en oraciones.

### Palabras que no son stopwords del campo titulo

In [14]:

no_stopwords_titulo = get_no_stopwords(df['titulo'].astype('string').dropna())

df_count_no_stopwords_titulo = pd.DataFrame(list(map(lambda text: len(str(text).split()), no_stopwords_titulo)))
df_count_no_stopwords_titulo.columns = ['no_stopwords_por_titulo']

estadisticas_numericas(df_count_no_stopwords_titulo, "no_stopwords_por_titulo")
grafica_numerica(df_count_no_stopwords_titulo, "no_stopwords_por_titulo")

3931it [00:06, 632.37it/s]

+ Promedio           : 7.93
+ Mediana            : 5.0
+ Moda               : 1
+ Varianza           : 178.36
+ Desviación estándar: 13.36
+ Mínimo             : 0
+ Máximo             : 220
+ Rango              : 220





En promedio hay 7.93 palabras que no son stopwords en los titulos, cona una mediana de 5 y una moda de 1. Sin embargo se tiene una desviacio´n estándar de 13.36. El mínimo número de palabras que no son stopwords es 0 y el máximo es 220.

* **Recomendación:** Eliminar las stopwords de los titulos.

### Palabras frecuentes

In [15]:
print("Palabras más frecuentes")
print(estadisticas_vocabulario(df, 'titulo', False, None))

Palabras más frecuentes
Palabras únicas:  8222
            Palabra  Frecuencia
0                de        2256
1               nan        2128
2                la        1430
3               que        1226
4                en        1118
...             ...         ...
8217        foráneo           1
8218  fortaleciendo           1
8219     fortalecer           1
8220        fornite           1
8221         𝙧𝙚𝙫𝙞𝙚𝙬           1

[8222 rows x 2 columns]


Las palabras más frecuentes son stopwords

### Símbolos especiales

In [16]:
# Los simbolos especiales son todos aquellos que sean de la a-zA-Z
df_no_ascii_titulo = df[df['titulo'].str.contains(r"[^\x00-\x7F]", regex=True, na=False)]

print(f"Número de filas que contienen símbolos especiales: {len(df_no_ascii_titulo)}")
print(df_no_ascii_titulo['titulo'].unique())


Número de filas que contienen símbolos especiales: 2365
['❤️\u200d🩹 ' 'La realidad … '
 'Mientras Alemania, Japón y Australia compiten por talento extranjero con sueldos y visas atractivas, México no retiene ni a los suyos. Con una tasa de fertilidad al límite y una economía que no seduce, ¿quién se queda? Si no priorizamos seguridad, empleo y calidad de vida, el éxodo será inevitable. 🚨 '
 ...
 'Terminé un montón de productos de higiene personal y skincare, y obvio tenía que venir a contarles qué tal me fue 🧴✨. cuáles amé, cuáles meh, y cuáles no volvería a comprar. 🫠 ¿Han probado alguno de estos? ¿Qué otro producto me recomiendan?  '
 '@𝒮𝒶𝓃𝒹𝓎𐙚'
 'EXPERIENCIA PERSONAL, recuerden que cada persona es un mundo diferente🫶🏻 ']


Los titulos pueden tener menciones '@username', emojis, símbolos especiales, errores de ortografía.
* reemplazar símbolos \xa0 por espacios regulares
* Se recomienda corrección rotográfica
* Se recomienda eliminar signos de puntuación,
* Se recomienda convertir los emojis a formato de texto
* Se recomienda traducir a español

## Análisis del campo hashtags

### Palabras promedio por hashtags

In [17]:
# Los hashtags están separados por comas
palabras_por_hashtags = df["hashtags"].str.split(",").str.len().to_frame("num_palabras")

estadisticas_numericas(palabras_por_hashtags, "num_palabras")
grafica_numerica(palabras_por_hashtags, "num_palabras")

+ Promedio           : 6.90
+ Mediana            : 6.0
+ Moda               : 5.0
+ Varianza           : 19.35
+ Desviación estándar: 4.40
+ Mínimo             : 1.0
+ Máximo             : 49.0
+ Rango              : 48.0


### Oraciones promedio por hashtags

In [18]:
oraciones_por_hashtags= get_sentences(df['hashtags'].astype('string').dropna())

conteo_oraciones_por_hashtags = pd.DataFrame(list(map(lambda oraciones: len(oraciones),oraciones_por_hashtags)))
conteo_oraciones_por_hashtags.columns = ['oraciones_por_hashtags']

estadisticas_numericas(conteo_oraciones_por_hashtags, "oraciones_por_hashtags")
grafica_numerica(conteo_oraciones_por_hashtags, "oraciones_por_hashtags")

5511it [00:03, 1501.98it/s]

+ Promedio           : 1.21
+ Mediana            : 1.0
+ Moda               : 1
+ Varianza           : 0.17
+ Desviación estándar: 0.41
+ Mínimo             : 1
+ Máximo             : 3
+ Rango              : 2





### Hashtags frecuentes

In [19]:
print("Hashtags más frecuentes")
print(estadisticas_vocabulario(df, 'hashtags', False, None))

Hashtags más frecuentes
Palabras únicas:  13235
                        Palabra  Frecuencia
0                           fyp        1092
1                        parati         877
2                         viral         583
3                           nan         548
4                        mexico         515
...                         ...         ...
13230           glowrecipetoner           1
13231  glowrecipewatermelonglow           1
13232                   gluteos           1
13233                       gma           1
13234                      𝘑𝘢𝘯𝘯           1

[13235 rows x 2 columns]


Los hashtags más frecuentes son fyp, parati, viral.

### Símbolos especiales

In [20]:

df_no_ascii_hashtags = df[df['hashtags'].str.contains(r"[^\x00-\x7F]", regex=True, na=False)]
print(len(df_no_ascii_hashtags))
print(df_no_ascii_hashtags['hashtags'].unique())

1424
['#machismo,#feminismo,#opinión,#compas,#masculinidad,#consejosparahombres,#hombrealfa,#eltemach,#elejercitodeloscompas,#impuestorosa'
 '#TalentoMexicano,#MigraciónLaboral,#TasaDeFertilidad,#MakeItInGermany,#Japón,#Australia,#CompetenciaGlobal,#OpiniónPolítica,#MinutoCrítico,#OpiniónPersonal,#4T'
 '#PicPod,#PicPodcast,#Podcast,#LatinoAmerica,#JessicaLorc,#JessicaLord,@Malleza 🤠💜,@Jessica Lorc,@Labardini ツ'
 ...
 '@Milagro_Milagros,@Kaba oficial,@Olé Capilar,#productoscapilares,#cuidadocapilar,#family,#cabello,#cabellosano'
 '@haresxlx,#paletadesombras,#maquillajedeojos,#reseñademaquillaje'
 '#ProductosTerminados,#SkincareMX,#ReseñaReal,#CuidadoDeLaPiel,#BellezaSinFiltros,#TeamSkincare,#EmptiesReview,#CuidaTuPiel,#SkincareLovers']


Los hashtags tienen emojis, menciones o arrobas, símbolos especiales 'ツ'
Los hashtags no parecen agregar información al análisis de sentimiento. por lo que no se recomienda agregarlos. Estos pueden agregar ruido.

* reemplazar símbolos \xa0 por espacios regulares
* Se recomienda separar por comas
* Se recomienda eliminar signos de puntuación
* Se recomienda eliminar simbolos especiales como 🇵🇪🇲🇽. 🇲🇽, シ, @, #
* Se recomienda convertir los emojis a formato de texto
* Se recomienda traducir a español

## Análisis del campo idioma

In [21]:

df_es = df[df["idioma"] == "es"].reset_index(drop=True) # Filtrar solo comentarios en español y elimnar la columna de indices anterior
estadisticas_idioma(df_es,"text",  "es")

df_no_es = df[df['idioma'] != "es"]
print(f"\nHay {(~df_no_es['idioma'].isnull()).sum()} registros que no pertenecen al idioma español")
print(f"Hay {df_no_es['idioma'].isnull().sum()} registros que no tienen un idioma")

--- Estadisticas de la columna text del idioma es
Total de elementos de la columna text: 5149
+ Valores únicos   :	5128
+ Valores repetidos:	11
+ Valores nulos: 10 - 0.19%
Comentarios con espacios vacios: 0

Valores duplicados:
text
¿Vale la pena? Oh, sí, lo vale. Si tienes la fuerza necesaria.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 

Se recomienda traducir los 817 registros no pertenecen al idioma español.

También se recomienda usar el titlo y hastags para los registros que no tiene un idioma.

In [22]:
print("Palabras más frecuentes del idioma español")
print(estadisticas_vocabulario(df_es, "text", ascendente=False, archivo=None))

Palabras más frecuentes del idioma español
Palabras únicas:  55418
      Palabra  Frecuencia
0         que       60005
1          de       57576
2          la       35801
3          en       27284
4          no       26559
...       ...         ...
55413    fucó           1
55414    fudo           1
55415  fudola           1
55416  fuegos           1
55417    프로蘭a           1

[55418 rows x 2 columns]


Se puede observar que hay textos clasificados como 'español' pero contienen palabras en otro idioma.
Una sugerencia es traducir los textos al español, sin embargo puede tener un costo de computación alto.
Otra sugerencia es detectar el idioma de cada palabra y si no pertenece al español, entonces la palabra es traducida. Lo cual también tiene un costo alto de computación.
Otra sugerencia es recorrer las palabras de cada texto y buscarlas en un diccionario en español, si no se encuetra en el diccionario entonces la palabra es eliminada.

# Limpieza

Con el objetivo de comparar los modelos y su desempeño en datasets con textos grandes y cortos, serán generados 2 datasets. El primero mantendra su longitud de textos original, mientras que el segundo será divido en oraciones.
Ambos tendrán el mismo proceso de limpieza.

Con base en el análisis anterior se llevarán acabo las siguiente acciones de limpieza:

* ✅ Usar los valores del campo titulo como nuevos registros
* ✅ Eliminar simbolos # y @
* ✅ Reemplazar nbsp por espacaios regulares
* Dividir en oraciones
* Eliminar:
    * ✅ Eliminar espacios consecutivos
    * ✅ Valores duplicados
    * ✅ Valores nulos o cadenas vacias
* Traducir todos los textos al español
* Convertir emojis a formato de texto
* Recomendaciones para el campo 'text':
    * Aplicar corrección ortográfica
    * Convertir a minúsculas el campo text
    * Eliminar stopwords
    * Eliminar signos de puntuación.
    * Eliminar símbolos especiales
    * Eliminar palabras numéricas
    * Eliminar valores nulos o cadenas vacias o textos que saen solamente números


## Combinar titulos y text

In [23]:
df_titulos = pd.DataFrame({'titulo':df['titulo']})
df_titulos = df_titulos.dropna(subset={'titulo'}).reset_index(drop=True)
df_titulos = df_titulos.drop_duplicates(subset='titulo',keep='first').reset_index(drop=True)

df_text = pd.DataFrame({'text':df['text']})
df_text = df_text.dropna(subset={'text'}).reset_index(drop=True)
df_text = df_text.drop_duplicates(subset='text',keep='first').reset_index(drop=True)

# Combinar los titulos y textos
df_combined = pd.DataFrame(
    {
        'text': pd.concat([df_text['text'],df_titulos['titulo']],ignore_index=True)
    }
)

# indicar el formato de la columna text
df_combined['text'] = df_combined['text'].astype('string')

print(estadisticas_nulos(df_combined, 'text'))
print(f"duplicados: {len(df_combined[df_combined['text'].duplicated(False) == True])}")

+ Valores nulos: 0 - 0.00%
None
duplicados: 0


In [24]:
from src.limpieza.limpieza import (replace_nbsp,
                                   replace_whitespaces,
                                   replace_quotes,
                                   replace_url,
                                   reduce_repeated_punct,
                                   remove_zwj,
                                   emoji_to_text,
                                   normalize_text)

# Convertir a minúsculas
df_combined['text'] = df_combined['text'].str.lower()

# Reemplazar &nbsp; por espacios regulares
df_combined['text'] = df_combined['text'].apply(replace_nbsp)

# Reemplazar espacios consecutivos, al inicio, al final o intermedios con un solo espacio
df_combined['text'] = df_combined['text'].apply(replace_whitespaces)

## Convertir comillas dobles a comilla simple
df_combined['text'] = df_combined['text'].apply(replace_quotes)

# Reemplazar urls (no agregan información al sentimiento)
# df_combined = df_combined.dropna(subset='text').reset_index(drop=True)
df_combined['text'] = df_combined['text'].apply(replace_url)

# Reducir símbolos de puntuación repetidos de forma consecutiva (evita errores al dividir oraciones)
df_combined['text'] = df_combined['text'].apply(reduce_repeated_punct)

# Eliminar el símbolo ZWJ (evitar errores al dividir oraciones)
df_combined['text'] = df_combined['text'].apply(remove_zwj)

# Convertir emojisa texto (reduce problemas en la división de oraciones)
df_combined['text'] = df_combined['text'].apply(emoji_to_text)

# Normalizar texto en negritas, cursivas, etc.
df_combined['text'] = df_combined['text'].apply(normalize_text)

df_combined.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8875 entries, 0 to 8874
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    8875 non-null   object
dtypes: object(1)
memory usage: 69.5+ KB


## Dividir en oraciones

Los textos son muy largos para ser traducidos, por lo que seran dividos en oraciones. Las cuales pueden ser reconstuidas.

Serpa utilizado el traductor de Google, este permite hasta 5000 caracteres por traducción.

In [25]:
from src.nlp.nlp_spacy import get_sentences_with_ids

sentences = get_sentences_with_ids(df_combined['text'])
df_sentences = pd.DataFrame(sentences)

8875it [02:22, 62.15it/s] 


## Limpieza de oraciones

In [None]:
from src.limpieza.limpieza import drop_non_letters_only_rows, drop_blank_or_nan_or_duplicated

# Eliminar filas que solo contienen signos de puntuación
df_sentences = drop_non_letters_only_rows(df_sentences, 'sentence')

# Reemplazar símbolos # y @ por un espacio
df_sentences['sentence'] = df_sentences['sentence'].str.replace(r'[#@]', ' ', regex=True)

# Eliminar registros con valores nulos, cadenas vacios, cadenas con espacios o duplicados
df_sentences = drop_blank_or_nan_or_duplicated(df_sentences, 'sentence')

## Traducir texto (desde google colab)

### Guardar datos a traducir

In [None]:
# Guardar el estado actual
from config.constants_tiktok import TIKTOK_PRE_TRANSLATED_SENTENCES

df_sentences['sentence'] = df_sentences['sentence'].astype(str)
df_sentences.to_csv(TIKTOK_PRE_TRANSLATED_SENTENCES, index=False)

### Cargar datos traducidos

In [4]:
from config.constants_tiktok import TIKTOK_TRANSLATED_SENTENCES


df_translated = pd.read_csv(TIKTOK_TRANSLATED_SENTENCES)
print(df_translated.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77778 entries, 0 to 77777
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   doc_id               77778 non-null  int64 
 1   sentence_id          77778 non-null  int64 
 2   sentence             77778 non-null  object
 3   translated_sentence  77777 non-null  object
dtypes: int64(2), object(2)
memory usage: 2.4+ MB
None


Hay registro que tiene un valor NA en el campo translated_sentence

In [5]:
row_with_na = df_translated[df_translated['translated_sentence'].isna()]
doc_id = row_with_na['doc_id'].values[0]
text_with_na = df_translated[df_translated['doc_id'] == doc_id]
print(text_with_na)

       doc_id  sentence_id                                   sentence  \
74933    6883            0                               sabían esto?   
74934    6883            1  que más les gustaría saber sobre mi celu?   
74935    6883            3                            ig: pauli.study   
74936    6883            4                                          _   

                             translated_sentence  
74933                               sabían esto?  
74934  que más les gustaría saber sobre mi celu?  
74935                            IG: Pauli.study  
74936                                        NaN  


El valor con Na se debe a un guión najo de un usuario de instagram. dicho valor NA puede ser eliminado antes de la reconstrucción, pues no aporta información  al sentimiento de la oración.

# Limpieza de texto traducido 

In [6]:
from src.limpieza.limpieza import text_to_emoji, clean_text

# Eliminar valores NA
df_translated = df_translated.dropna(subset='translated_sentence').reset_index(drop=True)

# Limpiar oraciones antes de convertir emojis a texto y antes de la reconstrucción de textos.
df_translated['translated_sentence'] = df_translated['translated_sentence'].apply(clean_text)

# Convertir texto a emojis para evitar problemas en la reconstrucción
df_translated['translated_sentence'] = df_translated['translated_sentence'].apply(text_to_emoji)

## Limpieza de texto reconstruido

In [7]:
from config.constants_tiktok import TIKTOK_TRANSLATED_TEXT
from src.nlp.nlp_spacy import reconstruct_text_from_df

# Reconstruir el texto con la oración traducida
df_translated_text = reconstruct_text_from_df(df_translated, col_sentence='translated_sentence')
df_translated_text.columns = ['doc_id','text']

print(df_translated_text.info())
df_translated_text.to_csv(TIKTOK_TRANSLATED_TEXT,index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8861 entries, 0 to 8860
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   doc_id  8861 non-null   int64 
 1   text    8861 non-null   object
dtypes: int64(1), object(1)
memory usage: 138.6+ KB
None


Hay menos cantidad de texto despues de la reconstrucción, debido a la eliminación de algunas oraciones antes de la traducción.

### Limpieza 

In [8]:
from src.limpieza.limpieza import *

# Convertir a minúsculas
df_translated_text['text'] = df_translated_text['text'].str.lower()

# Eliminar signos de puntuación
df_translated_text['text'] = df_translated_text['text'].apply(remove_punctuation)

# REducir palabras repetidas consecutivas
df_translated_text['text'] = df_translated_text['text'].apply(reduce_repeated_words)

# Eliminar espacios repetidos al inicio, final o intermedios
df_translated_text['text'] = df_translated_text['text'].apply(replace_whitespaces)

# Eliminar filas que solo contienen un número, emoji, signo de puntuación, etc
df_translated_text = drop_non_letters_only_rows(df_translated_text, 'text')

# Eliminar duplicados o valores nulos
df_translated_text = drop_blank_or_nan_or_duplicated(df_translated_text, 'text')

print(df_translated_text.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8812 entries, 0 to 8811
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   doc_id  8812 non-null   int64 
 1   text    8812 non-null   object
dtypes: int64(1), object(1)
memory usage: 137.8+ KB
None


### Obtener polaridad y emociones

#### Guardar datos limpios

In [9]:
from config.constants_tiktok import TIKTOK_PRE_SENTIMENT_TEXT

df_translated_text.to_csv(TIKTOK_PRE_SENTIMENT_TEXT, index=False)

#### Cargar datos etiquetados con sentimientos y emociones

In [13]:
from config.constants_tiktok import TIKTOK_SENTIMENT_TEXT

df_sentiment = pd.read_csv(TIKTOK_SENTIMENT_TEXT,usecols=['text','polarity','emotion'])

df_sentiment.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8812 entries, 0 to 8811
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   text      8812 non-null   object
 1   polarity  8812 non-null   object
 2   emotion   8812 non-null   object
dtypes: object(3)
memory usage: 206.7+ KB


### Estadisticas de textos limpios

In [14]:
estadisticas_basicas(df_sentiment)

--- Estadísticas para la columna: text ---
Total de elementos de la columna text: 8812
+ Valores únicos   :	8812
+ Valores repetidos:	0
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: polarity ---
Total de elementos de la columna polarity: 8812
+ NEU: 3639 - 41.30%
+ NEG: 2989 - 33.92%
+ POS: 2184 - 24.78%
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: emotion ---
Total de elementos de la columna emotion: 8812
+ others  : 6424 - 72.90%
+ anger   : 1067 - 12.11%
+ joy     :  847 - 9.61%
+ sadness :  399 - 4.53%
+ surprise:   57 - 0.65%
+ fear    :   16 - 0.18%
+ disgust :    2 - 0.02%
+ Valores nulos: 0 - 0.00%



In [15]:
visualización_univariable(df_sentiment)

Gráficos de la variable text omitidos


### Guardar textos de entrenamiento

In [16]:
from config.constants_tiktok import TIKTOK_DATASET_TEXT

df_sentiment.to_csv(TIKTOK_DATASET_TEXT, index=False)

## Limpieza de oraciones

In [17]:
df_translated.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77777 entries, 0 to 77776
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   doc_id               77777 non-null  int64 
 1   sentence_id          77777 non-null  int64 
 2   sentence             77777 non-null  object
 3   translated_sentence  77777 non-null  object
dtypes: int64(2), object(2)
memory usage: 2.4+ MB


### Limpieza

In [18]:
from src.limpieza.limpieza import *

df_translated = df_translated.dropna(subset='translated_sentence').reset_index(drop=True)

df_translated['text'] = None

df_translated['text'] = df_translated['translated_sentence'].astype('string')

# Convertir a minúsculas
df_translated['text'] = df_translated['text'].str.lower()

# Eliminar signos de puntuación
df_translated['text'] = df_translated['text'].apply(remove_punctuation)

# REducir palabras repetidas consecutivas
df_translated['text'] = df_translated['text'].apply(reduce_repeated_words)

# Eliminar espacios repetidos al inicio, final o intermedios
df_translated['text'] = df_translated['text'].apply(replace_whitespaces)

# Eliminar filas que solo contienen un número, emoji, signo de puntuación, etc
df_translated = drop_non_letters_only_rows(df_translated, 'text')

# Eliminar duplicados o valores nulos
df_translated = drop_blank_or_nan_or_duplicated(df_translated, 'text')

print(df_translated.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73536 entries, 0 to 73535
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   doc_id               73536 non-null  int64 
 1   sentence_id          73536 non-null  int64 
 2   sentence             73536 non-null  object
 3   translated_sentence  73536 non-null  object
 4   text                 73536 non-null  object
dtypes: int64(2), object(3)
memory usage: 2.8+ MB
None


### Obtener polaridad y emociones

#### Guardar datos

In [19]:
from config.constants_tiktok import TIKTOK_PRE_SENTIMENT_SENTENCES


df_translated.to_csv(TIKTOK_PRE_SENTIMENT_SENTENCES,columns=['doc_id', 'text'], index=False)

#### Cargar datos


In [24]:
from config.constants_tiktok import TIKTOK_SENTIMENT_SENTENCES

df_sentiment_sentences = pd.read_csv(TIKTOK_SENTIMENT_SENTENCES,usecols=['text','polarity','emotion'])

# Eliminar filas que solo sean letr
df_sentiment_sentences.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73536 entries, 0 to 73535
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   text      73536 non-null  object
 1   polarity  73536 non-null  object
 2   emotion   73536 non-null  object
dtypes: object(3)
memory usage: 1.7+ MB


### Estadisticas de oraciones limpias

In [25]:
estadisticas_basicas(df_sentiment_sentences)

--- Estadísticas para la columna: text ---
Total de elementos de la columna text: 73536
+ Valores únicos   :	73536
+ Valores repetidos:	0
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: polarity ---
Total de elementos de la columna polarity: 73536
+ NEU: 38517 - 52.38%
+ NEG: 20434 - 27.79%
+ POS: 14585 - 19.83%
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: emotion ---
Total de elementos de la columna emotion: 73536
+ others  : 63715 - 86.64%
+ joy     : 4065 - 5.53%
+ anger   : 2985 - 4.06%
+ sadness : 1790 - 2.43%
+ surprise:  761 - 1.03%
+ fear    :  193 - 0.26%
+ disgust :   27 - 0.04%
+ Valores nulos: 0 - 0.00%



In [26]:
visualización_univariable(df_sentiment_sentences)

Gráficos de la variable text omitidos


### Guardar oraciones de entrenamiento

In [27]:

from config.constants_tiktok import TIKTOK_DATASET_SENTENCES


df_sentiment_sentences.to_csv(TIKTOK_DATASET_SENTENCES, index=False)