# Análisis exploratorio de datos de TikTok

In [8]:
import sys
import os

# Agregar el directorio raiz al PYTHONPATH
module_path = os.path.abspath(os.path.join('../..'))
if module_path not in sys.path:
    sys.path.append(module_path)

In [9]:

import pandas as pd

## Cargar datos

In [7]:
from constants.constants_tiktok import TIKTOK_TRANSCRIBED_VIDEOS_PATH

df =  pd.read_csv(TIKTOK_TRANSCRIBED_VIDEOS_PATH, header=None, encoding="utf-8")

# Establecer nombre a las columnas
df.columns = ['date','fecha_recuperacion','termino','vistas','url','titulo','hashtags','descargado','text','idioma']

print(df.head())
print(df.tail())
print(df.info())

        date fecha_recuperacion   termino  vistas  \
0  2023-3-11         2025-01-22  #opinion    6845   
1   2023-2-2         2025-01-22  #opinion    1470   
2  2023-8-11         2025-01-22  #opinion    1276   
3   2024-7-5         2025-01-22  #opinion   70700   
4  2022-6-29         2025-01-22  #opinion  129500   

                                                 url             titulo  \
0  https://www.tiktok.com/@heavensblaze/video/720...              ❤️‍🩹    
1  https://www.tiktok.com/@mr.cactus_avt/video/71...       Respuesta a    
2  https://www.tiktok.com/@al3xflores/video/72662...  El Subsidio Azul    
3  https://www.tiktok.com/@alecastilla_/video/738...     La realidad …    
4  https://www.tiktok.com/@ibarrechejavier/video/...       Responder a    

                                            hashtags  descargado  \
0  #whitexicans,#streaming,#videojuegos,#videogam...        True   
1  @lokilove009,#mujercitas,#libros,#librosen60se...        True   
2  #machismo,#feminismo,#o

* El campo 'date' representa la fecha en la que fué publicado el video en TikTok. Es una fecha relativa a la fecha de recuperación del video.

* El campo 'fecha_recuperacion' reprenta la fecha en la que el video fué recolectado de TikTok.

* El campo 'termino' representa el texto con el cual fué encontrado el video recolectado en el buscador de TikTok.

* El campo 'vistas' indica el número de visualizaciones del video en la fecha que fueron consultados.

* El campo 'url' representa la dirección url de TikTok del video.

* El campo 'titulo' es el texto recuperado como titulo del video.

* El campo 'hashtags' contiene las etiquetas usadas en el video.

* El campo 'descargado' indica si fué posible descargar el video.

* EL campo 'text' contiene la transcripción del video.

* El campo 'idioma' indica el idioma de la transcripción del video.

## Estadístivas y visualización

### Estadísticas

In [4]:
from src.statistics.statistics import estadisticas_basicas


estadisticas_basicas(df)

--- Estadísticas para la columna: date ---
Total de elementos de la columna date: 6059
+ Valores únicos   :	1327
+ Valores repetidos:	999
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: fecha_recuperacion ---
Total de elementos de la columna fecha_recuperacion: 6059
+ 2025-01-22: 6059 - 100.00%
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: termino ---
Total de elementos de la columna termino: 6059
+ lo_bueno_de_samsung   :  328 - 5.41%
+ lo_bueno_de_mexico    :  300 - 4.95%
+ lo_bueno_de_ipn       :  297 - 4.90%
+ lo_bueno_de_uam       :  289 - 4.77%
+ lo_peor_de            :  280 - 4.62%
+ crítica_de            :  271 - 4.47%
+ #opinion              :  271 - 4.47%
+ #reseña               :  269 - 4.44%
+ lo_bueno_de_unam      :  264 - 4.36%
+ lo_malo_de_iphone     :  260 - 4.29%
+ lo_bueno_de_huawei    :  255 - 4.21%
+ experiencia_con       :  254 - 4.19%
+ lo_malo_de_mexico     :  254 - 4.19%
+ lo_malo_de_samsung    :  237 - 3.91%
+ recomendaciones_de   

### Visualización

In [5]:
from src.statistics.statistics_plots import visualizacion_datos

visualizacion_datos(df)

Gráficos de la variable date omitidos


Gráficos de la variable url omitidos
Gráficos de la variable titulo omitidos
Gráficos de la variable hashtags omitidos


Gráficos de la variable text omitidos


### Observaciones sobre los datos

**date**

El campo 'date' es reconocido como una cadena, sin embargo tiene un total de 1327 valores únicos y 999 valores repetidos. Lo que puede significar que los valores del campo no son consistentes o no son reconocidos como fechas por la biblioteca pandas. Se recomienda un análisis más profundo

**fecha_recuperacion**

El campo 'fecha_recuperación' es reconocido como una cadena. Por lo tanto, se muestran los valores únicos de dicho campo. Se puede notar que solo hay un valor o fecha de recupéración. Se recomienda indicar a pandas su tratamiento como una fecha.

**Termino**

El término más frecuente es 'lo bueno de samsumg' con un 5.41% del total y el menos frecuente es el ltérmino 'opinion sobre estudiar' con un 1.30% del total.

**Descargado**

Un total de 5967 videos fueron descargados con exito, el cual representa el 98.48% del total. Sin embargo 92 videos no fueron descargados, lo cual representaba el 1.52% restante. Es posible que los videos hayan sido eliminados de la red social TikTok o las publicaciones eran imagenes. Se recomienda utilizar el título o hashtags de los videos no descargados como texto.

**text**

Se encontraron un total de 5710 valores únicos, 19 valores repetidos y 306 valores nulos. Se recomienda un análisis más profundo para su tratamiento.

**idioma**

El idioma que predomina en los datos es el español con un 84.98% del total, seguido del inglés con un 10.63%. Además, hay 93 datos que no fueron clasificados en algún idioma. Se sugiere traducir los textos al español.

**Vistas**

La media de vistas es de 134491.60, con una mediana de 17500.0, lo que sugiere la presencia de valores extremadamente altos y una posible distribución sesgada a la derecha. Además el rango es de 7100000 y una desviación estándar de 361075.06, lo que indica una alta variabilidad en el número de vistas.

**URL**

Hay 6059 urls únicas, 0 valores repetidos y 0 valores núlos.

**titulo**

Hay 3167 valores únicos, 32 valores repetidos y 2128 valores núlos. Se recomienda un análisis más profundo del campo título.

**hashtags**

Hay 5323 valores únicos, 79 valores repetidos y 548 valores núlos. Se recomienda un análiis más profundo

## Análisis profundo

### ¿Qué valores siguen el formato yyyy-mm-dd o yyyy-m-d?

In [6]:
# Filtrar por valores que no tengan la estructura yyy-mm-dd
from src.statistics.statistics import estadisticas_categoricas

regex_yyyy_mm_dd = r'^\d{4}-\d{1,2}-\d{1,2}$'
df_invalid_date = df[~df['date'].str.match(regex_yyyy_mm_dd, na=False)]

print("Valores que no siguen el formato yyyy-mm-dd:")
estadisticas_categoricas(df_invalid_date, 'date',45)

Valores que no siguen el formato yyyy-mm-dd:
Total de elementos de la columna date: 537
+ Hace 5 día(s)   :   33 - 6.15%
+ Hace 1 día(s)   :   29 - 5.40%
+ Hace 6 día(s)   :   26 - 4.84%
+ 1-7             :   25 - 4.66%
+ Hace 1 semana(s):   25 - 4.66%
+ 1-9             :   24 - 4.47%
+ Hace 4 día(s)   :   24 - 4.47%
+ 1-10            :   21 - 3.91%
+ Hace 4 h        :   21 - 3.91%
+ 1-11            :   21 - 3.91%
+ 1-6             :   21 - 3.91%
+ 1-8             :   20 - 3.72%
+ Hace 6 h        :   18 - 3.35%
+ Hace 2 día(s)   :   17 - 3.17%
+ 1-12            :   17 - 3.17%
+ 1-5             :   17 - 3.17%
+ 1-4             :   16 - 2.98%
+ 1-2             :   16 - 2.98%
+ Hace 3 día(s)   :   16 - 2.98%
+ Hace 3 h        :   14 - 2.61%
+ 1-13            :   13 - 2.42%
+ 1-1             :   12 - 2.23%
+ Hace 2 h        :   11 - 2.05%
+ Hace 5 h        :   11 - 2.05%
+ Hace 7 h        :   10 - 1.86%
+ Hace 10 h       :    8 - 1.49%
+ 1-3             :    7 - 1.30%
+ Hace 9 h        :  

Se tiene un total de 43 valores únicos de fechas que no siguen el formato yyyy-mm-dd o yyyy-m-d.
* **Recomendación** Reconstruir la fecha de publicación del video usando los valores de los campos 'date' y 'fecha_recuperación'

### Análisis del campo 'descargado'

* Cuantos videos no descargados tienen título
* Cuántos videos no descargados tienen hashtags

In [7]:
df_no_descargado = df[df['descargado'] == False].reset_index(drop=True)

count_no_descargados_con_titulo = (~df_no_descargado['titulo'].str.strip().replace("",pd.NA).isnull()).sum()
count_no_descargados_con_hashtags = (~df_no_descargado['hashtags'].str.strip().replace("",pd.NA).isnull()).sum()

print(f"Videos no descargados pero con titulo: {count_no_descargados_con_titulo}")
print(f"Videos no descargados pero con hashtags: {count_no_descargados_con_hashtags}")

# Videos no descargados sin hashtags ni titulos
count_no_descargado_sin_titulo_hashtags = df_no_descargado[df_no_descargado['titulo'].str.strip().replace("",pd.NA).isnull() & df_no_descargado['hashtags'].str.strip().replace("",pd.NA).isnull()].shape[0]
print(f"Hay {count_no_descargado_sin_titulo_hashtags} videos no descargados sin titulos ni hashtags")

Videos no descargados pero con titulo: 44
Videos no descargados pero con hashtags: 80
Hay 3 videos no descargados sin titulos ni hashtags


* **Recomendación:** Se recomienda eliminar los videos 3 que no fueron descargados, no tienen titulos y tampoco tienen hashtags.

### Análisis del campo 'text'

#### Registros sin texto pero con titulos o hashtags

In [8]:
# Filtrar los registros con valores nulos o cadenas vacias
df_no_text = df[df['text'].str.strip().replace("",pd.NA).isnull()].reset_index(drop=True)

count_titulo_no_text = (~df_no_text['titulo'].str.strip().replace("",pd.NA).isnull()).sum()
count_hashtags_no_text = (~df_no_text['hashtags'].str.strip().replace("",pd.NA).isnull()).sum()

print(f"Valores sin texto pero con titulo: {count_titulo_no_text}")
print(f"Valores sin texto pero con hashtags: {count_hashtags_no_text}")

# Valores sin texto, sin hashtags y sin titulo
count_no_text_sin_titulo_hashtags = df_no_text[df_no_text['titulo'].str.strip().replace("",pd.NA).isnull() & df_no_text['hashtags'].str.strip().replace("",pd.NA).isnull()].shape[0]
print(f"Hay {count_no_text_sin_titulo_hashtags} registros sin texto, sin titulo y sin hashtags")

Valores sin texto pero con titulo: 148
Valores sin texto pero con hashtags: 265
Hay 24 registros sin texto, sin titulo y sin hashtags


Hay 148 valores sin texto pero con titulo y 265 sin texto pero con hashtags.

Hay 24 registros sin texto sin titulo y sin hashtags.

* **Recomendación:** Se recomienda eliminar los 24 registros que no tienen texto, titulo o hashtags

#### Número de palabras por texto

In [9]:
from src.statistics.statistics import estadisticas_numericas
from src.statistics.statistics_plots import grafica_numerica

palabras_por_texto = df["text"].str.split().str.len().to_frame("palabras_por_texto")

estadisticas_numericas(palabras_por_texto, "palabras_por_texto")
grafica_numerica(palabras_por_texto, "palabras_por_texto")

+ Promedio           : 234.61
+ Mediana            : 173.0
+ Moda               : 1.0
+ Varianza           : 69246.47
+ Desviación estándar: 263.15
+ Mínimo             : 1.0
+ Máximo             : 3300.0
+ Rango              : 3299.0



En promedio hay 234.61 palabras por texto, con una mediana de 173.0, lo que sugiera una distribución sesgada a la derecha. Es decir, hay algunos textos que tienen una cantidad de palabras mayor que el promedio. Lo cual puede afectar en el entrenamiento de un modelo de clasificación de textos.

La máxima cantidad de palabra que tiene un texto es 3300 palabras y la mínima cantidad de palabras que tiene un texto es 1 palabra. Además se tiene una desviación estándar de 263.15 y un rango de 3299.0, lo que indica una alta dispersión en la cantidad de palabras.

* **Recomendación:** Se recomienda analizar la cantidad de oraciones por texto

#### Palabras frecuentes

In [10]:
from src.statistics.statistics import estadisticas_vocabulario

print("Palabras más frecuentes")
print(estadisticas_vocabulario(df, 'text', False, None))

Palabras más frecuentes
Palabras únicas:  59453
       Palabra  Frecuencia
0          que       60186
1           de       57705
2           la       35836
3           en       27333
4           no       26751
...        ...         ...
59448  gateway           1
59449  gatunos           1
59450    gauil           1
59451     gava           1
59452     프로蘭a           1

[59453 rows x 2 columns]


* **Recomendación:** Se recomienda eliminar stopwords y traducir el texto.

### Análisis del campo titulo

#### Palabras promedio por titulo

In [11]:
palabras_por_titulo = df["titulo"].str.split().str.len().to_frame("num_palabras")

estadisticas_numericas(palabras_por_titulo, "num_palabras")
grafica_numerica(palabras_por_titulo, "num_palabras")

+ Promedio           : 11.85
+ Mediana            : 7.0
+ Moda               : 2.0
+ Varianza           : 369.47
+ Desviación estándar: 19.22
+ Mínimo             : 0.0
+ Máximo             : 377.0
+ Rango              : 377.0


#### Palabras frecuentes

In [12]:
print("Palabras más frecuentes")
print(estadisticas_vocabulario(df, 'titulo', False, None))

Palabras más frecuentes
Palabras únicas:  8222
            Palabra  Frecuencia
0                de        2256
1               nan        2128
2                la        1430
3               que        1226
4                en        1118
...             ...         ...
8217        foráneo           1
8218  fortaleciendo           1
8219     fortalecer           1
8220        fornite           1
8221         𝙧𝙚𝙫𝙞𝙚𝙬           1

[8222 rows x 2 columns]


* **Recomendación:** Se recomienda normalizar texto (eliminar negritas, cursivas, etc.). También se recomienda eliminar 'nan', puede generar confusión en pandas como un valor nulo.

#### Símbolos especiales

In [14]:
df_no_ascii_titulo = df[df['titulo'].str.contains(r"[^\x00-\x7F]", regex=True, na=False)]

print(f"Número de filas que contienen símbolos especiales: {len(df_no_ascii_titulo)}")
print(df_no_ascii_titulo['titulo'].unique())

Número de filas que contienen símbolos especiales: 2365
['❤️\u200d🩹 ' 'La realidad … '
 'Mientras Alemania, Japón y Australia compiten por talento extranjero con sueldos y visas atractivas, México no retiene ni a los suyos. Con una tasa de fertilidad al límite y una economía que no seduce, ¿quién se queda? Si no priorizamos seguridad, empleo y calidad de vida, el éxodo será inevitable. 🚨 '
 ...
 'Terminé un montón de productos de higiene personal y skincare, y obvio tenía que venir a contarles qué tal me fue 🧴✨. cuáles amé, cuáles meh, y cuáles no volvería a comprar. 🫠 ¿Han probado alguno de estos? ¿Qué otro producto me recomiendan?  '
 '@𝒮𝒶𝓃𝒹𝓎𐙚'
 'EXPERIENCIA PERSONAL, recuerden que cada persona es un mundo diferente🫶🏻 ']


Los titulos pueden tener menciones '@username', emojis, símbolos especiales, errores de ortografía.
* reemplazar símbolos \xa0 por espacios regulares
* Se recomienda corrección rotográfica
* Se recomienda eliminar signos de puntuación,
* Se recomienda convertir los emojis a formato de texto
* Se recomienda traducir a español

### Análisis del campo hashtags

#### Hashtags frecuentes

In [15]:
print("Hashtags más frecuentes")
print(estadisticas_vocabulario(df, 'hashtags', False, None))

Hashtags más frecuentes
Palabras únicas:  13235
                        Palabra  Frecuencia
0                           fyp        1092
1                        parati         877
2                         viral         583
3                           nan         548
4                        mexico         515
...                         ...         ...
13230           glowrecipetoner           1
13231  glowrecipewatermelonglow           1
13232                   gluteos           1
13233                       gma           1
13234                      𝘑𝘢𝘯𝘯           1

[13235 rows x 2 columns]


Los hashtags más frecuentes son fyp, parati, viral.

#### Símbolos especiales

In [16]:
df_no_ascii_hashtags = df[df['hashtags'].str.contains(r"[^\x00-\x7F]", regex=True, na=False)]
print(len(df_no_ascii_hashtags))
print(df_no_ascii_hashtags['hashtags'].unique())

1424
['#machismo,#feminismo,#opinión,#compas,#masculinidad,#consejosparahombres,#hombrealfa,#eltemach,#elejercitodeloscompas,#impuestorosa'
 '#TalentoMexicano,#MigraciónLaboral,#TasaDeFertilidad,#MakeItInGermany,#Japón,#Australia,#CompetenciaGlobal,#OpiniónPolítica,#MinutoCrítico,#OpiniónPersonal,#4T'
 '#PicPod,#PicPodcast,#Podcast,#LatinoAmerica,#JessicaLorc,#JessicaLord,@Malleza 🤠💜,@Jessica Lorc,@Labardini ツ'
 ...
 '@Milagro_Milagros,@Kaba oficial,@Olé Capilar,#productoscapilares,#cuidadocapilar,#family,#cabello,#cabellosano'
 '@haresxlx,#paletadesombras,#maquillajedeojos,#reseñademaquillaje'
 '#ProductosTerminados,#SkincareMX,#ReseñaReal,#CuidadoDeLaPiel,#BellezaSinFiltros,#TeamSkincare,#EmptiesReview,#CuidaTuPiel,#SkincareLovers']


Los hashtags tienen emojis, menciones o arrobas, símbolos especiales 'ツ'
Los hashtags no parecen agregar información al análisis de sentimiento. por lo que no se recomienda agregarlos. Estos pueden agregar ruido.

* reemplazar símbolos \xa0 por espacios regulares
* Se recomienda separar por comas
* Se recomienda eliminar signos de puntuación
* Se recomienda eliminar simbolos especiales como 🇵🇪🇲🇽. 🇲🇽, シ, @, #
* Se recomienda convertir los emojis a formato de texto
* Se recomienda traducir a español

### Análisis del campo idioma

In [17]:
df_es = df[df["idioma"] == "es"].reset_index(drop=True) # Filtrar solo comentarios en español y elimnar la columna de indices anterior

df_no_es = df[df['idioma'] != "es"]
print(f"\nHay {(~df_no_es['idioma'].isnull()).sum()} registros que no pertenecen al idioma español")
print(f"Hay {df_no_es['idioma'].isnull().sum()} registros que no tienen un idioma")


Hay 817 registros que no pertenecen al idioma español
Hay 93 registros que no tienen un idioma


Se recomienda traducir los 817 registros no pertenecen al idioma español.

También se recomienda usar el titlo y hastags para los registros que no tiene un idioma.

#### Palabras frecuentes

In [18]:
print("Palabras más frecuentes del idioma español")
print(estadisticas_vocabulario(df_es, "text", ascendente=False, archivo=None))

Palabras más frecuentes del idioma español
Palabras únicas:  55418
      Palabra  Frecuencia
0         que       60005
1          de       57576
2          la       35801
3          en       27284
4          no       26559
...       ...         ...
55413    fucó           1
55414    fudo           1
55415  fudola           1
55416  fuegos           1
55417    프로蘭a           1

[55418 rows x 2 columns]


Se puede observar que hay textos clasificados como 'español' pero contienen palabras en otro idioma.

Una sugerencia es traducir los textos al español, sin embargo puede tener un costo de computación alto.

Otra sugerencia es detectar el idioma de cada palabra y si no pertenece al español, entonces la palabra es traducida. Lo cual también tiene un costo alto de computación.

Otra sugerencia es recorrer las palabras de cada texto y buscarlas en un diccionario en español, si no se encuetra en el diccionario entonces la palabra es eliminada.

## Limpieza

### Combinar los campos 'titulo' y 'text' en nuevas filas

In [8]:
from src.statistics.statistics import estadisticas_nulos


df_titulos = pd.DataFrame({'titulo':df['titulo']})
df_titulos = df_titulos.dropna(subset={'titulo'}).reset_index(drop=True)
df_titulos = df_titulos.drop_duplicates(subset='titulo',keep='first').reset_index(drop=True)

df_text = pd.DataFrame({'text':df['text']})
df_text = df_text.dropna(subset={'text'}).reset_index(drop=True)
df_text = df_text.drop_duplicates(subset='text',keep='first').reset_index(drop=True)

# Combinar los titulos y textos
df_combined = pd.DataFrame(
    {
        'text': pd.concat([df_text['text'],df_titulos['titulo']],ignore_index=True)
    }
)

# indicar el formato de la columna text
df_combined['text'] = df_combined['text'].astype('string')

print(df_combined.info())
print(estadisticas_nulos(df_combined, 'text'))
print(f"duplicados: {len(df_combined[df_combined['text'].duplicated(False) == True])}")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8875 entries, 0 to 8874
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    8875 non-null   string
dtypes: string(1)
memory usage: 69.5 KB
None
+ Valores nulos: 0 - 0.00%
None
duplicados: 0



### Limpiar datos para su traducción

In [9]:
from src.preprocesamiento.clean import (replace_nbsp,replace_whitespaces,replace_quotes,
                                   replace_url,reduce_repeated_punct,remove_zwj,
                                   emoji_to_text,normalize_text)

# Convertir a minúsculas
df_combined['text'] = df_combined['text'].str.lower()

# Reemplazar &nbsp; por espacios regulares
df_combined['text'] = df_combined['text'].apply(replace_nbsp)

# Reemplazar espacios consecutivos, al inicio, al final o intermedios con un solo espacio
df_combined['text'] = df_combined['text'].apply(replace_whitespaces)

## Convertir comillas dobles a comilla simple
df_combined['text'] = df_combined['text'].apply(replace_quotes)

# Reemplazar urls (no agregan información al sentimiento)
# df_combined = df_combined.dropna(subset='text').reset_index(drop=True)
df_combined['text'] = df_combined['text'].apply(replace_url)

# Reducir símbolos de puntuación repetidos de forma consecutiva (evita errores al dividir oraciones)
df_combined['text'] = df_combined['text'].apply(reduce_repeated_punct)

# Eliminar el símbolo ZWJ (evitar errores al dividir oraciones)
df_combined['text'] = df_combined['text'].apply(remove_zwj)

# Convertir emojisa texto (reduce problemas en la división de oraciones)
df_combined['text'] = df_combined['text'].apply(emoji_to_text)

# Normalizar texto en negritas, cursivas, etc.
df_combined['text'] = df_combined['text'].apply(normalize_text)

df_combined.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8875 entries, 0 to 8874
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    8875 non-null   object
dtypes: object(1)
memory usage: 69.5+ KB


### Dividir texto en oraciones 

Los textos son muy largos para ser traducidos, por lo que seran dividos en oraciones. Las cuales pueden ser reconstuidas.

Será utilizado el traductor de Google, este permite hasta 5000 caracteres por traducción.

In [11]:
from src.preprocesamiento.clean import drop_blank_or_nan_or_duplicated, drop_non_letters_only_rows
from src.preprocesamiento.nlp_spacy import get_sentences_with_ids

sentences = get_sentences_with_ids(df_combined['text'])
df_sentences = pd.DataFrame(sentences)

# Eliminar filas que solo contienen signos de puntuación
df_sentences = drop_non_letters_only_rows(df_sentences, 'sentence')
print(f"Filas resultantes despues de eliminar no alfanuméricas: {len(df_sentences)}")

# Reemplazar símbolos # y @ por un espacio
df_sentences['sentence'] = df_sentences['sentence'].str.replace(r'[#@]', ' ', regex=True)

# Eliminar registros con valores nulos, cadenas vacios, cadenas con espacios o duplicados
df_sentences = drop_blank_or_nan_or_duplicated(df_sentences, 'sentence')
print(f"Filas resultantes despues de eliminar filas en blanco, nan o duplicadas: {len(df_sentences)}")

Modelo cargado: es_core_news_sm


8875it [02:28, 59.87it/s] 


Filas resultantes despues de eliminar no alfanuméricas: 77823
Filas resultantes despues de eliminar filas en blanco, nan o duplicadas: 73928


In [15]:
from src.preprocesamiento.nlp_spacy import reconstruct_text_from_df

df_prueba_texto_reconstruido = reconstruct_text_from_df(df_sentences, col_sentence="sentence")
print(f"Filas esperadas después de reconstrucción de datos traducidos: {len(df_prueba_texto_reconstruido)}")
# print(df_prueba_texto_reconstruido.info())

Filas esperadas después de reconstrucción de datos traducidos: 8824


Verificar que las oraciones tengan menos de 5000 caracteres para asegurar su correcta traducción.

In [7]:
# Filtrar filas donde la longitud del texto sea mayor a 5000
df_filtrado = df_sentences[df_sentences['sentence'].str.len() > 5000]

# Mostrar resultado
print(df_filtrado)

Empty DataFrame
Columns: [doc_id, sentence_id, sentence]
Index: []



### Traducir texto

#### Guardar datos

Unicamente las oraciones son guardadas en un archivo .txt
Posteriormente se convierten a un archivo de Word.
Google permite traducir archivo .docx, utilizamos esta herramienta para la traducción de todas las oraciones.
Descargamos el archivo .docx que devuelve el traductor y lo convertimos a .txt nuevamente.
Leemos cada linea del archvo .txt y las agregamos como una columna del dataframe.

In [9]:
# Guardar el estado actual
from constants.constants_tiktok import TIKTOK_PRE_TRANSLATED_SENTENCES, TIKTOK_PRE_TRANSLATED_ONLY_SENTENCES

df_sentences['sentence'] = df_sentences['sentence'].astype(str)
df_sentences.to_csv(TIKTOK_PRE_TRANSLATED_SENTENCES, index=False)
print(df_sentences.info())

# Guardar archivo solo con las sentencias
df_sentences['sentence'].to_csv(f"{TIKTOK_PRE_TRANSLATED_ONLY_SENTENCES}.txt", index=False, header=None, sep="\n")
print(f"Archivo de solo oraciones en: {TIKTOK_PRE_TRANSLATED_ONLY_SENTENCES}")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73928 entries, 0 to 73927
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   doc_id       73928 non-null  int64 
 1   sentence_id  73928 non-null  int64 
 2   sentence     73928 non-null  object
dtypes: int64(2), object(1)
memory usage: 1.7+ MB
None
Archivo de solo oraciones en: c:\Users\Diego\Desktop\sentiment_analysis\data\tiktok\raw\tiktok_pre_translated_only_sentences


#### Cargar datos traducidos

In [3]:
from constants.constants_tiktok import TIKTOK_TRANSLATED_ONLY_SENTENCES, TIKTOK_PRE_TRANSLATED_SENTENCES
from src.preprocesamiento.clean import replace_whitespaces

# Cargar archivos con traducciones
file = open(TIKTOK_TRANSLATED_ONLY_SENTENCES, "r", encoding="utf-8")
lines = file.readlines()
file.close()
print(f"Número de lineas recuperadas: {len(lines)}")

# Cargar csv con oracinoes sin traducir
df_translated = pd.read_csv(TIKTOK_PRE_TRANSLATED_SENTENCES, encoding="utf-8")

# Agregar traducciones al df, elimnar saltos de linea puedan afectar el texto
df_translated['translated_sentence'] = list(map(lambda line: replace_whitespaces(line), lines))

print(df_translated.info())

Número de lineas recuperadas: 73928
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73928 entries, 0 to 73927
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   doc_id               73928 non-null  int64 
 1   sentence_id          73928 non-null  int64 
 2   sentence             73928 non-null  object
 3   translated_sentence  73928 non-null  object
dtypes: int64(2), object(2)
memory usage: 2.3+ MB
None


In [None]:
from src.preprocesamiento.nlp_spacy import get_no_stopwords_pipe
from src.preprocesamiento.clean import clean_text
from tqdm import tqdm
tqdm.pandas()

# Limpieza para obtener la polaridad de las oraciones
df_translated['text'] = df_translated['translated_sentence'].progress_apply(clean_text)
# Eliminar stopwords
df_translated['text'] = get_no_stopwords_pipe(df_translated['text'], " ", "es")

100%|██████████| 73928/73928 [05:41<00:00, 216.62it/s]


Modelo cargado: es_core_news_sm


73928it [02:15, 546.15it/s]


### Guardar df de oraciones con traducciones

In [None]:
from constants.constants_tiktok import TIKTOK_PRE_SENTIMENT_SENTENCES
from src.preprocesamiento.clean import drop_blank_or_nan_or_duplicated, drop_non_letters_only_rows

df_translated = drop_non_letters_only_rows(df_translated, 'text')
df_translated = drop_blank_or_nan_or_duplicated(df_translated, 'text')

df_translated['text'].to_csv(TIKTOK_PRE_SENTIMENT_SENTENCES, index=False)

print(f"Archivo de dataframe con traducción de oraciones en: {TIKTOK_PRE_SENTIMENT_SENTENCES}")

Archivo de dataframe con traducción de oraciones en: c:\Users\Diego\Desktop\sentiment_analysis\data\tiktok\raw\tiktok_pre-sentiment_sentences.csv


In [12]:
print(df_translated.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67551 entries, 0 to 67550
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   doc_id               67551 non-null  int64 
 1   sentence_id          67551 non-null  int64 
 2   sentence             67551 non-null  object
 3   translated_sentence  67551 non-null  object
 4   text                 67551 non-null  object
dtypes: int64(2), object(3)
memory usage: 2.6+ MB
None


### Guardar texto reconstruiudo

In [9]:
from constants.constants_tiktok import TIKTOK_PRE_SENTIMENT_TEXT
from src.preprocesamiento.nlp_spacy import reconstruct_text_from_df

df_text_reconstruido = reconstruct_text_from_df(df_translated, col_sentence="text")
# df_text_reconstruido.columns = ['doc_id','text']

print(df_text_reconstruido.info())
df_text_reconstruido['text'].to_csv(TIKTOK_PRE_SENTIMENT_TEXT, index=False)
print(f"Texto traducido guardado en: {TIKTOK_PRE_SENTIMENT_TEXT}")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8443 entries, 0 to 8442
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   doc_id  8443 non-null   int64 
 1   text    8443 non-null   object
dtypes: int64(1), object(1)
memory usage: 132.1+ KB
None
Texto traducido guardado en: c:\Users\Diego\Desktop\sentiment_analysis\data\tiktok\raw\tiktok_pre_sentiment_text.csv


## Cargar datos con polaridad

## Oraciones

In [11]:
from constants.constants_tiktok import TIKTOK_SENTIMENT_SENTENCES

df_sentiment_sentences = pd.read_csv(TIKTOK_SENTIMENT_SENTENCES, encoding="utf-8")
print(df_sentiment_sentences.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67551 entries, 0 to 67550
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   text      67551 non-null  object
 1   polarity  67551 non-null  object
 2   emotion   67551 non-null  object
dtypes: object(3)
memory usage: 1.5+ MB
None


In [5]:
from src.statistics.statistics import estadisticas_basicas
from src.statistics.statistics_plots import visualizacion_datos

estadisticas_basicas(df_sentiment_sentences)
visualizacion_datos(df_sentiment_sentences)

--- Estadísticas para la columna: text ---
Total de elementos de la columna text: 67551
+ Valores únicos   :	67551
+ Valores repetidos:	0
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: polarity ---
Total de elementos de la columna polarity: 67551
+ NEU: 49424 - 73.17%
+ NEG: 11590 - 17.16%
+ POS: 6537 - 9.68%
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: emotion ---
Total de elementos de la columna emotion: 67551
+ others  : 59740 - 88.44%
+ joy     : 5299 - 7.84%
+ anger   : 1045 - 1.55%
+ sadness :  931 - 1.38%
+ surprise:  401 - 0.59%
+ fear    :  129 - 0.19%
+ disgust :    6 - 0.01%
+ Valores nulos: 0 - 0.00%

Gráficos de la variable text omitidos


### Guardar datos para entrenamiento

In [12]:
%%time
# Aplicar NLP
from src.preprocesamiento.nlp_spacy import preprocesamiento
from constants.constants_nlp import POLARITY_MAP

# NLP
df_sentiment_sentences['text'] = preprocesamiento(df_sentiment_sentences['text'], stemming=True, lang="es")

# Etiquetas a formato numérico
df_sentiment_sentences['polarity'] = df_sentiment_sentences['polarity'].map(POLARITY_MAP)
df_sentiment_sentences.info()

Modelo cargado: es_core_news_sm


100%|██████████| 67551/67551 [00:56<00:00, 1195.60it/s]
67551it [00:56, 1191.96it/s]


Aplicando stemming...
Total de documentos preprocesados: 67551
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67551 entries, 0 to 67550
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   text      67551 non-null  object
 1   polarity  67551 non-null  int64 
 2   emotion   67551 non-null  object
dtypes: int64(1), object(2)
memory usage: 1.5+ MB
CPU times: total: 1min 7s
Wall time: 1min 8s


In [13]:
from constants.constants_tiktok import TIKTOK_DATASET_SENTENCES

df_sentiment_sentences.to_csv(TIKTOK_DATASET_SENTENCES, index=False)
print(f"Archivo guardado en: {TIKTOK_DATASET_SENTENCES}")

Archivo guardado en: c:\Users\Diego\Desktop\sentiment_analysis\data\tiktok\clean\tiktok_dataset_sentences.csv


## Textos

In [6]:
from constants.constants_tiktok import TIKTOK_SENTIMENT_TEXT

df_sentiment_text = pd.read_csv(TIKTOK_SENTIMENT_TEXT, encoding="utf-8")
print(df_sentiment_text.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8443 entries, 0 to 8442
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   text      8443 non-null   object
 1   polarity  8443 non-null   object
 2   emotion   8443 non-null   object
dtypes: object(3)
memory usage: 198.0+ KB
None


In [8]:
estadisticas_basicas(df_sentiment_text)
visualizacion_datos(df_sentiment_text)

--- Estadísticas para la columna: text ---
Total de elementos de la columna text: 8443
+ Valores únicos   :	8443
+ Valores repetidos:	0
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: polarity ---
Total de elementos de la columna polarity: 8443
+ NEU: 5775 - 68.40%
+ NEG: 1595 - 18.89%
+ POS: 1073 - 12.71%
+ Valores nulos: 0 - 0.00%

--- Estadísticas para la columna: emotion ---
Total de elementos de la columna emotion: 8443
+ others  : 6936 - 82.15%
+ joy     :  944 - 11.18%
+ anger   :  344 - 4.07%
+ sadness :  164 - 1.94%
+ surprise:   47 - 0.56%
+ fear    :    7 - 0.08%
+ disgust :    1 - 0.01%
+ Valores nulos: 0 - 0.00%

Gráficos de la variable text omitidos


### Guardar datos para enrtenamiento

In [7]:
%%time
# Aplicar NLP
from src.preprocesamiento.nlp_spacy import preprocesamiento
from constants.constants_nlp import POLARITY_MAP

# NLP
df_sentiment_text['text'] = preprocesamiento(df_sentiment_text['text'], stemming=True, lang="es")

# Convertir etiquetas a formato numérico
df_sentiment_text['polarity'] = df_sentiment_text['polarity'].map(POLARITY_MAP)


Modelo cargado: es_core_news_sm


100%|██████████| 8443/8443 [00:47<00:00, 178.63it/s]
8443it [00:47, 177.61it/s]


Aplicando stemming...
Total de documentos preprocesados: 8443
Archivo guardado en: c:\Users\Diego\Desktop\sentiment_analysis\data\tiktok\clean\tiktok_dataset_text.csv
CPU times: total: 59 s
Wall time: 1min


In [None]:
from constants.constants_tiktok import TIKTOK_DATASET_TEXT

df_sentiment_text.to_csv(TIKTOK_DATASET_TEXT, index=False)
print(f"Archivo guardado en: {TIKTOK_DATASET_TEXT}")