#GLOBAL PROJECT

**Postgrado en Inteligencia Artificial y Machine Learning (10ª edición)**

Leticia Cervieri Lores

**FASE INICIAL: Procesamiento y fusión de datasets**

##Carga de archivos y procesamiento de datos

Cargamos los diferentes datasets y procesamos los diferentes dataframes para asegurar que todos tengan el mismo formato:

[0] "text" --> str

[1] "region" --> int (binario 0=latam/1=europe)

[2] "dtst" --> str

[3] "label" --> int (binario 0=no_toxic/1=toxic)


In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

###HaSCoSVa

In [None]:
# Cargar el archivo del dataset HaSCoSVa en un dataframe
file_path = '/content/gpdata_hascosva.tsv'
df_h = pd.read_csv(file_path, sep='\t')

# Explorar el tamaño del dataframe
tamaño = df_h.shape
print(f"Tamaño del DataFrame HaSCoSVa: {tamaño}")

# Mostrar los nombres de las columnas
nombres_columnas = df_h.columns.tolist()
print(f"Nombres de las columnas: {nombres_columnas}")

Tamaño del DataFrame HaSCoSVa: (4000, 3)
Nombres de las columnas: ['text', 'label', 'variation']


In [None]:
# Mirar los primeros datos
df_h.head()

Unnamed: 0,text,label,variation
0,Avión venezolano: ocho tripulantes coinciden e...,0,latam
1,Aquí pidiéndole consejos al amigo veneco pa so...,0,latam
2,"@oamz Cínicos desinforman con guión preparado,...",0,latam
3,@oamj No se chama dime tu 🤭🤭🤣😛😅😅,0,latam
4,Gobierno de Bélgica ustedes que albergan a Raf...,0,latam


In [None]:
# Renombrar la columna 'variation' a 'region'
df_h.rename(columns={'variation': 'region'}, inplace=True)

# Crear la columna 'dtst' al final con el valor 'hascosva' para identificar el origen de los datos
df_h['dtst'] = 'hascosva'

In [None]:
# Comprobar la distribución de la columna 'label'
distribucion_label = df_h['label'].value_counts()
print("Distribución de 'label':")
print(distribucion_label)

# Comprobar la distribución de la columna 'region'
distribucion_region = df_h['region'].value_counts()
print("\nDistribución de 'region':")
print(distribucion_region)

Distribución de 'label':
label
0    3446
1     554
Name: count, dtype: int64

Distribución de 'region':
region
europe    2500
latam     1500
Name: count, dtype: int64


In [None]:
# Setear el campo 'region'
df_h['region'] = df_h['region'].replace({'europe': 1, 'latam': 0}).astype(int)

In [None]:
# Convertir la columna 'region' a int, asegurándose de que no haya valores no numéricos
df_h['region'] = pd.to_numeric(df_h['region'], errors='coerce').astype('Int64')

# Verificar el tipo de datos después de la conversión
print("Tipos de datos después de la conversión:")
print(df_h.dtypes)

Tipos de datos después de la conversión:
text      object
label      int64
region     Int64
dtst      object
dtype: object


In [None]:
# Comprobar el tipo de datos de cada columna
tipos_de_datos = df_h.dtypes
print("Tipos de datos por columna:")
print(tipos_de_datos)
print("\n")

# Comprobar valores nulos en cada columna
valores_nulos = df_h.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)
print("\n")

# Comprobar si hay duplicados
duplicados = df_h.duplicated().sum()
print(f"Número total de registros duplicados: {duplicados}")

Tipos de datos por columna:
text      object
label      int64
region     Int64
dtst      object
dtype: object


Valores nulos por columna:
text      0
label     0
region    0
dtst      0
dtype: int64


Número total de registros duplicados: 5


In [None]:
# Identificar los registros duplicados
duplicados = df_h[df_h.duplicated(keep=False)]  # keep=False muestra todas las filas duplicadas, no solo una

# Mostrar los registros duplicados
print(f"Registros duplicados encontrados: {duplicados.shape[0]}")
if duplicados.shape[0] > 0:
    print("Ejemplos de duplicados:")
    print(duplicados.head(10))  # Mostrar los primeros 10 registros duplicados

Registros duplicados encontrados: 10
Ejemplos de duplicados:
                                                   text  label  region  \
1036  El mapa de los refugiados de la guerra de Ucra...      0       0   
1039  Un inmigrante ghanés mata a un matrimonio en F...      0       0   
1321  Un inmigrante ghanés mata a un matrimonio en F...      0       0   
1332  El mapa de los refugiados de la guerra de Ucra...      0       0   
2204  📌 “No abras los labios si no estás seguro de q...      0       1   
2389  📌 “No abras los labios si no estás seguro de q...      0       1   
2526  El burkinés, comprometido con los países más m...      0       1   
2853  El burkinés, comprometido con los países más m...      0       1   
3125  Emigrar no tiene por qué ser complicado, lo im...      0       1   
3336  Emigrar no tiene por qué ser complicado, lo im...      0       1   

          dtst  
1036  hascosva  
1039  hascosva  
1321  hascosva  
1332  hascosva  
2204  hascosva  
2389  hascosva  
2526 

In [None]:
# Eliminar duplicados y conservar la primera aparición (comportamiento por defecto)
df_h = df_h.drop_duplicates(keep='first')

# Mostrar el tamaño del DataFrame después de eliminar duplicados
print(f"Tamaño del DataFrame después de eliminar duplicados: {df_h.shape}")

Tamaño del DataFrame después de eliminar duplicados: (3995, 4)


In [None]:
# Explorar nuevamente el tamaño del dataframe
tamaño = df_h.shape
print(f"Tamaño del DataFrame HaSCoSVa: {tamaño}")

# Mostrar los nombres de las columnas
nombres_columnas = df_h.columns.tolist()
print(f"Nombres de las columnas: {nombres_columnas}")

Tamaño del DataFrame HaSCoSVa: (3995, 4)
Nombres de las columnas: ['text', 'label', 'region', 'dtst']


###Multilingual Hate Speech

In [None]:
# Cargar el archivo del dataset Multilingual Hate Speech en un dataframe
file_path = '/content/gpdata_multilingual_hs.csv'
df_m = pd.read_csv(file_path)

# Explorar el tamaño del dataframe
tamaño = df_m.shape
print(f"Tamaño del DataFrame: {tamaño}")

# Mostrar los nombres de las columnas
nombres_columnas = df_m.columns.tolist()
print(f"Nombres de las columnas: {nombres_columnas}")

Tamaño del DataFrame: (4831, 11)
Nombres de las columnas: ['tid', 'uid', 'text', 'date', 'gender', 'age', 'city', 'state', 'country', 'ethnicity', 'label']


In [None]:
# Mirar los primeros datos
df_m.head()

Unnamed: 0,tid,uid,text,date,gender,age,city,state,country,ethnicity,label
0,-1477623926779534320,4570501476493327952,yo soy tu hija de puta y tú eres mi diablo,2017-12-12,x,x,x,x,0,x,0
1,6445360669531050465,-1765089166783033600,user user user cállate la puta boca ya que tie...,2017-12-12,1,1,x,x,x,0,0
2,103904265200762323,-6374982371790023876,user user user si quitas el callate la puta bo...,2017-12-12,x,x,x,x,x,x,0
3,1933176085040579553,4079549413960861897,user tu eres la pinche puta en esta amistad,2017-12-12,1,1,Bartlesville,Oklahoma,0,0,0
4,-6183178105032084348,8270967378800538440,user cállate zorra,2017-12-12,0,1,x,x,x,0,1


In [None]:
# Crear la columna 'dtst' al final con el valor 'multilingual' para identificar el origen de los datos
df_m['dtst'] = 'multilingual'

In [None]:
# Eliminar las columnas que no vamos a usar del dataframe df_m
df_m.drop(columns=['uid', 'tid', 'date', 'gender', 'age', 'ethnicity'], inplace=True)

# Mostrar las primeras filas del dataframe actualizado para verificar los cambios
print(df_m.shape)

(4831, 6)


In [None]:
# Obtener los valores únicos de las columnas 'city', 'state' y 'country'
valores_city = df_m['city'].unique()
valores_state = df_m['state'].unique()
valores_country = df_m['country'].unique()

# Mostrar los primeros 10 resultados de df_m y df_h, junto con su tipo
valores_city_head = valores_city[:10]
valores_state_head = valores_state[:10]
valores_country_head = valores_country[:10]

valores_city_head, valores_state_head, valores_country_head, type(valores_city), type(valores_state), type(valores_country)

(array(['x', 'Bartlesville', 'San Luis', 'Ituzaingó', 'Guatemala City',
        'Avellaneda', 'Buenos Aires', 'Puebla', 'Leavenworth', 'Bragado'],
       dtype=object),
 array(['x', 'Oklahoma', 'Arizona', 'Buenos Aires Province',
        'Guatemala Department', 'Carolina', ' Argentina', 'Trujillo Alto',
        'Buenos Aires', 'Entre Rios'], dtype=object),
 array(['0', 'x', '1'], dtype=object),
 numpy.ndarray,
 numpy.ndarray,
 numpy.ndarray)

In [None]:
# Obtener una lista de estados para cada país
lista_states_por_country = df_m.groupby('country')['state'].apply(lambda x: x.unique().tolist()).reset_index()

# Renombrar las columnas para mayor claridad
lista_states_por_country.columns = ['country', 'states']

# Mostrar el resultado
print(lista_states_por_country)

  country                                             states
0       0  [x, Oklahoma, Arizona, Buenos Aires Province, ...
1       1  [Catalonia, Castile and León, Castile-La Manch...
2       x                                                [x]


In [None]:
# Renombrar la columna 'country' a 'region'
df_m.rename(columns={'country': 'region'}, inplace=True)

In [None]:
# En df_m, eliminar los registros con valor 'x' en 'region'
df_m = df_m[df_m['region'] != 'x']

In [None]:
# Explorar los valores únicos del campo 'region' en df_m
valores_region_df_m = df_m['region'].unique()
print("Valores únicos de 'region' en df_m:")
print(valores_region_df_m)

Valores únicos de 'region' en df_m:
['0' '1']


In [None]:
# Convertir la columna 'region' a int, asegurándose de que no haya valores no numéricos
df_m['region'] = pd.to_numeric(df_m['region'], errors='coerce').astype('Int64')

# Verificar el tipo de datos después de la conversión
print("Tipos de datos después de la conversión:")
print(df_m.dtypes)

Tipos de datos después de la conversión:
text      object
city      object
state     object
region     Int64
label      int64
dtst      object
dtype: object


In [None]:
# Comprobar la distribución de la columna 'label'
distribucion_label = df_m['label'].value_counts()
print("Distribución de 'label':")
print(distribucion_label)

# Comprobar la distribución de la columna 'region'
distribucion_region = df_m['region'].value_counts()
print("\nDistribución de 'region':")
print(distribucion_region)

Distribución de 'label':
label
0    1774
1    1057
Name: count, dtype: int64

Distribución de 'region':
region
0    1847
1     984
Name: count, dtype: Int64


In [None]:
# Asegurarse de estar trabajando con una copia del DataFrame
df_m = df_m.copy()

# Eliminar las columnas 'city' y 'state' de forma segura
df_m.drop(columns=['city', 'state'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado para verificar los cambios
print(df_m.shape)
print(df_m.columns.tolist())

(2831, 4)
['text', 'region', 'label', 'dtst']


In [None]:
# Comprobar el tipo de datos de cada columna
tipos_de_datos = df_m.dtypes
print("Tipos de datos por columna:")
print(tipos_de_datos)
print("\n")

# Comprobar valores nulos en cada columna
valores_nulos = df_m.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)
print("\n")

# Comprobar si hay duplicados
duplicados = df_m.duplicated().sum()
print(f"Número total de registros duplicados: {duplicados}")

Tipos de datos por columna:
text      object
region     Int64
label      int64
dtst      object
dtype: object


Valores nulos por columna:
text      0
region    0
label     0
dtst      0
dtype: int64


Número total de registros duplicados: 13


In [None]:
# Identificar los registros duplicados
duplicados = df_m[df_m.duplicated(keep=False)]  # keep=False muestra todas las filas duplicadas, no solo una

# Mostrar los registros duplicados
print(f"Registros duplicados encontrados: {duplicados.shape[0]}")
if duplicados.shape[0] > 0:
    print("Ejemplos de duplicados:")
    print(duplicados.head(10))  # Mostrar los primeros 10 registros duplicados

Registros duplicados encontrados: 22
Ejemplos de duplicados:
                                                  text  region  label  \
132  . user estás muy callada hoy ? es verdad , no ...       1      0   
174                                 user cállate perra       0      1   
200                                  user cállate puta       0      1   
239                             user user callate puta       0      1   
241                                  user cállate puta       0      1   
244                                  user cállate puta       1      1   
247                                 user cállate zorra       0      1   
259                                  user callate puta       0      1   
262                                  user callate puta       0      1   
267                                  user callate puta       0      1   

             dtst  
132  multilingual  
174  multilingual  
200  multilingual  
239  multilingual  
241  multilingual  
244  multilingu

In [None]:
# Eliminar duplicados y conservar la primera aparición (comportamiento por defecto)
df_m = df_m.drop_duplicates(keep='first')

# Mostrar el tamaño del DataFrame después de eliminar duplicados
print(f"Tamaño del DataFrame después de eliminar duplicados: {df_m.shape}")

Tamaño del DataFrame después de eliminar duplicados: (2818, 4)


In [None]:
# Explorar nuevamente el tamaño del dataframe
tamaño = df_m.shape
print(f"Tamaño del DataFrame Multilingual HS: {tamaño}")

# Mostrar los nombres de las columnas
nombres_columnas = df_m.columns.tolist()
print(f"Nombres de las columnas: {nombres_columnas}")

Tamaño del DataFrame Multilingual HS: (2818, 4)
Nombres de las columnas: ['text', 'region', 'label', 'dtst']


###MEX_A3T

In [None]:
# Cargar el archivo UNIFICADO del dataset MEX_A3T en un dataframe
file_path = '/content/gpdata_mex_a3t.csv'
df_mex_unif = pd.read_csv(file_path)

# Explorar el tamaño del dataframe
tamaño = df_mex_unif.shape
print(f"Tamaño del DataFrame: {tamaño}")

# Mostrar los nombres de las columnas
nombres_columnas = df_mex_unif.columns.tolist()
print(f"Nombres de las columnas: {nombres_columnas}")

Tamaño del DataFrame: (6160, 2)
Nombres de las columnas: ['text', 'label']


In [None]:
# Mostrar los primeros registros
print(df_mex_unif.head())

                                                text  label
0  lo peor de todo es que no me dan por un tiempo...      0
1  a la vga no seas mamón 45 putos minutos despué...      0
2  considero que lo más conveniente seria que lo ...      0
3  el marica de mi ex me tiene bloqueada de todo ...      1
4  mujer despechadaya pinche amlo hazle esta que ...      0


In [None]:
# Crear la columna 'region' al final con el valor '0' para identificar latam
df_mex_unif['region'] = 0

In [None]:
# Crear la columna 'dtst' al final con el valor 'mex_a3t' para identificar el origen de los datos
df_mex_unif['dtst'] = 'mex_a3t'

In [None]:
# Comprobar la distribución de la columna 'label'
distribucion_label = df_mex_unif['label'].value_counts()
print("Distribución de 'label':")
print(distribucion_label)

# Comprobar la distribución de la columna 'region'
distribucion_region = df_mex_unif['region'].value_counts()
print("\nDistribución de 'region':")
print(distribucion_region)

Distribución de 'label':
label
0    3960
1    2200
Name: count, dtype: int64

Distribución de 'region':
region
0    6160
Name: count, dtype: int64


In [None]:
# Comprobar el tipo de datos de cada columna
tipos_de_datos = df_mex_unif.dtypes
print("Tipos de datos por columna:")
print(tipos_de_datos)
print("\n")

# Comprobar valores nulos en cada columna
valores_nulos = df_mex_unif.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)
print("\n")

# Comprobar si hay duplicados
duplicados = df_mex_unif.duplicated().sum()
print(f"Número total de registros duplicados: {duplicados}")

Tipos de datos por columna:
text      object
label      int64
region     int64
dtst      object
dtype: object


Valores nulos por columna:
text      0
label     0
region    0
dtst      0
dtype: int64


Número total de registros duplicados: 0


In [None]:
# Mostrar los nombres de las columnas otra vez
nombres_columnas = df_mex_unif.columns.tolist()
print(f"Revisar columnas: {nombres_columnas}")

Revisar columnas: ['text', 'label', 'region', 'dtst']


### Chileno

In [None]:
# Cargar el archivo del dataset chileno en un dataframe
file_path = '/content/gpdata_chileno.csv'
df_chileno = pd.read_csv(file_path)

# Explorar el tamaño del dataframe
tamaño = df_chileno.shape
print(f"Tamaño del DataFrame: {tamaño}")

# Mostrar los nombres de las columnas
nombres_columnas = df_chileno.columns.tolist()
print(f"Nombres de las columnas: {nombres_columnas}")

Tamaño del DataFrame: (20964, 21)
Nombres de las columnas: ['Unnamed: 0', 'caso', 'link', 'tweet a etiquetar', 'contexto', 'anónimo', 'género', 'mención migración', 'mención venezuela', 'mención política nacional', 'mención grupos marginalizados', 'mención otros', 'grosería c/int.', 'grosería s/int.', 'insulto/sobrenombre', 'hate speech/estereotipo', 'sarcasmo/ironía/burla', 'pregunta legítima', 'evidencia', 'figura femenina', 'figura masculina']


In [None]:
# Mostrar los primeros registros
print(df_chileno.head())

   Unnamed: 0     caso                                               link  \
0           0  23036.0  https://twitter.com/labrigidagon/status/140128...   
1           1  23057.0  https://twitter.com/karenseguelr/status/140270...   
2           2      NaN                                                NaN   
3           3      NaN                                                NaN   
4           4  23058.0  https://twitter.com/patrianueva2020/status/140...   

                                   tweet a etiquetar  \
0  Eran tan pero tan feministas que invisibilizab...   
1  @Eneatipo7 @Cooperativa @karina_ol Me carga en...   
2                                                NaN   
3                                                NaN   
4  , ¿Sabrán las femiorcas como @karina_ol y todo...   

                                            contexto  anónimo  género  \
0                                                NaN      1.0     2.0   
1                                                NaN  

In [None]:
# Renombrar la columna text
df_chileno.rename(columns={'tweet a etiquetar': 'text'}, inplace=True)

In [None]:
# Crear la columna 'region' al final con el valor '0' para identificar latam
df_chileno['region'] = 0

In [None]:
# Crear la columna 'dtst' al final con el valor 'chileno' para identificar el origen de los datos
df_chileno['dtst'] = 'chileno'

In [None]:
#setear valores
df_chileno['label'] = np.where(
    (df_chileno['grosería c/int.'] == 1.0) |
    (df_chileno['insulto/sobrenombre'] == 1.0) |
    (df_chileno['hate speech/estereotipo'] == 1.0),
    1,  # Valor si alguna de las condiciones es verdadera
    0   # Valor si todas las condiciones son falsas
)

In [None]:
#verificar forma y valores
df_chileno.shape

(20964, 24)

In [None]:
print(df_chileno.head())

   Unnamed: 0     caso                                               link  \
0           0  23036.0  https://twitter.com/labrigidagon/status/140128...   
1           1  23057.0  https://twitter.com/karenseguelr/status/140270...   
2           2      NaN                                                NaN   
3           3      NaN                                                NaN   
4           4  23058.0  https://twitter.com/patrianueva2020/status/140...   

                                                text  \
0  Eran tan pero tan feministas que invisibilizab...   
1  @Eneatipo7 @Cooperativa @karina_ol Me carga en...   
2                                                NaN   
3                                                NaN   
4  , ¿Sabrán las femiorcas como @karina_ol y todo...   

                                            contexto  anónimo  género  \
0                                                NaN      1.0     2.0   
1                                                NaN  

In [None]:
df_chileno.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20964 entries, 0 to 20963
Data columns (total 24 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Unnamed: 0                     20964 non-null  int64  
 1   caso                           9834 non-null   float64
 2   link                           9834 non-null   object 
 3   text                           9834 non-null   object 
 4   contexto                       11130 non-null  object 
 5   anónimo                        9834 non-null   float64
 6   género                         9834 non-null   float64
 7   mención migración              9834 non-null   float64
 8   mención venezuela              9834 non-null   float64
 9   mención política nacional      9834 non-null   float64
 10  mención grupos marginalizados  9834 non-null   float64
 11  mención otros                  9834 non-null   float64
 12  grosería c/int.                9834 non-null  

In [None]:
# Eliminar las columnas en las posiciones 1, 2 y desde la 4 hasta la 20
columnas_a_eliminar = list(range(0, 3)) + list(range(4, 21))

df_chileno.drop(df_chileno.columns[columnas_a_eliminar], axis=1, inplace=True)

# Mostrar las primeras filas del dataframe actualizado para verificar los cambios
print(df_chileno.shape)

(20964, 4)


In [None]:
# Comprobar la distribución de la columna 'label'
distribucion_label = df_chileno['label'].value_counts()
print("Distribución de 'label':")
print(distribucion_label)

# Comprobar la distribución de la columna 'region'
distribucion_region = df_chileno['region'].value_counts()
print("\nDistribución de 'region':")
print(distribucion_region)

Distribución de 'label':
label
0    15361
1     5603
Name: count, dtype: int64

Distribución de 'region':
region
0    20964
Name: count, dtype: int64


In [None]:
# Comprobar el tipo de datos de cada columna
tipos_de_datos = df_chileno.dtypes
print("Tipos de datos por columna:")
print(tipos_de_datos)
print("\n")

# Comprobar valores nulos en cada columna
valores_nulos = df_chileno.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)
print("\n")

# Comprobar si hay duplicados
duplicados = df_chileno.duplicated().sum()
print(f"Número total de registros duplicados: {duplicados}")

Tipos de datos por columna:
text      object
region     int64
dtst      object
label      int64
dtype: object


Valores nulos por columna:
text      11130
region        0
dtst          0
label         0
dtype: int64


Número total de registros duplicados: 11431


In [None]:
# Eliminar los registros con valores nulos en la columna 'text'
df_chileno_sin_nulos = df_chileno.dropna(subset=['text'])

# Verificar si quedan valores nulos en el DataFrame
valores_nulos = df_chileno_sin_nulos.isnull().sum()
print("Valores nulos por columna después de eliminar:")
print(valores_nulos)

# Mostrar el tamaño del DataFrame después de eliminar los registros nulos
print(f"Tamaño del DataFrame después de eliminar nulos: {df_chileno_sin_nulos.shape}")

Valores nulos por columna después de eliminar:
text      0
region    0
dtst      0
label     0
dtype: int64
Tamaño del DataFrame después de eliminar nulos: (9834, 4)


In [None]:
# Mostrar los nombres de las columnas otra vez
nombres_columnas = df_chileno.columns.tolist()
print(f"Revisar columnas: {nombres_columnas}")

Revisar columnas: ['text', 'region', 'dtst', 'label']


### StereoHoax-ES


In [None]:
# Cargar el archivo del dataset StereoHoax-ES desde Detest unificado en un dataframe
file_path = '/content/gpdata_detests.csv'
df_stereohoax = pd.read_csv(file_path)

# Explorar el tamaño del dataframe
tamaño = df_stereohoax.shape
print(f"Tamaño del DataFrame: {tamaño}")

# Mostrar los nombres de las columnas
nombres_columnas = df_stereohoax.columns.tolist()
print(f"Nombres de las columnas: {nombres_columnas}")

Tamaño del DataFrame: (12111, 18)
Nombres de las columnas: ['source', 'id', 'comment_id', 'text', 'level2', 'level3', 'level4', 'stereotype_a1', 'stereotype_a2', 'stereotype_a3', 'stereotype', 'stereotype_soft', 'implicit_a1', 'implicit_a2', 'implicit_a3', 'implicit', 'implicit_soft', 'level1']


In [None]:
# Mostrar los primeros registros
print(df_stereohoax.head())

       source      id comment_id  \
0  stereohoax  s_4277     s_4277   
1  stereohoax  s_4278     s_4278   
2  stereohoax  s_4279     s_4279   
3  stereohoax  s_4280     s_4280   
4  stereohoax  s_4281     s_4281   

                                                text  level2  level3 level4  \
0  Os cuento la historia de las trabajadoras marr...       0  s_4277  SP014   
1  En Huelva hay 7000 hectáreas dedicadas a la ag...  s_4277  s_4277  SP014   
2  En el año 2000 comenzó la contratación en orig...  s_4280  s_4277  SP014   
3  Desde los años 90 la principal mano de obra ha...  s_4278  s_4277  SP014   
4  En los asentamientos vive el ejército de mano ...  s_4282  s_4282  SP014   

   stereotype_a1  stereotype_a2  stereotype_a3  stereotype  stereotype_soft  \
0              0              0              0           0           0.0474   
1              0              0              0           0           0.0474   
2              0              0              0           0           0.

In [None]:
# Contar los registros donde 'source' es igual a 'stereohoax'
num_registros_stereohoax = df_stereohoax[df_stereohoax['source'] == "stereohoax"].shape[0]

# Mostrar el número de registros
print(f"Número de registros donde 'source' es igual a 'stereohoax': {num_registros_stereohoax}")

Número de registros donde 'source' es igual a 'stereohoax': 5349


In [None]:
#Filtrar los registros donde 'source' es igual a 'stereohoax'
df_stereohoax = df_stereohoax[df_stereohoax['source'] == "stereohoax"]

In [None]:
# Ver otra vez el tamaño del dataframe
tamaño = df_stereohoax.shape
print(f"Tamaño del DataFrame: {tamaño}")

Tamaño del DataFrame: (5349, 18)


In [None]:
# Renombrar la columna dtst
df_stereohoax.rename(columns={'source': 'dtst'}, inplace=True)

In [None]:
# Crear la columna 'region' al final con el valor '1' para identificar latam
df_stereohoax['region'] = 1

In [None]:
#setear valores para el label
df_stereohoax['label'] = np.where(
    (df_stereohoax['stereotype'] == 1.0) |
    (df_stereohoax['implicit'] == 1.0),
    1,  # Valor si alguna de las condiciones es verdadera
    0   # Valor si todas las condiciones son falsas
)

In [None]:
df_stereohoax.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5349 entries, 0 to 12110
Data columns (total 20 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   dtst             5349 non-null   object 
 1   id               5349 non-null   object 
 2   comment_id       5349 non-null   object 
 3   text             5349 non-null   object 
 4   level2           5349 non-null   object 
 5   level3           5349 non-null   object 
 6   level4           5349 non-null   object 
 7   stereotype_a1    5349 non-null   int64  
 8   stereotype_a2    5349 non-null   int64  
 9   stereotype_a3    5349 non-null   int64  
 10  stereotype       5349 non-null   int64  
 11  stereotype_soft  5349 non-null   float64
 12  implicit_a1      5349 non-null   int64  
 13  implicit_a2      5349 non-null   int64  
 14  implicit_a3      5349 non-null   int64  
 15  implicit         5349 non-null   int64  
 16  implicit_soft    5349 non-null   float64
 17  level1           5

In [None]:
# Comprobar la distribución de la columna 'label'
distribucion_label = df_stereohoax['label'].value_counts()
print("Distribución de 'label':")
print(distribucion_label)

# Comprobar la distribución de la columna 'region'
distribucion_region = df_stereohoax['region'].value_counts()
print("\nDistribución de 'region':")
print(distribucion_region)

Distribución de 'label':
label
0    3745
1    1604
Name: count, dtype: int64

Distribución de 'region':
region
1    5349
Name: count, dtype: int64


In [None]:
# Eliminar las columnas en la posición 2 y desde la posición 4 hasta la 17
columnas_a_eliminar = [1] + [2] + list(range(4, 18))  # Incluir la posición 2 y el rango 4-17

df_stereohoax.drop(df_stereohoax.columns[columnas_a_eliminar], axis=1, inplace=True)

# Mostrar las primeras filas del dataframe actualizado para verificar los cambios
print(df_stereohoax.shape)

(5349, 4)


In [None]:
# Comprobar el tipo de datos de cada columna
tipos_de_datos = df_stereohoax.dtypes
print("Tipos de datos por columna:")
print(tipos_de_datos)
print("\n")

# Comprobar valores nulos en cada columna
valores_nulos = df_stereohoax.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)
print("\n")

# Comprobar si hay duplicados
duplicados = df_stereohoax.duplicated().sum()
print(f"Número total de registros duplicados: {duplicados}")

Tipos de datos por columna:
dtst      object
text      object
region     int64
label      int64
dtype: object


Valores nulos por columna:
dtst      0
text      0
region    0
label     0
dtype: int64


Número total de registros duplicados: 8


In [None]:
# Eliminar duplicados y conservar la primera aparición (comportamiento por defecto)
df_stereohoax = df_stereohoax.drop_duplicates(keep='first')

# Mostrar el tamaño del DataFrame después de eliminar duplicados
print(f"Tamaño del DataFrame después de eliminar duplicados: {df_stereohoax.shape}")

Tamaño del DataFrame después de eliminar duplicados: (5341, 4)


In [None]:
# Mostrar los nombres de las columnas otra vez
nombres_columnas = df_stereohoax.columns.tolist()
print(f"Revisar columnas: {nombres_columnas}")

Revisar columnas: ['dtst', 'text', 'region', 'label']


###Gender Bias in Spanish Tweets

In [None]:
# Cargar el archivo del dataset Gender Bias en un dataframe
file_path = '/content/gpdata_gender_bias.csv'
df_gender_bias = pd.read_csv(file_path)

# Explorar el tamaño del dataframe
tamaño = df_gender_bias.shape
print(f"Tamaño del DataFrame: {tamaño}")

# Mostrar los nombres de las columnas
nombres_columnas = df_gender_bias.columns.tolist()
print(f"Nombres de las columnas: {nombres_columnas}")

Tamaño del DataFrame: (1914, 2)
Nombres de las columnas: ['Contents', 'Label']


In [None]:
# Renombrar la columna text
df_gender_bias.rename(columns={'Contents': 'text'}, inplace=True)

In [None]:
# Renombrar la columna label
df_gender_bias.rename(columns={'Label': 'label'}, inplace=True)

In [None]:
# Crear la columna 'region' al final con el valor '1' para identificar españa
df_gender_bias['region'] = 1

In [None]:
# Crear la columna 'dtst' al final con el valor 'gender_bias' para identificar el origen de los datos
df_gender_bias['dtst'] = 'gender_bias'

In [None]:
# Comprobar la distribución de la columna 'label'
distribucion_label = df_gender_bias['label'].value_counts()
print("Distribución de 'label':")
print(distribucion_label)

# Comprobar la distribución de la columna 'region'
distribucion_region = df_gender_bias['region'].value_counts()
print("\nDistribución de 'region':")
print(distribucion_region)

Distribución de 'label':
label
non-biased    1596
biased         318
Name: count, dtype: int64

Distribución de 'region':
region
1    1914
Name: count, dtype: int64


In [None]:
# En df_gender_bias, setear el campo 'label'
df_gender_bias['label'] = df_gender_bias['label'].replace({'non-biased': 0, 'biased': 1}).astype(int)

In [None]:
# Convertir la columna 'region' a int, asegurándose de que no haya valores no numéricos
df_gender_bias['label'] = pd.to_numeric(df_gender_bias['label'], errors='coerce').astype('Int64')

# Verificar el tipo de datos después de la conversión
print("Tipos de datos después de la conversión:")
print(df_gender_bias.dtypes)

# Mostrar las primeras filas para verificar
print(df_gender_bias.head())

Tipos de datos después de la conversión:
text      object
label      Int64
region     int64
dtst      object
dtype: object
                                                text  label  region  \
0  @chumeltorres ya cabrón! sin tí se reciben las...      1       1   
1  ¿alguien es tan amable de ir a hacerme la comp...      0       1   
2  @jenniferduquee hahaha, si está rico, nadamas ...      0       1   
3  @evagelcot donde lo ves!!? es mi programa favo...      0       1   
4  como siempre mi tortilla triunfa mas que otros...      0       1   

          dtst  
0  gender_bias  
1  gender_bias  
2  gender_bias  
3  gender_bias  
4  gender_bias  


In [None]:
# Mostrar los primeros registros
print(df_gender_bias.head())

                                                text  label  region  \
0  @chumeltorres ya cabrón! sin tí se reciben las...      1       1   
1  ¿alguien es tan amable de ir a hacerme la comp...      0       1   
2  @jenniferduquee hahaha, si está rico, nadamas ...      0       1   
3  @evagelcot donde lo ves!!? es mi programa favo...      0       1   
4  como siempre mi tortilla triunfa mas que otros...      0       1   

          dtst  
0  gender_bias  
1  gender_bias  
2  gender_bias  
3  gender_bias  
4  gender_bias  


In [None]:
# Comprobar el tipo de datos de cada columna
tipos_de_datos = df_gender_bias.dtypes
print("Tipos de datos por columna:")
print(tipos_de_datos)
print("\n")

# Comprobar valores nulos en cada columna
valores_nulos = df_gender_bias.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)
print("\n")

# Comprobar si hay duplicados
duplicados = df_gender_bias.duplicated().sum()
print(f"Número total de registros duplicados: {duplicados}")

Tipos de datos por columna:
text      object
label      Int64
region     int64
dtst      object
dtype: object


Valores nulos por columna:
text      0
label     0
region    0
dtst      0
dtype: int64


Número total de registros duplicados: 0


In [None]:
# Mostrar los nombres de las columnas otra vez
nombres_columnas = df_gender_bias.columns.tolist()
print(f"Revisar columnas: {nombres_columnas}")

Revisar columnas: ['text', 'label', 'region', 'dtst']


##Fusión de datasets

In [None]:
# Comprobar los campos de todos los dataframes

print(f"HaSCoSVa: {df_h.columns.tolist()}")
print(f"Multilingual: {df_m.columns.tolist()}")
print(f"MEX_A3T: {df_mex_unif.columns.tolist()}")
print(f"Chileno: {df_chileno.columns.tolist()}")
print(f"StereoHoax: {df_stereohoax.columns.tolist()}")
print(f"GenderBias: {df_gender_bias.columns.tolist()}")


HaSCoSVa: ['text', 'region', 'dtst', 'label']
Multilingual: ['text', 'region', 'dtst', 'label']
MEX_A3T: ['text', 'region', 'dtst', 'label']
Chileno: ['text', 'region', 'dtst', 'label']
StereoHoax: ['dtst', 'text', 'region', 'label']
GenderBias: ['text', 'label', 'region', 'dtst']


In [None]:
# Convertir la columna 'region' a int64 en todos los dataframes
df_h['region'] = df_h['region'].astype(int)
df_m['region'] = df_m['region'].astype(int)
df_mex_unif['region'] = df_mex_unif['region'].astype(int)
df_chileno['region'] = df_chileno['region'].astype(int)
df_stereohoax['region'] = df_stereohoax['region'].astype(int)
df_gender_bias['region'] = df_gender_bias['region'].astype(int)

In [None]:
# Convertir la columna 'label' a int64 en todos los dataframes
df_h['label'] = df_h['label'].astype(int)
df_m['label'] = df_m['label'].astype(int)
df_mex_unif['label'] = df_mex_unif['label'].astype(int)
df_chileno['label'] = df_chileno['label'].astype(int)
df_stereohoax['label'] = df_stereohoax['label'].astype(int)
df_gender_bias['label'] = df_gender_bias['label'].astype(int)

In [None]:
# Reordenar las columnas de cada dataframe
df_h = df_h[['text', 'region', 'dtst', 'label']]
df_m = df_m[['text', 'region', 'dtst', 'label']]
df_mex_unif = df_mex_unif[['text', 'region', 'dtst', 'label']]
df_chileno = df_chileno[['text', 'region', 'dtst', 'label']]
df_stereohoax = df_stereohoax[['text', 'region', 'dtst', 'label']]
df_gender_bias = df_gender_bias[['text', 'region', 'dtst', 'label']]

# Unificar todos los datasets
df_unificado = pd.concat([df_h, df_m, df_mex_unif, df_chileno, df_stereohoax, df_gender_bias], ignore_index=True)

# Verificar el tamaño y los primeros registros del dataframe unificado
print(f"Tamaño del dataframe unificado: {df_unificado.shape}")
print(df_unificado.head())

Tamaño del dataframe unificado: (41192, 4)
                                                text  region      dtst  label
0  Avión venezolano: ocho tripulantes coinciden e...       0  hascosva      0
1  Aquí pidiéndole consejos al amigo veneco pa so...       0  hascosva      0
2  @oamz Cínicos desinforman con guión preparado,...       0  hascosva      0
3                   @oamj No se chama dime tu 🤭🤭🤣😛😅😅       0  hascosva      0
4  Gobierno de Bélgica ustedes que albergan a Raf...       0  hascosva      0


In [None]:
# Mostrar información del dataframe unificado
print("Dimensiones del dataframe:", df_unificado.shape)
print("\nTipos de datos:\n", df_unificado.dtypes)
print("\nDataFrame unificado: ", df_unificado.info())

Dimensiones del dataframe: (41192, 4)

Tipos de datos:
 text      object
region     int64
dtst      object
label      int64
dtype: object
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41192 entries, 0 to 41191
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    30062 non-null  object
 1   region  41192 non-null  int64 
 2   dtst    41192 non-null  object
 3   label   41192 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 1.3+ MB

DataFrame unificado:  None


In [None]:
# Comprobar el tipo de datos de cada columna
tipos_de_datos = df_unificado.dtypes
print("Tipos de datos por columna:")
print(tipos_de_datos)
print("\n")

# Comprobar valores nulos en cada columna
valores_nulos = df_unificado.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)
print("\n")

# Comprobar si hay duplicados
duplicados = df_unificado.duplicated().sum()
print(f"Número total de registros duplicados: {duplicados}")

Tipos de datos por columna:
text      object
region     int64
dtst      object
label      int64
dtype: object


Valores nulos por columna:
text      11130
region        0
dtst          0
label         0
dtype: int64


Número total de registros duplicados: 11431


In [None]:
# Identificar los registros duplicados
duplicados = df_unificado[df_unificado.duplicated(keep=False)]  # keep=False muestra todas las filas duplicadas, no solo una

# Mostrar los registros duplicados
print(f"Registros duplicados encontrados: {duplicados.shape[0]}")
if duplicados.shape[0] > 0:
    print("Ejemplos de duplicados:")
    print(duplicados.head(10))  # Mostrar los primeros 10 registros duplicados

Registros duplicados encontrados: 11734
Ejemplos de duplicados:
      text  region     dtst  label
12975  NaN       0  chileno      0
12976  NaN       0  chileno      0
12979  NaN       0  chileno      0
12980  NaN       0  chileno      0
12981  NaN       0  chileno      0
12983  NaN       0  chileno      0
12985  NaN       0  chileno      0
12988  NaN       0  chileno      0
12990  NaN       0  chileno      0
12992  NaN       0  chileno      0


In [None]:
# Eliminar duplicados y conservar la primera aparición (comportamiento por defecto)
df_unificado = df_unificado.drop_duplicates(keep='first')

# Mostrar el tamaño del DataFrame después de eliminar duplicados
print(f"Tamaño del DataFrame después de eliminar duplicados: {df_unificado.shape}")

Tamaño del DataFrame después de eliminar duplicados: (29761, 4)


In [None]:
print("Dimensiones del dataframe:", df_unificado.shape)

Dimensiones del dataframe: (29761, 4)


In [None]:
# Exportar el dataframe a un archivo CSV
df_unificado.to_csv('tweets_toxicos_fusion.csv', index=False)