In [1]:
import json
import pandas as pd
import chardet
import re

In [None]:
# Leer los primeros bytes del archivo para detectar la codificación
with open('tioberny.txt', 'rb') as file:
    raw_data = file.read()

# Detectar la codificación
result = chardet.detect(raw_data)
encoding = result['encoding']

# Lista para almacenar todos los objetos JSON
data_list = []

# Leer el archivo línea por línea
with open('tioberny.txt', 'r', encoding=encoding) as file:
    for line in file:
        try:
            # Intentar convertir cada línea en un objeto JSON
            json_data = json.loads(line)
            data_list.append(json_data)
        except json.JSONDecodeError as e:
            print(f"Error en la línea: {line}, error: {e}")

# Crear un DataFrame con todos los objetos JSON
df = pd.json_normalize(data_list)

# Mostrar el DataFrame
df


# 3 Preprocesamiento de Datos

#### Convertir texto a minúsculas

In [3]:
df['rawContent'] = df['rawContent'].str.lower()


#### Eliminar caracteres especiales como “@”, “#”, urls, emoticonos:

In [4]:

# Eliminar URLs
df['rawContent'] = df['rawContent'].apply(lambda x: re.sub(r'http\S+', '', x))

# Eliminar menciones, hashtags y emoticonos
df['rawContent'] = df['rawContent'].apply(lambda x: re.sub(r'[@#]\w+', '', x))

# Eliminar emoticonos unicode
df['rawContent'] = df['rawContent'].str.replace(r'[^\x00-\x7F]+', '', regex=True)

# Eliminar signos de puntuación
df['rawContent'] = df['rawContent'].apply(lambda x: re.sub(r'[^\w\s]', '', x))


#### Eliminar stopwords y números

In [5]:
from nltk.corpus import stopwords

stop_words = set(stopwords.words('spanish'))
df['rawContent'] = df['rawContent'].apply(lambda x: ' '.join([word for word in x.split() if word not in stop_words]))


#### Eliminar duplicados

In [6]:
df.drop_duplicates(subset=['id'], inplace=True)
