In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import json

In [2]:
def copiar_primeiros_registros(input_file, output_file, num_records):
    with open(input_file, 'r', encoding='utf-8') as infile, open(output_file, 'w', encoding='utf-8') as outfile:
        for i, line in enumerate(infile):
            if i < num_records:
                outfile.write(line)
            else:
                break

# Caminhos dos arquivos de entrada e saída
input_file = 'corpus.jsonl'
output_file = 'corpus_mini.jsonl'

# Número de registros a serem copiados
num_records = 10000

# Executar a função de cópia
copiar_primeiros_registros(input_file, output_file, num_records)


In [3]:
# Carregar os dados JSON em um DataFrame
#df = pd.read_json('corpus.jsonl',lines=True)
df = pd.read_json('corpus_mini.jsonl',lines=True)

In [4]:
# Pré-processamento: Limpeza de texto (opcional, dependendo do caso)
def preprocess_text(text):
    text = text.lower()  # Converter para minúsculas
    # Adicionar outras etapas de limpeza se necessário (remoção de pontuação, stop words, etc.)
    return text

In [5]:
df['title'] = df['title'].apply(preprocess_text)
df['text'] = df['text'].apply(preprocess_text)

In [6]:
# Combinar título e descrição em um único campo
df['combined'] = df['title'] + ' ' + df['text']

# Geração de Features: Usar TF-IDF para transformar texto em features
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['combined'])

In [7]:
# Transformar a matriz TF-IDF em um DataFrame
features = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())

In [8]:
# Adicionar as features ao DataFrame original
df_features = pd.concat([df, features], axis=1)

In [9]:
# Exibir o DataFrame com as features geradas
print(df_features)

      docid                                              title  \
0         1  fyy leather case with mirror for samsung galax...   
1         2  playtex women's 18 hour easy on, easy off fron...   
2         4  yuepin u-tube clamp 304 stainless steel hose p...   
3         5            bruce's big storm (mother bruce series)   
4         6  dji shoulder neck strap belt sling lanyard nec...   
...     ...                                                ...   
9995  14926  rhino trunk & case camp & college trunk with r...   
9996  14929       ajax triple action orange(414ml) (pack of 3)   
9997  14930  tablet 10 inch android 10.0 yestel tablets 5g/...   
9998  14931  fse robline white whipping twine kit w/ needle...   
9999  14932  2pcs toothpaste whitening foam，citrus baking s...   

                                                   text  \
0     product description premium pu leather top qua...   
1     product description introducing playtex 18 hou...   
2     product description spec