# Converter XML para dataframe Pandas

Importar as biblitecas necessárias

In [2]:
import pandas as pd
import requests
from xmltopd import extract_dataframe
import nltk
import json
import numpy as np

## Função para inserção de categoria

In [1]:
def insert_category_and_tokenized_text(document: dict, category: str) -> dict:
    tokenized_text: list[str] = nltk.sent_tokenize(document.get("description", "No text"))
    
    document["description"] = "\n".join(tokenized_text)
    document["category"] = category
    
    return document

Fazer as requisições à API e destrinchar os XML.

In [16]:
news_categories: list[str] = [
    "brasil",
    "carros",
    "ciencia_e_saude",
    "concursos_e_emprego",
    "economia",
    "educacao",
    "loterias",
    "mundo",
    "musica",
    "natureza",
    "planeta-bizarro",
    "politica",
    "pop-arte",
    "tecnologia",
    "turismo-e-viagem"
]

news: list[dict] = []

for category in news_categories:
    news += [insert_category_and_tokenized_text(document=doc, category=category) for doc in extract_dataframe(
        requests.get("https://g1.globo.com/rss/g1/" + category + "/").text
    )]

news

SSLError: HTTPSConnectionPool(host='g1.globo.com', port=443): Max retries exceeded with url: /rss/g1/brasil/ (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1006)')))

Criar um *dataframe* Pandas a partir dos dados

In [31]:
news_df: pd.DataFrame = pd.DataFrame(news)[["title", "description", "category"]].sample(frac=1)
news_df
    

Unnamed: 0,title,description,category
1112,Cientista e engenheiro de dados estão em alta ...,Com desafio de encontrar mão de obra qualif...,tecnologia
1105,Engenheira de dados desvenda desafios da área ...,Apesar de salários que podem passar de R$ 2...,tecnologia
60,Polícia invade festa de facção criminosa no Ce...,Com o grupo foram encontrados armas de fog...,brasil
438,Resultado da Mega-Sena: 47 apostas da região a...,"Já no sorteio da Lotofácil, apostadores de ...",loterias
338,"Unicamp 2025: veja quando será o vestibular, d...",Comissão responsável pelo processo seletivo...,educacao
...,...,...,...
66,Prefeitura abre processo para contratação de e...,Interessados devem entregar documentos de ...,brasil
237,Reforma tributária: imposto sobre herança ou d...,Texto da reforma prevê que imposto passe a ...,economia
37,Padre é atropelado por motorista embriagado pe...,Teste do etilômetro apontou resultado três...,brasil
536,Eclipse solar na América do Norte leva multidã...,Preços de hospedagem e passagens aéreas exp...,mundo


Escrever *dataset* em **csv**

In [3]:
news_df.to_csv("g1.csv")

NameError: name 'news_df' is not defined

In [7]:
news_df = pd.read_csv("g1.csv")
dict(news_df.iloc[0])

{'Unnamed: 0': 1112,
 'title': 'Cientista e engenheiro de dados estão em alta e têm salário que pode passar de R$ 20 mil; veja como entrar',
 'description': '   Com desafio de encontrar mão de obra qualificada, profissões seguem em alta em 2024 porque empresas valorizam cada vez mais o uso de dados na tomada de decisões.\nO g1 conversou com pessoas envolvidas nessas áreas para entender como está o mercado de trabalho.\nCientista e engenheiro de dados estão em alta e têm salário que pode passar de R$ 20 mil; veja como entrar\nArquivo pessoal\nNo universo da tecnologia da informação (TI), as áreas de cientista e engenheiro de dados são as atuais queridinhas do momento.\nElas oferecem salários realmente atrativos, mas encontram barreiras para procurar profissionais.\n➡️ Eis a explicação: elas são relativamente novas e fazem parte do boom da IA generativa.\nAs empresas estão atrás de quem realmente domina o assunto, mas são poucos aqueles que estão preparados.\nQuem já conseguiu se qualifi

Escrever para arquivo

Caso não queira aleatorizar o tamanho dos arquivos, importe a lista com os seus tamanhos de um arquivo salvo. Caso contrário, não execute esta célula

In [76]:
number_docs_series_dict_train: dict = {}
number_docs_series_dict_test: dict = {}
number_docs_series_dict_validation: dict = {}

with open("number_docs_train.json") as f_in:
    number_docs_series_dict_train = json.load(f_in)
    
with open("number_docs_test.json") as f_in:
    number_docs_series_dict_test = json.load(f_in)
    
with open("number_docs_val.json") as f_in:
    number_docs_series_dict_test = json.load(f_in)
    
number_docs_series_dict_train

{'number_docs': [2,
  4,
  1,
  4,
  4,
  1,
  1,
  3,
  4,
  2,
  2,
  3,
  2,
  3,
  5,
  2,
  2,
  4,
  3,
  3,
  3,
  3,
  1,
  2,
  2,
  3,
  2,
  1,
  3,
  5,
  3,
  2,
  4,
  2,
  4,
  1,
  1,
  4,
  5,
  5,
  3,
  1,
  3,
  3,
  4,
  3,
  5,
  1,
  1,
  1,
  3,
  1,
  2,
  4,
  3,
  2,
  4,
  2,
  1,
  1,
  5,
  4,
  4,
  1,
  5,
  2,
  4,
  2,
  3,
  1,
  2,
  1,
  5,
  2,
  3,
  3,
  5,
  5,
  4,
  1,
  3,
  1,
  2,
  5,
  2,
  2,
  1,
  5,
  1,
  2,
  4,
  2,
  4,
  3,
  2,
  4,
  3,
  1,
  1,
  3,
  1,
  3,
  3,
  4,
  3,
  4,
  3,
  3,
  3,
  5,
  2,
  1,
  5,
  4,
  3,
  2,
  4,
  3,
  3,
  4,
  5,
  5,
  2,
  4,
  3,
  1,
  2,
  1,
  3,
  3,
  4,
  5,
  4,
  4,
  5,
  1,
  1,
  1,
  1,
  2,
  1,
  4,
  1,
  4,
  5,
  2,
  2,
  4,
  1,
  1,
  2,
  1,
  5,
  4,
  1,
  2,
  4,
  1,
  4,
  3,
  4,
  4,
  3,
  1,
  4,
  5,
  5,
  5,
  3,
  2,
  2,
  2,
  4,
  3,
  3,
  4,
  4,
  1,
  1,
  1,
  5,
  5,
  4,
  3,
  1,
  3,
  2,
  5,
  2,
  3,
  1,
  1,
  2,
  1,
  5,
  1,
  4,


Importa *dataset* salvo e divide em conjuntos de treino, teste e validação.

In [42]:
import os, sys

sys.path.append("../utils")

from convert_segformer import generate_segformer_docs

news_df: pd.DataFrame = pd.read_csv("g1.csv")

train_df, test_df, val_df = np.split(news_df, [int(0.7 * len(news_df)), int(0.9 * len(news_df))])
train_df



  return bound(*args, **kwds)


Unnamed: 0.1,Unnamed: 0,title,description,category
0,1112,Cientista e engenheiro de dados estão em alta ...,Com desafio de encontrar mão de obra qualif...,tecnologia
1,1105,Engenheira de dados desvenda desafios da área ...,Apesar de salários que podem passar de R$ 2...,tecnologia
2,60,Polícia invade festa de facção criminosa no Ce...,Com o grupo foram encontrados armas de fog...,brasil
3,438,Resultado da Mega-Sena: 47 apostas da região a...,"Já no sorteio da Lotofácil, apostadores de ...",loterias
4,338,"Unicamp 2025: veja quando será o vestibular, d...",Comissão responsável pelo processo seletivo...,educacao
...,...,...,...,...
904,133,"Alagamento, inundação e queda de árvore: saiba...",Preço médio da modalidade cresceu em dois a...,carros
905,794,"Recém-descoberta, espécie de árvore gigante da...",Dipteryx hermetopascoaliana pode alcançar a...,natureza
906,337,Enem 2023: 'espelhos' da redação estão disponí...,"Inep libera, em todas as edições, a versão ...",educacao
907,1195,Golpe da vaquinha: veja momento em que mulher ...,Stephani Santos Barbosa também viu a própri...,tecnologia


Estatísticas do conjunto de treino

In [36]:
news_categories: list[str] = [
    "brasil",
    "carros",
    "ciencia_e_saude",
    "concursos_e_emprego",
    "economia",
    "educacao",
    "loterias",
    "mundo",
    "musica",
    "natureza",
    "planeta-bizarro",
    "politica",
    "pop-arte",
    "tecnologia",
    "turismo-e-viagem"
]

[{ "category": cat, "abs_frequency": list(train_df["category"]).count(cat), "rel_frequency": list(train_df["category"]).count(cat) / len(train_df)} for cat in news_categories]

[{'category': 'brasil',
  'abs_frequency': 71,
  'rel_frequency': 0.0781078107810781},
 {'category': 'carros',
  'abs_frequency': 68,
  'rel_frequency': 0.0748074807480748},
 {'category': 'ciencia_e_saude', 'abs_frequency': 0, 'rel_frequency': 0.0},
 {'category': 'concursos_e_emprego', 'abs_frequency': 0, 'rel_frequency': 0.0},
 {'category': 'economia',
  'abs_frequency': 72,
  'rel_frequency': 0.07920792079207921},
 {'category': 'educacao',
  'abs_frequency': 65,
  'rel_frequency': 0.07150715071507151},
 {'category': 'loterias',
  'abs_frequency': 71,
  'rel_frequency': 0.0781078107810781},
 {'category': 'mundo',
  'abs_frequency': 72,
  'rel_frequency': 0.07920792079207921},
 {'category': 'musica',
  'abs_frequency': 69,
  'rel_frequency': 0.07590759075907591},
 {'category': 'natureza',
  'abs_frequency': 75,
  'rel_frequency': 0.08250825082508251},
 {'category': 'planeta-bizarro',
  'abs_frequency': 74,
  'rel_frequency': 0.0814081408140814},
 {'category': 'politica',
  'abs_frequen

In [78]:
merged_texts_df_train: pd.DataFrame = generate_segformer_docs(
    dataframe=train_df, 
    folder="train", 
    text_body_field="description", 
    max_doc_size=5, 
    category_field="category",
    number_docs_list=list(number_docs_series_dict_train.get("number_docs", []))
)

merged_texts_df_train

Unnamed: 0,fulltext,number_sentences,number_words,number_docs,average_words_per_sentence,median_words_per_sentence
0,Com desafio de encontrar mão de obra qualif...,166,3873,2,23.331325,21.0
1,Com o grupo foram encontrados armas de fog...,64,1603,4,25.046875,21.0
2,"Sorteio acontece no dia 30 de março, às 20h...",14,279,1,19.928571,19.5
3,Veja fotos da festa em Kiev: A capital da U...,125,3405,4,27.240000,24.0
4,Modelo foi usado em desfile na semana da mo...,113,2930,4,25.929204,22.0
...,...,...,...,...,...,...
314,"Segundo instituições financeiras, instabili...",63,1599,3,25.380952,23.0
315,"O britânico e brasileiro Noah Faria, filho ...",107,3467,4,32.401869,26.0
316,Recursos do programa de descontos no carro ...,73,2377,3,32.561644,28.0
317,Preço médio da modalidade cresceu em dois a...,80,2062,3,25.775000,24.5


Estatísticas do conjunto de teste

In [44]:
merged_texts_df_test: pd.DataFrame = generate_segformer_docs(
    dataframe=test_df, 
    folder="test", 
    text_body_field="description", 
    max_doc_size=5, 
    category_field="category",
    number_docs_list=list(number_docs_series_dict_test.get("number_docs", []))
)

merged_texts_df_test

Unnamed: 0,fulltext,number_sentences,number_words,number_docs,average_words_per_sentence,median_words_per_sentence
0,Neologismo que expressa um R&B de sotaque b...,69,1874,4,27.159420,24.0
1,Óculos da Apple oferecem sensação de imersã...,143,4342,4,30.363636,27.0
2,"Caso curioso ocorreu em Marlborough, Massac...",36,1079,2,29.972222,32.5
3,Animal vai ficar sob os cuidados de uma ent...,68,2183,4,32.102941,26.5
4,Informações foram divulgadas nesta sexta p...,30,904,2,30.133333,25.5
...,...,...,...,...,...,...
84,"A escritora, que vive em Edimburgo, é conhe...",155,4267,5,27.529032,24.0
85,"Felipe Gamba, dono do hostel localizado em ...",185,4421,5,23.897297,23.0
86,"Anfavea espera que as vendas de carros, com...",78,2046,3,26.230769,21.0
87,Candidatos de todo o mundo podem se inscrev...,57,1550,3,27.192982,26.0


Estatísticas do conjunto de validação.

In [45]:
merged_texts_df_val: pd.DataFrame = generate_segformer_docs(
    dataframe=val_df, 
    folder="validation", 
    text_body_field="description", 
    max_doc_size=5, 
    category_field="category",
    number_docs_list=list(number_docs_series_dict_val.get("number_docs", []))
)

merged_texts_df_val

Unnamed: 0,fulltext,number_sentences,number_words,number_docs,average_words_per_sentence,median_words_per_sentence
0,"Homem, de 51 anos, não teve a identidade d...",11,153,1,13.909091,11.0
1,Música composta em 1978 por Renato Russo (1...,31,864,3,27.870968,23.0
2,As apostas podem ser feitas até as 19h em l...,153,4472,5,29.228758,26.0
3,Mais do que preparar os alunos para serem ...,7,264,1,37.714286,34.0
4,Um dos filmes mais aguardados do ano teve ...,129,3147,5,24.395349,22.0
5,Plenário da Casa pode manter ou revogar pri...,175,4854,4,27.737143,25.0
6,Assessor especial de Lula para assuntos in...,67,1668,3,24.895522,24.0
7,"Com as mudanças, atendimento poderá acontec...",33,869,3,26.333333,25.0
8,"Bilionário, que no fim de semana ameaçou de...",58,1708,2,29.448276,25.5
9,"""Ela me deixou..."".\nCantado duas vezes em ...",23,641,2,27.869565,21.0


In [56]:
merged_texts_df_train["number_docs"].sum()

911

In [74]:
list(merged_texts_df_val["number_docs"]).count(1)

11

## Salvar tamanhos de arquivos em arquivo JSON.

In [47]:
with open("number_docs_train.json", 'w') as fp:
    json.dump({ "number_docs": list(merged_texts_df_train["number_docs"])}, fp)
with open("number_docs_test.json", 'w') as fp1:
    json.dump({ "number_docs": list(merged_texts_df_test["number_docs"])}, fp1)
with open("number_docs_val.json", 'w') as fp2:
    json.dump({ "number_docs": list(merged_texts_df_val["number_docs"])}, fp2)