# Converter XML para dataframe Pandas

Importar as biblitecas necessárias

In [1]:
import pandas as pd
import requests
from xmltopd import extract_dataframe
import nltk
import json

## Função para inserção de categoria

In [1]:
def insert_category_and_tokenized_text(document: dict, category: str) -> dict:
    tokenized_text: list[str] = nltk.sent_tokenize(document.get("description", "No text"))
    
    document["description"] = "\n".join(tokenized_text)
    document["category"] = category
    
    return document

Fazer as requisições à API e destrinchar os XML.

In [23]:
news_categories: list[str] = [
    "brasil",
    "carros",
    "ciencia_e_saude",
    "concursos_e_emprego",
    "economia",
    "educacao",
    "loterias",
    "mundo",
    "musica",
    "natureza",
    "planeta-bizarro",
    "politica",
    "pop-arte",
    "tecnologia",
    "turismo-e-viagem"
]

news: list[dict] = []

for category in news_categories:
    news += [insert_category_and_tokenized_text(document=doc, category=category) for doc in extract_dataframe(
        requests.get("https://g1.globo.com/rss/g1/" + category + "/").text
    )]

news

[{'title': 'Batalha de Rap Macapá terá duelos de rima e venda de comidas típicas no Mercado Central',
  'link': 'https://g1.globo.com/ap/amapa/noticia/2023/05/05/batalha-de-rap-macapa-tera-duelos-de-rima-e-venda-de-comidas-tipicas-no-mercado-central.ghtml',
  'guid': 'https://g1.globo.com/ap/amapa/noticia/2023/05/05/batalha-de-rap-macapa-tera-duelos-de-rima-e-venda-de-comidas-tipicas-no-mercado-central.ghtml',
  'description': "   Evento ocorre neste sábado (6), a partir de 18h.\nInscrições são realizadas presencialmente das 8h às 14h na Secretaria Municipal de Direitos Humanos (Smdh).\nFinal da etapa estadual do Duelo de MC's, em Macapá\nLeandro Lennon/PMM\nO Mercado Central será o palco da Batalha de Rap Macapá neste sábado (6).\nO evento ocorre das 18h às 22h.\nAlém dos duelos de rima, haverá a venda de comidas típicas nos estandes de empreendedores locais.\nOs MC's interessados devem realizar a inscrição de maneira presencial, das 8h às 14h na Secretaria Municipal de Direitos Human

Criar um *dataframe* Pandas a partir dos dados

In [31]:
news_df: pd.DataFrame = pd.DataFrame(news)[["title", "description", "category"]].sample(frac=1)
news_df
    

Unnamed: 0,title,description,category
1112,Cientista e engenheiro de dados estão em alta ...,Com desafio de encontrar mão de obra qualif...,tecnologia
1105,Engenheira de dados desvenda desafios da área ...,Apesar de salários que podem passar de R$ 2...,tecnologia
60,Polícia invade festa de facção criminosa no Ce...,Com o grupo foram encontrados armas de fog...,brasil
438,Resultado da Mega-Sena: 47 apostas da região a...,"Já no sorteio da Lotofácil, apostadores de ...",loterias
338,"Unicamp 2025: veja quando será o vestibular, d...",Comissão responsável pelo processo seletivo...,educacao
...,...,...,...
66,Prefeitura abre processo para contratação de e...,Interessados devem entregar documentos de ...,brasil
237,Reforma tributária: imposto sobre herança ou d...,Texto da reforma prevê que imposto passe a ...,economia
37,Padre é atropelado por motorista embriagado pe...,Teste do etilômetro apontou resultado três...,brasil
536,Eclipse solar na América do Norte leva multidã...,Preços de hospedagem e passagens aéreas exp...,mundo


Escrever *dataset* em **csv**

In [32]:
news_df.to_csv("g1.csv")

## Escrever para arquivo

Caso não queira aleatorizar o tamanho dos arquivos, importe a lista com os seus tamanhos de um arquivo salvo

In [2]:
number_docs_series_dict: dict = {}

with open("number_docs.json") as f_in:
    number_docs_series_dict = json.load(f_in)
    
number_docs_series_dict

{'number_docs': [3,
  5,
  3,
  5,
  2,
  4,
  4,
  3,
  3,
  1,
  2,
  2,
  4,
  5,
  4,
  5,
  4,
  2,
  4,
  4,
  4,
  4,
  1,
  4,
  4,
  2,
  5,
  3,
  3,
  1,
  3,
  4,
  5,
  3,
  3,
  2,
  5,
  4,
  1,
  1,
  3,
  2,
  5,
  4,
  2,
  4,
  3,
  2,
  5,
  5,
  5,
  4,
  5,
  3,
  4,
  5,
  4,
  3,
  3,
  3,
  5,
  1,
  3,
  4,
  4,
  4,
  5,
  1,
  2,
  3,
  5,
  1,
  4,
  4,
  1,
  2,
  5,
  5,
  4,
  2,
  1,
  3,
  4,
  3,
  5,
  4,
  5,
  4,
  2,
  4,
  1,
  3,
  1,
  2,
  5,
  4,
  5,
  5,
  3,
  4,
  4,
  5,
  4,
  2,
  1,
  2,
  4,
  3,
  5,
  1,
  2,
  4,
  3,
  3,
  1,
  1,
  2,
  1,
  1,
  5,
  4,
  2,
  2,
  2,
  2,
  1,
  1,
  2,
  4,
  4,
  3,
  3,
  1,
  5,
  2,
  3,
  3,
  3,
  4,
  2,
  1,
  1,
  1,
  4,
  3,
  5,
  1,
  2,
  1,
  4,
  5,
  3,
  4,
  1,
  4,
  4,
  2,
  1,
  1,
  1,
  1,
  1,
  3,
  3,
  1,
  4,
  5,
  1,
  4,
  4,
  5,
  5,
  4,
  3,
  5,
  5,
  5,
  2,
  4,
  1,
  2,
  1,
  5,
  4,
  1,
  5,
  3,
  4,
  3,
  1,
  2,
  2,
  1,
  2,
  3,
  3,
  3,


In [3]:
import os, sys

sys.path.append("../utils")

from convert_segformer import generate_segformer_docs

new_df: pd.DataFrame = pd.read_csv("g1.csv")

merged_texts_df: pd.DataFrame = generate_segformer_docs(
    dataframe=new_df, 
    folder="g1_news", 
    text_body_field="description", 
    max_doc_size=5, 
    category_field="category",
    number_docs_list=list(number_docs_series_dict.get("number_docs", []))
)

merged_texts_df

Unnamed: 0,fulltext,number_sentences,number_words,number_docs,average_words_per_sentence,median_words_per_sentence
0,Com desafio de encontrar mão de obra qualif...,175,4109,3,23.480000,21.0
1,"Já no sorteio da Lotofácil, apostadores de ...",68,1717,5,25.250000,21.0
2,Ele havia levado uma família para Marangu...,124,3334,3,26.887097,24.0
3,Modelo foi usado em desfile na semana da mo...,160,4054,5,25.337500,22.0
4,♪ Música de Mallu Magalhães que sobressaiu ...,16,564,2,35.250000,32.0
...,...,...,...,...,...,...
434,Ranking revela que os principais bilionário...,80,2238,4,27.975000,23.0
435,Matrícula deverá ser feita de forma on-line...,90,2709,4,30.100000,23.0
436,Algumas são movimentadas e têm até competiç...,40,863,1,21.575000,16.0
437,"Melhor mês do ano foi julho, quando as vend...",43,1172,3,27.255814,26.0


In [4]:
merged_texts_df["number_sentences"].sum()

33410

In [5]:
merged_texts_df["number_words"].sum()

908845

In [9]:
merged_texts_df["number_docs"]

[3,
 5,
 3,
 5,
 2,
 4,
 4,
 3,
 3,
 1,
 2,
 2,
 4,
 5,
 4,
 5,
 4,
 2,
 4,
 4,
 4,
 4,
 1,
 4,
 4,
 2,
 5,
 3,
 3,
 1,
 3,
 4,
 5,
 3,
 3,
 2,
 5,
 4,
 1,
 1,
 3,
 2,
 5,
 4,
 2,
 4,
 3,
 2,
 5,
 5,
 5,
 4,
 5,
 3,
 4,
 5,
 4,
 3,
 3,
 3,
 5,
 1,
 3,
 4,
 4,
 4,
 5,
 1,
 2,
 3,
 5,
 1,
 4,
 4,
 1,
 2,
 5,
 5,
 4,
 2,
 1,
 3,
 4,
 3,
 5,
 4,
 5,
 4,
 2,
 4,
 1,
 3,
 1,
 2,
 5,
 4,
 5,
 5,
 3,
 4,
 4,
 5,
 4,
 2,
 1,
 2,
 4,
 3,
 5,
 1,
 2,
 4,
 3,
 3,
 1,
 1,
 2,
 1,
 1,
 5,
 4,
 2,
 2,
 2,
 2,
 1,
 1,
 2,
 4,
 4,
 3,
 3,
 1,
 5,
 2,
 3,
 3,
 3,
 4,
 2,
 1,
 1,
 1,
 4,
 3,
 5,
 1,
 2,
 1,
 4,
 5,
 3,
 4,
 1,
 4,
 4,
 2,
 1,
 1,
 1,
 1,
 1,
 3,
 3,
 1,
 4,
 5,
 1,
 4,
 4,
 5,
 5,
 4,
 3,
 5,
 5,
 5,
 2,
 4,
 1,
 2,
 1,
 5,
 4,
 1,
 5,
 3,
 4,
 3,
 1,
 2,
 2,
 1,
 2,
 3,
 3,
 3,
 5,
 1,
 1,
 5,
 5,
 2,
 1,
 4,
 5,
 5,
 1,
 4,
 1,
 1,
 5,
 3,
 3,
 2,
 4,
 1,
 3,
 1,
 5,
 5,
 5,
 1,
 2,
 3,
 4,
 2,
 3,
 1,
 1,
 3,
 3,
 3,
 4,
 2,
 1,
 4,
 1,
 5,
 4,
 3,
 3,
 4,
 1,
 3,
 4,
 1,
 1,
 5,
 4,


## Salvar tamanhos de arquivos em arquivo JSON.

In [10]:
with open("number_docs.json", 'w') as fp:
    json.dump({ "number_docs": list(merged_texts_df["number_docs"])}, fp)