In [167]:
import os
import time
import random
import hashlib
import feedparser

random.seed(int(time.time()))

feeds = {
    'Brazil': 'http://g1.globo.com/dynamo/brasil/rss2.xml',
    'Cars': 'http://g1.globo.com/dynamo/carros/rss2.xml',
    'Science_and_Health': 'http://g1.globo.com/dynamo/ciencia-e-saude/rss2.xml',
    'Employment': 'http://g1.globo.com/dynamo/concursos-e-emprego/rss2.xml',
    'Economy': 'http://g1.globo.com/dynamo/economia/rss2.xml',
    'Education': 'http://g1.globo.com/dynamo/educacao/rss2.xml',
    'Lottery' : 'http://g1.globo.com/dynamo/loterias/rss2.xml',
    'World': 'http://g1.globo.com/dynamo/mundo/rss2.xml',
    'Music': 'http://g1.globo.com/dynamo/musica/rss2.xml',
    'Nature': 'http://g1.globo.com/dynamo/natureza/rss2.xml',
    'Bizarre': 'http://g1.globo.com/dynamo/planeta-bizarro/rss2.xml',
    'Politics': 'http://g1.globo.com/dynamo/politica/mensalao/rss2.xml',
    'Pop_and_Art': 'http://g1.globo.com/dynamo/pop-arte/rss2.xml',
    'Technology_and_Games': 'http://g1.globo.com/dynamo/tecnologia/rss2.xml',
    'Turism_and_Travel': 'http://g1.globo.com/dynamo/turismo-e-viagem/rss2.xml',
}

folder_path = './data/feeds'
summary_path = './data/index.txt'

try:
    file = open(summary_path, 'r')
    readed = file.readlines()
    file.close()
    summary = [s.strip() for s in readed]
except:
    summary = []
    
print(len(summary))

for category, link in feeds.items():
    feed = feedparser.parse(link)
    
    cat_folder = os.path.join(folder_path, category)
    if not os.path.exists(cat_folder):
        os.makedirs(cat_folder)
        
    for entry in feed.entries:
        pubdate = entry['published']
        title = entry['title']
        link = entry['link']
        text = entry['summary']
        
        encoded = title.encode('ascii', 'ignore')
        hasher = hashlib.md5()
        hasher.update(encoded)
        md5title = hasher.hexdigest()
        print("Parsing %s" %md5title)
        if md5title in summary: 
            print('\t DROPPED.')
            continue
            
        print("\t FINISHED.")    
        summary.append(md5title)

        filename = '%s.txt' %md5title

        filepath = os.path.join(cat_folder, filename)
        file = open(filepath, 'w')
        file.write(title + "\n")
        file.write(link + "\n")
        file.write(text + "\n")
        
        file.close()

try:
    os.remove(summary_path)
except:
    pass
file = open(summary_path, 'w')
file.writelines("\n".join(summary))
file.close() 



577
Parsing 608517fc777d15da71a545720dc4fe28
	 DROPPED.
Parsing cac068fa17df97ece856dc57548f521d
	 DROPPED.
Parsing 3ea55897c7e7e1d699dd237a51606985
	 DROPPED.
Parsing bebd564ec190283593dcd6276e925adf
	 DROPPED.
Parsing c91d6a7055a6cf01fc92c1944aeaebe8
	 DROPPED.
Parsing ebd1c98e8e8fb9bf2fcaefd294c79e48
	 DROPPED.
Parsing 2e5c85b9f0e03ddc9a435fc8e075333b
	 DROPPED.
Parsing 24573f25c4f540ae85be0a5e7f5548be
	 DROPPED.
Parsing e75107a0f29185b6610873c68f04ca05
	 DROPPED.
Parsing 57bf5994031e029949ee456628eae929
	 DROPPED.
Parsing 31d9f99a6892626ec8d7c70af9fb7bdf
	 DROPPED.
Parsing 64227c0bb7dac32168f22059d70c2ad7
	 DROPPED.
Parsing c54f7734a74113b742075984763e8426
	 DROPPED.
Parsing 14192d5d6c54bf4bb01caa9de650ec1d
	 DROPPED.
Parsing 700f1bf8df8d3bab0cf0961315b79068
	 DROPPED.
Parsing ce83e1ebbc85c98f144039fbd7b4b691
	 DROPPED.
Parsing cd54d807fecda6b5db3331a414d4d192
	 DROPPED.
Parsing 660a28b676af546fef21ee34d258e6fe
	 DROPPED.
Parsing 45f09a13d85d4d07c7d82f6c39340844
	 DROPPED.
Parsing 

Parsing 4a6cec6987b1927489867d02f7680e2d
	 DROPPED.
Parsing e555dd1d600ddae8b0f831f17bc2c93f
	 DROPPED.
Parsing ca56d5f5a96ed51b466165a68c643f15
	 DROPPED.
Parsing 916951301d9d0637b4a91bedf29e4d79
	 DROPPED.
Parsing 0816f200c0d7bd86d83765212db814a1
	 DROPPED.
Parsing 3e6f036390802bb3b2773bf2734b1e36
	 DROPPED.
Parsing d251fd870de52d21f664b51fa8e7b32d
	 DROPPED.
Parsing 88634d74c705db6954edc834442de8d8
	 DROPPED.
Parsing 09e549652116b6c3471cae27fd97609c
	 DROPPED.
Parsing 9d58f72379e542846abf515c48384980
	 DROPPED.
Parsing 7af3fae627aeea13032c66ed2a04795b
	 DROPPED.
Parsing 791b8fc301e228ab6aabc0e826f94b5c
	 DROPPED.
Parsing bed1a090e8a7a3c60f81d85de9754824
	 DROPPED.
Parsing e0bead348fe22d7902a2bc8e7140ea2d
	 DROPPED.
Parsing 928235b5066af400672bf9f9779e330d
	 DROPPED.
Parsing 3449df4cca0b4137db9c3a1aed827c56
	 DROPPED.
Parsing b1da1651b79dcb1b778514997f3419cf
	 DROPPED.
Parsing 157d31772ad9c5a41c7adbb3cfc405df
	 DROPPED.
Parsing 358051fa6a90d5ddd71562c234784497
	 DROPPED.
Parsing 9ca9

Parsing 10c502373f9bfc82efbd7f7050e32d20
	 DROPPED.
Parsing a5b01bfe00de02f581b461ccf76f2096
	 DROPPED.
Parsing 05d968ad892d2c721fdd32eb399b274e
	 DROPPED.
Parsing b72ac7c1e10d10908af82c0b708e9c98
	 DROPPED.
Parsing 33b25a32b102383551b3fed7ca5ddff1
	 DROPPED.
Parsing 5868ce8fb597007654345a2eb51ffc27
	 DROPPED.
Parsing f3fe85db409e2bfa758d71b2e2ee6cbb
	 DROPPED.
Parsing 4115a7ea75ceaa12171be4005e848b20
	 DROPPED.
Parsing 28b0a4c87e3aa5926012be51f30788ef
	 DROPPED.
Parsing d8c243e3e1f32af97b1c33e4cb70e573
	 DROPPED.
Parsing 879eea5161d33ce24840da855a9839c6
	 DROPPED.
Parsing cbbdf7786b66f991614df23a0f20ed14
	 DROPPED.
Parsing 8eecf52b959d77e6b81e5c5e02f0ddfc
	 DROPPED.
Parsing 0862727fb8110fe0232d2c2eb27b0680
	 DROPPED.
Parsing c1e932944295be5c018336f8397aa4b4
	 DROPPED.
Parsing 562395c72d975aa552c52c9c1ab657e3
	 DROPPED.
Parsing 58f9544cb03c8d56bea7535321242a5e
	 DROPPED.
Parsing ea7e924849b6add949d7668fd71703d7
	 DROPPED.
Parsing 8bd46b43d99c3a9f1cc31cabd1e3ee70
	 DROPPED.
Parsing 5ad9

In [168]:
#Loading files and categories
categories = list(feeds.keys())
data = {}
cat_dict = {}
label_dict = {}


for cat in categories:
    data[cat] = []
    cat_dict[cat] = len(data.keys())
    label_dict[len(data.keys())] = cat
    path = os.path.join(folder_path, cat)
    files = os.listdir(path)
    
    for f in files:
        filepath = os.path.join(path, f)
        data[cat].append(filepath)

In [169]:
#Feature Extract from Text
from itertools import chain
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer(input='filename')
filenames = list(chain.from_iterable(data.values()))

x_train_counts = count_vect.fit_transform(filenames)

In [170]:
x_train_counts.shape

(579, 25277)

In [171]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()
x_train_tfidf = tfidf_transformer.fit_transform(x_train_counts)
x_train_tfidf.shape

(579, 25277)

In [172]:
#Classifing using Naive Bayes
from sklearn.naive_bayes import MultinomialNB

cat_labels = []
for key, item in data.items():
    n = len(item)
    label = cat_dict[key]
    
    for i in range(n):
        cat_labels.append(label)
        

clf = MultinomialNB().fit(x_train_tfidf, cat_labels)

In [173]:
#Getting data to Fit
feeds = {
    'Acre':'http://g1.globo.com/dynamo/ac/acre/rss2.xml',
    'Alagoas':'http://g1.globo.com/dynamo/al/alagoas/rss2.xml',
    'Amapa':'http://g1.globo.com/dynamo/ap/amapa/rss2.xml',
    'Amazonas':'http://g1.globo.com/dynamo/am/amazonas/rss2.xml',
    'Bahia':'http://g1.globo.com/dynamo/bahia/rss2.xml',
    'Ceara':'http://g1.globo.com/dynamo/ceara/rss2.xml',
    'Distrito Federal':'http://g1.globo.com/dynamo/distrito-federal/rss2.xml',
    'Espirito Santo':'http://g1.globo.com/dynamo/espirito-santo/rss2.xml',
    'Goias':'http://g1.globo.com/dynamo/goias/rss2.xml',
    'Maranhao':'http://g1.globo.com/dynamo/ma/maranhao/rss2.xml',
    'Mato Grosso':'http://g1.globo.com/dynamo/mato-grosso/rss2.xml',
    'Mato Grosso do Sul':'http://g1.globo.com/dynamo/mato-grosso-do-sul/rss2.xml',
    'Minas Gerais':'http://g1.globo.com/dynamo/minas-gerais/rss2.xml',
    'MG Centro-Oeste':'http://g1.globo.com/dynamo/mg/centro-oeste/rss2.xml',
    'MG Grande Minas':'http://g1.globo.com/dynamo/mg/grande-minas/rss2.xml',
    'MG Sul de Minas':'http://g1.globo.com/dynamo/mg/sul-de-minas/rss2.xml',
    'MG Triangulo Mineiro':'http://g1.globo.com/dynamo/minas-gerais/triangulo-mineiro/rss2.xml',
    'MG Vales de Minas Gerais':'http://g1.globo.com/dynamo/mg/vales-mg/rss2.xml',
    'MG Zonas da Mata':'http://g1.globo.com/dynamo/mg/zona-da-mata/rss2.xml',
    'Para':'http://g1.globo.com/dynamo/pa/para/rss2.xml',
    'Paraiba':'http://g1.globo.com/dynamo/pb/paraiba/rss2.xml',
    'Parana':'http://g1.globo.com/dynamo/pr/parana/rss2.xml',
    'PR Campos Gerais e Sul':'http://g1.globo.com/dynamo/pr/campos-gerais-sul/rss2.xml',
    'PR Oeste e Sudoeste':'http://g1.globo.com/dynamo/pr/oeste-sudoeste/rss2.xml',
    'PR Norte e Nordeste':'http://g1.globo.com/dynamo/pr/norte-noroeste/rss2.xml',
    'Pernambuco':'http://g1.globo.com/dynamo/pernambuco/rss2.xml',
    'PE Caruaru e Regiao':'http://g1.globo.com/dynamo/pe/caruaru-regiao/rss2.xml',
    'PE Petrolina e Regiao':'http://g1.globo.com/dynamo/pe/petrolina-regiao/rss2.xml',
    'Rio de Janeiro':'http://g1.globo.com/dynamo/rio-de-janeiro/rss2.xml',
    'RJ Regiao Serrana':'http://g1.globo.com/dynamo/rj/regiao-serrana/rss2.xml',
    'RJ Regiao dos Lagos':'http://g1.globo.com/dynamo/rj/regiao-dos-lagos/rss2.xml',
    'Norte Fluminense':'http://g1.globo.com/dynamo/rj/norte-fluminense/rss2.xml',
    'Sul e Costa Verde':'http://g1.globo.com/dynamo/rj/sul-do-rio-costa-verde/rss2.xml',
    'Rio Grande do Norte':'http://g1.globo.com/dynamo/rn/rio-grande-do-norte/rss2.xml',
    'Rio Grande do Sul':'http://g1.globo.com/dynamo/rs/rio-grande-do-sul/rss2.xml',
    'Rondonia':'http://g1.globo.com/dynamo/ro/rondonia/rss2.xml',
    'Roraima':'http://g1.globo.com/dynamo/rr/roraima/rss2.xml',
    'Santa Catarina':'http://g1.globo.com/dynamo/sc/santa-catarina/rss2.xml',
    'Sao Paulo':'http://g1.globo.com/dynamo/sao-paulo/rss2.xml',
    'SP Bauru e Marilia':'http://g1.globo.com/dynamo/sp/bauru-marilia/rss2.xml',
    'SP Campinas e Regiao':'http://g1.globo.com/dynamo/sp/campinas-regiao/rss2.xml',
    'SP Itapetininga e Regiao':'http://g1.globo.com/dynamo/sao-paulo/itapetininga-regiao/rss2.xml',
    'SP Mogi das Cruzes e Suzano':'http://g1.globo.com/dynamo/sp/mogi-das-cruzes-suzano/rss2.xml',
    'SP Piracicaba e Regiao':'http://g1.globo.com/dynamo/sp/piracicaba-regiao/rss2.xml',
    'SP Prudente e Regiao':'http://g1.globo.com/dynamo/sp/presidente-prudente-regiao/rss2.xml',
    'SP Ribeirao Preto e Franca':'http://g1.globo.com/dynamo/sp/ribeirao-preto-franca/rss2.xml',
    'SP Rio Preto e Aracatuba':'http://g1.globo.com/dynamo/sao-paulo/sao-jose-do-rio-preto-aracatuba/rss2.xml',
    'SP Santos e Regiao':'http://g1.globo.com/dynamo/sp/santos-regiao/rss2.xml',
    'SP Sao Carlos e Araraquara':'http://g1.globo.com/dynamo/sp/sao-carlos-regiao/rss2.xml',
    'SP Sorocaba e Jundiai':'http://g1.globo.com/dynamo/sao-paulo/sorocaba-jundiai/rss2.xml',
    'SP Vale do Paraiba e Regiao':'http://g1.globo.com/dynamo/sp/vale-do-paraiba-regiao/rss2.xml',
    'Sergipe':'http://g1.globo.com/dynamo/se/sergipe/rss2.xml',
    'Tocantins':'http://g1.globo.com/dynamo/to/tocantins/rss2.xml',

}


folder_path = './data/regional'
summary_path = './data/index_regional.txt'

hasher = hashlib.md5()

try:
    with open(summary_path) as f:
        summary = f.read.splitlines()
except:
    summary = []

for category, link in feeds.items():
    feed = feedparser.parse(link)
    
    cat_folder = os.path.join(folder_path, category)
    if not os.path.exists(cat_folder):
        os.makedirs(cat_folder)
        
    for entry in feed.entries:
        title = entry['title']
        link = entry['link']
        text = entry['summary']
        
        encoded = title.encode('ascii', 'ignore')
        hasher.update(encoded)
        md5title = hasher.hexdigest()
        if md5title in summary: 
            continue
        
        print("Parsing: %s - %s - %s" %(category, md5title[:10], title[:50]))
        summary.append(md5title)

        filename = '%s.txt' %md5title

        filepath = os.path.join(cat_folder, filename)
        file = open(filepath, 'w')
        file.write(title + "\n")
        file.write(link + "\n")
        file.write(text + "\n")
        
        file.close()
    
try:
    os.remove(summary_path)
except:
    pass
file = open(summary_path, 'w')
file.writelines("\n".join(summary))
file.close() 

Parsing: Acre - d0492c4cb4 - Em greve, servidores dos Correios no AC levam caix
Parsing: Acre - 4bb5c673e0 - JAC1 NO AR: assista ao vivo pelo G1
Parsing: Acre - 246fb588e6 - No AC, detento que escapou durante fuga em massa v
Parsing: Acre - 9f83fdd336 - Namorada de motorista de BMW que atropelou e matou
Parsing: Acre - 54f704a0d9 - Adolescente de 17 anos é achado morto em rua de ba
Parsing: Acre - 9e6eacfddb - Comerciantes de região turística de Rio Branco est
Parsing: Acre - dc33d017dd - Grupo armado faz arrastão em ônibus, leva celulare
Parsing: Acre - 8f97a6fd36 - Com umidade relativa do ar de 30%, Sipam prevê qua
Parsing: Acre - 8ec996c681 - Acre tem 23.936 pessoas infectadas pela Covid-19 e
Parsing: Acre - 55d67e1b1e - Após 24h, bombeiros ainda trabalham no combate a i
Parsing: Acre - eddf571afe - Carro capota após bater em bueiro em avenida de Ri
Parsing: Acre - e17777c091 - No AC, centenas de pessoas de bicicleta se aglomer
Parsing: Acre - fc32dc0d95 - VÍDEOS: Bom Dia Acre de te

Parsing: Amazonas - 9ac1ec76aa - Professores protestam em Manaus após aumento de ca
Parsing: Amazonas - af3e1c4546 - VÍDEOS: Mototaxista é detido suspeito de tentar es
Parsing: Amazonas - a58a50f3d8 - Mãe de criança que aparece dançando no teto de car
Parsing: Amazonas - 123e963f92 - VÍDEOS: Vendas no comércio crescem no AM; veja des
Parsing: Amazonas - 89594ebfb7 - Aneel propõe aumento de mais de 8% na tarifa de en
Parsing: Amazonas - 94f8dd4b38 - Operação apreende 1 tonelada de skunk dentro de ca
Parsing: Amazonas - d95561f257 - Acidente entre cinco veículos deixa feridos na Ave
Parsing: Amazonas - 8ebc740b50 - Reunião entre representantes do comércio e Suframa
Parsing: Amazonas - 17d2daf7bd - Após aceitar corrida, motorista de aplicativo é fe
Parsing: Amazonas - 7673fa43a9 - Governo federal reabre visitação em parques nacion
Parsing: Amazonas - 672eaac02e - Homem é preso em flagrante por estupro de criança 
Parsing: Amazonas - a22e402d79 - Mototaxista é detido suspeito de tentar est

Parsing: Espirito Santo - c52e2aac25 - Homem é preso na BA apontado por estuprar filha de
Parsing: Espirito Santo - adaf6f9e0b - Homem é suspeito de matar mulher, atirar em dois e
Parsing: Espirito Santo - 493f262a0a - PM suspeito de abusar de menina de 11 anos presta 
Parsing: Espirito Santo - f429c6f264 - Agenda Cultural: confira a programação de 20 a 22 
Parsing: Espirito Santo - 5f968705f1 - Morador é indenizado no ES após descobrir que imóv
Parsing: Espirito Santo - e073dda30c - Músico sobrevive a acidente no Norte do ES com ape
Parsing: Espirito Santo - a69cd363e7 - Quatro pessoas são presas por tortura e exploração
Parsing: Espirito Santo - ad95f8299d - Ufes abre concursos para professor com salário de 
Parsing: Espirito Santo - 3e1a18cc99 - Motoristas esperam por obra de asfaltamento na ES-
Parsing: Espirito Santo - b55b8668a7 - Jiboia é flagrada atravessando estrada no litoral 
Parsing: Espirito Santo - 964fc94df6 - Preso acusado de estuprar a própria filha no ES ap
Parsing: E

Parsing: Mato Grosso - 55c9836359 - Paciente do Dr. Bumbum no Rio faz cirurgia para co
Parsing: Mato Grosso - 31b99be649 - Homem morre ao cair de árvore quando tentava pegar
Parsing: Mato Grosso - 0895e91f91 - Usuário de drogas é morto durante briga perto de c
Parsing: Mato Grosso - 99d2e8eb2f - Imagens exclusivas mostram fuga de Dr. Bumbum de s
Parsing: Mato Grosso - 719ad5fa89 - Maioria do armamento apreendido em MS seria levado
Parsing: Mato Grosso - 6284d7c426 - Mulher corre risco de perder bebê após ser agredid
Parsing: Mato Grosso - ce976de4ad - PDT confirma candidatura de Odilon de Oliveira ao 
Parsing: Mato Grosso - 114325943a - PRF apreende em MS maconha que era levada para SP 
Parsing: Mato Grosso - 56dbd2b874 - 'Levaram embora todo o nosso esforço' diz dona de 
Parsing: Mato Grosso - b4c0e8d687 - Carro com placas do MT é encontrado com 202 quilos
Parsing: Mato Grosso - 5e724605d8 - Ponta Porã amanheceu gelada: Termômetros marcavam 
Parsing: Mato Grosso - a50766269b - Veja as

Parsing: MG Sul de Minas - 63f6b0ed7e - VÍDEOS: EPTV 1 Sul de Minas de quarta-feira, 26 de
Parsing: MG Sul de Minas - 7df61147f6 - Secretário de Saúde de Poços de Caldas testa posit
Parsing: MG Sul de Minas - c7d5f5941f - Homem é morto a facadas durante briga em São Sebas
Parsing: MG Sul de Minas - 001b088fbc - Em dia de novo recorde de casos, Sul de Minas ultr
Parsing: MG Sul de Minas - c2523e1d9e - Homem é preso e menor apreendido com 143 pedras de
Parsing: MG Sul de Minas - 6825e5d56c - Acusado de matar ex-companheira na frente dos filh
Parsing: MG Sul de Minas - e998786ec1 - Maria da Fé tem geada forte e recorde de frio no a
Parsing: MG Sul de Minas - 5dab668deb - Incêndio destrói serraria em Congonhal, MG
Parsing: MG Sul de Minas - 1eb2c0fddb - Com controle de fluxo de turistas, Monte Verde já 
Parsing: MG Sul de Minas - 272ae51652 - Obra de manutenção da ponte sobre o Rio Grande tem
Parsing: MG Sul de Minas - 63fbdbaed6 - Aposentadoria por idade: entenda como mudança em r
Parsing

Parsing: MG Zonas da Mata - 98a13f1bb9 - Caso Cláudia: réu é condenado a mais de 20 anos po
Parsing: MG Zonas da Mata - dde8f77a57 - Sejusp abre vagas para profissionais de saúde em B
Parsing: MG Zonas da Mata - 7e0699e8df - Prefeitura de Juiz de Fora abre processo seletivo 
Parsing: MG Zonas da Mata - 7d724277b5 - Jovem é preso suspeito de roubar a casa da própria
Parsing: MG Zonas da Mata - f264373cde - Família busca por mulher desaparecida em Juiz de F
Parsing: MG Zonas da Mata - 9444793a87 - Em nono dia greve, trabalhadores do transporte col
Parsing: MG Zonas da Mata - a082002b31 - Caso Cláudia: julgamento chega ao segundo dia em J
Parsing: MG Zonas da Mata - d62755954c - Caso Cláudia: testemunhas são ouvidas no primeiro 
Parsing: MG Zonas da Mata - 87a8adb72f - Comitê da UFJF recomenda nova suspensão das ativid
Parsing: MG Zonas da Mata - fe85d157da - Juiz de Fora registra três mortes por Covid-19 e m
Parsing: MG Zonas da Mata - 66f78d3a0c - Governo de Minas anuncia investimento d

Parsing: Parana - 485d06d1ae - Servidores públicos do Paraná protestam contra pro
Parsing: Parana - fbc10404c3 - Polícia Civil abre inquérito para investigar batid
Parsing: Parana - d3f9e4f33c - Carreta com leite condensado explode e interdita p
Parsing: Parana - 8c0fa79472 - VÍDEOS: Meio-Dia Paraná de quarta-feira, 26 de ago
Parsing: Parana - 54e94eb7bc - Unicentro oferece 40 vagas para contratar professo
Parsing: Parana - 1e2923bf2e - Mecânico é preso suspeito de esfaquear cliente apó
Parsing: Parana - 4b32f52e9e - Padre de Cianorte está internado em estado grave e
Parsing: Parana - 121265e098 - 'Tô me sentindo fraca, com falta de ar e não consi
Parsing: Parana - 1fbcaca874 - Diversidade e longevidade: ferramentas para o futu
Parsing: Parana - bd8da9a576 - Após fugir da polícia por 20 km, carro carregado c
Parsing: Parana - e482aafd69 - Governo federal reabre visitação em parques nacion
Parsing: Parana - d70d49b864 - Treze idosos e seis funcionários de asilo em Marin
Parsing: Parana 

Parsing: PE Caruaru e Regiao - 1a4bb97052 - Sesc Arcoverde abre inscrições do curso preparatór
Parsing: PE Caruaru e Regiao - 842487470c - VÍDEOS: AB1 de quarta-feira, 26 de agosto
Parsing: PE Caruaru e Regiao - da5b1fd977 - Com mais 1.120 confirmações e 35 mortes, Pernambuc
Parsing: PE Caruaru e Regiao - 4726ff213f - Polícia Civil realiza operação 'Libertas' em Águas
Parsing: PE Caruaru e Regiao - c8d923fbf1 - Homem é detido com arma e bloqueador de sinal de c
Parsing: PE Caruaru e Regiao - de3dfe52b4 - Corpo de homem é encontrado com marcas de tiros em
Parsing: PE Caruaru e Regiao - d957a42b18 - Vizinho é preso suspeito de estuprar menina de 7 a
Parsing: PE Caruaru e Regiao - adcb89a4b8 - Prefeitura de Pedra entrega Centro de Testagem par
Parsing: PE Caruaru e Regiao - 4f0f5d3849 - Polícia Federal cumpre mandados em Paulínia e SP c
Parsing: PE Caruaru e Regiao - 0e640c9d8a - Casa Criatura faz doação de protetores faciais e c
Parsing: PE Caruaru e Regiao - 25cf396416 - Workshop gratui

Parsing: RJ Regiao Serrana - d81eb98fbb - Turista de Petrópolis baleado em Cabo Frio em tent
Parsing: RJ Regiao Serrana - 996f24eb02 - Nenhuma proposta é apresentada em licitação para t
Parsing: RJ Regiao Serrana - 3546b722ed - Covid-19 em 25 de agosto: casos e óbitos confirmad
Parsing: RJ Regiao Serrana - bee72d691c - Quatro homens são presos e três motos irregulares 
Parsing: RJ Regiao Serrana - 97a9d5aa6c - RJ tem 6º dia seguido de alta na média móvel; espe
Parsing: RJ Regiao Serrana - cde30ed7d9 - Uso ético da informação é tema de encontro online 
Parsing: RJ Regiao Serrana - f22e669a7b - Carro roubado há dois anos é recuperado pela PRF n
Parsing: RJ Regiao Serrana - 7c9e2d68a9 - Covid-19 em 24 de agosto: casos e óbitos confirmad
Parsing: RJ Regiao Serrana - 720dbb28e7 - Pesquisa revela incerteza de empresários do interi
Parsing: RJ Regiao Serrana - 4213416c3f - RJ tem tendência de alta na média móvel de mortes 
Parsing: RJ Regiao Serrana - 2ebe182301 - Projeto da UFF Nova Friburgo

Parsing: Sul e Costa Verde - 60eef594d4 - Polícia Federal cumpre mandado em combate à pornog
Parsing: Sul e Costa Verde - 2229d1ef49 - VÍDEOS: RJ1 TV Rio Sul de quarta-feira, 26 de agos
Parsing: Sul e Costa Verde - 6b053190d8 - Polícia Civil resgata cães em situação de maus-tra
Parsing: Sul e Costa Verde - e6dcc3f49f - Motociclista e motorista ficam feridos em acidente
Parsing: Sul e Costa Verde - 7bb1126946 - Resende tem mais dois óbitos por coronavírus; víti
Parsing: Sul e Costa Verde - 9caecbe93b - Barra Mansa registra nova morte por Covid-19
Parsing: Sul e Costa Verde - 021bb20eac - Caminhoneiro sai ileso ao atropelar e matar boi na
Parsing: Sul e Costa Verde - 08be19ae5e - Carreta tomba na Serra das Araras, em Piraí, e dei
Parsing: Sul e Costa Verde - 6f1fb709d2 - Vassouras confirma mais um óbito por Covid-19 e ch
Parsing: Sul e Costa Verde - d98f5d9ade - Dono de ferro-velho é preso por revender motocicle
Parsing: Sul e Costa Verde - b76e21bb36 - Manutenção em trecho da Via Dutra,

Parsing: Roraima - b35724b640 - Governo determina fim de home office a servidores 
Parsing: Roraima - 33d0f529f3 - PRF apreende maquinários, embarcações e armas usad
Parsing: Roraima - a398ad09a8 - Roraima registra 42.359 infectados pelo coronavíru
Parsing: Roraima - cbcc39b570 - Governo anuncia testagem em massa para detecção do
Parsing: Roraima - 3114e9c98b - DE RORAIMA PARA O BRASIL

Cursos da Escola do Legi
Parsing: Roraima - 820ff417d8 - Sine em RR oferta 13 vagas de emprego nesta quarta
Parsing: Roraima - a026d7dce3 - Polícia prende padrasto e avô suspeitos de estupra
Parsing: Roraima - 6ddb0a023b - Jovem é morto a tiros após desentendimento com ex-
Parsing: Roraima - dafb4a27b8 - Governo federal reabre visitação em parques nacion
Parsing: Roraima - 57f6769843 - Assassinato de jovem em terreno baldio completa um
Parsing: Roraima - 3af638afb1 - Homem tem mão decepada durante confusão em bar de 
Parsing: Roraima - 40005a7800 - Homem é preso por furtar fios de cobre e revender 
Pars

Parsing: SP Campinas e Regiao - ba9e99b1e1 - Jiboia-arco-íris impressiona pelo fenômeno da irid
Parsing: SP Campinas e Regiao - 282339b6f2 - Morador denuncia vazamento de água pela quarta vez
Parsing: SP Campinas e Regiao - d7d5077fe7 - EPTV 1 Campinas ao vivo
Parsing: SP Campinas e Regiao - c70ce3da0a - VÍDEOS: EPTV 1 região de Campinas de quarta-feira,
Parsing: SP Campinas e Regiao - 5a8d630f91 - Unidades prisionais da região de Campinas têm 2,6 
Parsing: SP Campinas e Regiao - 7f9fbfa488 - Trabalhadores dos Correios em greve fazem protesto
Parsing: SP Campinas e Regiao - 60f562d5d3 - Caminhão com carga de laranjas tomba na Santos Dum
Parsing: SP Campinas e Regiao - f9718ee7e8 - Ameaça além da aparência: estudo sinaliza impacto 
Parsing: SP Campinas e Regiao - d56f3e2df3 - CONSTRUTORA PATRIANI traz para Campinas o MANDARIM
Parsing: SP Campinas e Regiao - 5d6a1a2139 - Últimas notícias de coronavírus na região de Campi
Parsing: SP Campinas e Regiao - 3be645e007 - Polícia Federal cumpre

Parsing: SP Prudente e Regiao - 227cca94c3 - Ministério Público pede aumento de leitos hospital
Parsing: SP Prudente e Regiao - 71caf405f0 - Pesquisa aponta inflação de 4,05% na cesta básica 
Parsing: SP Prudente e Regiao - 2521a4df1e - Rapaz acaba preso com droga e munições de fuzil ap
Parsing: SP Prudente e Regiao - 9545525b01 - Bandidos armados invadem restaurante, rendem funci
Parsing: SP Prudente e Regiao - 3b17079f8a - Unesp abre concurso público para professor substit
Parsing: SP Prudente e Regiao - 188d3da5ac - Polícia prende suspeito de comandar organização cr
Parsing: SP Prudente e Regiao - b945937d4a - Polícia Rodoviária localiza mais de 1 tonelada de 
Parsing: SP Prudente e Regiao - f082cf5f0b - Ameaçada de extinção, arara-canindé 'pega carona' 
Parsing: SP Prudente e Regiao - ae32c50022 - Após tentativa de roubo a pedestre, suspeito é pre
Parsing: SP Prudente e Regiao - cf69b092f8 - Idoso de 72 anos é a segunda vítima fatal da Covid
Parsing: SP Prudente e Regiao - 1d9a4ff1

Parsing: SP Sao Carlos e Araraquara - 9f65fb74b7 - VÍDEOS: Reveja as reportagens do EPTV1 desta quart
Parsing: SP Sao Carlos e Araraquara - 3db35f4ebd - Araraquara amplia para 8 horas o funcionamento de 
Parsing: SP Sao Carlos e Araraquara - 1c26d7c8b5 - Justiça dá 72 horas para São João da Boa Vista exp
Parsing: SP Sao Carlos e Araraquara - 557dad7ca9 - Polícia Civil de Dourado prende babá e marido susp
Parsing: SP Sao Carlos e Araraquara - b7ad7356da - Araraquara confirma 28ª morte por Covid-19 e soma 
Parsing: SP Sao Carlos e Araraquara - 5e87e3e21e - Prefeito de Santa Rita do Passa Quatro testa posit
Parsing: SP Sao Carlos e Araraquara - bd34628e2a - VÍDEOS: Reveja as reportagens do Bom Dia Cidade de
Parsing: SP Sao Carlos e Araraquara - a795f55b74 - Em 15 dias, cerca de 10 sítios na área rural de Br
Parsing: SP Sao Carlos e Araraquara - b7042cc97a - Aposentadoria por idade: entenda como mudança em r
Parsing: SP Sao Carlos e Araraquara - 5d784dbd2d - VÍDEOS: Reveja as reportagens d

Parsing: Tocantins - 38a344bb9b - Moradores do sul do TO se aglomeram na porta de la
Parsing: Tocantins - 2db540c7b2 - Estado registra 982 casos de coronavírus e 11 nova
Parsing: Tocantins - 6661d9c86f - Corpo de mulher é encontrado em cascalheira de Toc
Parsing: Tocantins - cb7c9baab5 - Governo do estado decide pagar insalubridade para 
Parsing: Tocantins - 11dceaabdd - Tribunal de Justiça dá prazo de 20 dias para Estad
Parsing: Tocantins - d1c5d1323d - Pacientes passam horas dentro de ambulância à espe
Parsing: Tocantins - 0af1454eda - VÍDEOS: Bom dia Tocantins de quarta-feira, 26 de a
Parsing: Tocantins - 9126093533 - Polícia Militar publica contrato de R$ 2,7 milhões
Parsing: Tocantins - a4eedbc0f3 - Suspeito de roubar carro e sequestrar mulheres se 
Parsing: Tocantins - 42c597f80f - Polícia Federal faz operação para combater fraudes
Parsing: Tocantins - dd01f080c7 - Tocantins registra mais de três mil acidentes com 
Parsing: Tocantins - b8932e4e19 - Moradores reclamam de escuridão

In [174]:
#Loading predictable files
fit_categories = list(feeds.keys())
fit_data = {}

for cat in fit_categories:
    fit_data[cat] = []
    fit_cat_dict[cat] = len(fit_data.keys())
    path = os.path.join(folder_path, cat)
    files = os.listdir(path)
    
    for f in files:
        filepath = os.path.join(path, f)
        fit_data[cat].append(filepath)

In [175]:
#Feature Extract from Text
filenames = list(chain.from_iterable(fit_data.values()))
x_counts = count_vect.transform(filenames)
x_tfidf = tfidf_transformer.transform(x_counts)

In [176]:
predicted = clf.predict(x_tfidf)  


In [177]:
for doc, cat in zip(filenames, predicted):
    file = open(doc, 'r')
    line = file.readline().strip()
    file.close()
    print('%s - %s' %(label_dict[cat], line[:80]))

Economy - JAC1 NO AR: assista ao vivo pelo G1
Brazil - Carro capota após bater em bueiro em avenida de Rio Branco
Brazil - Motociclista morre ao bater em ônibus do transporte coletivo em Rio Branco
Education - Após ficar cinco meses fechada por causa da pandemia, OCA retoma atividades com 
Bizarre - Suspeito de estuprar criança de 10 anos após atraí-la para casa abandonada é pre
Science_and_Health - Para evitar ataques de pragas, técnicos fazem pesquisas em plantações de banana 
Brazil - Incêndio volta a atingir aterro de resíduos sólidos em Rio Branco
Education - Em greve, servidores dos Correios protestam e fecham agência do Centro em Rio Br
Nature - Segunda-feira (24) inicia com temperaturas amenas em todo o Acre, prevê Sipam
Science_and_Health - MP recomenda à Sesacre que médico do AC que atua em outro estado seja retirado d
Science_and_Health - Com apenas resultados de testes rápidos, Acre tem mais 10 casos de Covid-19 e um
Brazil - Grupo armado faz arrastão em ônibus, leva celula

Nature - Governo federal reabre visitação em parques nacionais pelo país
Economy - MPT pede afastamento temporário de funcionários da JBS Montenegro devido a surto
Science_and_Health - RS tem 3.161 mortes por Covid-19; casos confirmados passam de 112,7 mil
Education - Festival de Cinema de Gramado divulga longas gaúchos da mostra competitiva
Education - TCE-RS aponta suspeitas de irregularidades no Hospital de Campanha de Cachoeirin
Education - Prefeito entrega defesa do processo de impeachment à Câmara de Vereadores de Por
Science_and_Health - Estudo da UFRGS indica estabilização em internações por Covid-19 em Porto Alegre
Science_and_Health - Distanciamento controlado coloca 12 regiões em bandeira vermelha no RS; apenas 1
Education - Evento do Sesc RS discute possibilidades de voluntariado durante pandemia do cor
Education - Pai constrói barraca de madeira e lona para filho acompanhar aulas virtuais no R
Science_and_Health - RS tem mais de 3,1 mil mortes por Covid-19 e se aproxima de

Brazil - Corpo de mulher é encontrado em cascalheira de Tocantinópolis; vítima foi amarra
Science_and_Health - Estado tem 1.140 novos diagnósticos e mais 17 mortes por coronavírus; Total de c
Science_and_Health - Pacientes passam horas dentro de ambulância à espera de atendimento em hospital 
Economy - Polícia apreende carga de madeira transportada de forma ilegal na BR-230
Brazil - Pastor morre após ser atingido por tiro na perna em Dianópolis; Suspeita é de di
Science_and_Health - Prefeito de Figueirópolis e filho testam positivo para coronavírus
Brazil - Pastor morre após ser atingido por tiro na perna em Dianópolis; Suspeita é de di
Economy - VÍDEOS: Bom dia Tocantins de terça-feira, 25 de agosto
World - VÍDEOS: JA1 desta terça-feira, 25 de agosto
Brazil - Polícia Militar faz buscas por suspeitos de invadir chácara e sequestrar duas mu
Science_and_Health - Lombada sem sinalização provoca acidentes em Gurupi; Um homem morreu
Science_and_Health - Homem pede desculpas e diz que estava