# LEITURA DE DADOS

Boa referência: [como-ler-e-manipular-um-json#python](https://hkotsubo.github.io/blog/2019-04-13/como-ler-e-manipular-um-json#python)

In [1]:
# Google drive conection
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# To read data
path = "/content/drive/MyDrive/INSPER/03_trabfinal_1certif/Dados/"
arq = "newstexts-produto-17-folha-canal-95-cotidiano.json"

import json
 
# Open JSON file
f = open(path + arq)
 
# Returns JSON object as a dictionary
dados = json.load(f)

In [3]:
print(type(dados))

<class 'dict'>


In [4]:
# Jeys
dados.keys()

dict_keys(['generated_at', 'product', 'channel', 'newstexts'])

In [5]:
# JSON glimpse
dados.items()

dict_items([('generated_at', '2022-01-06 19:12:04'), ('product', {'name': 'Folha', 'id': 17}), ('channel', {'name': 'Cotidiano', 'id': 95}), ('newstexts', [{'url': 'https://www1.folha.uol.com.br/cotidiano/2022/01/tornado-com-ventos-de-ate-130-kmh-causa-estragos-em-sc.shtml', 'title': 'Tornado com ventos de até 130 km/h causa estragos em SC', 'subtitle': 'Casas e galpões foram destelhados em cidade próxima a Florianópolis', 'body': '<p>Um tornado com ventos de até 130 km/h atingiu o município de Timbó, a cerca de 176 km de Florianópolis, entre a tarde e noite de quarta-feira (5). Casas e galpões foram destelhados. Baús para transporte de cargas em caminhões foram tombados.<br>\r\n<br>\r\nDe acordo com a Defesa Civil de <a href="https://www1.folha.uol.com.br/folha-topicos/santa-catarina-estado/">Santa Catarina</a>, uma <a href="https://www1.folha.uol.com.br/cotidiano/2022/01/previsao-de-chuvas-intensas-se-mantem-nos-proximos-dias-para-sp-rj-mg-e-ba.shtml">frente fria que passou pelo sul 

In [6]:
# Json entry that really matters
type(dados['newstexts'])

list

In [20]:
# 1st news article
dados['newstexts'][0]

{'articleId': 1721230849973361,
 'articleType': 'ReportageNewsArticle',
 'authors': [{'id': 1718434579698036, 'name': 'Vinicius Konchinski'}],
 'body': '<p>Um tornado com ventos de até 130 km/h atingiu o município de Timbó, a cerca de 176 km de Florianópolis, entre a tarde e noite de quarta-feira (5). Casas e galpões foram destelhados. Baús para transporte de cargas em caminhões foram tombados.<br>\r\n<br>\r\nDe acordo com a Defesa Civil de <a href="https://www1.folha.uol.com.br/folha-topicos/santa-catarina-estado/">Santa Catarina</a>, uma <a href="https://www1.folha.uol.com.br/cotidiano/2022/01/previsao-de-chuvas-intensas-se-mantem-nos-proximos-dias-para-sp-rj-mg-e-ba.shtml">frente fria que passou pelo sul do país</a>, combinada com o calor desta época do ano, causou o tornado.</p>\r\n\r\n<div contenteditable="false"></div><p>Outras cidades de Santa Catarina registraram chuva intensa, raios e rajadas de vento. Guabiruba, Brusque, Gaspar e Pomerode estão entre as atingidas.<br>\r\n<br>

In [8]:
# A news article is a dictionary
type(dados['newstexts'][0])

dict

In [64]:
# News article text
texto = dados['newstexts'][1]['body']

In [65]:
texto

'<p>Uma operação da Polícia Civil do <a href="https://www1.folha.uol.com.br/folha-topicos/mato-grosso-do-sul-estado/">Mato Grosso do Sul </a>descobriu um esquema criminoso dentro de uma prisão que garantia aos<a href="https://www1.folha.uol.com.br/cotidiano/2021/10/narcotraficante-com-cela-vip-no-paraguai-pode-estar-por-tras-de-chacina-na-fronteira-com-brasil.shtml"> presos </a>bebidas alcoólicas, churrasco e até reforma de celas com móveis planejados.</p>\r\n\r\n<p>Denominada La Catedral, a operação ganhou esse nome em referência ao apelido da prisão onde ficou o <a href="https://www1.folha.uol.com.br/mundo/1139775-bairro-colombiano-cultua-o-narcotraficante-pablo-escobar.shtml">narcotraficante Pablo Escobar</a>, na Colômbia, conhecida pelas regalias ao criminoso.</p>\r\n\r\n<p>Na manhã desta quinta-feira (6), policiais do Dracco (Departamento de Repressão à Corrupção e ao Crime Organizado) prenderam cinco policiais penais que atuam no presídio Ricardo Brandão, em Ponta Porã (MS), na <

### FUNÇÕES

In [66]:
import re

# to clean HTML tags:
# from: https://stackoverflow.com/questions/9662346/python-code-to-remove-html-tags-from-a-string
CLEANR = re.compile('<.*?>') 

def clean_html(RAW_HTML):
  cleantext = re.sub(CLEANR, '', RAW_HTML)
  return cleantext


# to clean \r and \n in the text:
def clean_text(TEXT):
  # Remove '\r'
  text_cleaned = re.sub(pattern = '\r', repl = '', string = TEXT)
  # Remove '\n'
  text_cleaned = re.sub(pattern = '\n', repl = '', string = text_cleaned)

  return(text_cleaned)


# to organize data:
# To clean the text and save it with its important information
def org_data(NEWS_STORY, PATH_SAVE):
  # text ID
  articleId = NEWS_STORY['articleId']
  # Author name
  author = NEWS_STORY['authors'][0]['name']
  # Date
  date = NEWS_STORY['cover_date'][0:10]
  # Editorial
  edit = NEWS_STORY['kickers'][0]['name']
  # Title
  title = NEWS_STORY['title']
  # Sub-title
  subtitle = NEWS_STORY['subtitle']
  # Text
  text = NEWS_STORY['body']
  text = clean_html(text)
  text = clean_text(text)

  text_final = title + '\n' + subtitle + '\n' + text

  # Write line to file
  name_save = str(articleId) + '_' + author + '_' + date + '_' + edit  + '.txt' 
  print(name_save)
  
  with open(PATH_SAVE + name_save, 'w') as writefile:
    writefile.write(text_final)

In [62]:
org_data(dados['newstexts'][0], '/content/drive/MyDrive/INSPER/03_trabfinal_1certif/Dados/Processed/')

1721230849973361_Vinicius Konchinski_2022-01-06_Cotidiano.txt


In [81]:
numbers = range(13, 14)

for index in numbers:
  org_data(dados['newstexts'][index], '/content/drive/MyDrive/INSPER/03_trabfinal_1certif/Dados/Processed/')
  print(index)

1721134973363736_João Pedro Pitombo_2022-01-05_Coronavírus.txt
13


In [76]:
NEWS_STORY

{'articleId': 1721171931950589,
 'articleType': 'ReportageNewsArticle',
 'authors': [],
 'body': '<p>Um aplicativo pode mudar a forma como comunidades e <a href="https://www1.folha.uol.com.br/cotidiano/2021/12/governo-bolsonaro-recusa-ajuda-da-argentina-a-vitimas-de-chuva-na-bahia.shtml">órgãos governamentais lidam com as enchentes</a>. Com um telefone celular em mãos, moradores de bairros vulneráveis a inundações podem não apenas se informar com antecedência sobre possíveis eventos do tipo como contribuir com os órgãos competentes no mapeamento de <a href="https://agora.folha.uol.com.br/sao-paulo/2020/11/lixo-e-entulho-sao-problemas-em-piscinoes-das-zonas-norte-e-leste-de-sp.shtml">áreas suscetíveis</a> e na prevenção de desastres.</p>\r\n\r\n<p>A ferramenta é um dos desdobramentos do projeto Dados à Prova D’Água, parceria entre as universidades de Glasgow e Warwick, no Reino Unido, Heidelberg, na Alemanha, do Centro Nacional de Monitoramento de Alertas de Desastres Naturais (Cemaden)

In [75]:
NEWS_STORY = dados['newstexts'][5]
PATH_SAVE = '/content/drive/MyDrive/INSPER/03_trabfinal_1certif/Dados/Processed/'

In [72]:
org_data(dados['newstexts'][9], '/content/drive/MyDrive/INSPER/03_trabfinal_1certif/Dados/Processed/')

1721155128269049_Isabella Menon_2022-01-05_Coronavírus.txt
