<a href="https://colab.research.google.com/github/jessicasilvacodes/pln-pucminas/blob/main/pln_01_aquisicao_dados_bases_publicas_pucminas_JessicaSilva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Aquisição de dados de bases públicas**

In [3]:
# Instalação dos pacotes necessários.
!pip install requests kaggle



In [4]:
# Importação de pacotes básicos para a execução deste notebook.
import os
import tarfile

import requests
print("Pacotes importados com sucesso.")

Pacotes importados com sucesso.


In [None]:
# Define o diretório local para armazenar as bases de dados públicas coletadas.
corpora_caminho = "corpora"

# Verifica se o diretório especificado já existe no ambiente do Colab.
if not os.path.exists(corpora_caminho):
  # Caso o diretório não exista, cria um novo diretório com o nome 'corpora'.
  # Isso é útil para organizar os arquivos de dados baixados ou gerados.
  os.mkdir(corpora_caminho)

print(f"Diretório '{corpora_caminho}' criado com sucesso.")

## Bases de dados públicas: 01

### Avaliação de produtos das americanas.com

O B2W-Reviews01 representa uma rica coleção de avaliações de produtos disponibilizadas pela Americanas.com. Este conjunto aberto abrange mais de 130 mil opiniões de usuários do e-commerce, registradas de janeiro a maio de 2018. Além das valiosas percepções sobre os produtos, o B2W-Reviews01 destaca-se por oferecer detalhes sobre os consumidores que as escreveram, englobando informações como gênero, faixa etária e localização, tornando-o um recurso inestimável para análises de comportamento de compra e tendências de mercado.

In [6]:
# Define a URL da base pública armazenada no Github.
url = "https://raw.githubusercontent.com/americanas-tech/b2w-reviews01/main/B2W-Reviews01.csv"

In [7]:
# Configuração do arquivo para armazenamento da base de dados.
americanas_arquivo = "americanas-comentarios.csv"

# O método os.path.join cria o caminho completo para o arquivo, combinando
# 'corpora_caminho' com o nome do arquivo 'b2w_arquivo'.
americanas_caminho = os.path.join(corpora_caminho, americanas_arquivo)

# Define o formato do arquivo. Necessário para arquivos textos
# armazenados no raw.githubusercontent.com.
parametros = {"downloadformat": "csv"}

# Executa o download do arquivo especificado na URL com os parâmetros
# especificados
resposta = requests.get(url, params=parametros)
if resposta.status_code == 200:
  # Se o status for igual a 200 (sucesso), grava o arquivo no caminho
  # especificado
  with open(americanas_caminho, "wb") as f:
    f.write(resposta.content)
  print(f"Download do {americanas_arquivo} foi concluído com sucesso!")
else:
   print(f"Falha no download do arquivo {americanas_arquivo}:", resposta.status_code)

Download do americanas-comentarios.csv foi concluído com sucesso!


In [14]:
# O comando head do linux mostra as cinco primeiras linhas do arquivo gravado.
!head -n 10 {americanas_caminho}

submission_date,reviewer_id,product_id,product_name,product_brand,site_category_lv1,site_category_lv2,review_title,overall_rating,recommend_to_a_friend,review_text,reviewer_birth_year,reviewer_gender,reviewer_state
2018-01-01 00:11:28,d0fb1ca69422530334178f5c8624aa7a99da47907c44de0243719b15d50623ce,132532965,"Notebook Asus Vivobook Max X541NA-GO472T Intel Celeron Quad Core 4GB 500GB Tela LED 15,6"" Windows - 10 Branco",,Informática,Notebook,Bom,4,Yes,Estou contente com a compra entrega rápida o único problema com as Americanas é se houver troca ou devolução do produto o consumidor tem problemas com espera.,1958.0,F,RJ
2018-01-01 00:13:48,014d6dc5a10aed1ff1e6f349fb2b059a2d3de511c7538a9008da562ead5f5ecd,22562178,Copo Acrílico Com Canudo 500ml Rocie,,Utilidades Domésticas,"Copos, Taças e Canecas","Preço imbatível, ótima qualidade",4,Yes,"Por apenas R$1994.20,eu consegui comprar esse lindo copo de acrílico.",1996.0,M,SC
2018-01-01 00:26:02,44f2c8edd93471926fff601274b8b2b5c4824e386ae4f21032

## Bases de dados públicas: 02

### Revista Fapesp

Este conjunto de dados inclui coleções em duas línguas: português para inglês e português para espanhol, provenientes das edições digitais da renomada revista científica brasileira REVISTA PESQUISA FAPESP. O que chama atenção é a forma de armazenamento dessas informações: um arquivo .tar.gz. Esse método de compactação é bastante popular em sistemas operacionais Linux, conhecido por sua eficiência na redução de tamanho de arquivos, mantendo a integridade dos dados.


In [9]:
# Define a URL da base de dados pública hospedada no GitHub, apontando para o
# arquivo 'fapesp-corpora.tar.gz' disponível no repositório do NILC.
url = "http://www.nilc.icmc.usp.br/nilc/tools/fapesp-corpora.tar.gz"

In [10]:
# Define o nome do arquivo para a base de dados da FAPESP e o caminho completo
# onde o arquivo será salvo.
fapesp_arquivo = "fapesp-corpora.tar.gz"
fapesp_caminho = os.path.join(corpora_caminho, fapesp_arquivo)

# Inicia o processo de download do arquivo da base de dados da FAPESP.
# A requisição GET é feita para a URL fornecida, com o parâmetro 'stream=True'
# para permitir o download de grandes arquivos de forma eficiente.
resposta = requests.get(url, stream=True)

# Verifica se a requisição foi bem-sucedida (código de status HTTP 200).
if resposta.status_code == 200:
  # Abre o arquivo no caminho especificado em modo de escrita binária ('wb')
  # para salvar os dados baixados.
  with open(fapesp_caminho, "wb") as f:
      for fragmento in resposta.raw.stream(2048):
            f.write(fragmento)
  print('Download concluído com sucesso!')
else:
  print('Falha no download:', resposta.status_code)

Download concluído com sucesso!


In [11]:
# Abre o arquivo tar.gz especificado pelo caminho 'fapesp_caminho' no modo de
# leitura.
with tarfile.open(fapesp_caminho, "r:gz") as tar:
  # Extrai todo o conteúdo do arquivo tar.gz para o diretório especificado
  # em 'corpora_path'.
  tar.extractall(path=corpora_caminho)

print(f"Arquivo {fapesp_caminho} descompactado com sucesso!")

Arquivo corpora/fapesp-corpora.tar.gz descompactado com sucesso!


In [15]:
# Divide o nome do arquivo "fapesp-corpora.tar.gz" pelo ponto e pega a primeira parte
fapesp_dir = fapesp_arquivo.split(".")[0]
fapesp_dir_caminho = os.path.join(corpora_caminho, fapesp_dir)

# O comando 'ls' do shell lista o conteúdo do diretório apontado
# por 'fapesp_caminho'.
!ls {fapesp_dir_caminho}

corpora  doc  README  README.html


## Bases de dados públicas: 03

### Kaggle

O Kaggle é uma plataforma online para competições de ciência de dados e aprendizado de máquina. Atualmente, essa plataforma disponibiliza mais de 601 conjuntos de dados relacionados ao processamento de linguagem natural. A maneira mais fácil de baixar essas bases é usando a sua API. Primeiro, é preciso criar um arquivo JSON com o token de acesso à API, seguindo as instruções neste [Link](https://scribehow.com/embed-preview/Create_a_New_Token_on_Kaggle__E160LnfsTU-n7vmkbVxang).

In [16]:
# Importa a função de upload de arquivos do Google Colab
from google.colab import files

# Abre uma interface para você selecionar e fazer upload
# de arquivos para o Colab
files.upload()

Saving kaggle.json to kaggle.json


{'kaggle.json': b'{"username":"jessicasilvacodes","key":"23568ac373815871986a9414a75f49d3"}'}

In [17]:
# Cria um novo diretório chamado '.kaggle' na pasta home do usuário atual
!mkdir ~/.kaggle

In [18]:
# Copia o arquivo 'kaggle.json' para o diretório '.kaggle'
# Este arquivo contém sua chave de API do Kaggle, necessária para acessar os datasets
!cp kaggle.json ~/.kaggle/

# Define as permissões do arquivo 'kaggle.json' para leitura pelo usuário
# É necessário para manter sua chave de API segura
!chmod 600 ~/.kaggle/kaggle.json

In [19]:
# Lista os datasets disponíveis no Kaggle que contêm a palavra 'commonlit'
!kaggle datasets list -s commonlit

ref                                      title                              size  lastUpdated                 downloadCount  voteCount  usabilityRating  
---------------------------------------  ---------------------------  ----------  --------------------------  -------------  ---------  ---------------  
kononenko/commonlit-texts                CommonLit Texts                 6257961  2023-09-17 20:48:39.253000            422         32  0.7058824        
takoihiraokazu/commonlit-ex107           commonlit-ex107              7434036314  2021-06-09 03:22:06.103000             23         11  0.4375           
takoihiraokazu/commonlit-ex064           commonlit-ex064              2167457156  2021-06-03 05:29:12.187000             12         10  0.4375           
takoihiraokazu/commonlit-ex182           commonlit-ex182              7529261744  2021-06-21 04:26:18.173000             22          8  0.4375           
takoihiraokazu/commonlit-ex190           commonlit-ex190              622156

In [20]:
# Exibe os arquivos disponíveis no dataset 'commonlit-texts' de 'kononenko'
!kaggle datasets files kononenko/commonlit-texts

name                     size  creationDate                
-------------------  --------  --------------------------  
commonlit_texts.csv  17288614  2023-09-17 20:48:42.132000  


In [21]:
# Baixa o dataset 'commonlit-texts' de 'kononenko' do Kaggle
!kaggle datasets download kononenko/commonlit-texts

Dataset URL: https://www.kaggle.com/datasets/kononenko/commonlit-texts
License(s): other
Downloading commonlit-texts.zip to /content
  0% 0.00/5.97M [00:00<?, ?B/s]
100% 5.97M/5.97M [00:00<00:00, 720MB/s]


In [22]:
# Extrai os arquivos do zip 'commonlit-texts.zip' para a pasta 'corpora'
!unzip commonlit-texts.zip -d corpora

Archive:  commonlit-texts.zip
  inflating: corpora/commonlit_texts.csv  


In [23]:
# Exibe as primeiras linhas do arquivo 'commonlit_texts.csv'
!head -n5 corpora/commonlit_texts.csv

title,author,description,grade,genre,lexile,path,is_prose,date,intro,excerpt,license,notes
"(love song, with two goldfish)",Grace Chua,The speaker describes a love story between two goldfish in a fish bowl.,8,Poem,,/en/texts/love-song-with-two-goldfish,0,2003,"Grace Chua is an award-winning journalist whose work usually deals with science and the environment. In this poem, Chua explores the love between two goldfish living in a fish bowl.
As you read, take notes on the use of puns throughout the poem and their multiple meanings.","[1]
(He's a drifter,
A “drifter” is a person who is continually moving from place to place.
