<a href="https://colab.research.google.com/github/ihagoSantos/natural-language-processing/blob/main/data_aquisition_in_public_databases.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aquisição de dados em bases públicas

In [1]:
!pip install requests kaggle



In [2]:
# importação de pacotes básicos para execução desse notebook
import os
import tarfile

import requests
print("Pacotes importados com sucesso")

Pacotes importados com sucesso


In [3]:
# Define o diretório local para armazenamento de base de dados públicas coletadas
corpora_caminho = "corpora"

if not os.path.exists(corpora_caminho):
    os.mkdir(corpora_caminho)

print(f"Diretório {corpora_caminho} criado com sucesso.")

Diretório corpora criado com sucesso.


# 1. Bases de dados Pública

## Avaliação de produtos das Americanas.com

In [4]:
# URL da base de dados pública
url = "https://raw.githubusercontent.com/americanas-tech/b2w-reviews01/main/B2W-Reviews01.csv"

In [5]:
americanas_arquivo = "americanas-comentarios.csv"
americanas_caminho = os.path.join(corpora_caminho, americanas_arquivo) # os.path.join cria caminho completo para o arquivo

parametros = {"downloadformat": "csv"}

resposta = requests.get(url, params=parametros)

if resposta.status_code == 200:
  with open(americanas_caminho, "wb") as f:
    f.write(resposta.content)

  print(f"Download do {americanas_caminho} foi concluído com sucesso!")
else:
  print(f"Falha no download do arquivo {americanas_caminho}:", resposta.status_code)

Download do corpora/americanas-comentarios.csv foi concluído com sucesso!


In [6]:
# O comando head no linux mostra as cinco primeiras linhas do arquivo
!head -n 5 {americanas_caminho}

submission_date,reviewer_id,product_id,product_name,product_brand,site_category_lv1,site_category_lv2,review_title,overall_rating,recommend_to_a_friend,review_text,reviewer_birth_year,reviewer_gender,reviewer_state
2018-01-01 00:11:28,d0fb1ca69422530334178f5c8624aa7a99da47907c44de0243719b15d50623ce,132532965,"Notebook Asus Vivobook Max X541NA-GO472T Intel Celeron Quad Core 4GB 500GB Tela LED 15,6"" Windows - 10 Branco",,Informática,Notebook,Bom,4,Yes,Estou contente com a compra entrega rápida o único problema com as Americanas é se houver troca ou devolução do produto o consumidor tem problemas com espera.,1958.0,F,RJ
2018-01-01 00:13:48,014d6dc5a10aed1ff1e6f349fb2b059a2d3de511c7538a9008da562ead5f5ecd,22562178,Copo Acrílico Com Canudo 500ml Rocie,,Utilidades Domésticas,"Copos, Taças e Canecas","Preço imbatível, ótima qualidade",4,Yes,"Por apenas R$1994.20,eu consegui comprar esse lindo copo de acrílico.",1996.0,M,SC
2018-01-01 00:26:02,44f2c8edd93471926fff601274b8b2b5c4824e386ae4f21032

## Revista Fapesp

In [7]:
url = 'http://www.nilc.icmc.usp.br/nilc/tools/fapesp-corpora.tar.gz'

In [8]:
fapesp_arquivo = 'fapesp-corpora.tar.gz'
fapesp_caminho = os.path.join(corpora_caminho,fapesp_arquivo)

resposta = requests.get(url,stream=True)

if resposta.status_code == 200:
  with open(fapesp_caminho, 'wb') as f:
    for fragmento in resposta.raw.stream(2048):
      f.write(fragmento)
  print('Download concluído com sucesso!')
else:
  print('Falha no download:', resposta.status_code)

Download concluído com sucesso!


In [9]:
with tarfile.open(fapesp_caminho, 'r:gz') as tar:
  tar.extractall(path=corpora_caminho)

print(f"Arquivo {fapesp_caminho} descompactado com sucesso!")

Arquivo corpora/fapesp-corpora.tar.gz descompactado com sucesso!


In [10]:
fapesp_dir = fapesp_arquivo.split('.')[0]
fapesp_dir_caminho = os.path.join(corpora_caminho, fapesp_dir)

!ls {fapesp_dir_caminho}

corpora  doc  README  README.html


## Kaggle

In [16]:
from google.colab import files

files.upload()

Saving kaggle.json to kaggle.json


{'kaggle.json': b'{"username":"ihagog12","key":"8008fc5b98f5d372f82411b2ec912bd6"}'}

In [17]:
!mkdir ~/.kaggle # cria um novo diretório chamado .kaggle na pasta home do usuário

mkdir: cannot create directory ‘/root/.kaggle’: File exists


In [18]:
# move o arquivo kaggle.json para o diretório .kaggle.
# este arquivo contém a chave da API kaggle, necessária para acessar os datasets
!mv kaggle.json ~/.kaggle

In [19]:
# define as permissões do arquivo 'kaggle.json' para leitura do usuário
# é necessário para manter a chave da api segura
!chmod 600 ~/.kaggle/kaggle.json

In [20]:
# lista os datasets disponíveis no kaggle que contém a palavra 'commonlit'
!kaggle datasets list -s commonlit

ref                                      title                        size  lastUpdated          downloadCount  voteCount  usabilityRating  
---------------------------------------  ---------------------------  ----  -------------------  -------------  ---------  ---------------  
kononenko/commonlit-texts                CommonLit Texts               6MB  2023-09-17 20:48:39            333         31  0.7058824        
takoihiraokazu/commonlit-ex107           commonlit-ex107               7GB  2021-06-09 03:22:06             18         11  0.4375           
takoihiraokazu/commonlit-ex064           commonlit-ex064               2GB  2021-06-03 05:29:12              9         10  0.4375           
maunish/clrp-roberta-base                clrp roberta base             3GB  2021-06-29 09:07:26            973         80  0.75             
takoihiraokazu/commonlit-ex182           commonlit-ex182               7GB  2021-06-21 04:26:18             19          8  0.4375           
takoihiraokaz

In [21]:
# Exibe os arquivos disponíveis no dataset 'commonlit-texts' de 'kononenko'
!kaggle datasets files kononenko/commonlit-texts

name                 size  creationDate         
-------------------  ----  -------------------  
commonlit_texts.csv  16MB  2023-09-17 20:48:42  


In [23]:
# Baixa o dataset 'commonlit-texts' de 'kononenko' do Kaggle
!kaggle datasets download kononenko/commonlit-texts

Dataset URL: https://www.kaggle.com/datasets/kononenko/commonlit-texts
License(s): other
Downloading commonlit-texts.zip to /content
 84% 5.00M/5.97M [00:00<00:00, 36.8MB/s]
100% 5.97M/5.97M [00:00<00:00, 42.2MB/s]


In [24]:
# Extrai os arquivos do zip 'commonlit-texts.zip' para pasta 'corpora'
!unzip commonlit-texts.zip -d corpora

Archive:  commonlit-texts.zip
  inflating: corpora/commonlit_texts.csv  


In [27]:
# Exibe as primeiras linhas do arquivo commonlit_texts.csv
!head -n 5 corpora/commonlit_texts.csv

title,author,description,grade,genre,lexile,path,is_prose,date,intro,excerpt,license,notes
"(love song, with two goldfish)",Grace Chua,The speaker describes a love story between two goldfish in a fish bowl.,8,Poem,,/en/texts/love-song-with-two-goldfish,0,2003,"Grace Chua is an award-winning journalist whose work usually deals with science and the environment. In this poem, Chua explores the love between two goldfish living in a fish bowl.
As you read, take notes on the use of puns throughout the poem and their multiple meanings.","[1]
(He's a drifter,
A “drifter” is a person who is continually moving from place to place.
