<a href="https://colab.research.google.com/github/gomesluiz/pln-na-pratica/blob/main/01-aquisicao-dados-raspagem-de-dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Aquisição de dados de bases públicas**

In [None]:
# Instalação dos pacotes necessários.
!pip install pandas requests kaggle

In [None]:
# Importação de pacotes básicos para a execução deste notebook.
import os
import requests
import tarfile
print("Pacotes importados com sucesso.")

In [None]:
# Define o diretório local para armazenar as bases de dados públicas coletadas.
corpora_caminho = "./corpora"

# Verifica se o diretório especificado já existe no ambiente do Colab.
if not os.path.exists(corpora_caminho):
  # Caso o diretório não exista, cria um novo diretório com o nome 'corpora'.
  # Isso é útil para organizar os arquivos de dados baixados ou gerados.
  os.mkdir(corpora_caminho)

print(f"Diretório {corpora_caminho} criado com sucesso.")


## 1. Bases de dados públicas

## Avaliação de produtos das americanas.com

O B2W-Reviews01 representa uma rica coleção de avaliações de produtos disponibilizadas pela Americanas.com. Este conjunto aberto abrange mais de 130 mil opiniões de usuários do e-commerce, registradas de janeiro a maio de 2018. Além das valiosas percepções sobre os produtos, o B2W-Reviews01 destaca-se por oferecer detalhes sobre os consumidores que as escreveram, englobando informações como gênero, faixa etária e localização, tornando-o um recurso inestimável para análises de comportamento de compra e tendências de mercado.

In [None]:
# Define a URL da base pública armazenada no Github.
url = "https://raw.githubusercontent.com/americanas-tech/b2w-reviews01/main/B2W-Reviews01.csv"

In [None]:
# Configuração do arquivo para armazenamento da base de dados.
b2w_arquivo = "b2w-reviews.csv"

# O método os.path.join cria o caminho completo para o arquivo, combinando
# 'corpora_caminho' com o nome do arquivo 'b2w_arquivo'.
b2w_caminho = os.path.join(corpora_caminho, b2w_arquivo)

# Define o formato do arquivo. Necessário para arquivos textos
# armazenados no raw.githubusercontent.com.
parametros = {"downloadformat": "csv"}

# Executa o download do arquivo especificado na URL com os parâmetros
# especificados
resposta = requests.get(url, params=parametros)
if resposta.status_code == 200:
  # Se o status for igual a 200 (sucesso), grava o arquivo no caminho
  # especificado
  with open(b2w_caminho, "wb") as f:
    f.write(resposta.content)
  print(f"Download do {b2w_arquivo} concluído com sucesso!")
else:
   print(f"Falha no download do arquivo {b2w_arquivo}:", resposta.status_code)


In [None]:
# O comando head do linux mostra as cinco primeiras linhas do arquivo gravado.
!head -n 5 {b2w_caminho}

## Revista Fapesp

Este conjunto de dados inclui coleções em duas línguas: português para inglês e português para espanhol, provenientes das edições digitais da renomada revista científica brasileira REVISTA PESQUISA FAPESP. O que chama atenção é a forma de armazenamento dessas informações: um arquivo .tar.gz. Esse método de compactação é bastante popular em sistemas operacionais Linux, conhecido por sua eficiência na redução de tamanho de arquivos, mantendo a integridade dos dados.


In [None]:
# Define a URL da base de dados pública hospedada no GitHub, apontando para o
# arquivo 'fapesp-corpora.tar.gz' disponível no repositório do NILC.
url = "http://www.nilc.icmc.usp.br/nilc/tools/fapesp-corpora.tar.gz"

In [None]:
# Define o nome do arquivo para a base de dados da FAPESP e o caminho completo
# onde o arquivo será salvo.
fapesp_arquivo = "fapesp-corpora.tar.gz"
fapesp_caminho = os.path.join(corpora_caminho, fapesp_arquivo)

# Inicia o processo de download do arquivo da base de dados da FAPESP.
# A requisição GET é feita para a URL fornecida, com o parâmetro 'stream=True'
# para permitir o download de grandes arquivos de forma eficiente.
resposta = requests.get(url, stream=True)

# Verifica se a requisição foi bem-sucedida (código de status HTTP 200).
if resposta.status_code == 200:
  # Abre o arquivo no caminho especificado em modo de escrita binária ('wb')
  # para salvar os dados baixados.
  with open(fapesp_caminho, "wb") as f:
      f.write(resposta.raw.read())

  print('Download concluído com sucesso!')
else:
  print('Falha no download:', resposta.status_code)


In [None]:
# Abre o arquivo tar.gz especificado pelo caminho 'fapesp_caminho' no modo de
# leitura.
with tarfile.open(fapesp_caminho, "r:gz") as tar:
  # Extrai todo o conteúdo do arquivo tar.gz para o diretório especificado
  # em 'corpora_path'.
  tar.extractall(path=corpora_caminho)

print(f"Arquivo {fapesp_caminho} descompactado com sucesso!")

In [None]:
# Divide o nome do arquivo "fapesp-corpora.tar.gz" pelo ponto e pega a primeira parte
fapesp_dir = "fapesp-corpora.tar.gz".split(".")[0]
fapesp_dir_caminho = os.path.join(corpora_caminho, fapesp_dir)

# O comando 'ls' do shell lista o conteúdo do diretório apontado
# por 'fapesp_caminho'.
!ls {fapesp_dir_caminho}

## Kaggle

O Kaggle é uma plataforma online para competições de ciência de dados e aprendizado de máquina. Atualmente, essa plataforma disponibiliza mais de 601 conjuntos de dados relacionados ao processamento de linguagem natural. A maneira mais fácil de baixar essas bases é usando a sua API. Primeiro, é preciso criar um arquivo JSON com o token de acesso à API, seguindo as instruções neste [Link](https://scribehow.com/embed-preview/Create_a_New_Token_on_Kaggle__E160LnfsTU-n7vmkbVxang).

In [None]:
# Importa a função de upload de arquivos do Google Colab
from google.colab import files

# Abre uma interface para você selecionar e fazer upload
# de arquivos para o Colab
files.upload()

In [None]:
# Cria um novo diretório chamado '.kaggle' na pasta home do usuário atual
!mkdir ~/.kaggle

In [None]:
# Copia o arquivo 'kaggle.json' para o diretório '.kaggle'
# Este arquivo contém sua chave de API do Kaggle, necessária para acessar os datasets
!cp kaggle.json ~/.kaggle/

# Define as permissões do arquivo 'kaggle.json' para leitura pelo usuário
# É necessário para manter sua chave de API segura
!chmod 600 ~/.kaggle/kaggle.json

In [None]:
# Lista os datasets disponíveis no Kaggle que contêm a palavra 'commonlit'
!kaggle datasets list -s commonlit

In [None]:
# Exibe os arquivos disponíveis no dataset 'commonlit-texts' de 'kononenko'
!kaggle datasets files kononenko/commonlit-texts

In [None]:
# Baixa o dataset 'commonlit-texts' de 'kononenko' do Kaggle
!kaggle datasets download kononenko/commonlit-texts

In [None]:
# Extrai os arquivos do zip 'commonlit-texts.zip' para a pasta 'corpora'
!unzip commonlit-texts.zip -d corpora

In [None]:
# Exibe as primeiras linhas do arquivo 'commonlit_texts.csv'
!head corpora/commonlit_texts.csv