#### Coleta de dados 
***

A coleta de dados é uma etapa fundamental para qualquer projeto. É a partir dos dados que os profissionais podem realizar automações, análises e extrair informações relevantes para tomada de decisões e resolução de problemas. Sem uma coleta adequada de dados, o projeto pode ser comprometido, levando a conclusões equivocadas e resultados ineficientes. 

Além disso, a qualidade dos dados coletados é fundamental para garantir a confiabilidade das análises realizadas e a validade das conclusões obtidas. 

Por isso, é essencial investir em técnicas e ferramentas que possibilitem uma coleta de dados eficiente e precisa, garantindo assim o sucesso dos projetos de ciência de dados.


<font color="yellow">Requisitos</font>
***
Instalação das bibliotecas:
- Pandas (pip install pandas)
- xlrd  ➝ Para coletar dados do tipo Excel (pip install xlrd)
- lxml ➝ Para coletar dados estruturados na web (pip install lxml)
- os    ➝ Para acessar pastas do sistema operacional


#### Importando as Bibliotecas

In [1]:
import pandas as pd

#### Coleta de Dados de Arquivo do Tipo CSV
***
A coleta de dados de arquivos CSV é uma etapa fundamental em muitos projetos de análise de dados. O formato CSV (Comma-Separated Values) é amplamente utilizado devido à sua simplicidade e compatibilidade com diversas ferramentas e sistemas.

Note: sempre .read_ e o tipo de arquivo para ler nossa base de dados. Especificar o tipo de separador e o idioma.

In [2]:
df = pd.read_csv('../datasets/clientes.csv', sep=';', encoding='latin1')

Note: Para visualizar as primeiras 5 linhas do datacode

In [3]:
df.head()

Unnamed: 0,ClienteID,Nome,Idade,Cidade
0,1,Alice,28,São Paulo
1,2,Bob,35,Rio de Janeiro
2,3,Charlie,30,Belo Horizonte
3,4,David,40,Porto Alegre
4,5,Eva,22,Curitiba


#### Coleta de Dados de Arquivo do Tipo Excel
***
O formato Excel é amplamente utilizado devido à sua versatilidade e facilidade de uso. 

In [4]:
df_compras = pd.read_excel('../datasets/compras.xls')
df_compras

Unnamed: 0,cod_cliente,cod_produto,qtd_produto,valor_unitario,valor_total_compra
0,1,1011.0,3,5.99,17.97
1,2,1032.0,4,9.99,39.96
2,3,1049.0,2,5.99,
3,4,1021.0,4,3.99,15.96
4,5,1001.0,4,22.00,88.00
...,...,...,...,...,...
2995,2996,1046.0,4,4.99,19.96
2996,2997,1021.0,1,3.99,3.99
2997,2998,1075.0,4,35.00,140.00
2998,2999,1002.0,3,1.99,5.97


Note: utilizar "sheet_name para buscar dentro de uma aba específica do Excel.

In [5]:
# Selecionado planilha específica
df_produtos = pd.read_excel('../datasets/compras.xls', sheet_name='produtos')
df_produtos.head()

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,9.9
1,1001,Amaciante,1,Produtos de Limpeza,22.0
2,1002,Detergente,1,Produtos de Limpeza,1.99
3,1003,Água sanitária,1,Produtos de Limpeza,12.0
4,1004,Esponja de aço,1,Produtos de Limpeza,4.0


#### Coleta de Dados de Arquivo do Tipo Texto
***
Arquivos de texto são amplamente utilizados devido à sua simplicidade e versatilidade, e podem conter uma variedade de dados estruturados ou não estruturados.

Note: sempre especificar o separador e adicionar o encoding se tiver caracteres especiais que não são lidos nesse tipo de arquivo!!!

In [6]:
df_estados = pd.read_csv('../datasets/estados.txt', sep='|', encoding='latin1')

In [7]:
df_estados

Unnamed: 0,codigo_estado,nome_estado,sgl_estado
0,1,Acre,AC
1,2,Alagoas,AL
2,3,Amapá,AP
3,4,Amazonas,AM
4,5,Bahia,BA
5,6,Ceará,CE
6,7,Distrito Federal,DF
7,8,Espírito Santo,ES
8,9,Goiás,GO
9,10,Maranhão,MA


#### Coleta de Dados de Arquivo do Tipo JSON
***
A coleta de dados de arquivos JSON é uma etapa importante em muitos projetos de automação e análise de dados, especialmente quando se trabalha com dados provenientes de APIs ou de sistemas modernos que utilizam JSON como formato padrão. 

Note: é um tipo de arquivo muito parecida com o dicionário em python, é constituído por uma chave e um valor.

In [8]:
df_clientes = pd.read_json('../datasets/dados_clientes.json')

In [9]:
df_clientes

Unnamed: 0,cod_cliente,sexo,idade,qtd_filhos,estado_civil,cod_estado,hipertenso,diabetes
0,1,1,26,2,3,13,0,1
1,2,1,58,0,2,2,0,0
2,3,1,63,1,3,11,1,1
3,4,1,58,2,2,11,1,1
4,5,0,70,0,1,5,0,1


#### Coleta de Dados de Tabelas Estruturadas na Web 
***
A coleta de dados de tabelas estruturadas na web é uma prática comum em análise e automação de dados, permitindo a extração de informações diretamente de páginas web para análises subsequentes. 

Exemplo: https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles

In [10]:
HTML = 'https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles'

Note: "header" é o cabeçalho das tabelas do site, "0" porque é a primeira posição (lembrando que as posições de python começam com 0, 1, 2, 3... então 0 é a 1ª posição).

In [11]:
lista_tabelas = pd.read_html(HTML, header=[0])

Note: Para contar a quantidade de tabelas:

In [12]:
len(lista_tabelas)

10

In [13]:
lista_tabelas[0]

Unnamed: 0,Discografia de The Beatles,Discografia de The Beatles.1
0,Álbuns de estúdio,13
1,Álbuns ao vivo,5
2,Álbuns de compilação,54
3,Álbuns de vídeo,22
4,Extended plays (EPs),29
5,Singles,63
6,Videoclipes,68
7,Mushups,2
8,Box sets,17


#### Coleta de dados via Requests
***

In [15]:
import requests

ModuleNotFoundError: No module named 'requests'