#### Coleta de dados 
***

A coleta de dados é uma etapa fundamental para qualquer projeto. É a partir dos dados que os profissionais podem realizar automações, análises e extrair informações relevantes para tomada de decisões e resolução de problemas. Sem uma coleta adequada de dados, o projeto pode ser comprometido, levando a conclusões equivocadas e resultados ineficientes. 

Além disso, a qualidade dos dados coletados é fundamental para garantir a confiabilidade das análises realizadas e a validade das conclusões obtidas. 

Por isso, é essencial investir em técnicas e ferramentas que possibilitem uma coleta de dados eficiente e precisa, garantindo assim o sucesso dos projetos de ciência de dados.


<font color="yellow">Requisitos</font>
***
Instalação das bibliotecas:
- Pandas (pip install pandas)
- xlrd  ➝ Para coletar dados do tipo Excel (pip install xlrd)
- lxml ➝ Para coletar dados estruturados na web (pip install lxml)
- os    ➝ Para acessar pastas do sistema operacional


#### Importando as Bibliotecas

In [30]:
import pandas as pd

#### Coleta de Dados de Arquivo do Tipo CSV
***
A coleta de dados de arquivos CSV é uma etapa fundamental em muitos projetos de análise de dados. O formato CSV (Comma-Separated Values) é amplamente utilizado devido à sua simplicidade e compatibilidade com diversas ferramentas e sistemas.

In [31]:
df = pd.read_csv('./datasets/dados_vendas_produtos.csv', sep=';', encoding='latin1')

In [32]:
df.head()

Unnamed: 0,Nome do vendedor,Produto vendido,Quantidade unitária,Valor do produto,Valor da venda,Data da compra,Localização
0,Joaquim Souza,Produto B,9,33.32,299.88,12/01/2023,PI
1,Lorenzo da Luz,Produto B,10,94.38,943.8,24/03/2023,DF
2,Gustavo Henrique Moreira,Produto E,9,84.45,760.05,11/06/2022,PE
3,Lorena da Costa,Produto C,5,34.14,170.7,24/12/2022,RO
4,Caio Monteiro,Produto C,2,94.42,188.84,27/05/2022,MG


#### Coleta de Dados em Lista de Arquivos
***

In [33]:
import os
DIRETORIO = './datasets/pesquisa/'
lista_path = os.listdir(DIRETORIO)

In [34]:
lista_df = []

# Selecionado planilha específica
for arquivo in lista_path:
    local_arquivo = os.path.join(DIRETORIO, arquivo)
    dados = pd.read_csv(local_arquivo, sep='|', encoding='latin1')
    lista_df.append(dados)


In [35]:
df_final = pd.concat(lista_df)

In [36]:
df_final

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10141743,2020-01-01,Masculino,1981-04-25,peixe,frio,Cerveja,Praticar esporte
1,10141860,2020-01-01,Feminino,1966-01-19,peixe,quente,Café,Assistir TV
2,10142548,2020-01-01,Masculino,1973-08-02,tartaruga,frio,Café,Ler livros
3,10142591,2020-01-01,Masculino,1997-03-05,gato,moderado,Cerveja,Aprender algo novo
4,10142654,2020-01-01,Feminino,1969-08-05,tartaruga,moderado,Café,Assistir TV
...,...,...,...,...,...,...,...,...
7,10142641,2020-01-18,Feminino,1954-02-23,tartaruga,frio,Água,Pintar quadros
8,10143080,2020-01-18,Masculino,1957-07-06,gato,frio,Café,Ler livros
9,10143191,2020-01-18,Masculino,1959-02-28,cachorro,quente,Chá,Escutar música
10,10143509,2020-01-18,Masculino,1963-04-14,gato,quente,Água,Dormir


#### Coleta de Dados de Arquivo do Tipo Excel
***
O formato Excel é amplamente utilizado devido à sua versatilidade e facilidade de uso. 

In [47]:
pd.read_excel('./datasets/compras.xls')

Unnamed: 0,cod_cliente,cod_produto,qtd_produto,valor_unitario,valor_total_compra
0,1,1011.0,3,5.99,17.97
1,2,1032.0,4,9.99,39.96
2,3,1049.0,2,5.99,
3,4,1021.0,4,3.99,15.96
4,5,1001.0,4,22.00,88.00
...,...,...,...,...,...
2995,2996,1046.0,4,4.99,19.96
2996,2997,1021.0,1,3.99,3.99
2997,2998,1075.0,4,35.00,140.00
2998,2999,1002.0,3,1.99,5.97


In [48]:
pd.read_excel('./datasets/compras.xls', sheet_name='produtos')

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,9.9
1,1001,Amaciante,1,Produtos de Limpeza,22.0
2,1002,Detergente,1,Produtos de Limpeza,1.99
3,1003,Água sanitária,1,Produtos de Limpeza,12.0
4,1004,Esponja de aço,1,Produtos de Limpeza,4.0
5,1082,Peixe,5,Carnes e Frios,29.99
6,1083,Frango,5,Carnes e Frios,1.99
7,1084,Carne vermelha,5,Carnes e Frios,56.99
8,1085,Carne seca,5,Carnes e Frios,64.99
9,1086,Salsicha,5,Carnes e Frios,15.9


#### Coleta de Dados de Arquivo do Tipo Texto
***
Arquivos de texto são amplamente utilizados devido à sua simplicidade e versatilidade, e podem conter uma variedade de dados estruturados ou não estruturados.

In [39]:
pd.read_csv('./datasets/estados.txt', sep='|', encoding='latin1')

Unnamed: 0,codigo_estado,nome_estado,sgl_estado
0,1,Acre,AC
1,2,Alagoas,AL
2,3,Amapá,AP
3,4,Amazonas,AM
4,5,Bahia,BA
5,6,Ceará,CE
6,7,Distrito Federal,DF
7,8,Espírito Santo,ES
8,9,Goiás,GO
9,10,Maranhão,MA


#### Coleta de Dados de Arquivo do Tipo JSON
***
A coleta de dados de arquivos JSON é uma etapa importante em muitos projetos de automação e análise de dados, especialmente quando se trabalha com dados provenientes de APIs ou de sistemas modernos que utilizam JSON como formato padrão. 

In [40]:
pd.read_json('./datasets/dados_clientes.json')

Unnamed: 0,cod_cliente,sexo,idade,qtd_filhos,estado_civil,cod_estado,hipertenso,diabetes
0,1,1,26,2,3,13,0,1
1,2,1,58,0,2,2,0,0
2,3,1,63,1,3,11,1,1
3,4,1,58,2,2,11,1,1
4,5,0,70,0,1,5,0,1


#### Coleta de Dados de Tabelas Estruturadas na Web 
***
A coleta de dados de tabelas estruturadas na web é uma prática comum em análise e automação de dados, permitindo a extração de informações diretamente de páginas web para análises subsequentes. 

Exemplo: https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles

In [41]:
html = 'https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles'
lista_tabelas = pd.read_html(html, header=[0])

In [50]:
lista_tabelas[2]

Unnamed: 0,Título,Detalhes,Melhor posição nas paradas musicais,Melhor posição nas paradas musicais.1,Melhor posição nas paradas musicais.2,Melhor posição nas paradas musicais.3,Melhor posição nas paradas musicais.4,Melhor posição nas paradas musicais.5,Melhor posição nas paradas musicais.6,Melhor posição nas paradas musicais.7,Melhor posição nas paradas musicais.8,Melhor posição nas paradas musicais.9,Certificações
0,Título,Detalhes,GBR [4],AUS [6],AUT [20],CAN [21],ALE [9],HOL [22],NOR [10],NZ [23],SUE [24],EUA [11][12],Certificações
1,"Live! at the Star-Club in Hamburg, Germany; 1962",Lançamento: 8 de abril de 1977 Gravadora: Ling...,—,24,12,—,21,—,16,—,—,111,
2,The Beatles at Hollywood Bowl[f],Lançamento: 4 de maio de 1977 Gravadora: Parlo...,1,8,3,—,10,—,4,18,17,2,BPI: ouro[13] MC: platina[15] RIAA: platina[16]
3,First Live Recordings,Lançamento: 24 de janeiro de 1979[25] Gravador...,—,—,—,—,—,—,—,—,—,—,
4,Live at the BBC,Lançamento: 30 de novembro de 1994 Gravadora: ...,1,2,6,2,10,2,—,4,4,3,BPI: 2× platina[13] BVMI: ouro[17] IFPI AUT: o...
5,On Air – Live at the BBC Volume 2,Lançamento: 11 de novembro de 2013 Gravadora: ...,12,28,7,7,8,6,9,31,36,7,BPI: prata[13] MC: platina[15]
6,"""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par...","""—"" indica lançamentos que não chegaram às par..."


In [51]:
len(lista_tabelas)

10

#### Coleta de dados via Requests
***

In [52]:
import requests

In [53]:
URL = 'https://leandrolessa.com.br/coleta-de-dados-na-web/'

headers = {'User-Agent': 'Chrome'}
response = requests.get(URL, headers=headers)


In [54]:
if response.status_code == 200:
    html = response.text
    df_produtos = pd.read_html(html, header=0)
else:
    print('Erro de acesso: ', response.status_code)

  df_produtos = pd.read_html(html, header=0)


In [55]:
df_produtos[0]

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,9.90
1,1001,Amaciante,1,Produtos de Limpeza,22.00
2,1002,Detergente,1,Produtos de Limpeza,1.99
3,1003,Água sanitária,1,Produtos de Limpeza,12.00
4,1004,Esponja de aço,1,Produtos de Limpeza,4.00
...,...,...,...,...,...
82,1082,Peixe,5,Carnes e Frios,29.99
83,1083,Frango,5,Carnes e Frios,1.99
84,1084,Carne vermelha,5,Carnes e Frios,56.99
85,1085,Carne seca,5,Carnes e Frios,64.99
