#### Coleta de dados 
***

A coleta de dados é uma etapa fundamental para qualquer projeto. É a partir dos dados que os profissionais podem realizar automações, análises e extrair informações relevantes para tomada de decisões e resolução de problemas. Sem uma coleta adequada de dados, o projeto pode ser comprometido, levando a conclusões equivocadas e resultados ineficientes. 

Além disso, a qualidade dos dados coletados é fundamental para garantir a confiabilidade das análises realizadas e a validade das conclusões obtidas. 

Por isso, é essencial investir em técnicas e ferramentas que possibilitem uma coleta de dados eficiente e precisa, garantindo assim o sucesso dos projetos de ciência de dados.


<font color="yellow">Requisitos</font>
***
Instalação das bibliotecas:
- Pandas (pip install pandas)
- xlrd  ➝ Para coletar dados do tipo Excel (pip install xlrd)
- lxml ➝ Para coletar dados estruturados na web (pip install lxml)
- os    ➝ Para acessar pastas do sistema operacional


#### Importando as Bibliotecas

In [None]:
import pandas as pd
import requests


#### Coleta de Dados de Arquivo do Tipo CSV
***
A coleta de dados de arquivos CSV é uma etapa fundamental em muitos projetos de análise de dados. O formato CSV (Comma-Separated Values) é amplamente utilizado devido à sua simplicidade e compatibilidade com diversas ferramentas e sistemas.

In [9]:
df_clientes = pd.read_csv('../datasets/clientes.csv', sep=';', encoding='latin1')
df_pedidos  = pd.read_csv('../datasets/pedidos.csv', sep=';', encoding='latin1')
df_perfil_clientes = pd.read_csv('../datasets/perfil_clientes.csv', sep=';', encoding='latin1')




In [4]:
df_clientes.head()

Unnamed: 0,ClienteID,Nome,Idade,Cidade
0,1,Alice,28,São Paulo
1,2,Bob,35,Rio de Janeiro
2,3,Charlie,30,Belo Horizonte
3,4,David,40,Porto Alegre
4,5,Eva,22,Curitiba


In [7]:
df_pedidos.head()

Unnamed: 0,PedidoID,ClienteID,Data,Valor
0,101,1,01/07/2023,250.0
1,102,2,03/07/2023,150.0
2,103,1,04/07/2023,300.0
3,104,6,07/07/2023,450.0
4,105,4,08/07/2023,200.0


In [10]:
df_perfil_clientes.head()
  

Unnamed: 0,ï»¿idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,regiÃ£o,qtde_filhos,salario
0,39,Servidor PÃºblico,Ensino MÃ©dio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,AutÃ´nomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,FuncionÃ¡rio Setor Privado,Ensino MÃ©dio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,FuncionÃ¡rio Setor Privado,Ensino MÃ©dio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,FuncionÃ¡rio Setor Privado,Ensino MÃ©dio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


#### Coleta de Dados de Arquivo do Tipo Excel
***
O formato Excel é amplamente utilizado devido à sua versatilidade e facilidade de uso. 

In [13]:
df_compras = pd.read_excel('../datasets/compras.xls', sheet_name='compras', header=0)
df_compras.head()   

Unnamed: 0,cod_cliente,cod_produto,qtd_produto,valor_unitario,valor_total_compra
0,1,1011.0,3,5.99,17.97
1,2,1032.0,4,9.99,39.96
2,3,1049.0,2,5.99,
3,4,1021.0,4,3.99,15.96
4,5,1001.0,4,22.0,88.0


In [15]:
df_compras_sn_prd = pd.read_excel('../datasets/compras.xls', sheet_name='produtos', header=0)
df_compras_sn_prd.head()  

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,9.9
1,1001,Amaciante,1,Produtos de Limpeza,22.0
2,1002,Detergente,1,Produtos de Limpeza,1.99
3,1003,Água sanitária,1,Produtos de Limpeza,12.0
4,1004,Esponja de aço,1,Produtos de Limpeza,4.0


In [None]:
# Selecionado planilha específica


#### Coleta de Dados de Arquivo do Tipo Texto
***
Arquivos de texto são amplamente utilizados devido à sua simplicidade e versatilidade, e podem conter uma variedade de dados estruturados ou não estruturados.

In [None]:
df_estados = pd.read_csv('../datasets/estados.txt', 
                         sep='|', 
                         encoding='latin1')



In [19]:

df_estados.head()

Unnamed: 0,codigo_estado,nome_estado,sgl_estado
0,1,Acre,AC
1,2,Alagoas,AL
2,3,Amapá,AP
3,4,Amazonas,AM
4,5,Bahia,BA


#### Coleta de Dados de Arquivo do Tipo JSON
***
A coleta de dados de arquivos JSON é uma etapa importante em muitos projetos de automação e análise de dados, especialmente quando se trabalha com dados provenientes de APIs ou de sistemas modernos que utilizam JSON como formato padrão. 

In [23]:
df_dados_clientes = pd.read_json('../datasets/dados_clientes.json')



In [24]:
df_dados_clientes.head()

Unnamed: 0,cod_cliente,sexo,idade,qtd_filhos,estado_civil,cod_estado,hipertenso,diabetes
0,1,1,26,2,3,13,0,1
1,2,1,58,0,2,2,0,0
2,3,1,63,1,3,11,1,1
3,4,1,58,2,2,11,1,1
4,5,0,70,0,1,5,0,1


#### Coleta de Dados de Tabelas Estruturadas na Web 
***
A coleta de dados de tabelas estruturadas na web é uma prática comum em análise e automação de dados, permitindo a extração de informações diretamente de páginas web para análises subsequentes. 

Exemplo: https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles

In [4]:
dir_html = 'https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles'

In [None]:
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(dir_html, headers=headers)
response.raise_for_status()  # Raises HTTPError if the request returned an unsuccessful status code

lista_tabelas_html = pd.read_html(response.text, header=[0])

In [10]:
len(lista_tabelas_html)

11

In [11]:
lista_tabelas_html[0].head()

Unnamed: 0,Discografia de The Beatles,Discografia de The Beatles.1
0,Discografia de The BeatlesThe Beatles em 1964,Discografia de The BeatlesThe Beatles em 1964
1,Álbuns de estúdio,13
2,Álbuns ao vivo,5
3,Álbuns de compilação,54
4,Álbuns de vídeo,22


In [12]:
lista_tabelas_html[5]

Unnamed: 0,Título,Detalhes,Melhor posição nas paradas musicais,Melhor posição nas paradas musicais.1,Melhor posição nas paradas musicais.2,Melhor posição nas paradas musicais.3,Melhor posição nas paradas musicais.4,Melhor posição nas paradas musicais.5,Melhor posição nas paradas musicais.6,Melhor posição nas paradas musicais.7,Melhor posição nas paradas musicais.8,Melhor posição nas paradas musicais.9,Certificações
0,Título,Detalhes,GBR [5],AUS [6],AUT [20],CAN [28][38],FRA [8],ALE [9],NOR [10],NZ [23],SUE [24],EUA [11][12],Certificações
1,The Beatles Collection[c],Lançamento: 2 de novembro de 1978 Gravadora: P...,—,33,—,—,—,—,—,11,—,—,MC: platina[15]
2,The Beatles Box,Lançamento: 3 de novembro de 1980 Gravadora: P...,—,—,—,—,—,—,—,—,—,—,ARIA: ouro[39]
3,The Beatles EP Collection[l],Lançamento: 7 de dezembro de 1981 Gravadora: P...,—,—,—,—,—,—,—,—,—,—,
4,The Beatles: The Collection[c],Lançamento: Outubro de 1982 Gravadora: Parloph...,—,—,—,—,—,—,—,—,—,—,
5,The Beatles Mono Collection[c],Lançamento: Outubro de 1982 Gravadora: Parloph...,—,—,—,—,—,—,—,—,—,—,
6,The Beatles Box Set[c],Lançamento: 15 de novembro de 1988 Gravadora: ...,—,82,—,—,—,—,—,—,—,—,RIAA: platina[16]
7,"The Capitol Albums, Volume 1",Lançamento: 16 de novembro de 2004 Gravadora: ...,—,—,—,—,—,80,—,—,—,35,RIAA: platina[16]
8,"The Capitol Albums, Volume 2[c]",Lançamento: 11 de abril de 2006 Gravadora: Cap...,—,—,—,—,—,—,—,—,—,46,RIAA: ouro[16]
9,The Beatles in Mono[m],Lançamento: 9 de setembro de 2009 Gravadora: P...,57,—,—,47,—,3,—,—,15,40,MC: platina[15] RIAA: platina[16]


#### Coleta de dados via Requests
***

In [21]:
dir_2_html = 'https://leandrolessa.com.br/coleta-de-dados-na-web/'
headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36',
	'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
}
response = requests.get(dir_2_html, headers=headers)
if response.status_code == 200:
    print("Conexão bem-sucedida!")  
    response.raise_for_status()  # Raises HTTPError if the request returned an unsuccessful status code
    df_mercado = pd.read_html(response.text, header=[0])
else:
    print(f"Falha na conexão. Código de status: {response.status_code}")




Conexão bem-sucedida!


  df_mercado = pd.read_html(response.text, header=[0])


In [19]:
df_mercado[0] 


Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,9.90
1,1001,Amaciante,1,Produtos de Limpeza,22.00
2,1002,Detergente,1,Produtos de Limpeza,1.99
3,1003,Água sanitária,1,Produtos de Limpeza,12.00
4,1004,Esponja de aço,1,Produtos de Limpeza,4.00
...,...,...,...,...,...
82,1082,Peixe,5,Carnes e Frios,29.99
83,1083,Frango,5,Carnes e Frios,1.99
84,1084,Carne vermelha,5,Carnes e Frios,56.99
85,1085,Carne seca,5,Carnes e Frios,64.99
