#### Coleta de dados 
***

A coleta de dados é uma etapa fundamental para qualquer projeto. É a partir dos dados que os profissionais podem realizar automações, análises e extrair informações relevantes para tomada de decisões e resolução de problemas. Sem uma coleta adequada de dados, o projeto pode ser comprometido, levando a conclusões equivocadas e resultados ineficientes. 

Além disso, a qualidade dos dados coletados é fundamental para garantir a confiabilidade das análises realizadas e a validade das conclusões obtidas. 

Por isso, é essencial investir em técnicas e ferramentas que possibilitem uma coleta de dados eficiente e precisa, garantindo assim o sucesso dos projetos de ciência de dados.


<font color="yellow">Requisitos</font>
***
Instalação das bibliotecas:
- Pandas (pip install pandas)
- xlrd  ➝ Para coletar dados do tipo Excel (pip install xlrd)
- lxml ➝ Para coletar dados estruturados na web (pip install lxml)
- os    ➝ Para acessar pastas do sistema operacional


#### Importando as Bibliotecas

In [1]:
import pandas as pd

#### Coleta de Dados de Arquivo do Tipo CSV
***
A coleta de dados de arquivos CSV é uma etapa fundamental em muitos projetos de análise de dados. O formato CSV (Comma-Separated Values) é amplamente utilizado devido à sua simplicidade e compatibilidade com diversas ferramentas e sistemas.

In [2]:
df = pd.read_csv('./datasets/perfil_clientes.csv', sep=';', encoding='utf8')

#### Coleta de Dados em Lista de Arquivos
***

In [4]:
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,475450
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,110050
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


#### Coleta de Dados de Arquivo do Tipo Excel
***
O formato Excel é amplamente utilizado devido à sua versatilidade e facilidade de uso. 

In [5]:
import os

DIRETORIO = os.listdir('./datasets/pesquisa/')

In [6]:
# Selecionado planilha específica
DIRETORIO
lista_path = os.listdir(DIRETORIO)
lista_path


TypeError: listdir: path should be string, bytes, os.PathLike or None, not list

In [None]:
list_df = []
for arquivo in lista_path:
    local_arquivo = os.path.join(DIRETORIO, arquivo)
    dados = pd.read_csv(local_arquivo='|', encoding='latin1')
    list_df.append(dados)

In [None]:
df_final = pd.concat(list_df)

In [None]:
df_final

In [23]:
pd.read_excel('./datasets/compras.xls')

Unnamed: 0,cod_cliente,cod_produto,qtd_produto,valor_unitario,valor_total_compra
0,1,1011.0,3,5.99,17.97
1,2,1032.0,4,9.99,39.96
2,3,1049.0,2,5.99,
3,4,1021.0,4,3.99,15.96
4,5,1001.0,4,22.00,88.00
...,...,...,...,...,...
2995,2996,1046.0,4,4.99,19.96
2996,2997,1021.0,1,3.99,3.99
2997,2998,1075.0,4,35.00,140.00
2998,2999,1002.0,3,1.99,5.97


In [24]:
pd.read_excel('./datasets/compras.xls', sheet_name='produtos')

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,9.9
1,1001,Amaciante,1,Produtos de Limpeza,22.0
2,1002,Detergente,1,Produtos de Limpeza,1.99
3,1003,Água sanitária,1,Produtos de Limpeza,12.0
4,1004,Esponja de aço,1,Produtos de Limpeza,4.0
5,1082,Peixe,5,Carnes e Frios,29.99
6,1083,Frango,5,Carnes e Frios,1.99
7,1084,Carne vermelha,5,Carnes e Frios,56.99
8,1085,Carne seca,5,Carnes e Frios,64.99
9,1086,Salsicha,5,Carnes e Frios,15.9


#### Coleta de Dados de Arquivo do Tipo Texto
***
Arquivos de texto são amplamente utilizados devido à sua simplicidade e versatilidade, e podem conter uma variedade de dados estruturados ou não estruturados.

In [26]:
pd.read_csv('./datasets/estados.txt', sep='|', encoding='latin1')

Unnamed: 0,codigo_estado,nome_estado,sgl_estado
0,1,Acre,AC
1,2,Alagoas,AL
2,3,Amapá,AP
3,4,Amazonas,AM
4,5,Bahia,BA
5,6,Ceará,CE
6,7,Distrito Federal,DF
7,8,Espírito Santo,ES
8,9,Goiás,GO
9,10,Maranhão,MA


Unnamed: 0,cod_cliente,cod_produto,qtd_produto,valor_unitario,valor_total_compra
0,1,1011.0,3,5.99,17.97
1,2,1032.0,4,9.99,39.96
2,3,1049.0,2,5.99,
3,4,1021.0,4,3.99,15.96
4,5,1001.0,4,22.00,88.00
...,...,...,...,...,...
2995,2996,1046.0,4,4.99,19.96
2996,2997,1021.0,1,3.99,3.99
2997,2998,1075.0,4,35.00,140.00
2998,2999,1002.0,3,1.99,5.97


#### Coleta de Dados de Arquivo do Tipo JSON
***
A coleta de dados de arquivos JSON é uma etapa importante em muitos projetos de automação e análise de dados, especialmente quando se trabalha com dados provenientes de APIs ou de sistemas modernos que utilizam JSON como formato padrão. 

In [27]:
pd.read_json('./datasets/dados_clientes.json')

Unnamed: 0,cod_cliente,sexo,idade,qtd_filhos,estado_civil,cod_estado,hipertenso,diabetes
0,1,1,26,2,3,13,0,1
1,2,1,58,0,2,2,0,0
2,3,1,63,1,3,11,1,1
3,4,1,58,2,2,11,1,1
4,5,0,70,0,1,5,0,1


#### Coleta de Dados de Tabelas Estruturadas na Web 
***
A coleta de dados de tabelas estruturadas na web é uma prática comum em análise e automação de dados, permitindo a extração de informações diretamente de páginas web para análises subsequentes. 

Exemplo: https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles

In [35]:
html = 'https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles'
lista_tabelas = pd.read_html(html, header=[0])

In [36]:
lista_tabelas[1]

Unnamed: 0,Título,Detalhes,Melhor posição nas paradas musicais,Melhor posição nas paradas musicais.1,Melhor posição nas paradas musicais.2,Melhor posição nas paradas musicais.3,Melhor posição nas paradas musicais.4,Melhor posição nas paradas musicais.5,Melhor posição nas paradas musicais.6,Certificações
0,Título,Detalhes,GBR [4][5],AUS [6],CAN [7],FRA [8],GER [9],NOR [10],EUA [11][12],Certificações
1,Please Please Me,Lançamento: 22 de março de 1963 Gravadora: Par...,1,—,—,5,5,—,—,BPI: platina[13] ARIA: ouro[14] MC: ouro[15] R...
2,With the Beatles[a],Lançamento: 22 de novembro de 1963 Gravadora: ...,1,—,—,5,1,—,—,BPI: ouro[13] ARIA: ouro[14] BVMI: ouro[17] MC...
3,A Hard Day's Night,Lançamento: 26 de junho de 1964 Gravadora: Uni...,—,—,1,5,—,—,1,MC: platina[15] RIAA: 4× platina[16]
4,A Hard Day's Night,Lançamento: 10 de julho de 1964 Gravadora: Par...,1,1,—,—,1,—,—,BPI: platina[13] ARIA: ouro[14]
5,Beatles for Sale,Lançamento: 4 de dezembro de 1964 Gravadora: P...,1,1,—,—,1,—,—,BPI: ouro[13] ARIA: ouro[14] MC: ouro[15] RIAA...
6,Help!,Lançamento: 6 de agosto de 1965 Gravadora: Par...,1,1,—,5,1,—,—,BPI: platina[13] ARIA: ouro[14]
7,Help!,Lançamento: 13 de agosto de 1965 Gravadora: Ca...,—,—,1,—,—,—,1,MC: 2× platina[15] RIAA: 3× platina[16]
8,Rubber Soul,Lançamento: 3 de dezembro de 1965 Gravadora: P...,1,1,—,5,1,—,—,BPI: platina[13] ARIA: platina[14] BVMI: ouro[17]
9,Rubber Soul,Lançamento: 6 de dezembro de 1965 Gravadora: C...,—,—,1,—,—,—,1,MC: 2× platina[15] RIAA: 6× platina[16]


#### Coleta de dados via Requests
***

In [39]:
import requests

In [40]:
URL = 'https://leandrolessa.com.br/coleta-de-dados-na-web/'

headers = {'User-Agent': 'Chrome'}
response = requests.get(URL, headers=headers)


In [44]:
if response.status_code == 200:
    html = response.text
    df_produtos = pd.read_html(html, header=0)
else:
    print('Erro de acesso: ', response.status_code)

  df_produtos = pd.read_html(html, header=0)


In [45]:
df_produtos[0]

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,9.90
1,1001,Amaciante,1,Produtos de Limpeza,22.00
2,1002,Detergente,1,Produtos de Limpeza,1.99
3,1003,Água sanitária,1,Produtos de Limpeza,12.00
4,1004,Esponja de aço,1,Produtos de Limpeza,4.00
...,...,...,...,...,...
82,1082,Peixe,5,Carnes e Frios,29.99
83,1083,Frango,5,Carnes e Frios,1.99
84,1084,Carne vermelha,5,Carnes e Frios,56.99
85,1085,Carne seca,5,Carnes e Frios,64.99


: 