#### Coleta de dados 
***

A coleta de dados é uma etapa fundamental para qualquer projeto. É a partir dos dados que os profissionais podem realizar automações, análises e extrair informações relevantes para tomada de decisões e resolução de problemas. Sem uma coleta adequada de dados, o projeto pode ser comprometido, levando a conclusões equivocadas e resultados ineficientes. 

Além disso, a qualidade dos dados coletados é fundamental para garantir a confiabilidade das análises realizadas e a validade das conclusões obtidas. 

Por isso, é essencial investir em técnicas e ferramentas que possibilitem uma coleta de dados eficiente e precisa, garantindo assim o sucesso dos projetos de ciência de dados.


<font color="yellow">Requisitos</font>
***
Instalação das bibliotecas:
- Pandas (pip install pandas)
- xlrd  ➝ Para coletar dados do tipo Excel (pip install xlrd)
- lxml ➝ Para coletar dados estruturados na web (pip install lxml)
- os    ➝ Para acessar pastas do sistema operacional


#### Importando as Bibliotecas

In [1]:
import pandas as pd
import os

#### Coleta de Dados de Arquivo do Tipo CSV
***
A coleta de dados de arquivos CSV é uma etapa fundamental em muitos projetos de análise de dados. O formato CSV (Comma-Separated Values) é amplamente utilizado devido à sua simplicidade e compatibilidade com diversas ferramentas e sistemas.

df = data frame
função pandas possui diversas funções para leitura de N tipos de dados

sep=   -> é o separador utilizado no seu arquivo dados , ; / 

In [2]:
df = pd.read_csv('./datasets/perfil_clientes.csv' , sep=';')
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,475450
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,110050
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


In [3]:
df= pd.read_csv('./datasets/dados_vendas_produtos.csv', sep=';', encoding='latin1')
df.head()

Unnamed: 0,Nome do vendedor,Produto vendido,Quantidade unitária,Valor do produto,Valor da venda,Data da compra,Localização
0,Joaquim Souza,Produto B,9,33.32,299.88,12/01/2023,PI
1,Lorenzo da Luz,Produto B,10,94.38,943.8,24/03/2023,DF
2,Gustavo Henrique Moreira,Produto E,9,84.45,760.05,11/06/2022,PE
3,Lorena da Costa,Produto C,5,34.14,170.7,24/12/2022,RO
4,Caio Monteiro,Produto C,2,94.42,188.84,27/05/2022,MG


#### Coleta de Dados em Lista de Arquivos
***

In [4]:
ARQUIVOS = os.listdir('./datasets/pesquisa/')
ARQUIVOS

['2020-01-01.csv',
 '2020-01-02.csv',
 '2020-01-03.csv',
 '2020-01-04.csv',
 '2020-01-05.csv',
 '2020-01-06.csv',
 '2020-01-07.csv',
 '2020-01-08.csv',
 '2020-01-09.csv',
 '2020-01-10.csv',
 '2020-01-11.csv',
 '2020-01-12.csv',
 '2020-01-13.csv',
 '2020-01-14.csv',
 '2020-01-15.csv',
 '2020-01-16.csv',
 '2020-01-17.csv',
 '2020-01-18.csv']

Aqui quero criar uma função para buscar os N arqurivos dentro de um diretorio
Crio uma declaração para ir até o diretório 
        DIRETORIO = './datasets/pesquisa'

Crio declaração para listar arquivos
        lista_path = os.listdir(DIRETORIO)

Crio função para varrer todos os arquivos do diretório
         for arquivo in lista_path:
         local_arquivo = os.path.join(DIRETORIO,arquivo)
         print(local_arquivo)

         ou 

         list_df= []
         for arquivo in lista_path:
         local_arquivo = os.path.join(DIRETORIO,arquivo)
         dados = pd.read_csv(local_arquivo, sep='|', encoding='latin1')
          list_df.append(dados)

In [5]:
DIRETORIO = './datasets/pesquisa'
lista_path = os.listdir(DIRETORIO)


In [6]:
list_df= []
for arquivo in lista_path:
    local_arquivo = os.path.join(DIRETORIO,arquivo)
    dados = pd.read_csv(local_arquivo, sep='|', encoding='latin1')
    list_df.append(dados)
   

In [8]:
list_df[0]

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10141743,2020-01-01,Masculino,1981-04-25,peixe,frio,Cerveja,Praticar esporte
1,10141860,2020-01-01,Feminino,1966-01-19,peixe,quente,Café,Assistir TV
2,10142548,2020-01-01,Masculino,1973-08-02,tartaruga,frio,Café,Ler livros
3,10142591,2020-01-01,Masculino,1997-03-05,gato,moderado,Cerveja,Aprender algo novo
4,10142654,2020-01-01,Feminino,1969-08-05,tartaruga,moderado,Café,Assistir TV


In [9]:
df_final = pd.concat(list_df)

In [10]:
df_final

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10141743,2020-01-01,Masculino,1981-04-25,peixe,frio,Cerveja,Praticar esporte
1,10141860,2020-01-01,Feminino,1966-01-19,peixe,quente,Café,Assistir TV
2,10142548,2020-01-01,Masculino,1973-08-02,tartaruga,frio,Café,Ler livros
3,10142591,2020-01-01,Masculino,1997-03-05,gato,moderado,Cerveja,Aprender algo novo
4,10142654,2020-01-01,Feminino,1969-08-05,tartaruga,moderado,Café,Assistir TV
...,...,...,...,...,...,...,...,...
7,10142641,2020-01-18,Feminino,1954-02-23,tartaruga,frio,Água,Pintar quadros
8,10143080,2020-01-18,Masculino,1957-07-06,gato,frio,Café,Ler livros
9,10143191,2020-01-18,Masculino,1959-02-28,cachorro,quente,Chá,Escutar música
10,10143509,2020-01-18,Masculino,1963-04-14,gato,quente,Água,Dormir


#### Coleta de Dados de Arquivo do Tipo Excel
***
O formato Excel é amplamente utilizado devido à sua versatilidade e facilidade de uso. 

In [11]:
pd.read_excel('./datasets/compras.xls')

Unnamed: 0,cod_cliente,cod_produto,qtd_produto,valor_unitario,valor_total_compra
0,1,1011.0,3,5.99,17.97
1,2,1032.0,4,9.99,39.96
2,3,1049.0,2,5.99,
3,4,1021.0,4,3.99,15.96
4,5,1001.0,4,22.00,88.00
...,...,...,...,...,...
2995,2996,1046.0,4,4.99,19.96
2996,2997,1021.0,1,3.99,3.99
2997,2998,1075.0,4,35.00,140.00
2998,2999,1002.0,3,1.99,5.97


In [12]:
pd.read_excel('./datasets/compras.xls',sheet_name='produtos')

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,9.9
1,1001,Amaciante,1,Produtos de Limpeza,22.0
2,1002,Detergente,1,Produtos de Limpeza,1.99
3,1003,Água sanitária,1,Produtos de Limpeza,12.0
4,1004,Esponja de aço,1,Produtos de Limpeza,4.0
5,1082,Peixe,5,Carnes e Frios,29.99
6,1083,Frango,5,Carnes e Frios,1.99
7,1084,Carne vermelha,5,Carnes e Frios,56.99
8,1085,Carne seca,5,Carnes e Frios,64.99
9,1086,Salsicha,5,Carnes e Frios,15.9


#### Coleta de Dados de Arquivo do Tipo Texto
***
Arquivos de texto são amplamente utilizados devido à sua simplicidade e versatilidade, e podem conter uma variedade de dados estruturados ou não estruturados.

In [13]:
pd.read_csv('./datasets/estados.txt' , sep='|' , encoding='latin1')

Unnamed: 0,codigo_estado,nome_estado,sgl_estado
0,1,Acre,AC
1,2,Alagoas,AL
2,3,Amapá,AP
3,4,Amazonas,AM
4,5,Bahia,BA
5,6,Ceará,CE
6,7,Distrito Federal,DF
7,8,Espírito Santo,ES
8,9,Goiás,GO
9,10,Maranhão,MA


#### Coleta de Dados de Arquivo do Tipo JSON
***
A coleta de dados de arquivos JSON é uma etapa importante em muitos projetos de automação e análise de dados, especialmente quando se trabalha com dados provenientes de APIs ou de sistemas modernos que utilizam JSON como formato padrão. 

In [14]:
pd.read_json('./datasets/dados_clientes.json')

Unnamed: 0,cod_cliente,sexo,idade,qtd_filhos,estado_civil,cod_estado,hipertenso,diabetes
0,1,1,26,2,3,13,0,1
1,2,1,58,0,2,2,0,0
2,3,1,63,1,3,11,1,1
3,4,1,58,2,2,11,1,1
4,5,0,70,0,1,5,0,1


#### Coleta de Dados de Tabelas Estruturadas na Web 
***
A coleta de dados de tabelas estruturadas na web é uma prática comum em análise e automação de dados, permitindo a extração de informações diretamente de páginas web para análises subsequentes. 

Exemplo: https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles

In [15]:
html = 'https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles'
pd.read_html (html, header=[0])

[  Discografia de The Beatles  Discografia de The Beatles.1
 0          Álbuns de estúdio                            13
 1             Álbuns ao vivo                             5
 2       Álbuns de compilação                            54
 3            Álbuns de vídeo                            22
 4       Extended plays (EPs)                            29
 5                    Singles                            63
 6                Videoclipes                            68
 7                    Mushups                             2
 8                   Box sets                            17,
                                                Título  \
 0                                              Título   
 1                                    Please Please Me   
 2                                 With the Beatles[a]   
 3                                  A Hard Day's Night   
 4                                  A Hard Day's Night   
 5                                    Beatles for S

In [16]:
html = 'https://pt.wikipedia.org/wiki/Discografia_de_The_Beatles'
lista_tabelas = pd.read_html (html, header=[0])

In [45]:
lista_tabelas[0]

Unnamed: 0,Discografia de The Beatles,Discografia de The Beatles.1
0,Álbuns de estúdio,13
1,Álbuns ao vivo,5
2,Álbuns de compilação,54
3,Álbuns de vídeo,22
4,Extended plays (EPs),29
5,Singles,63
6,Videoclipes,68
7,Mushups,2
8,Box sets,17


In [17]:
len(lista_tabelas)

10

#### Coleta de dados via Requests
***

In [18]:
! pip install requests




In [19]:
! pip install lxml



In [20]:
import requests

In [21]:
URL = 'https://leandrolessa.com.br/coleta-de-dados-na-web/'
 
headers = {'User-Agent': 'Chrome'}
response = requests.get(URL, headers=headers)

SSLError: HTTPSConnectionPool(host='leandrolessa.com.br', port=443): Max retries exceeded with url: /coleta-de-dados-na-web/ (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:997)')))

In [22]:
response

NameError: name 'response' is not defined

In [23]:
URL = 'https://leandrolessa.com.br/coleta-de-dados-na-web/'
 
headers = {'User-Agent': 'Brave'}
response = requests.get(URL, headers=headers)

 
if (response.status_code == 200):
    html = response.text
    df_produtos = pd.read_html(html, header=0)
 
df_produtos[0]
 

SSLError: HTTPSConnectionPool(host='leandrolessa.com.br', port=443): Max retries exceeded with url: /coleta-de-dados-na-web/ (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:997)')))

In [24]:
if response.status_code -200:
    html = response.text
    df_produtos = pd.read_html(html, header =0)
else:
    print('Erro de acesso a página' , response.status_code)

NameError: name 'response' is not defined