# Coleta de dados 
***

A coleta de dados é uma etapa fundamental para qualquer projeto de ciência de dados. É a partir dos dados que os cientistas podem realizar análises e extrair informações relevantes para tomada de decisões e resolução de problemas. Sem uma coleta adequada de dados, o projeto pode ser comprometido, levando a conclusões equivocadas e resultados ineficientes. 

Além disso, a qualidade dos dados coletados é fundamental para garantir a confiabilidade das análises realizadas e a validade das conclusões obtidas. 
Por isso, é essencial investir em técnicas e ferramentas que possibilitem uma coleta de dados eficiente e precisa, garantindo assim o sucesso dos projetos de ciência de dados.

### Bibliotecas necessárias 
-  xlrd ➝ para coletar dados do tipo Excel
-  lxml ➝ para coletar dados estruturados na web
-  os   ➝ para acessar pastas do sistema operacional

### Importando bibliotecas 

In [1]:
import pandas as pd
import os

### Coletando dados de arquivo do tipo CSV

In [2]:
df = pd.read_csv('./datasets/perfil_clientes.csv', sep=';')
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


### Coletando dados de arquivo do tipo Excel

In [3]:
df2 = pd.read_excel('./datasets/compras.xls')
df2.head()

Unnamed: 0,cod_cliente,cod_produto,qtd_produto,valor_unitario,valor_total_compra
0,1,1011.0,3,5.99,17.97
1,2,1032.0,4,9.99,39.96
2,3,1049.0,2,5.99,
3,4,1021.0,4,3.99,15.96
4,5,1001.0,4,22.0,88.0


In [4]:
# Selecionado planilha específica
df_produtos = pd.read_excel('./datasets/compras.xls', sheet_name='produtos')
df_produtos.head()

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,9.9
1,1001,Amaciante,1,Produtos de Limpeza,22.0
2,1002,Detergente,1,Produtos de Limpeza,1.99
3,1003,Água sanitária,1,Produtos de Limpeza,12.0
4,1004,Esponja de aço,1,Produtos de Limpeza,4.0


### Coletando dados de arquivo do tipo texto

In [5]:
df_texto = pd.read_csv('./datasets/estados.txt', sep='|', encoding='latin1')
df_texto.head()

Unnamed: 0,codigo_estado,nome_estado,sgl_estado
0,1,Acre,AC
1,2,Alagoas,AL
2,3,Amapá,AP
3,4,Amazonas,AM
4,5,Bahia,BA


### Coletando dados de arquivo do tipo JSON

In [6]:
df_json = pd.read_json('./datasets/dados_clientes.json')
df_json.head()

Unnamed: 0,cod_cliente,sexo,idade,qtd_filhos,estado_civil,cod_estado,hipertenso,diabetes
0,1,1,26,2,3,13,0,1
1,2,1,58,0,2,2,0,0
2,3,1,63,1,3,11,1,1
3,4,1,58,2,2,11,1,1
4,5,0,70,0,1,5,0,1


### Coletando dados de tabelas estruturas na Web

In [7]:
import pandas as pd
import lxml.html
HTML = 'https://profleandrolessa.wordpress.com/exercicio-de-coleta-de-dados/'
df_site = pd.read_html(HTML, header=[0])[0]
df_site

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,99
1,1001,Amaciante,1,Produtos de Limpeza,22
2,1002,Detergente,1,Produtos de Limpeza,199
3,1003,Água sanitária,1,Produtos de Limpeza,12
4,1004,Esponja de aço,1,Produtos de Limpeza,4
...,...,...,...,...,...
82,1082,Peixe,5,Carnes e Frios,2999
83,1083,Frango,5,Carnes e Frios,199
84,1084,Carne vermelha,5,Carnes e Frios,5699
85,1085,Carne seca,5,Carnes e Frios,6499


In [20]:
URL = 'https://leandrolessa.com.br/coleta-de-dados-na-web/'
import requests

In [21]:
headers = {"User-Agent": "Brave"}
response = requests.get(URL, headers=headers)
 
if response.status_code == 200:
    # Use o método read_html do Pandas para extrair todas as tabelas da página
    html = response.text
    df_produtos = pd.read_html(html, header=0, thousands='.')
    df_produtos = df_produtos[0] # Coleta a primeira tabela
   
else:
    # Se a solicitação não for bem-sucedida, imprima o código de status HTTP
    print("Erro ao solicitar a página:", response.status_code)

  df_produtos = pd.read_html(html, header=0, thousands='.')


In [22]:
df_produtos

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,99
1,1001,Amaciante,1,Produtos de Limpeza,22
2,1002,Detergente,1,Produtos de Limpeza,199
3,1003,Água sanitária,1,Produtos de Limpeza,12
4,1004,Esponja de aço,1,Produtos de Limpeza,4
...,...,...,...,...,...
82,1082,Peixe,5,Carnes e Frios,2999
83,1083,Frango,5,Carnes e Frios,199
84,1084,Carne vermelha,5,Carnes e Frios,5699
85,1085,Carne seca,5,Carnes e Frios,6499


### Coletando dados de em lista de arquivos 

In [8]:
df_json = pd.read_json('./datasets/dados_clientes.json')
df_json.head()

Unnamed: 0,cod_cliente,sexo,idade,qtd_filhos,estado_civil,cod_estado,hipertenso,diabetes
0,1,1,26,2,3,13,0,1
1,2,1,58,0,2,2,0,0
2,3,1,63,1,3,11,1,1
3,4,1,58,2,2,11,1,1
4,5,0,70,0,1,5,0,1


In [16]:
DIRETORIO = './datasets/pesquisa'

In [17]:
lista_path = os.listdir(DIRETORIO)
len(lista_path)

18

In [18]:
lista_df=[]

for arquivo in lista_path:
    if arquivo.endswith('.csv'):
        local_arquivo = os.path.join(DIRETORIO, arquivo)
        df = pd.read_csv(local_arquivo, sep='|', encoding='latin1')
        lista_df.append(df)

df_final = pd.concat(lista_df)

In [19]:
df_final

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10141743,2020-01-01,Masculino,1981-04-25,peixe,frio,Cerveja,Praticar esporte
1,10141860,2020-01-01,Feminino,1966-01-19,peixe,quente,Café,Assistir TV
2,10142548,2020-01-01,Masculino,1973-08-02,tartaruga,frio,Café,Ler livros
3,10142591,2020-01-01,Masculino,1997-03-05,gato,moderado,Cerveja,Aprender algo novo
4,10142654,2020-01-01,Feminino,1969-08-05,tartaruga,moderado,Café,Assistir TV
...,...,...,...,...,...,...,...,...
7,10142641,2020-01-18,Feminino,1954-02-23,tartaruga,frio,Água,Pintar quadros
8,10143080,2020-01-18,Masculino,1957-07-06,gato,frio,Café,Ler livros
9,10143191,2020-01-18,Masculino,1959-02-28,cachorro,quente,Chá,Escutar música
10,10143509,2020-01-18,Masculino,1963-04-14,gato,quente,Água,Dormir
