# Coleta de dados 
***

A coleta de dados é uma etapa fundamental para qualquer projeto de ciência de dados. É a partir dos dados que os cientistas podem realizar análises e extrair informações relevantes para tomada de decisões e resolução de problemas. Sem uma coleta adequada de dados, o projeto pode ser comprometido, levando a conclusões equivocadas e resultados ineficientes. 

Além disso, a qualidade dos dados coletados é fundamental para garantir a confiabilidade das análises realizadas e a validade das conclusões obtidas. 
Por isso, é essencial investir em técnicas e ferramentas que possibilitem uma coleta de dados eficiente e precisa, garantindo assim o sucesso dos projetos de ciência de dados.

### Bibliotecas necessárias 
-  xlrd ➝ para coletar dados do tipo Excel
-  lxml ➝ para coletar dados estruturados na web
-  os   ➝ para acessar pastas do sistema operacional

### Importando bibliotecas 

In [24]:
import pandas as pd
import lxml.html
import os

### Coletando dados de arquivo do tipo CSV

In [10]:
df = pd.read_csv('./datasets/perfil_clientes.csv',
                sep=';')

In [11]:
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


### Coletando dados de arquivo do tipo Excel

In [3]:
df2 = pd.read_excel('./datasets/compras.xls')

In [4]:
df2.head()

Unnamed: 0,cod_cliente,cod_produto,qtd_produto,valor_unitario,valor_total_compra
0,1,1011.0,3,5.99,17.97
1,2,1032.0,4,9.99,39.96
2,3,1049.0,2,5.99,
3,4,1021.0,4,3.99,15.96
4,5,1001.0,4,22.0,88.0


In [5]:
# Selecionado planilha específica
df3 = pd.read_excel('./datasets/compras.xls',
                       sheet_name='produtos')

In [6]:
df3.head()

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,9.9
1,1001,Amaciante,1,Produtos de Limpeza,22.0
2,1002,Detergente,1,Produtos de Limpeza,1.99
3,1003,Água sanitária,1,Produtos de Limpeza,12.0
4,1004,Esponja de aço,1,Produtos de Limpeza,4.0


### Coletando dados de arquivo do tipo texto

In [15]:
df4 = pd.read_csv('./datasets/estados.txt', 
           sep='|', encoding='latin1')

In [16]:
df4.head()

Unnamed: 0,codigo_estado,nome_estado,sgl_estado
0,1,Acre,AC
1,2,Alagoas,AL
2,3,Amapá,AP
3,4,Amazonas,AM
4,5,Bahia,BA


### Coletando dados de arquivo do tipo JSON

In [17]:
df5 = pd.read_json('./datasets/dados_clientes.json')

In [18]:
df5.head()

Unnamed: 0,cod_cliente,sexo,idade,qtd_filhos,estado_civil,cod_estado,hipertenso,diabetes
0,1,1,26,2,3,13,0,1
1,2,1,58,0,2,2,0,0
2,3,1,63,1,3,11,1,1
3,4,1,58,2,2,11,1,1
4,5,0,70,0,1,5,0,1


### Coletando dados de tabelas estruturas na Web

In [19]:
HTML = 'https://profleandrolessa.wordpress.com/exercicio-de-coleta-de-dados/'

In [20]:
df6 = pd.read_html(HTML, 
                   header=[0],
                   thousands='.')

In [22]:
df6[0]

Unnamed: 0,cod_produto,nome_produto,cod_classe_produto,classe_produto,valor
0,1000,Sabão em pó,1,Produtos de Limpeza,99
1,1001,Amaciante,1,Produtos de Limpeza,22
2,1002,Detergente,1,Produtos de Limpeza,199
3,1003,Água sanitária,1,Produtos de Limpeza,12
4,1004,Esponja de aço,1,Produtos de Limpeza,4
...,...,...,...,...,...
82,1082,Peixe,5,Carnes e Frios,2999
83,1083,Frango,5,Carnes e Frios,199
84,1084,Carne vermelha,5,Carnes e Frios,5699
85,1085,Carne seca,5,Carnes e Frios,6499


### Coletando dados de em lista de arquivos 

In [23]:
DIRETORIO = './datasets/pesquisa/'

In [25]:
lista_path = os.listdir(DIRETORIO) 
len(lista_path)

18

In [26]:
lista_df = [] 
for arquivo in lista_path:
    local_arquivo = os.path.join(DIRETORIO, arquivo)
    df = pd.read_csv(local_arquivo, sep = '|', encoding='latin-1')
    lista_df.append(df)
df = pd.concat(lista_df) 

In [27]:
df

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10141615,2020-01-18,Feminino,1981-11-25,cachorro,frio,Café,Praticar esporte
1,10141659,2020-01-18,Masculino,1956-10-20,gato,frio,Café,Aprender algo novo
2,10141677,2020-01-18,Masculino,1982-10-09,cachorro,frio,Chá,Assistir TV
3,10141835,2020-01-18,Feminino,1982-01-08,tartaruga,frio,Café,Pintar quadros
4,10141926,2020-01-18,Feminino,1990-06-26,peixe,moderado,refrigerante,Dormir
...,...,...,...,...,...,...,...,...
1,10142028,2020-01-17,Feminino,1967-02-19,gato,quente,Cerveja,Praticar esporte
2,10142452,2020-01-17,Masculino,1984-09-24,tartaruga,frio,Chá,Dormir
3,10143075,2020-01-17,Masculino,1974-06-16,gato,moderado,Água,Assistir TV
4,10143273,2020-01-17,Feminino,1983-01-04,gato,quente,refrigerante,Dormir


In [28]:
data = {
  "Duration":{
    "0":60,
    "1":60,
    "2":60,
    "3":45,
    "4":45,
    "5":60
  },
  "Pulse":{
    "0":110,
    "1":117,
    "2":103,
    "3":109,
    "4":117,
    "5":102
  },
  "Maxpulse":{
    "0":130,
    "1":145,
    "2":135,
    "3":175,
    "4":148,
    "5":127
  },
  "Calories":{
    "0":409,
    "1":479,
    "2":340,
    "3":282,
    "4":406,
    "5":300
  }
}

df = pd.DataFrame(data)

print(df) 

   Duration  Pulse  Maxpulse  Calories
0        60    110       130       409
1        60    117       145       479
2        60    103       135       340
3        45    109       175       282
4        45    117       148       406
5        60    102       127       300


In [None]:
j_df = pd.read_json('./datasets/clientes.json')
j_df

with open(j_file) as jsonfile:
    data = json.load(jsonfile)

'split' : dict like {index -> [index], columns -> [columns], data -> [values]}
'records' : list like [{column -> value}, ... , {column -> value}]
'index' : dict like {index -> {column -> value}}
'columns' : dict like {column -> {index -> value}}
'values' : just the values array

In [None]:
pd.read_json('./datasets/clientes.json')