## Coleta de dados estruturados em lista de arquivos

Nesse exercício prático, vamos coletar os dados através de vários arquivos separados por data. 
O dataset utilizado é um conjunto de dados ficticios que ilustra pesquisa com clientes em um ano.

A prática consiste em coletar todos os dados em cada arquivo e adiciona-los em um dataframe do pandas e em seguida analisar e persistir os dados em arquivo de texto e em tabelas no banco de dados. 


In [None]:
#Vamos importar as bibliotecas que vamos utilizar para essa prática
import pandas as pd 
import os # bibliotecas para funções do sistema operacional

### Documentação das bibliotecas
**Pandas** - https://pandas.pydata.org/pandas-docs/stable/index.html

**os** - https://docs.python.org/3/library/os.html

Vamos atribuir a uma váriavel o caminho no qual está armazenados os arquivos com as vendas do veículo



In [5]:
DIRETORIO = "/content/sample_data/diego"

Agora vamos criar uma lista com todos os arquivos que estão armazenados no diretório.

o metódo listdir retorna uma lista contendo os nomes das entradas no diretório fornecido por path.


In [6]:
lista_df = [] # cria uma lista
lista_path = os.listdir(DIRETORIO) 

In [7]:
lista_path[:3] #lista quantidade de itens na lista

['2020-01-16.csv', '2020-12-19.csv', '2020-01-13.csv']

Ótmo! Agora temos todos os nomes dos aquivos que estão dentro do diretório. Agora vamos abrir cada arquivo e coletar os seus dados.

In [10]:
lista_df = [] # cria uma lista vazia
for arquivo in lista_path:
    local_arquivo = os.path.join(DIRETORIO, arquivo)
    df = pd.read_csv(local_arquivo, sep = '|', encoding='latin-1')
    lista_df.append(df)
df_pesquisa = pd.concat(lista_df) # Atribui os dados coletados em um dataframe

In [17]:
df_pesquisa[:10]

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10142036,2020-01-16,Feminino,1965-04-19,tartaruga,frio,Água,Escutar música
1,10142053,2020-01-16,Feminino,1968-10-21,peixe,quente,refrigerante,Praticar esporte
0,10141876,2020-12-19,Feminino,1972-12-20,gato,frio,Vinho,Aprender algo novo
1,10141899,2020-12-19,Masculino,1969-09-18,gato,moderado,Chá,Pintar quadros
2,10143110,2020-12-19,Masculino,1951-07-25,gato,moderado,refrigerante,Praticar esporte
3,10143158,2020-12-19,Feminino,1988-10-18,gato,quente,refrigerante,Escutar música
4,10143159,2020-12-19,Feminino,1956-07-16,peixe,quente,Café,Escutar música
0,10141518,2020-01-13,Masculino,1959-06-12,tartaruga,frio,Água,Aprender algo novo
1,10142083,2020-01-13,Masculino,1959-02-22,gato,moderado,Água,Dormir
2,10142537,2020-01-13,Masculino,1994-08-20,cachorro,quente,Cerveja,Escrever


In [16]:
df_pesquisa.describe()

Unnamed: 0,cod_pessoa
count,2127.0
mean,10142560.0
std,614.1563
min,10141500.0
25%,10142030.0
50%,10142560.0
75%,10143100.0
max,10143630.0


# Exportando dados para arquivos

Agora que ja temos todos os arquivos do diretório, vamos exporta-los apenas para um arquivo único.


In [12]:
df_pesquisa.to_csv(DIRETORIO + 'pesquisa_completa.csv', sep = ';', encoding='latin-1', index=False)

Agora temos os dados das vendas em um único arquivo. Abaixo segue a prévia do arquivo exportado.

![image.png](attachment:c3d5cd8c-11c8-46da-94c3-0211cae07ff3.png)