#### Integração de Dados (Lista de Arquivos)

Você já se deparou com a tarefa de reunir vários de arquivos espalhados por diferentes locais e desejou poder consolidá-los em um único lugar de forma eficiente? Se sim, esse tutorial é pra você! 

Nesta aula, vamos explorar técnicas e ferramentas para coletar dados de um repositório e organizá-los de maneira que facilite sua análise e uso posterior. Ao longo deste tutorial, vamos aprender não apenas como reunir esses arquivos, mas também como automatizar o processo para economizar tempo e minimizar erros. 


<Center><h5><font>Fluxograma de Processamento de Dados</font></h5></center>

<center>



<img src="../diagramas/Integração de Dados (Lista de Arquivos).png" width="40%">
</center>

<font color="yellow">Requisitos</font>
***
Instalação da biblioteca Pandas
- Requests (pip install pandas)

Referência: https://leandrolessa.com.br/tutoriais/coleta-de-dados-em-3-passos-com-python-simples-e-direto-para-listas-de-arquivos/

#### Passo 1: Identificar o Local onde os Arquivos estão Armazenados
Quando se trata de extrair dados de uma lista de arquivos, o primeiro passo essencial é identificar o local onde esses arquivos estão armazenados. O local do arquivo pode váriar de acordo com a disponibilidade dos dados. 
Por exemplo: Os arquivos podem estar disponíveis em:
- Diretório da rede
- Pasta local no seu computador 
- Disponibilizada em algum site na web
- Entre outros

##### Importando as bibliotecas

In [19]:
import os
import pandas as pd

#### Analisando o Diretório

In [35]:
PATH = '../datasets/licencas_medicas/'
lista_path = os.listdir(PATH)
  

In [39]:
qtd_registros = len(lista_path)
print(f'O diretório possui {qtd_registros} arquivos')

O diretório possui 538 arquivos


#### Passo 2: Leitura e Processamento dos Arquivos CSV
 O objetivo principal desse código é percorrer todos os arquivos de uma determinada pasta. Para cada arquivo encontrado, ele verifica se o arquivo é um arquivo CSV. Se for, lê o arquivo CSV e adiciona o conteúdo a uma lista de DataFrames chamada lista_df. 

In [19]:
lista_df = []
for arquivo in lista_path:
    local_arquivo = os.path.join(PATH, arquivo)
    if arquivo.endswith('.csv'):
        df = pd.read_csv(local_arquivo, sep='|', encoding='latin1')
        lista_df.append(df)

#### Passo 3: Concatenação dos DataFrames para Integração Final
O último passo consiste em concatenar todas as leituras finalizadas e integralas em apenas um repositório de dados.

In [42]:
pd.concat(lista_df)

Unnamed: 0,data_processamento,nome_medico,especialidade,motivo_licenca,id_colaborador,nome_colaborador,data_nascimento,estado_colaborador,sexo_colaborador,inicio_licenca,fim_licenca,duracao_licenca,escolaridade,salario,qtd_filhos,hobbie,possui_pet,estado_civil
0,2022-01-04,Dr. Gustavo,Clínico geral,Acidente de trajeto,25,Matheus Peixoto,1995-11-28,Pernambuco,Masculino,2022-01-03,2022-01-04,1,Superior,7983.38,4.0,Esportes,Não,Viúvo(a)
0,2022-01-08,Dr. Thiago,Ortopedista,Comum,17,Luana Mendes,1960-11-22,Distrito Federal,Feminino,2022-01-06,2022-01-24,18,Médio,2434.41,3.0,Esportes,Não,Viúvo(a)
0,2022-01-12,Dr. Pedro,Clínico geral,Acidente de trajeto,998,Lívia Moraes,2001-09-24,Amapá,Feminino,2022-01-02,2022-01-08,6,Médio,6629.56,2.0,Artes,Não,Casado(a)
1,2022-01-12,Dr. Marcos,Traumatologista,Acidente de trajeto,287,Thomas Gomes,1974-07-31,Rio de Janeiro,Masculino,2022-01-09,2022-01-24,15,Médio,8266.57,2.0,Música,Não,Casado(a)
0,2022-01-14,Dr. André,Traumatologista,Enfermidade de filhos pequenos,97,João Pedro Martins,1972-10-19,Maranhão,Masculino,2022-01-10,2022-01-28,18,Fundamental,9626.64,0.0,Leitura,Não,Casado(a)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1,2024-01-13,Dr. Ramos,Ortopedista,Comum,302,Brenda Cavalcanti,1961-02-13,Goiás,Feminino,2023-12-15,2023-12-21,6,Fundamental,5509.67,3.0,Música,Não,Casado(a)
2,2024-01-13,Dr. Ricardo,Traumatologista,Enfermidade de filhos pequenos,61,Sophia Nunes,2003-05-24,Santa Catarina,Feminino,2023-12-17,2023-12-26,9,Fundamental,3834.88,1.0,Leitura,Não,Solteiro(a)
0,2024-01-18,Dr. Ramos,Ortopedista,Enfermidade de filhos pequenos,381,Renan Porto,1955-09-15,Pernambuco,Masculino,2023-12-19,2024-01-08,20,Fundamental,3258.61,0.0,Viagens,Sim,Viúvo(a)
0,2024-01-19,Dr. Gustavo,Clínico geral,Acidente de trajeto,599,Ana Beatriz das Neves,1959-11-29,Rio Grande do Norte,Feminino,2023-12-26,2024-01-25,30,Médio,3162.39,1.0,Esportes,Sim,Divorciado(a)


Unnamed: 0,data_processamento,nome_medico,especialidade,motivo_licenca,id_colaborador,nome_colaborador,data_nascimento,estado_colaborador,sexo_colaborador,inicio_licenca,fim_licenca,duracao_licenca,escolaridade,salario,qtd_filhos,hobbie,possui_pet,estado_civil
0,2022-01-04,Dr. Gustavo,Clínico geral,Acidente de trajeto,25,Matheus Peixoto,1995-11-28,Pernambuco,Masculino,2022-01-03,2022-01-04,1,Superior,7983.38,4.0,Esportes,Não,Viúvo(a)
0,2022-01-08,Dr. Thiago,Ortopedista,Comum,17,Luana Mendes,1960-11-22,Distrito Federal,Feminino,2022-01-06,2022-01-24,18,Médio,2434.41,3.0,Esportes,Não,Viúvo(a)
0,2022-01-12,Dr. Pedro,Clínico geral,Acidente de trajeto,998,Lívia Moraes,2001-09-24,Amapá,Feminino,2022-01-02,2022-01-08,6,Médio,6629.56,2.0,Artes,Não,Casado(a)
1,2022-01-12,Dr. Marcos,Traumatologista,Acidente de trajeto,287,Thomas Gomes,1974-07-31,Rio de Janeiro,Masculino,2022-01-09,2022-01-24,15,Médio,8266.57,2.0,Música,Não,Casado(a)
0,2022-01-14,Dr. André,Traumatologista,Enfermidade de filhos pequenos,97,João Pedro Martins,1972-10-19,Maranhão,Masculino,2022-01-10,2022-01-28,18,Fundamental,9626.64,0.0,Leitura,Não,Casado(a)
