# Separar por Tipo de Arquivo de Configuração

Com a busca dos arquivos de configuração realizados no script **`08-busca-pelo-arquivo-config.ipynb`**, para poder verificar a ocorrencia foi necessário separar os arquivos por tipo de arquivo de configuração. Para poder extrair as componentes mais usados

## Importação de Bibliotecas

- **pandas (`pd`)**: Para manipulação de dados em formato tabular.
- **os**: Para interagir com o sistema operacional, como criação de diretórios.

## Funcionalidades

1. **Carregamento de Dados**: O script começa carregando um arquivo CSV que contém os resultados previamente coletados.

2. **Identificação de Tipos de Documento**: Extrai os tipos de documento únicos da coluna `file` do DataFrame.

3. **Criação de Diretório de Saída**: Cria um diretório para armazenar os arquivos CSV separados, caso ele ainda não exista.

4. **Separação de Dados**: Para cada tipo de documento identificado, o script:
   - Filtra o DataFrame para incluir apenas as entradas do tipo atual.
   - Gera um nome de arquivo seguro, substituindo espaços e barras por underscores.
   - Salva o DataFrame filtrado em um novo arquivo CSV.


In [1]:
import pandas as pd
import os

# Carregar o arquivo CSV
df = pd.read_csv('../Database/Questao1/resultados.csv')

# Verificar os tipos de documento únicos na coluna 'file'
tipos_documento = df['file'].unique()

# Criar o diretório de saída, se não existir
output_dir = '../Database/Questao1/separados'
os.makedirs(output_dir, exist_ok=True)

# Separar o DataFrame por tipo de documento e salvar em arquivos CSV diferentes
for tipo in tipos_documento:
    # Filtrar o DataFrame para o tipo de documento atual
    df_tipo = df[df['file'] == tipo]
    
    # Criar um nome de arquivo seguro (substituir espaços por underscores)
    tipo_limpo = tipo.replace(' ', '_').replace('/', '_')  # Limpa o nome do tipo
    file_path = os.path.join(output_dir, f'{tipo_limpo}.csv')  # Monta o caminho completo do arquivo
    
    # Salvar o DataFrame filtrado em um novo arquivo CSV
    df_tipo.to_csv(file_path, index=False)  # Salva o DataFrame em um novo arquivo CSV

print('Codigo Finalizado')

Codigo Finalizado
