# Criando um Data Lake

## 1. Ingestão de dados na camada "raw"
As tabelas em CSV do banco de dados "northwind" deverão ser carregadas no diretório "raw", que será a primeira camada do Data Lake.

### 1.1 Configuração

In [0]:
username = 'thais'

northwind = f'/letscode/{username}/northwind/'

### 1.2 Limpeza
Removendo o diretório "northwind" no DBFS, caso este notebook seja executado mais de uma vez.

In [0]:
dbutils.fs.rm(northwind, recurse=True)

Out[30]: True

### 1.3 Criando a camada "raw" no DBFS
O upload das tabelas da Northwind foi feito em FileStore > tables.   
Essas tabelas serão copiadas para suas pastas correspondentes na camada "raw".   
Decidi copiar as tabelas ao invés de movê-las, devido à necessidade de executar testes neste notebook inúmeras vezes.

In [0]:
def data_to_raw(data_path):
    
    '''
    Função para criar a camada "raw" e realizar a ingestão dos dados.
    
    Arg:
        data_path: caminho original dos dados.
    
    Return:
        raw_content: mostra o conteúdo da camada "raw".
    '''
    
    for file in dbutils.fs.ls(data_path):
        origin = data_path + file.name
        file_without_extension = f'{file.name}'.rsplit('.', 1)[0]
        dbutils.fs.mkdirs(northwind + f'raw/{file_without_extension}')
        dbfs = northwind + f'raw/{file_without_extension}/' + file.name
        dbutils.fs.cp(origin, dbfs)
    raw_content = display(dbutils.fs.ls(northwind + 'raw/'))
    
    return raw_content

### 1.4 Mostrando o conteúdo da camada "raw"

In [0]:
# Chamando a função que mostra o conteúdo da "raw"
data_to_raw('/FileStore/tables/')

path,name,size,modificationTime
dbfs:/letscode/thais/northwind/raw/categories/,categories/,0,0
dbfs:/letscode/thais/northwind/raw/customers/,customers/,0,0
dbfs:/letscode/thais/northwind/raw/employee_territories/,employee_territories/,0,0
dbfs:/letscode/thais/northwind/raw/employees/,employees/,0,0
dbfs:/letscode/thais/northwind/raw/order_details/,order_details/,0,0
dbfs:/letscode/thais/northwind/raw/orders/,orders/,0,0
dbfs:/letscode/thais/northwind/raw/products/,products/,0,0
dbfs:/letscode/thais/northwind/raw/region/,region/,0,0
dbfs:/letscode/thais/northwind/raw/shippers/,shippers/,0,0
dbfs:/letscode/thais/northwind/raw/suppliers/,suppliers/,0,0


### 1.5 Validando a ingestão dos dados
Verificando se todas as tabelas foram copiadas para a camada "raw".

In [0]:
def validate_data_ingestion(data_path):
    
    '''
    Função para validar a ingestão dos dados na camada "raw".
    
    Arg:
        data_path: caminho original dos dados.
    
    Return:
        imprime a validação de cada arquivo na camada "raw".
    '''
    
    for file in dbutils.fs.ls(data_path):
        file_without_extension = f'{file.name}'.rsplit('.', 1)[0]
        assert file.name in [file.name for file in dbutils.fs.ls(northwind + f'raw/{file_without_extension}')], f'{file.name} not present in Raw Path.'
        print(f'{file.name}: assertion passed.')

# Chamando a função que valida a ingestão dos dados
validate_data_ingestion('/FileStore/tables/')

categories.csv: assertion passed.
customers.csv: assertion passed.
employee_territories.csv: assertion passed.
employees.csv: assertion passed.
order_details.csv: assertion passed.
orders.csv: assertion passed.
products.csv: assertion passed.
region.csv: assertion passed.
shippers.csv: assertion passed.
suppliers.csv: assertion passed.
territories.csv: assertion passed.
us_states.csv: assertion passed.
