# ETL Simple

Na pasta assets, tem dados de 3 fontes diferentes (arquivos e formatos diferentes)

Tarefa:

- [ ] Extrair os dados para um único arquivo ***transormed_data.csv*** sendo o formato em csv.

- [ ] O cabelho do arquivo final deverá ter os seguintes campos: name, height, weight

- [ ] O campo height está em **inch** e deverá ser convertido em **m**. (0.0254 valor de conversão) com 2 digitos apos a virgula

- [ ] O campo weight está em **pound** e deverá ser convertido em **kg**. (0.45359237 valor de conversão) com 2 digitos após a virgula

    

In [1]:
# Imports
import glob
import pandas as pd
import xml.etree.ElementTree as ET
from datetime import datetime

In [3]:
# Variaveis de arquivos finais
log_file = "log_file.txt"
target_file = "transformed_data.csv"

In [22]:
# funções de extrações csv, json e xml

def extract_from_csv(file_to_process):
    """Extrair dados de um arquivo csv e retorna um dataframe"""
    df = pd.read_csv(file_to_process)
    return df

def extract_from_json(file_to_process):
    """"Extrair dados de um arquivo json e retornar um datarame"""
    df = pd.read_json(file_to_process, lines=True)
    return df

def extract_from_xml(file_to_process):
    """Extrair dados de um arquivo xml e retornar um dataframe"""
    df = pd.DataFrame(columns=["name", "height", "weight"])
    tree = ET.parse(file_to_process)
    root = tree.getroot()
    
    for person in root:
        name = person.find("name").text
        height = float(person.find("height").text)
        weight = float(person.find("weight").text)
        df = pd.concat([df, pd.DataFrame([{"name": name, "height": height, "weight": weight}])], ignore_index=True)
    print(df)
    return df
    


In [19]:
# Extração dos dados e retorno do Dataframe
def extract():
    """Extrai todos dados usando funções préviamente definidas"""
    extracted_data = pd.DataFrame(columns=["name", "height", "weight"])
    
    # processar arquivos json
    for jsonfile in glob.glob("./assets/*.json"):
        extracted_data = pd.concat([extracted_data, pd.DataFrame(extract_from_json(jsonfile))], ignore_index=True)
    
    # processar arquivos csv
    for jsonfile in glob.glob("./assets/*.csv"):
        extracted_data = pd.concat([extracted_data, pd.DataFrame(extract_from_csv(jsonfile))], ignore_index=True)
    
    # processar arquivos xml
    #for jsonfile in glob.glob("./assets/*.xml"):
    #    extracted_data = pd.concat([extracted_data, pd.DataFrame(extract_from_xml(jsonfile))], ignore_index=True)
    
    return extracted_data

In [10]:
# Processo de transformação
def transform(df):
    """Converter altura para m e peso para kg"""
    df["height"] = round(df.height * 0.0254, 2)
    
    df["weight"] = round(df.weight * 0.45359237, 2)
    
    return df

In [7]:
# carregar os dados nos arquivos finais
def load_data(target_file, transformed_data):
    transformed_data.to_csv(target_file)

In [8]:
# função de log
def log_progress(message):
    timestamp_format = "%Y-%h-%d-%H:%M:%S"
    now = datetime.now()
    timestamp = now.strftime(timestamp_format)
    with open(log_file, "a") as f:
        f.write(timestamp + "," + message + "\n")

In [23]:
# inicializando ETL
# inicializar ETL
log_progress("Iniciando execução da ETL")

log_progress("Iniciando extração")
extracted_data = extract()

log_progress("Extração inalizada")

log_progress("Iniciando transformação")
transformed_data = transform(extracted_data)
log_progress("Finalizando transformação")

log_progress("Iniciando processo de load")
load_data(target_file, transformed_data)
log_progress("Finalizando processo de load")

log_progress("ETL finanlizado")

In [None]:
# Verificar que há dados no arquivo final
