In [7]:
import glob                         # libreria que permite buscar varios archivos de un mismo tipo
import pandas as pd                 # libreria de pandas para manipular archivos y dataframes
import xml.etree.ElementTree as ET  # Libreria para procesar archivos xml.
from datetime import datetime

tmpfile    = "temp.tmp"               # archivo para almacenar los datos
logfile    = "logfile.txt"            # todos los registros de eventos se almacenarán en este archivo
targetfile = "transformed_data.csv"   # Archivo donde se alamacena los datos transformados

def extract_from_csv(file_to_process):         #funcion que lee archivo de tipo csv y lo muestra como dataframe
    dataframe = pd.read_csv(file_to_process)
    return dataframe

def extract_from_json(file_to_process):
    dataframe = pd.read_json(file_to_process,lines=True)  #funcion que lee archivo de tipo json y lo muestra como dataframe
    return dataframe

def extract_from_xml(file_to_process):
    dataframe = pd.DataFrame(columns=["name", "height", "weight"])  #funcion que lee archivo de tipo xml y lo muestra como dataframe
    tree = ET.parse(file_to_process)
    root = tree.getroot()
    for person in root:
        name = person.find("name").text
        height = float(person.find("height").text)
        weight = float(person.find("weight").text)
        dataframe = dataframe.append({"name":name, "height":height, "weight":weight}, ignore_index=True)
    return dataframe

def extract():
    extracted_data = pd.DataFrame(columns=['name','height','weight']) # se crea un dataframe vacio con los nombres de columnas
    
    #process all csv files
    for csvfile in glob.glob("*.csv"):
        extracted_data = extracted_data.append(extract_from_csv(csvfile), ignore_index=True)  #se itera dentro del dataframe vacio y se agregan los datos de los archivos tipo csv 
        
        
    #process all json files
    for jsonfile in glob.glob("*.json"):
        extracted_data = extracted_data.append(extract_from_json(jsonfile), ignore_index=True) #se itera dentro del dataframe vacio y se agregan los datos de los archivos tipo json
    
    #process all xml files
    for xmlfile in glob.glob("*.xml"):
        extracted_data = extracted_data.append(extract_from_xml(xmlfile), ignore_index=True) #se itera dentro del dataframe vacio y se agregan los datos de los archivos tipo xml
        
    return extracted_data #retorna dataframe llenado con los datos en orden de formato (csv,json,xml)

def transform(data):
        #Convertir la altura que está en pulgadas a milímetros
        #Convertir el tipo de datos de la columna en flotante
        #datos.altura = datos.altura.astype(float)
        #Convertir pulgadas a metros y redondear a dos decimales (una pulgada son 0,0254 metros)
        data['height'] = round(data.height * 0.0254,2)
        
        #Convertir el peso que está en libras a kilogramos
        #Convertir el tipo de datos de la columna en flotante
        #datos.peso = datos.peso.astype(float)
        #Convierta libras a kilogramos y redondee a dos decimales (una libra son 0,45359237 kilogramos)
        data['weight'] = round(data.weight * 0.45359237,2)
        return data
    
def load(targetfile,data_to_load):   #funcion que carga los datos en archivo csv
    data_to_load.to_csv(targetfile)
    
    
def log(message):
    timestamp_format = '%Y-%h-%d-%H:%M:%S' # Year-Monthname-Day-Hour-Minute-Second   #funcion que registra la fecha y la hora en la que se ejecuta cada funcion
    now = datetime.now() # get current timestamp
    timestamp = now.strftime(timestamp_format)
    with open("logfile.txt","a") as f:
        f.write(timestamp + ',' + message + '\n')
        
        

print("Extract phase Started")
extracted_data = extract()
print("Extract phase Ended")  #se ejecuta funcion principal y muestra resultado
extracted_data

print("Transform phase Started")
transformed_data = transform(extracted_data)
print("Transform phase Ended")
transformed_data 

print("Load phase Started")
load(targetfile,transformed_data)
print("Load phase Ended")
print(transformed_data)

Extract phase Started
Extract phase Ended
Transform phase Started
Transform phase Ended
Load phase Started
Load phase Ended
      name  height  weight  Unnamed: 0.2  Unnamed: 0.1  Unnamed: 0
0     alex    1.67   51.25           NaN           NaN         NaN
1     ajay    1.82   61.91           NaN           NaN         NaN
2    alice    1.76   69.41           NaN           NaN         NaN
3     ravi    1.73   64.56           NaN           NaN         NaN
4      joe    1.72   65.45           NaN           NaN         NaN
..     ...     ...     ...           ...           ...         ...
112   ivan    1.72   51.77           NaN           NaN         NaN
113  simon    1.72   50.97           NaN           NaN         NaN
114  jacob    1.70   54.73           NaN           NaN         NaN
115  cindy    1.69   57.81           NaN           NaN         NaN
116   ivan    1.72   51.77           NaN           NaN         NaN

[117 rows x 6 columns]


  extracted_data = extracted_data.append(extract_from_csv(csvfile), ignore_index=True)  #se itera dentro del dataframe vacio y se agregan los datos de los archivos tipo csv
  extracted_data = extracted_data.append(extract_from_csv(csvfile), ignore_index=True)  #se itera dentro del dataframe vacio y se agregan los datos de los archivos tipo csv
  extracted_data = extracted_data.append(extract_from_csv(csvfile), ignore_index=True)  #se itera dentro del dataframe vacio y se agregan los datos de los archivos tipo csv
  extracted_data = extracted_data.append(extract_from_csv(csvfile), ignore_index=True)  #se itera dentro del dataframe vacio y se agregan los datos de los archivos tipo csv
  extracted_data = extracted_data.append(extract_from_json(jsonfile), ignore_index=True) #se itera dentro del dataframe vacio y se agregan los datos de los archivos tipo json
  extracted_data = extracted_data.append(extract_from_json(jsonfile), ignore_index=True) #se itera dentro del dataframe vacio y se ag