## Workshop ETL Python

# Importation des modules et bibliothèques de Python

In [31]:
# Importation des modules et librairies
import pandas as pd
import glob
from datetime import datetime

# Fonction de log des activités de ce programme ETL

In [32]:
# Fonction permettant de générer un log des utilisations
def log(message):
	timestamp_format = "%Y/%h/%d - %H:%M:%S"
	now = datetime.now()
	timestamp = now.strftime(timestamp_format)
	with open("logfile.txt", "a") as f:
		f.write(timestamp + " --> " + message + "\n")

# Récupération des différents fichiers

In [33]:
# Récupération des fichiers csv
list_csv = glob.glob("*.csv")
list_csv:["source1.csv", "source2.csv", "source3.csv"]


# Récupération des fichiers .json
list_json = glob.glob("*.json")
list_json:["source1.json", "source2.json", "source3.json"]

# Récupération des fichiers .xml
list_xml = glob.glob("*.xml")
list_xml:["source1.xml", "source2.xml", "source3.xml"]

# Extraction des données

In [34]:
# Fonction permettant d'extraire les données contenues dans un fichier csv. Retourne une dataframe.
def extract_from_csv(csv_file):
	dataframe = pd.read_csv(csv_file)
	return dataframe

# Fonction permettant d'extraire les données contenues dans un fichier json. Retourne une dataframe.
def extract_from_json(json_file):
	dataframe = pd.read_json(json_file, lines= True)
	return dataframe

# Fonction permettant d'extraire les données contenues dans un fichier xml. Retourne une dataframe.
def extract_from_xml(xml_file):
    dataframe = pd.read_xml(xml_file)
    return dataframe

# Fonction qui permet d'extraire les données de plusieurs fichiers dont le format est différent et d'obtenir une nouvelle dataframe qui contient l'ensemble de ses données extraites
def extract():
	# Création d'un dataframe vide qui va nous permettre de regrouper toutes nos données collectées
	extracted_data = pd.DataFrame(columns=['name', 'height', 'weight'])

	# On récupère les données des fichiers en .csv
	for csvfile in glob.glob("*.csv"):
		data = extract_from_csv(csvfile)
		frames = [extracted_data, data]
		# On utilise concat plutôt que append comme dans la vidéo de coursera car la fonction append de pandas est déprécié et va être supprimer
		extracted_data = pd.concat(frames)

	# On récupère les données des fichiers en .json
	for jsonfile in glob.glob("*.json"):
		data = extract_from_json(jsonfile)
		frames = [extracted_data, data]
		# On utilise concat plutôt que append comme dans la vidéo de coursera car la fonction append de pandas est déprécié et va être supprimer
		extracted_data = pd.concat(frames)

	# On récupère les données des fichiers en .xml
	for xmlfile in glob.glob("*.xml"):
		data = extract_from_xml(xmlfile)
		frames = [extracted_data, data]
		# On utilise concat plutôt que append comme dans la vidéo de coursera car la fonction append de pandas est déprécié et va être supprimer
		extracted_data = pd.concat(frames)

    # On renvoie la dataframe extracted_data
	return extracted_data

# Récupération de nos données dans une seule dataframe + messages de logs
log("ETL Job Started")
log("Extract phase Started")
extracted_data = extract()
# Vérification de l'extraction des données
print(extracted_data)
log("Extract phase Ended")

    name  height  weight
0   alex   65.78  112.99
1   ajay   71.52  136.49
2  alice   69.40  153.03
3   ravi   68.22  142.34
4    joe   67.79  144.30
0   alex   65.78  112.99
1   ajay   71.52  136.49
2  alice   69.40  153.03
3   ravi   68.22  142.34
4    joe   67.79  144.30
0   alex   65.78  112.99
1   ajay   71.52  136.49
2  alice   69.40  153.03
3   ravi   68.22  142.34
4    joe   67.79  144.30
0   jack   68.70  123.30
1    tom   69.80  141.49
2  tracy   70.01  136.46
3   john   67.90  112.37
0   jack   68.70  123.30
1    tom   69.80  141.49
2  tracy   70.01  136.46
3   john   67.90  112.37
0   jack   68.70  123.30
1    tom   69.80  141.49
2  tracy   70.01  136.46
3   john   67.90  112.37
0  simon   67.90  112.37
1  jacob   66.78  120.67
2  cindy   66.49  127.45
3   ivan   67.62  114.14
0  simon   67.90  112.37
1  jacob   66.78  120.67
2  cindy   66.49  127.45
3   ivan   67.62  114.14
0  simon   67.90  112.37
1  jacob   66.78  120.67
2  cindy   66.49  127.45
3   ivan   67.62  114.14


# Transformation des données

In [35]:
# Fonction qui prend un dataframe en paramètre où les données de poids et de taille sont renseignées avec les unités de mesure du système impérial (inches et pounds) et renvoie un dataframe où ces données ont été convertie aux unités mesure du système métrique
def transform(data):
	# Conversion de la taille des individus dans le dataframe passé en paramètre de la fonction du système impérial (inches) au système métrique (mètre). 1 inch = 0.0254 mètre
	data["height"] = round(data.height * 0.0254, 2)

	# Conversion du poids des individus dans le dataframe passé en paramètre de la fonction du système impérial (pounds) au système métrique (kilogramme). 1 pound = 0.45359237 kilogramme
	data["weight"] = round(data.weight * 0.45359237, 2)

	return data

# Transformation de données
log("Transform Job Started")
transformed_data = transform(extracted_data)
# Vérification de la transformation des données
print(extracted_data)
log("Transform Job Ended")

    name  height  weight
0   alex    1.67   51.25
1   ajay    1.82   61.91
2  alice    1.76   69.41
3   ravi    1.73   64.56
4    joe    1.72   65.45
0   alex    1.67   51.25
1   ajay    1.82   61.91
2  alice    1.76   69.41
3   ravi    1.73   64.56
4    joe    1.72   65.45
0   alex    1.67   51.25
1   ajay    1.82   61.91
2  alice    1.76   69.41
3   ravi    1.73   64.56
4    joe    1.72   65.45
0   jack    1.74   55.93
1    tom    1.77   64.18
2  tracy    1.78   61.90
3   john    1.72   50.97
0   jack    1.74   55.93
1    tom    1.77   64.18
2  tracy    1.78   61.90
3   john    1.72   50.97
0   jack    1.74   55.93
1    tom    1.77   64.18
2  tracy    1.78   61.90
3   john    1.72   50.97
0  simon    1.72   50.97
1  jacob    1.70   54.73
2  cindy    1.69   57.81
3   ivan    1.72   51.77
0  simon    1.72   50.97
1  jacob    1.70   54.73
2  cindy    1.69   57.81
3   ivan    1.72   51.77
0  simon    1.72   50.97
1  jacob    1.70   54.73
2  cindy    1.69   57.81
3   ivan    1.72   51.77


# Chargement des données sur un nouveau fichier csv

In [36]:
# Fonction qui permet d'exporter nos données sur un fichier csv
def load(targetfile, data_to_load):
	data_to_load.to_csv(targetfile)

targetfile = "transformed_data.csv"

log("Load Job Started")
load(targetfile, transformed_data)
log("Load Job Ended")
log("ETL Job Ended")