<a href="https://colab.research.google.com/github/Meguazy/project_CSD/blob/main/notebook_exploration_cleaning/ingestion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!git clone https://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@github.com/Meguazy/project_CSD.git

In [None]:
%cd project_CSD/

In [None]:
#Usare ogni volta che si inizia a lavorare per accertarsi che non ci siano
#cambiamenti non sincronizzati

!git pull

In [None]:
from google.colab import auth
auth.authenticate_user()

import requests
gcloud_token = !gcloud auth print-access-token
gcloud_tokeninfo = requests.get('https://www.googleapis.com/oauth2/v3/tokeninfo?access_token=' + gcloud_token[0]).json()
EMAIL = str(gcloud_tokeninfo['email'])

!echo $EMAIL

#Usare per fare commit atomici e frequenti.
#Ricordiamoci di usare mettere sempre dei messaggi di commit chiari in modo da
#poter rollbackare o cherry-pickare in caso di bisogno.

!git config --global user.email $EMAIL

!git add .
!git commit -m "Added first pre-processing logic"
!git push

In [None]:
#
# FUNCTION FOR INGESTING THE ANAGRAFICA FILES

import os
import re
import pandas as pd
# folder path
def ingest_anagrafica(dir_path):
    final_anagrafica_df = pd.DataFrame()

    for file_name in os.listdir(dir_path):

        if os.path.isfile(os.path.join(dir_path, file_name)):

            #Importing the raw dataframes
            raw_dataframe = pd.read_excel(dir_path + "/" + file_name,nrows=6,header = None)

            #Transposing the dataframe in order to have rows as columns.
            #The reason behind that is that in the raw dataset the rows and columns are inverted.
            T_table = raw_dataframe.T

            new_header = T_table.iloc[0] #grab the first row for the header
            T_table = T_table[1:] #take the data less the header row
            T_table.columns = new_header #set the header row as the df header

            anagrafica_df = T_table.set_index('Acquisition Number') #Set the new index

            #Replacing the column "Material" that contains a string like "d:n|r:m", with n
            #being the diameter of the iron bar and m being the type of iron (0 for nervato and 1 for non nervato).
            #Here we put 'n' into the "Material" column and 'm' into the "Diameter" column.
            diameter, material = str(anagrafica_df['Material'].values[0]).split('|')
            anagrafica_df['Material_type'] = material.split(':')[1]
            anagrafica_df['Diameter'] = diameter.split(':')[1]

            #Dropping the original Material
            anagrafica_df.drop(["Material"], axis=1, inplace=True)

            final_anagrafica_df = pd.concat([final_anagrafica_df, anagrafica_df])

    return final_anagrafica_df

In [None]:
#
# FUNCTION FOR INGESTING THE TIME SERIES FILES

def ingest_time_series(dir_path):
    final_time_series_df = pd.DataFrame()

    for file_name in os.listdir(dir_path):
        #Extracting the acq_number
        acq_number = str(re.findall(r'_\d+', file_name)[0]).split("_")[1]
        print(acq_number)

        if os.path.isfile(os.path.join(dir_path, file_name)):
            #Ingesting the raw dataframe
            raw_dataframe = pd.read_excel(dir_path + "/" + file_name,skiprows=6)

            new_header = raw_dataframe.iloc[0] #grab the first row for the header
            raw_dataframe = raw_dataframe[1:] #take the data less the header row
            raw_dataframe.columns = new_header #set the header row as the df header

            raw_dataframe['Acquisition Number'] = acq_number
            time_series_df = raw_dataframe.set_index(['Acquisition Number','Time'])

            final_time_series_df = pd.concat([final_time_series_df, time_series_df], axis=0)

    #new_df.loc[new_df['Acquisition Number'] == 1]

    return final_time_series_df

In [None]:
# SAVING THE CSV FILES FOR THE CASE "TrainoCaso1"

ingest_anagrafica("data/raw_data/DatasetRuoteCaso1").to_csv('data/processed_data/TrainoCaso1/anagrafica.csv', sep=',', encoding='utf-8')
ingest_time_series("data/raw_data/DatasetRuoteCaso1").to_csv('data/processed_data/TrainoCaso1/time_series.csv', sep=',', encoding='utf-8')

In [None]:
# SAVING THE CSV FILES FOR THE CASE "TrainoCaso2"

ingest_anagrafica("data/raw_data/DatasetRuoteCaso2").to_csv('data/processed_data/TrainoCaso2/anagrafica.csv', sep=',', encoding='utf-8')
ingest_time_series("data/raw_data/DatasetRuoteCaso2").to_csv('data/processed_data/TrainoCaso2/time_series.csv', sep=',', encoding='utf-8')

In [None]:
# APPLICO IL T-SNE E CALCOLO LA KL-DIVERGENCE

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.manifold import TSNE

time_series_df = pd.read_csv("data/processed_data/TrainoCaso1/time_series.csv")

# Seleziono, in questo caso, l'acquisizione numero 60
time_series_df = time_series_df.loc[time_series_df['Acquisition Number'] == 60]
# Facendo così prendo solo la prima time series dell'acquisizione.
selected_df = time_series_df[['Axe1X', 'Axe1Y', 'Axe1Z']]
# Se volessi prendere la seconda (perché ricordiamo che abbiamo 2 time series ad acquisizione)
# avrei dovuto scrivere la seguente linea di codice:
# selected_df = time_series_df[['Axe2X', 'Axe2Y', 'Axe2Z']]
# Da tenere a mente che il dataset finale dovrà contenere ENTRAMBE le time series sullo stesso record.
# Quindi, la struttura finale della tabella dovrà essere:
# [time, time_series_1, time_series_2]
# Mentre quella attuale è
# [time, 'Axe1X', 'Axe1Y', 'Axe1Z', 'Axe2X', 'Axe2Y', 'Axe2Z']
# Per schematizzare ancora meglio:
# 1) 'Axe1X', 'Axe1Y', 'Axe1Z' ---> (tramite il t-sne) time_series_1
# 2) 'Axe2X', 'Axe2Y', 'Axe2Z' ---> (tramite il t-sne) time_series_2

# Normalizzo i dati
sc = StandardScaler()
X_scaled = sc.fit_transform(selected_df)

# Applico il TSNE con 1 componente (per ottenere un dataset unidimensionale).
# Gli iper-parametri (perplexity, learning_rate e n_iter) sono settati un po' ad
# occhio. Andrebbe fatta un po' di hyper-parameters optimization per vedere se è possibile
# ottenere valori ancora migliori di KL divergence (migliori = che danno un risultato di Percentage Entropy increase più basso).
tsne = TSNE(n_components=1, perplexity=30, learning_rate = 15.0, n_iter = 2000)
X_tsne = tsne.fit_transform(X_scaled)

kl_divergence = tsne.kl_divergence_

In [None]:
# CALCOLO L'ENTROPIA TOTALE DEL DATASET DI PARTENZA

from scipy.stats import entropy

print(X_scaled)

# Setto una costante in modo da avere il meno possibile probabilità uguali a 0.
# Questo perché scipy.stats.entropy assume che il vettore passato non abbia
# probabilità uguali a 0.
epsilon = 0.1

# Modifico il dataset "X_scaled" (quello iniziale) aggiungendo epsilon
joint_probs = X_scaled.flatten() + epsilon
print(joint_probs)
print(f"size joint_probs {joint_probs.size}")

# In alcuni casi, per valori troppo vicini allo zero, python setta
# automaticamente a 0 la variabile anche dopo aver aggiunto epsilon.
# Dato che le probabilità a zero non hanno alcun peso sull'entropia di un
# oggetto, semplicemente le filtro.
nonzero_probs = joint_probs[joint_probs > 0]
print(f"size nonzero_probs {nonzero_probs.size}")

if len(nonzero_probs) == 0:
    print("Tutte le probabilità sono zero. Impossibile calcolare l'entropia")
else:
    # base=2 significa che sto usando logaritmi in base 2 per calcolare l'entropia
    # Possono essere usati anche altri logaritmi, ma la base 2 è quella usata dal
    # t-sne. Ergo, dobbiamo restare sulla stessa base di logaritmo anche per il totale.
    joint_entropy = entropy(nonzero_probs, base=2)
    print(f"Joint Entropy: {joint_entropy}")

In [None]:
# CALCOLO il Percentage Entropy increase

print(f"KL divergence: {kl_divergence}")
print(f"Initial dataset entropy: {joint_entropy}")

# Qui calcolo l'aumento percentuale di entropia come divisione di KL per entropia totale * 100
print(f"Percentage Entropy increase: {(kl_divergence/joint_entropy)*100}%")

In [None]:
plt.figure(figsize=(20,6))
plt.plot(np.arange(0, X_tsne.size, 1), X_tsne)