In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

# 1. Dataset import #

In [None]:
data = pd.read_csv(
    "c:\\Users\\DF6610\\Documents\\ProjectAppauto\\welddb\\welddb.data",
    delim_whitespace=True,
    na_values="N",
)

In [None]:
columns = [
    "Carbon concentration / (weight%)",
    "Silicon concentration / (weight%)",
    "Manganese concentration / (weight%)",
    "Sulphur concentration / (weight%)",
    "Phosphorus concentration / (weight%)",
    "Nickel concentration / (weight%)",
    "Chromium concentration / (weight%)",
    "Molybdenum concentration / (weight%)",
    "Vanadium concentration / (weight%)",
    "Copper concentration / (weight%)",
    "Cobalt concentration / (weight%)",
    "Tungsten concentration / (weight%)",
    "Oxygen concentration / parts per million by weight",
    "Titanium concentration / parts per million by weight",
    "Nitrogen concentration / parts per million by weight",
    "Aluminium concentration / parts per million by weight",
    "Boron concentration / parts per million by weight",
    "Niobium concentration / parts per million by weight",
    "Tin concentration / parts per million by weight",
    "Arsenic concentration / parts per million by weight",
    "Antimony concentration / parts per million by weight",
    "Current / A",
    "Voltage / V",
    "AC or DC",
    "Electrode positive or negative",
    "Heat input / kJ/mm",
    "Interpass temperature / deg C",
    "Type of weld",
    "Post weld heat treatment temperature / deg C",
    "Post weld heat treatment time / hours",
    "Yield strength / MPa",
    "Ultimate tensile strength / MPa",
    "Elongation / %",
    "Reduction of Area / %",
    "Charpy temperature / deg C",
    "Charpy impact toughness / J",
    "Hardness / kg/mm2",
    "50 % FATT",
    "Primary ferrite in microstructure / %",
    "Ferrite with second phase / %",
    "Acicular ferrite / %",
    "Martensite / %",
    "Ferrite with carbide aggregate / %",
    "Weld ID",
]

In [None]:
data.columns = columns
data.head()

In [None]:
# data.to_excel('data.xlsx')
# visualiser les données sur excel

# 2. Data Cleaning #

In [None]:
print("le nombre de lignes dans le dataset :" + str(data.shape[0]))
print("le nombre de colonnes dans le dataset :" + str(data.shape[1]))

- Hardness / kg/mm² : Une mesure de la dureté du matériau soudé, qui est souvent liée à la qualité de la soudure.
- Yield strength / MPa ou Ultimate tensile strength / MPa : Ces deux mesures de résistance pourraient également servir de variable cible, car elles reflètent la capacité du matériau à résister à la déformation ou à la rupture.
- Elongation / % ou Reduction of Area / % : Ces mesures sont souvent utilisées pour évaluer la ductilité et la ténacité d'un matériau, ce qui peut être pertinent pour la qualité des soudures.

2.1 Data Cleaning : 

    -  Colonne "Sulphur concentration / (weight%)" remplacer les points par des ,
    -  Colonne "Sulphur concentration / (weight%)" remplacer les <0,002 par 0,002
    -  Colonne "Molybedunum concentration / (weight%)" remplacer les points par des ,
    -  Colonne "Molybedunum concentration / (weight%)" remplacer les <0,01 par 0,01
    - idem Vanadium, copper, cobalt, thungsten, Titanium concentration / parts per million by weight, aluminium, Boron, Niobium, Tin, Arsenic, Antimony
    -  pour Nitrogen  : "67tot33res" pourrait signifier une concentration totale de 67 ppm, dont 33 ppm correspondent à une partie spécifique (comme un résidu ou un sous-composant) => On ne va considérer que 67ppm





2.2 Data Cleaning :

- Transformer toutes les concentrations ppm en % en utilisant la formule excel : 
    Concentration en % =  Concentration en ppm / 10 000
- Interpass temperature / deg C : transformer les valeurs 150-200 par 175 (la moyenne)
- pour la hardnesss /kg/mm2 : 143 HV30 correspond directement à 143 kgf/mm². Il n'y a pas de conversion supplémentaire à effectuer, car la dureté Vickers est déjà exprimée dans cette unité. on élimine donc les HV30 de cette colonne- Primary ferrite in microstructure / % on remplace les <1 par 1






In [None]:
# Nouvel import des données
df = pd.read_excel("c:\\Users\\DF6610\\Documents\\ProjectAppauto\\data.xlsx")
df.head()

In [None]:
# On définit Weld Id comme index de notre dataframe
df.set_index(["Weld ID"])

2.3 Data Cleaning : missing values

In [None]:
df.replace("N", np.nan, inplace=True)

In [None]:
df.isnull().sum()

On remarque qu'il y a énormément de valeurs manquantes : 

In [None]:
# Les lignes où les concentrations en sulfure sont manquantes sont très similaires : il est donc cohérent de les remplacer par la même valeur
df[df["Sulphur concentration / (weight%)"].isnull()]

In [None]:
# On fait une étude explorative de la colonne Sulphur concentration / (weight%)
df["Sulphur concentration / (weight%)"].describe()

In [None]:
# Tracer le graphique de distribution
plt.figure(figsize=(10, 6))
sns.histplot(df["Sulphur concentration / (weight%)"], bins=10, kde=True)
plt.title("Distribution de la concentration de soufre")
plt.xlabel("Concentration de soufre / (weight%)")
plt.ylabel("Fréquence")
plt.grid(True)
plt.show()

In [None]:
# On remplace ces valeurs manquantes par la moyenne des valeurs de la concentration de sulfure la colonne n'ayant pas énormément d'outliers

df["Sulphur concentration / (weight%)"].fillna(0.00953, inplace=True)

In [None]:
# Idem pour le phosphore
df[df["Phosphorus concentration / (weight%)"].isnull()]

In [None]:
# On fait une étude explorative de la colonne Phosphorus concentration / (weight%)
df["Phosphorus concentration / (weight%)"].describe()

In [None]:
# Tracer le graphique de distribution
plt.figure(figsize=(10, 6))
sns.histplot(df["Phosphorus concentration / (weight%)"], bins=10, kde=True)
plt.title("Distribution de la concentration de phosphore")
plt.xlabel("Concentration de phosphore / (weight%)")
plt.ylabel("Fréquence")
plt.grid(True)
plt.show()

In [None]:
df["Phosphorus concentration / (weight%)"].fillna(0.012953, inplace=True)

In [None]:
df["Phosphorus concentration / (weight%)"].isnull().any()

In [None]:
df["Nickel concentration / (weight%)"].fillna(
    df["Nickel concentration / (weight%)"].mean(), inplace=True
)
df["Chromium concentration / (weight%)"].fillna(
    df["Chromium concentration / (weight%)"].mean(), inplace=True
)
df["Molybdenum concentration / (weight%)"].fillna(
    df["Molybdenum concentration / (weight%)"].mean(), inplace=True
)
df["Vanadium concentration / (weight%)"].fillna(
    df["Vanadium concentration / (weight%)"].mean(), inplace=True
)
df["Copper concentration / (weight%)"].fillna(
    df["Copper concentration / (weight%)"].mean(), inplace=True
)
df["Cobalt concentration / (weight%)"].fillna(
    df["Cobalt concentration / (weight%)"].mean(), inplace=True
)
df["Tungsten concentration / (weight%)"].fillna(
    df["Tungsten concentration / (weight%)"].mean(), inplace=True
)
df["Oxygen concentration / weight%"].fillna(
    df["Oxygen concentration / weight%"].mean(), inplace=True
)
df["Titanium concentration /  weight%"].fillna(
    df["Titanium concentration /  weight%"].mean(), inplace=True
)
df["Nitrogen concentration / weight%"].fillna(
    df["Nitrogen concentration / weight%"].mean(), inplace=True
)
df["Aluminium concentration / weight%"].fillna(
    df["Aluminium concentration / weight%"].mean(), inplace=True
)
df["Boron concentration / weight%"].fillna(
    df["Boron concentration / weight%"].mean(), inplace=True
)
df["Niobium concentration / weight%"].fillna(
    df["Niobium concentration / weight%"].mean(), inplace=True
)
df["Tin concentration / weight%"].fillna(df["Tin concentration / weight%"].mean(), inplace=True)
df["Arsenic concentration / weight%"].fillna(
    df["Arsenic concentration / weight%"].mean(), inplace=True
)
df["Antimony concentration /  weight%"].fillna(
    df["Antimony concentration /  weight%"].mean(), inplace=True
)

In [None]:
df.isnull().sum()

In [None]:
# On va s'intéresser aux valeurs manquantes de courant et de voltage
# Tracer le graphique de distribution
plt.figure(figsize=(10, 6))
sns.histplot(df["Voltage / V"], bins=10, kde=True)
plt.title("Distribution du voltage")
plt.xlabel("Voltage")
plt.ylabel("Fréquence")
plt.grid(True)
plt.show()

In [None]:
# On va s'intéresser aux valeurs manquantes de courant et de voltage
# Tracer le graphique de distribution
plt.figure(figsize=(10, 6))
sns.histplot(df["Current / A"], bins=10, kde=True)
plt.title("Distribution du courant")
plt.xlabel("Courant")
plt.ylabel("Fréquence")
plt.grid(True)
plt.show()

# Distribution pas très symétriques, remplacer par la moyenne serait une mauvaise idée


In [None]:
import pandas as pd

# Exemple de DataFrame avec une colonne d'identifiants
data_exple = {"ID": ["abcd123", "abc124", "abcd125", "def456", "def457", "ghi789", "ghi7abc"]}

df_exple = pd.DataFrame(data_exple)


# Fonction pour trouver le plus long préfixe commun
def find_longest_common_prefix(ids):
    if not ids:
        return ""

    prefix = ids[0]  # Commencer avec le premier identifiant
    for id in ids[1:]:
        while (
            not id.startswith(prefix) and prefix
        ):  # Réduire le préfixe jusqu'à ce qu'il corresponde
            prefix = prefix[:-1]
    return prefix


# Appliquer la fonction à chaque identifiant pour déterminer le préfixe commun
def get_common_prefix(current_id, ids):
    # Chercher le préfixe commun uniquement parmi ceux qui partagent un préfixe similaire
    return find_longest_common_prefix([id for id in ids if id.startswith(current_id[:3])])


# Appliquer la fonction pour chaque ID
df_exple["Common_Prefix"] = df_exple["ID"].apply(
    lambda x: get_common_prefix(x, df_exple["ID"].tolist())
)

print(df_exple)

In [None]:
df["Common_Prefix"] = df["Weld ID"].apply(lambda x: get_common_prefix(x, df["Weld ID"].tolist()))
df["Common_Prefix"].value_counts()

In [None]:
# df_pivot= pd.pivot_table(df,values=['colonne1',...],index=,aggfunc={'colonne1':"mean",...})

In [None]:
df_pivot_current = pd.pivot_table(
    df, values=["Current / A"], index=["Common_Prefix"], aggfunc={"mean"}
)

In [None]:
df_pivot_current