In [1]:
import pandas as pd
import numpy as np

# Tableau original

![Description of Image](./tab_ori.png)

In [43]:
# Load the data
df1 = pd.read_excel("AFC.xlsx", sheet_name="Tab0", index_col=0)

# Display original data for reference
print("Original DataFrame:")
print(df1)


Original DataFrame:
        Couleur       Poids  Forme
Produit                           
P1         Bleu       Lourd   Rond
P2        Blanc       Léger  Carré
P3         Vert       Léger   Rond
P4         Bleu  Très lourd  Carré
P5        Blanc       Léger   Rond
P6         Vert  Très lourd  Carré
P7         Bleu       Léger   Rond
P8        Blanc  Très lourd  Carré
P9         Vert  Très lourd   Rond
P10        Bleu       Lourd  Carré


In [44]:
# Remove "Vert" from "Couleur" and "Rond" from "Forme" (ordinal & nominal elimination)
df1['Couleur'] = df1['Couleur'].replace({'Vert': 'Other'})  # Replace Vert with a placeholder for simplicity
df1['Forme'] = df1['Forme'].replace({'Rond': 'Other'})  # Remove 'Rond' from the 'Forme' column

# One-Hot Encoding for the 'Couleur', 'Poids', and 'Forme' columns
df_encoded = pd.get_dummies(df1, columns=['Couleur', 'Poids', 'Forme'])

# Remove the original "Vert" and "Rond" encoded columns to match the required output
df_encoded = df_encoded.drop(columns=['Couleur_Other', 'Forme_Other'])



In [45]:
# Display the resulting one-hot encoded DataFrame
print("\nOne-Hot Encoded DataFrame:")
print(df_encoded)


One-Hot Encoded DataFrame:
         Couleur_Blanc  Couleur_Bleu  Poids_Lourd  Poids_Léger  \
Produit                                                          
P1               False          True         True        False   
P2                True         False        False         True   
P3               False         False        False         True   
P4               False          True        False        False   
P5                True         False        False         True   
P6               False         False        False        False   
P7               False          True        False         True   
P8                True         False        False        False   
P9               False         False        False        False   
P10              False          True         True        False   

         Poids_Très lourd  Forme_Carré  
Produit                                 
P1                  False        False  
P2                  False         True  
P3             

In [48]:
# Replace 1 with True and 0 with False
df_encoded = df_encoded.replace({True: 1, False: 0})

In [49]:

# Display the resulting one-hot encoded DataFrame
print("\nOne-Hot Encoded DataFrame:")
print(df_encoded)


One-Hot Encoded DataFrame:
         Couleur_Blanc  Couleur_Bleu  Poids_Lourd  Poids_Léger  \
Produit                                                          
P1                   0             1            1            0   
P2                   1             0            0            1   
P3                   0             0            0            1   
P4                   0             1            0            0   
P5                   1             0            0            1   
P6                   0             0            0            0   
P7                   0             1            0            1   
P8                   1             0            0            0   
P9                   0             0            0            0   
P10                  0             1            1            0   

         Poids_Très lourd  Forme_Carré  
Produit                                 
P1                      0            0  
P2                      0            1  
P3             

- Eliminons la variable vert pour la couleur
- Eliminons la variable rond pour la forme
- Pas d'éliminations pour les variables qualitatives nominales

In [None]:
df = pd.read_excel("AFC.xlsx", sheet_name="TDC", index_col=0)
df

Unnamed: 0_level_0,Bleu,Blanc,Leger,Lourd,Tres lourd,carre
Produit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
P1,1,0,0,1,0,0
P2,0,1,1,0,0,1
P3,0,0,1,0,0,0
P4,1,0,0,0,1,1
P5,0,1,1,0,0,0
P6,0,0,0,0,1,1
P7,1,0,1,0,0,0
P8,0,1,0,0,1,1
P9,0,0,0,0,1,0
P10,1,0,0,1,0,1


**NB:**
Pour les variables qualitatives nominales comme {leger, lourd, tres lourd} (on ne supprime pas une variable au choix)
Pour les variables qualitatives ordinales comme {bleu, blanc, vert} (on ne supprime pas une variable au choix)

**Remarque:** Pour le tableau de Burt, on ne tient pas compte de l'ordre établie pour une variable ordinale donnée c'est à dire au lieu de faire leger 1, lourd 1 avant de mettre très lourd à 1 si le produit est lourd : on ne tient pas compte de cette ordre (juste 1 ou 0 pour la variable concernée)

In [7]:
T = df.to_numpy()
T_burt = np.dot(T.T, T)

In [8]:
T_burt

array([[ 4,  0,  4,  3,  1,  2],
       [ 0,  3,  3,  1,  1,  2],
       [ 4,  3, 10,  6,  4,  5],
       [ 3,  1,  6,  6,  4,  4],
       [ 1,  1,  4,  4,  4,  3],
       [ 2,  2,  5,  4,  3,  5]], dtype=int64)

# Tableau des distances
C'est le tableau par excellence qui permet, à travers une mesure de similarité ou de dissimilarité, de mesurer les distances de chaque paire d'individu.

Il faut noter que la distance euclidienne ne peut pas s'appliquer dans ce contexte car les modalités ne sont pas mesurables mais plutot des attributs.

Le choix de la distance est dictée par l'approche méthodologique choisie dans l'argorithme `IBM Master Plan`

![Description of Image](https://miro.medium.com/v2/resize:fit:605/1*UWnLLc9noB7sxVrVHtvgbg.png)


In [12]:
# Read the Excel file, skipping the first row which contains unnecessary headers
df = pd.read_excel("AFC.xlsx", sheet_name="Tab1", header=1, index_col=0)

# Display the cleaned dataframe
df

Unnamed: 0,V1,V2,V3,V4
I1,1,0,1,0
I2,1,0,0,1
I3,0,1,1,0
I4,0,1,0,1
I5,1,0,1,0
I6,1,0,0,1
I7,0,1,1,0


A partir du tableau Tab1, nous allons donner la matrice des distances correspondantes. On peut utiliser la distance de dissimilarité suivante:

$$
d(i,j) = \frac{b + c}{a + b + c + d}
$$


## Calcul de la matrice des distances de dissimilarité

Pour obtenir la matrice des distances de dissimilarité basée sur la formule donnée, nous allons calculer la distance entre chaque paire d'individus  (I1, I2) en utilisant la formule suivante :

$
d(i, j) = \frac{b + c}{a + b + c + d}
$

### Définition des paramètres :

-  a est le nombre de positions où les deux individus ont la valeur 00 .
-  b est le nombre de positions où l'individu i a la valeur 0 et l'individu j a la valeur 1 (ou vice versa).
-  c est le nombre de positions où l'individu i a la valeur 1 et l'individu j a la valeur 0 (ou vice versa).
-  d est le nombre de positions où les deux individus ont la valeur 11.

Nous allons donc calculer ces distances pour chaque paire d'individus dans le tableau.

### Exemple de calcul pour d(I2, I7) :
Comme nous l'avons déjà fait dans l'exemple précédent, pour les individus I2 et I7, nous avons :

- a = 0 (les positions où I2 et I7 ont 00)
- b = 2 (les positions où I2 a 0 et I7 a 1)
- c = 2 (les positions où I2 a 1 et I7 a 0)
- d = 0 (les positions où I2 et I7 ont 11)

La distance pour cette paire est donc :

$
d(I2, I7) = \frac{2 + 2}{0 + 2 + 2 + 0} = \frac{4}{4} = 1
$

### Calcul de la matrice des distances :
En appliquant cette méthode à chaque paire d'individus dans le tableau, nous obtiendrons la matrice des distances de dissimilarité.

## Calcul des distances

### Calcul de la matrice des distances :
Nous allons appliquer la même méthode pour chaque paire d'individus dans le tableau. Voici les résultats des calculs :


In [13]:
# Fonction pour calculer la distance de dissimilarité
def dissimilarity_distance(row1, row2):
    # a : positions où les deux individus ont la valeur 00
    a = np.sum((row1 == 0) & (row2 == 0))
    
    # b : positions où le premier individu a 0 et le second a 1
    b = np.sum((row1 == 0) & (row2 == 1))
    
    # c : positions où le premier individu a 1 et le second a 0
    c = np.sum((row1 == 1) & (row2 == 0))
    
    # d : positions où les deux individus ont la valeur 11
    d = np.sum((row1 == 1) & (row2 == 1))
    
    # Calcul de la distance de dissimilarité
    return (b + c) / (a + b + c + d)

# Création de la matrice des distances
n = len(df)
distance_matrix = np.zeros((n, n))

# Remplir la matrice des distances
for i in range(n):
    for j in range(n):
        distance_matrix[i, j] = dissimilarity_distance(df.iloc[i], df.iloc[j])

# Convertir la matrice en DataFrame pour une meilleure lisibilité
distance_df = pd.DataFrame(distance_matrix, index=df.index, columns=df.index)

# Afficher la matrice des distances
distance_df

Unnamed: 0,I1,I2,I3,I4,I5,I6,I7
I1,0.0,0.5,0.5,1.0,0.0,0.5,0.5
I2,0.5,0.0,1.0,0.5,0.5,0.0,1.0
I3,0.5,1.0,0.0,0.5,0.5,1.0,0.0
I4,1.0,0.5,0.5,0.0,1.0,0.5,0.5
I5,0.0,0.5,0.5,1.0,0.0,0.5,0.5
I6,0.5,0.0,1.0,0.5,0.5,0.0,1.0
I7,0.5,1.0,0.0,0.5,0.5,1.0,0.0
