![image-2.png](attachment:image-2.png)

###                                    MASTER INGENIERIE DES SYSTEMES D'INFORMATION ET DES DONNEES

###                                        PROBABILITE ET STATISTIQUES POUR INTELLIGENCE ARTIFIELLE


#### Analyse Factorielle des Correspondances (AFC)

L’analyse factorielle des correspondances (AFC) – ou analyse des correspondances pour simplifier - propose une vision synthétique des informations « saillantes ou patterns » portées par un tableau de contingence. Elle permet de débroussailler rapidement les grands tableaux. Son pouvoir de séduction repose en grande partie sur les représentations graphiques qu’elle propose. Elles nous permettent de situer facilement les similarités (dissimilarités) entre les profils et les attractions (répulsions) entre les modalités. Elle a été mise au point à partir des années 1960 par Jean-Paul Benzécri. Les facteurs – les variables latentes – qui en sont issus sont des combinaisons linéaires des points modalités (lignes ou colonnes) exprimés par des profils (lignes ou colonnes).

##### Conditions d'application

l’AFC s’applique en priorité sur les tableaux de contingence (tableau de comptage) mais aussi sur tout autre tableau de valeurs positives pour laquelle les notions de marges (sommes en ligne et colonne) et profils (ratios en ligne et colonne) ont un sens

**Exemple 1**

On a demandé à un ensemble d'électeurs leur département et leur vote à l’élection présidentielle. Supposons qu'il y a I candidats et J départements 

Ces données peuvent être rangées dans un tableau de contingence de la forme: ![image.png](attachment:image.png) 

![image-3.png](attachment:image-3.png):représente le nombre de personnes ayant voté pour le candidat i dans le département j.

 

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np


**Exercice d'application:On s’intéresse à la relation entre la couleur des yeux et la couleur des cheveux de 592 sujets féminins. Les données sont résumées dans le tableau ci-aprés**
**Les données s’inspirent de l’article de Snee (1974)**

In [2]:
X=np.array([[119,26,7],
           [54,14,10],
           [29,14,16],
           [84,17,94]])

In [6]:
exdapp=pd.DataFrame(X, index=['Marrons', 'Noisettes', 'Verts', 'Bleus' ], 
                   columns=['Chatains',' Roux', 'Blonds'])
exdapp

Unnamed: 0,Chatains,Roux,Blonds
Marrons,119,26,7
Noisettes,54,14,10
Verts,29,14,16
Bleus,84,17,94


In [4]:

afc = pd.read_excel("Data_Methodes_Factorielles_python.xlsx",sheet_name="AFC_ETUDES",index_col=0)

In [5]:
afc

Unnamed: 0_level_0,Droit,Sciences,Medecine,IUT
CSP_vs_Filiere,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ExpAgri,80,99,65,58
Patron,168,137,208,62
CadreSup,470,400,876,79
Employe,145,133,135,54
Ouvrier,166,193,127,129


Ce serait une erreur de résumé un tableau de contingence comme un simple croisement entre deux variables
qualitatives mais il peut être plus riche. On cherche souvent
à savoir si l’une apporte de l’information sur l’autre et inversement. Dans le tableau ci-dessus on peut caractériser la relation de différentes manières:

- Quelle est la structure des filières choisies selon la CSP ? On parle alors de profil ligne.


- Est-ce que la structure est différente d’une CSP à l’autre ? le calcul de ces écarts se fera à l’aide d’une distance adaptée à l'étude.

- Nous pouvons mener la même étude mais sous l’angle des profils colonnes : les compositions des filières sont-elles différentes en termes de CSP ?


- Nous pouvons enfin étudier les associations et répulsions entre CSP et filières ie certaines CSP ont-elles une préférences pour certaines filières ? Des filières spécifiques attirent-elles des catégories particulières de CSP ?

**Définir les profils lignes et colonnes de l'exemple 1**

# I. Concepts et Notation

### I.1. Fréquences et Fréquences relatives

 ![image-2.png](attachment:image-2.png)

### I.2. Marges

![image.png](attachment:image.png)

### II. Profils

### II.1. Profils lignes

![image.png](attachment:image.png)

![image.png](attachment:image.png)

### II.2. Profil-ligne moyen
On défini le profil-ligne moyen comme suit:
![image.png](attachment:image.png)
On remarque qu'il est obtenu en sommant simplement les colonnes de notre tableau de fréquence:



### II.3. Profils colonne
![image-2.png](attachment:image-2.png)

### II.4. Profil-colonne moyen
![image.png](attachment:image.png)

### III. Distance entre les profils
![image.png](attachment:image.png)

**Remarque: En adoptant la notation matricielle, on obtient que la distance carrée du khi deux est de la forme**
![image.png](attachment:image.png)

**Question: En utilisant les deux métriques (euclidienne et Khi-deux), calculer la distance cadre,ouvrier et cadre,patron. Conclure**

**Remarque:**![image.png](attachment:image.png)

### IV. Indépendance
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

**Exercice: Réaliser le test de Khi-deux d'indépendance entre la variable CSP et Filière au seuil de 5%**

### V. Mathématiques de l'AFC

![image.png](attachment:image.png)

Les deux analyses en composantes principales ne sont pas réalisées directement sur les variables, mais plutôt sur les profils lignes (analyse directe) et les profils colonnes (analyse duale). De plus, l’analyse des correspondances binaires intègre la notion de poids des colonnes (ou des lignes) et de distance du khi-deux.

Le tableau suivant permet de comparer sommairement l’analyse en composantes principales avec l’analyse des correspondances.

![image.png](attachment:image.png)


### V.1
![image.png](attachment:image.png)
La solution est donnée par le vecteur propre principal de ![image-2.png](attachment:image-2.png)

**Exercice: Calculer S, ses valeurs propres et vecteurs propres**

### V.1.1: Détermination des facteurs et Coordonnées
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### V.1.2. Représentation
**On peut représenter les profils-lignes sur les deux dimensions de l’analyse des correspondances.**

### V.2: Analyse duale (colonne)
![image.png](attachment:image.png)
La solution est donnée par le vecteur propre principal de ![image-2.png](attachment:image-2.png)
**Exercice: Calculer T, ses valeurs propres et vecteurs propres. Que remarque t-on?**

### V.2.1: Détermination des facteurs et Coordonnées
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### V.2.2: Représentation
**On peut représenter les profils-colonnes sur les deux dimensions de l’analyse des correspondances.**

### VI: Projection des deux analyses dans le même plan

Le but usuel de l’analyse des correspondances est de produire un graphique en 2 dimensions qui résume l’information contenue dans le tableau de fréquences et qui fait bien ressortir les différentes associations intéressantes.

Pour être en mesure de présenter les deux analyses dans un même plan, il faut s’assurer que les deux ACP projettent les données dans les mêmes dimensions. Les relations de transitions et la notion de centre de gravité présentées dans les deux sections suivantes nous permettent de nous assurer que nous projetons effectivement les «individus» des analyses duales et directes dans les mêmes dimensions.

### VI. 1. Relation de transition
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### VI. 2. Centre de gravité
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
![image-4.png](attachment:image-4.png)

### VII.1. Rappels coordonnées
Les coordonnées des points lignes correspondent au profils lignes projetés sur les axes factoriels. La coordonnée de la i-ème ligne sur l’axe j est donné par la i-ème ligne de:![image.png](attachment:image.png)

Les coordonnées des points colonnes correspondent au profils colonnes projetés sur les axes factoriels. La coordonnée de la k-ième colonne sur l’axe j est donné par la k-ième ligne de:![image-2.png](attachment:image-2.png)


### VII.2. Contribution et Inertie
L’inertie est une moyenne pondérée des carrés des distances des points à leur centre. Elle correspond à la statistique du khi-deux multipliée par le total des effectifs. Nous avons vu qu’une valeur élevée (plus élevée que ce à quoi on s’attend sous l’indépendance) de la statistique du khi-deux correspond à un lien significatif entre les deux variables. Ainsi, une valeur élevée de l’inertie correspond à un fort lien entre les variables.

Nous avons aussi vu le lien entre la matrice S et la statistique du khi-deux (voir VI.2). Chaque modalité contribue à la statistique du khi-deux et, conséquemment à l’inertie totale. Cette contribution est proportionnelle à la distance d’un point à l’origine. Plus la coordonnée d’une modalité est élevée (en valeur absolue) sur cet axe, plus sa contribution à l’inertie de cet axe est grande.

![image.png](attachment:image.png)

### VII.2. Qualité représentation
**La qualité de la représentation d’une modalité est liée à la distance entre les coordonnées de cette modalité et les axes du graphique. On la mesure par le cosinus de l’angle entre le point et l’axe en question.**
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)


**Exercice: Appliquer les differentes étapes au jeu de données exdapp**