# Dépenses de l'état

## Les données

Les données du fichier `dépense_état.csv` décrivent les
 ventilations des dépenses de l'état français de 1872 à 1971. 
Les différents champs sont :

* PVP : pouvoirs publics,
* AGR : agriculture,
* CMI : commerce et industrie,
* TRA : transports,
* LOG : logement et aménagement du territoire,
* EDU : éducation et culture,
* ACO : anciens combattants,
* ACS : actions sociales,
* DEF : défense,
* DET : dette,
* DIV : divers.

In [None]:
import pandas

dépense = pandas.read_csv("./dépense_état.csv", index_col=0)

## Analyses

### Plan factoriel

### Aléatoire

### MDS

### Isomap

# Données de Henley

Les données de Henley (1969) concernent une expérience de rappel
libre. 

L'expérience était la suivante : on a demandé à des
sujets d'écrire une liste de tous les animaux auxquels ils pouvaient penser en
un temps limité. 

Le but de cette expérience est d'analyser le comportement de la mémoire. Deux
animaux proches dans une liste montre qu'ils sont proches dans la mémoire des
sujets  et inversement deux animaux éloignés dans une même liste montre
qu'ils doivent être *rangés* séparément dans le cerveau du sujet et ils se
retrouvent dans la même liste par association d'idées successives.


N'ont été conservés dans la table que les animaux présents
dans toutes les listes ou presque, la dissimilarité entre deux animaux donnés
correspondant aux nombres moyens d'animaux entre eux (à la gestion des animaux
absents de certaines listes près). On pourra se référer à Henley (1969)
pour des renseignements plus précis concernant la création de cette
dissimilarité.

**Remarque** : Si cela vous amuse, essayez de créer votre propre distance de Henley avec les autres étudiants. Ca dnne souvent des résultats rigolo et, au final, très interprétables. En utilisant les données du fichier, vous regardez l'intérieur du cerveaux d'étudiants américain des années 1970 et non dans celui d'élèves de 2020.


## Lecture des données

Le fichier `henley.mat` contient une matrice triangulaire inférieure contenant les données

In [None]:
print(open('henley.mat').read())

Le code suivant crée une matrice carrée `d` de distance et les noms des animaux dans la liste `elements`

In [None]:
# crée 
elements = []
d = []
for line in open('henley.mat'):
    token = line.split()
    elements.append(token[0])
    d.append([])
    for x in token[1:]:
        d[-1].append(float(x))
    
    for i, d_line in enumerate(d[:-1]):
        d_line.append(d[-1][i])

In [None]:
elements

In [None]:
d

## MDS classique

Faite une représentation en 2d des animaux en utilisant le MDS classique

In [None]:
from sklearn import manifold

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.set()

In [None]:
mds = manifold.MDS(n_components=2, max_iter=3000,
                   dissimilarity="precomputed", n_jobs=1, n_init=5)

pos = mds.fit(d).embedding_

In [None]:
data = pandas.DataFrame(pos)
data.columns=(str(x) for x in data.columns) # pour ce fichu bug

fig, ax = plt.subplots(figsize=(10, 10))

sns.scatterplot(x='0', 
                y='1', 
                data=data,
                legend=False,
                ax=ax)

for i, row in data.iterrows():
    label = elements[i]
    ax.text(row['0'], row['1'], label)
    
plt.show()

## Isomap

Que donne les méthodes isomap ? Essayez plusieurs plus proches voisins

In [None]:
mds = manifold.Isomap(n_neighbors=3,
                      n_components=2, max_iter=3000,                      
                      metric="precomputed")

pos = mds.fit(d).embedding_

In [None]:
data = pandas.DataFrame(pos)
data.columns=(str(x) for x in data.columns) # pour ce fichu bug

fig, ax = plt.subplots(figsize=(10, 10))

sns.scatterplot(x='0', 
                y='1', 
                data=data,
                legend=False,
                ax=ax)

for i, row in data.iterrows():
    label = elements[i]
    ax.text(row['0'], row['1'], label)
    
plt.show()