# Code Python pour le Projet d'Algèbre

## Chargement des bibliothèques

In [7]:
import csv
import numpy as np
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
from math import exp

## Définition de la classe DataMatrix

Cette classe va comprendre les attributs et méthodes nécéssaires aux diverses questions du Projet

### Import des données et normalisation
On normalise les données en effectuant 

$\cfrac{x_i - moy}{x_{max}-x_{min}}$

Sur chaque colonne de nos données.

### Définition de la fonction noyau de similarité $k(x,y)$
Cette fonction renvoie le noyau de similarité gaussien au paramètre $\epsilon$ défini:

${\Large e^{\frac{||x-y||^2}{\epsilon}}}$


### Construction de la matrice $L$

Soient  $x, y$ deux éléments de notre tableau de données.
On renvoie le résultat de $k(x,y)$ pour tout élément de notre tableau, et construisons ainsi la matrice symétrique $L$
(car $k(x,y) = k(y,x)$).


In [8]:
class DataMatrix:
  def __init__(self, eps, filename):
    
    self.eps = eps
    self.data = pd.read_csv(filename, decimal=",", sep="\s+")

    #Stockage des en-têtes
    self.headers = list(self.data.columns.values)

    self.data = np.array(self.data.values)
    self.nb_el = len(self.data)

    
    for i, row  in enumerate(self.data[:,1:]) :
      for j, elt in enumerate(row):
        
        #Transformation des objets en float
        elt = float(elt)
        
        #Normalisation des données
        self.data[i,j+1] = (self.data[i,j+1] - self.data[:,j+1].mean())/(self.data[:,j+1].max()-self.data[:,j+1].min()) if self.data[:,j+1].max()-self.data[:,j+1].min() != 0 else 0 #(self.data[i,j] - self.data[:,j].mean())


    #Initialisation et création de la matrice L
    self.L = np.array([[0.0  for _ in range(self.nb_el)] for _ in range(self.nb_el)])

    for i in range(self.nb_el):
      for j in range(self.nb_el):
        if i >= j :
          self.L[i,j] = self.k(i,j)
          self.L[j,i] = self.L[i,j]
            

  def k(self, i ,j):
    """Returns the gaussian similarity kernel between the elements at positions i and j"""
    x = self.data[i,1:]
    y = self.data[j,1:]
    return exp(((np.linalg.norm(x-y))**2)/self.eps)

In [9]:
datatest = DataMatrix(2,"data_small.csv")
print datatest.L

[[  1.00000000e+00   1.63046241e+02   3.47309717e+02 ...,   3.43327260e+05
    3.62993261e+10   2.83778757e+08]
 [  1.63046241e+02   1.00000000e+00   2.19138577e+00 ...,   2.27957178e+03
    1.43236487e+06   1.66329960e+05]
 [  3.47309717e+02   2.19138577e+00   1.00000000e+00 ...,   2.16440604e+03
    2.28646673e+05   4.24371083e+04]
 ..., 
 [  3.43327260e+05   2.27957178e+03   2.16440604e+03 ...,   1.00000000e+00
    6.90525520e+04   1.77393058e+02]
 [  3.62993261e+10   1.43236487e+06   2.28646673e+05 ...,   6.90525520e+04
    1.00000000e+00   2.00049328e+03]
 [  2.83778757e+08   1.66329960e+05   4.24371083e+04 ...,   1.77393058e+02
    2.00049328e+03   1.00000000e+00]]
