# Code Python pour le Projet d'Algèbre

## Chargement des bibliothèques

In [7]:
import csv
import numpy as np
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt

## Définition de la classe DataMatrix

Cette classe va comprendre les attributs et méthodes nécéssaires aux diverses questions du Projet

### Import des données et normalisation
On normalise les données en effectuant 

$\cfrac{x_i - moy}{x_{max}-x_{min}}$

Sur chaque colonne de nos données.

### Définition de la fonction noyau de similarité k(x,y)
Cette fonction renvoie le noyau de similarité gaussien au paramètre $\epsilon$ défini:

${\Large e^{\frac{||x-y||^2}{\epsilon}}}$


In [8]:
class DataMatrix:
  def __init__(self, eps, filename):
    
    self.eps = eps
    self.data = pd.read_csv(filename, decimal=",", sep="\s+")

    self.headers = list(self.data.columns.values)

    for col in self.headers[1:]:
    
      #Turn the string values to float
      self.data[col] = pd.to_numeric(self.data[col], errors = 'coerce') 
    
      #Normalize data
      self.data[col] = (self.data[col] - self.data[col].mean())/(self.data[col].max()-self.data[col].min())

  def k(self, i ,j):
    """Returns the gaussian similarity kernel between the elements at positions i and j"""

    x = self.data.iloc[i,1:]
    y = self.data.iloc[j,1:]

    return exp(-((np.linalg.norm(x-y))**2)/self.eps)

In [9]:
datatest = DataMatrix(2,"data.csv")