# Definition des deux tables
vehicule = [['98300', 'Bus', 'IBUS'], ['1562', 'TGV', 'SNCF'], ['30990', 'A320', 'Hop!']]
trajet = [["Trajet1", "Lille", "Rennes", "5oct.2016", "09h00", "30990"],
         ["Trajet1", "Lille", "Rennes", "5oct.2016", "10h00", "98300"],
         ["Trajet1", "Lille", "Rennes", "5oct.2016", "14h00", "1562"]
         ]

In [1]:
# 3.1 Sélection avec test d'égalité à une constante

In [2]:
def SelectionConstante(table, indice, constante):
    """
    Arguments :
        table : liste de taille n represantant la table d'enregistrements
        indice : indice de l'attribut
        constante : valeur de l'attribut
    Return:
        new_table : liste de taille 0 <= N <= n contenant les enregistrements dont 
        la valeur de l'attribut d'indice 'indice' égale à 'constante'.
    
    Complexité: 
        table.append() : O(1)(amortie)
        accés d'un élement dans une liste (x[indice]) : O(1)
        iteration sur tous les valeurs de la table : O(n)  
        => Complexité total : O(n)
    """
    
    new_table = []
    for x in table:
        if(x[indice] == constante):
            new_table.append(x)
            
    return new_table; 

In [3]:
#test
SelectionConstante(trajet, 5, "30990")

NameError: name 'trajet' is not defined

# 3.2 Sélection avec test d'égalité entre deux attributs

In [None]:
def SelectionEgalite(table, indice1, indice2):
    """
    Arguments :
        table : liste de taille n represantant table d'enregistrements
        indice1 : indice du 1er attribut
        indice2 : indice du 2eme attribut
    Return:
        new_table :liste de taille 0 <= N <= n contenants enregistrements dont la valeur de l'attribut d'indice 'indice1'
        égale à la valeur de l'attribut d'indice 'indice2' 
    
    Complexité: 
        table.append() : O(1)(amortie)
        accés d'un élement dans une liste (x[indice]) : O(1)
        iteration sur tous les valeurs de la table : O(n) avec n = nombre d'enregistrements (len(table))  
        => Complexité total : O(n)
    """
    
    if(indice1 == indice2):
        return table
    
    new_table = []
    for x in table:
        if(x[indice1] == x[indice2]):
            new_table.append(x)
    
    return new_table

In [None]:
#test
SelectionEgalite(trajet, 1, 2)

# 3.3 Projection sur des indices

In [4]:
def ProjectionEnregistrement(enregistrement, liste_indices):
    """
    Arguments :
        enregistrement : liste de taille k representant un enregistrement
        liste_indices : liste de taille k1 0 < k1 <= k identifiant les indices des attributs avec 0 < indice < k 
    Return:
        new_enregistrement : liste de taille k1 representant un nouvel enregistrement
    Complexité: 
        new_enregistrement.append() : O(1)(amortie)
        Accés d'un élement dans une liste (enregistrement[i]) : O(1)
        iteration sur la liste_indices : O(k1) avec k1 = len(liste_indices)  
        => Complexité total : O(k1)
    """
    
    new_enregistrement = []
    k1 = len(enregistrement)
    for i in liste_indices:
        new_enregistrement.append(enregistrement[i])
            
    return new_enregistrement

In [5]:
#test
ProjectionEnregistrement(trajet[1], [1, 2])

NameError: name 'trajet' is not defined

In [6]:
def Projection(table, liste_indices):
    """
    Arguments :
        table : liste de taille n representant l'ensemble des enregistrements du table d'arité k
        liste_indices : liste de taille k1 avec 0 < k1 <= k identifiant les indices des attributs avec 0 < indice < k 
    Return:
        new_table : liste de taille n representant le table d'arité k1
    Complexité: 
        new_table.append() : O(1)(amortie)
        ProjectionEnregistrement() : O(k1)
        iteration sur la liste table : O(n)   
        => Complexité total : O(n*k1)
    """
    
    new_table = []
    for x in table:
        new_enregistrement = ProjectionEnregistrement(x, liste_indices)
        new_table.append(new_enregistrement)
    
    return new_table

In [7]:
Projection(trajet, [1, 2])

NameError: name 'trajet' is not defined

# 3.4 Produit cartésien

In [8]:
def ProduitCartesien(table1, table2):
    """
    Arguments:
        table1: liste de taille n1 representant l'ensemble des enregistrements du table d'arité k1
        table2: liste de taille n2 representant l'ensemble des enregistrements du table d'arité k2
    Return:
        new_table: liste de taille n1*n2 representant le table X(table1, table2) d'arité k1+k2
    Complexité: 
        new_table.append() : O(1)(amortie)
        concaténation (el1+el1) : O(k1+k2) mais on la considére O(1) dans ce projet
        iteration sur la liste table1 : O(n1)
        iteration sur la liste table2 : O(n2)
        => Complexité total : O(n1*n2)
    """
    
    new_table = []
    for el1 in table1:
        for el2 in table2:
            new_table.append(el1 + el2)
    
    return new_table

In [9]:
#test
ProduitCartesien(vehicule, trajet)

NameError: name 'vehicule' is not defined

# 3.5 Jointure

In [10]:
def Join(enr1, enr2, indice1, indice2):
    """
    Arguements:
        enr1 : liste de taille k1 representant un enregistrement.
        enr2 : liste de taille k2 representant un enregistrement.
        indice1, indice2 : indices des atrributs sur lequelles on teste l'égailté.
    Return:
        liste de taille (k2+k2-1) contenant la jointure des deux enregistrements.
        Si la condition de la jointure n'est pas respectée, la fonction retourne une liste vide.
    Complexité:
        ans.append() : O(1)
        iteration sur tous les elements de enr2 : O(k2)
        affectation de enr1 dans ans (ans = enr1) : O(k1)
        =>Complexité totale : O(k2+k1)
    """
    ans = []
    if(enr1[indice1] == enr2[indice2]):
        ans = enr1
        for i in range(len(enr2)):
            if i == indice2:
                continue
            ans.append(enr2[i])
        return ans
    return []

In [11]:
def Jointure(table1, table2, indice1, indice2):
    """
    Arguements:
        table1: liste de taille n1 representant un table.
        table2: liste de taille n2 representant un table.
        indice1, indice2 : indices des atrributs sur lequelles on teste l'égailté.
    Return:
        liste de taille 0 <= N < n1*n2 contenant la jointure des deux tables.
    Complexité:
        new_table.append() : O(1)(amortie)
        iteration sur la liste table1 : O(n1)
        iteration sur la liste table2 : O(n2)
        Join() : O(k1+k2)
        =>Complexité totale : O(n1*n2*(k1+k2))
    """
    
    new_table = []
    for el1 in table1:
        for el2 in table2:
            j = Join(el1, el2, indice1, indice2)
            if(len(j)):
                new_table.append(j)
    
    return new_table

In [12]:
Jointure(vehicule, trajet, 0, 5)

NameError: name 'vehicule' is not defined

# 3.6 Distinct

In [13]:
def egale(el1, el2):
    """
    Arguments:
        el1, el2: liste de taille k representant un enregistrement.
    Return:
        True si les deux liste sont egaux, False sinon.
    """
    for i in range(len(el1)):
        if el1[i] != el2[i]:
            return False
    
    return True

In [14]:
def SupprimerDoublons(table):
    """
    Arguments:
        table : liste de taille n represantant une table d'enregistrement d'arité k.
    Return:
        new_table : liste de taille 0 < N <= n contenant des enregistrement uniques.
    Complexité:
        new_table.append(): O(1)(amortie)
        egale(): O(k)
        iteration sur table: O(n)
        iteration sur new_table: O(n)
        =>Complexité totale: O(k*n^2) 
    """
    
    new_table = []
    for el1 in table:
        found = False
        for el2 in new_table:
            if egale(el1, el2):
                found = True
                break
        if found == False:
            new_table.append(el1)
    
    return new_table

In [15]:
#test
SupprimerDoublons(Projection(trajet, [1, 2]))

NameError: name 'trajet' is not defined

# 4 Implémentation de requetes SQL en Python

In [16]:
#Definition des tables
trajet = []
vehicule = []
ticket = []
hotel = []
chambre = []

In [17]:
#Q11
resultat = SelectionConstante(trajet, 1, "Rennes")

In [18]:
#Q12
resultat = ProduitCartesien(trajet, vehicule)

In [19]:
#Q13
#resultat = Jointure(trajet, vehicule, 3, 0)
resultat = ProduitCartesien(trajet, vehicule)
resultat = SelectionEgalite(resultat, 3, 0)

NameError: name 'SelectionEgalite' is not defined

In [20]:
#Q14
j = Jointure(hotel, chambre, 0, 1)
resultat = Projection(j, [1, 2, 5, 6])

In [21]:
#Q15
#ret = Jointure(hotel, trajet, 2, 2)
#ret = Jointure(ret, ticket, 3, 1)
ret = ProduitCartesien(hotel, trajet)
ret = SelectionEgalite(ret, 2, 2)
ret = ProduitCartesien(ret, ticket)
ret = SelectionEgalite(ret, 3, 8)
ret = SelectionConstante(ret, 12, "50")
resultat = Projection(ret, [0])

NameError: name 'SelectionEgalite' is not defined

In [22]:
#Q16
ret = ProduitCartesien(hotel, trajet)
ret = SelectionEgalite(ret, 2, 2)
ret = ProduitCartesien(ret, ticket)
ret = SelectionEgalite(ret, 3, 8)
ret = SelectionConstante(ret, 12, "50")
hotel_ids = Projection(ret, [0])
ret = SelectionConstante(chambre, 3, "100")
resultat = Jointure(ret, hotel_ids, 1, 0)

NameError: name 'SelectionEgalite' is not defined

# 5 Amélioration des performances

## 5.1 Tables triées par rapport à un indice

In [23]:
# Definition des deux tables
trajet = [["Trajet1", "Lille", "Rennes", "5oct.2016", "14h00", "1562"],
          ["Trajet1", "Lille", "Rennes", "5oct.2016", "09h00", "30990"],
         ["Trajet1", "Lille", "Rennes", "5oct.2016", "10h00", "98300"]
         ]
vehicule = [ ['30990', 'A320', 'Hop!'], ['98300', 'Bus', 'IBUS'], ['7120', 'Bus', 'IBxUS'], ['1562', 'TGV', 'SNCF']]

In [24]:
#Q17
def VerifieTrie(table, indice):
    for i in range(len(table)-1):
        if table[i][indice] > table[i+1][indice]:
            return False
    
    return True

In [25]:
#test
VerifieTrie(vehicule, 2)

True

In [26]:
#Q18

def lower_bound(table, indice, constante):
    """
    Argument:
        table: liste de taille n
        indice: l'indice de l'attribut pour lequel la table est triee
        constante: valeur de l'attribut recherché
    Return:
        ans: l'indice du premier element correspondant au critere de recherche
    Complexité:
        =>O(logn)
    """
    
    #dans le cas ou il n'y a aucune valeur inferieur a constante
    if table[0][indice] > constante:
        return -1
    
    n = len(table)
    l = 0
    r = n-1
    ans = -1
    while l <= r:
        mid = l + (r-l)//2
        el = table[mid]
        if el[indice] == constante:
            ans = mid
            r = mid - 1
        elif el[indice] < constante:
            l = mid + 1
        else:
            r = mid - 1
    return ans

def upper_bound(table, indice, constante):
    """
    Argument:
        table: liste de taille n
        indice: l'indice de l'attribut pour lequel la table est triee
        constante: valeur de l'attribut recherché
    Return:
        ans: l'indice du dernier element correspondant au critere de recherche
    Complexité:
        =>O(logn)
    """
    
    n = len(table)
    #dans le cas ou il n'y a aucune valeur superieur a constante
    if table[n-1][indice] < constante:
        return -1
    
    l = 0
    r = n - 1
    ans = -1
    while l <= r:
        mid = l + (r-l)//2
        el = table[mid]
        if el[indice] == constante:
            ans = mid
            l = mid + 1
        elif el[indice] < constante:
            l = mid + 1
        else:
            r = mid - 1
    return ans

def SelectionConstanteTrie(table, indice, constante):
    """
    Complexité:
        lower_bound(): O(logn)
        upper_bound(): O(logn)
        =>Complexite total: O(logn)
    """
    l = lower_bound(trajet, 1, constante)
    #aucune element trouvé
    if l == -1:
        return []
    r = upper_bound(trajet, 1, constante)
    return table[l:r+1]
   

In [27]:
#test
SelectionConstanteTrie(vehicule, 1, "Bus")

[]

In [30]:
#Q19
def binary_search(key, table, indice):
    """
    Arguments:
        key: 
        table: liste de taille n
        indice:
    Retrun:
        indice de l'element s'il existe, sinon -1
    Complexité:
        =>O(logn)
    """
    
    n = len(table)
    l = 0
    r = n-1
    while l <= r:
        mid = l + (r-l)//2
        cur = table[mid]
        if cur[indice] == key:
            return mid
        elif cur[indice] > key:
            r = mid - 1
        else:
            l = mid + 1
    return -1

def Join2(el1, el2, indice2):
    """
    Arguements:
        el1 : liste de taille k1 representant un enregistrement.
        el2 : liste de taille k2 representant un enregistrement.
        indice2 : indice de l'atrributs à supprimer du la 2eme liste el2.
    Return:
        liste de taille (k2+k2-1) contenant la jointure des deux enregistrements.
        Si la condition de la jointure n'est pas respectée, la fonction retourne une liste vide.
    Complexité:
        ans.append() : O(1)
        iteration sur tous les elements de el2 : O(k2)
        affectation de e1 dans ans (ans = el1) : O(k1)
        =>Complexité totale : O(k2+k1):
        
    """
    ans = []
    ans = el1
    for i in range(len(el2)):
        if i == indice2:
            continue
        ans.append(el2[i])
    return ans

def JointureTrie(table1, table2, indice1, indice2):
    """
    Complexité:
        iteration sur tous les elements de table1: O(n1)
        binary_search(): O(log(n2))
        Join2(): O(k1+k2)
        new_table.append(): O(1)
        =>Complexite total: O(n1*(k1+k2 + log(n2)))
    """
    
    new_table = []
    for x in table1:
        i = binary_search(x[indice1], table2, indice2)
        if i == -1:
            continue
        new_table.append(Join2(x, table2[i], indice2))
    
    return new_table
    

In [31]:
vehicule = [['1', 'TGV', 'SNCF'], ['2', 'Bus', 'IBxUS'], ['3', 'A320', 'Hop!'], ['4', 'Bus', 'IBUS'] ]
trajet = [["Trajet1", "Lille", "Rennes", "5oct.2016", "14h00", "1"],
          ["Trajet1", "Lille", "Rennes", "5oct.2016", "09h00", "2"],
         ["Trajet1", "Lille", "Rennes", "5oct.2016", "10h00", "4"]
         ]
JointureTrie(vehicule, trajet, 0, 5)

[['1', 'TGV', 'SNCF', 'Trajet1', 'Lille', 'Rennes', '5oct.2016', '14h00'],
 ['2', 'Bus', 'IBxUS', 'Trajet1', 'Lille', 'Rennes', '5oct.2016', '09h00'],
 ['4', 'Bus', 'IBUS', 'Trajet1', 'Lille', 'Rennes', '5oct.2016', '10h00']]

#### Q20:
 Cette approche est plus performante que l'autre que si les tables sont statitques, càd qu'il n'y a pas
 des operations qui modifient le contenu des tables.
 En effet, apres chaque ajout ou modification des contenus de la liste, on sera obligés de refaire un tri pour 
 que les algorithmes utilisé (binary_search, lower_bound, upper_bound) fonctionnent correctement puisqu'ils 
 necessitent des listes triés. Cela aura effet d'augmenter la complexité des operations d'ajout et modification de
 O(1) à O(nlogn), mais en utilisant des structures de données adequates tel que les arbres binaires equilibrées
 (AVL, Red-Black trees...), on pourra faire l'ajout, suppression, accés et modification en O(logn).

In [32]:
#Q21
def CreerDictionnaire(table, indice):
    """
    Complexité:
        =>O(n) avec n = len(table)
    """
    d = {}
    for i in range(len(table)):
        key = table[i][indice]
        if key in d:
            d[key].append(i)
        else:
            d[key] = [i]
    return d

In [33]:
#test
vehicule = [['1', 'TGV', 'SNCF'], ['2', 'Bus', 'IBxUS'], ['3', 'A320', 'Hop!'], ['4', 'Bus', 'IBUS'] ]
CreerDictionnaire(vehicule, 1)

{'TGV': [0], 'Bus': [1, 3], 'A320': [2]}

In [34]:
#Q22
def SelectionConstanteDictionnaire(table, indice, constante, dico):
    """
    Complexité:
        .CreerDictionaire(): O(n) avec n = len(table)
        .iteration sur tous les elements ayant la valeur de l'attribut d'indice 'indice' 
        egale à constante: O(k) avec k = len(dico[constante])
        =>Complexité total: O(n+k)
    """
    l = []
    for i in dico[constante]:
        l.append(table[i])
    return l

In [35]:
#test
dico = CreerDictionnaire(vehicule, 1)
SelectionConstanteDictionnaire(vehicule, 1, "Bus", dico)

[['2', 'Bus', 'IBxUS'], ['4', 'Bus', 'IBUS']]

#### Q23
 SelectionConstante():
     worst case = best case = average case = O(n) avec n = len(table)    
 SelectionConstanteDictionnaire() (sans compter la creeation du dictionnaire):
     worst case O(n) : tous les elements de la table correspondend à l'element recherché
     best case O(1) : aucun element de la table ne correspond à l'element recherché
     average case O(k) : nombre d'elements correspondant à l'element recherché

In [36]:
#Q24

def Join3(el1, el2, indice2):
    """
    Arguements:
        el1 : liste de taille k1 representant un enregistrement.
        el2 : liste de taille k2 representant un enregistrement.
        indice2 : indice de l'atrributs à supprimer du la 2eme liste el2.
    Return:
        liste de taille (k2+k2-1) contenant la jointure des deux enregistrements.
        Si la condition de la jointure n'est pas respectée, la fonction retourne une liste vide.
    Complexité:
        ans.append() : O(1)
        iteration sur tous les elements de el2 : O(k2)
        affectation de e1 dans ans (ans = el1) : O(k1)
        =>Complexité totale : O(k2+k1):
        
    """
    ans = []
    ans = el1
    for i in range(len(el2)):
        if i == indice2:
            continue
        ans.append(el2[i])
    return ans

def JointureDictionnaire(table1, table2, indice1, indice2, dico2):
    L = []
    for x in table1:
        el = x[indice1]
        if el not in dico2:
            continue
        for i in dico2[el]:
            L.append(Join3(x, table2[i], indice2))
    
    return L

In [37]:
#test
vehicule = [['1', 'TGV', 'SNCF'], ['2', 'Bus', 'IBxUS'], ['3', 'A320', 'Hop!'], ['4', 'Bus', 'IBUS'] ]
trajet = [["Trajet1", "Lille", "Rennes", "5oct.2016", "14h00", "1"],
          ["Trajet1", "Lille", "Rennes", "5oct.2016", "09h00", "2"],
         ["Trajet1", "Lille", "Rennes", "5oct.2016", "10h00", "4"]
         ]
dico2 = CreerDictionnaire(trajet, 5)
JointureDictionnaire(vehicule, trajet, 0, 5, dico2)

[['1', 'TGV', 'SNCF', 'Trajet1', 'Lille', 'Rennes', '5oct.2016', '14h00'],
 ['2', 'Bus', 'IBxUS', 'Trajet1', 'Lille', 'Rennes', '5oct.2016', '09h00'],
 ['4', 'Bus', 'IBUS', 'Trajet1', 'Lille', 'Rennes', '5oct.2016', '10h00']]

#### Q26
Afin d'ameliorer les performances, on pourra creer le dictionnaire à partir de la table de taille maximale.