<a href="https://colab.research.google.com/github/WildAlex37/g_search_lite/blob/main/G_search_lite_ML.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
import pandas as pd
import numpy as np
# import plotly.express as px
# import matplotlib
# import matplotlib.pyplot as plt
# import seaborn as sns
# import datetime as dt
# import os
# import ipywidgets as widgets
from IPython.display import display
pd.options.display.max_columns = None
pd.set_option('display.max_rows', None)

from sklearn.metrics import accuracy_score
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score, KFold
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB

In [6]:
df = pd.read_parquet('df_igdb.parquet')

In [None]:
df.columns

In [None]:
print(df.isna().sum())

In [None]:
df.head(3)

In [59]:
# Traiter les valeurs manquantes
df_cleaned = df.drop(columns=['metacritic', 'esrb_rating', 'website','platforms','genres'])

# Extraire uniquement les colonnes des genres et des plateformes (exclure les colonnes non numériques)
genre_platform_columns = [col for col in df_cleaned.columns if df_cleaned[col].dtype in ['int64', 'float64']]
X = df_cleaned[genre_platform_columns]
# Définir les caractéristiques (X) et la cible (y)
df_cleaned = df_cleaned.drop(['id','released','developers',''], axis=1)

df_sample = df_cleaned.sample(n=5000, random_state=42)

X = df_cleaned.drop(['name'], axis=1)  # Exclure les colonnes non pertinentes
# Cible (par exemple une colonne contenant les labels)
y = df_cleaned['name']


In [None]:


# Séparer les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Définir les modèles
models = {
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'KNN': KNeighborsClassifier()
}

# Fonction pour évaluer les modèles avec StratifiedKFold
def evaluate_models_cv(models, X, y, n_splits=2):
    results = {}
    skf = StratifiedKFold(n_splits=2)
    for name, model in models.items():
        scores = cross_val_score(model, X, y, cv=skf, scoring='accuracy')
        results[name] = np.mean(scores)
    return results

# Évaluer les modèles
results = evaluate_models_cv(models, X, y)

# Afficher les résultats
for model_name, accuracy in results.items():
    print(f'{model_name} Average Accuracy: {accuracy:.4f}')

In [None]:
# 1. Saisie de l'utilisateur
jeu_saisi = input("Saisissez le nom d'un jeu : ")

# 2. Recherche du jeu dans le DataFrame
if jeu_saisi in df_cleaned['name'].values:
    jeu_selectionne = df_cleaned[df_cleaned['name'] == jeu_saisi]

    # 3. Trouver le genre et les plateformes du jeu sélectionné
    genre_columns = ['Card', 'RPG', 'Shooter', 'Strategy', 'Action', 'Sports',
                     'Massively Multiplayer', 'Platformer', 'Puzzle', 'Educational',
                     'Family', 'Casual', 'Indie', 'Simulation', 'Arcade', 'Fighting',
                     'Racing', 'Board Games', 'Adventure']

    platform_columns = ['PlayStation 5', 'Commodore / Amiga', 'SEGA Saturn', 'SNES', 'Dreamcast',
                        'Nintendo Switch', 'Atari 5200', 'Xbox Series S/X', '3DO', 'Atari 7800',
                        'SEGA CD', 'Game Boy Advance', 'Nintendo 64', 'Xbox', 'Atari Lynx',
                        'Nintendo DS', 'Xbox 360', 'Atari Flashback', 'Neo Geo', 'Apple II',
                        'Nintendo 3DS', 'NES', 'PS Vita', 'Game Boy', 'Linux', 'iOS', 'Genesis',
                        'PC', 'Jaguar', 'SEGA 32X', 'Atari ST', 'Wii U', 'Web', 'PlayStation 3',
                        'Game Boy Color', 'Game Gear', 'Classic Macintosh', 'PSP', 'PlayStation 2',
                        'macOS', 'Atari 8-bit', 'PlayStation 4', 'Android', 'Wii', 'Atari XEGS',
                        'PlayStation', 'SEGA Master System', 'GameCube', 'Xbox One', 'Atari 2600',
                        'Nintendo DSi']

    genre_selectionne = jeu_selectionne[genre_columns].values.flatten()
    platform_selectionne = jeu_selectionne[platform_columns].values.flatten()
    genre_du_jeu = genre_columns[np.where(genre_selectionne == 1)[0][0]]  # Trouver le genre du jeu sélectionné
    platform_du_jeu = platform_columns[np.where(platform_selectionne == 1)[0][0]]  # Trouver la plateforme du jeu sélectionné

    # 4. Filtrer le DataFrame pour ne conserver que les jeux du même genre et plateforme
    df_filtered = df_cleaned[(df_cleaned[genre_du_jeu] == 1) & (df_cleaned[platform_du_jeu] == 1)]

    # 5. Vérifier s'il y a assez de jeux dans le genre et plateforme sélectionnés
    if len(df_filtered) <= 1:
        print(f"Pas assez de jeux dans le genre '{genre_du_jeu}' et sur la plateforme '{platform_du_jeu}' pour faire des recommandations.")
    else:
        # 6. Appliquer la pondération aux colonnes des genres et des plateformes pour les jeux filtrés
        df_filtered_weighted_genres = df_filtered[genre_columns].copy()
        df_filtered_weighted_platforms = df_filtered[platform_columns].copy()

        # 7. Concaténer les colonnes des genres et des plateformes
        df_filtered_weighted = pd.concat([df_filtered_weighted_genres, df_filtered_weighted_platforms], axis=1)

        # 8. Extraire les caractéristiques du jeu sélectionné
        X_jeu = df_filtered_weighted.loc[df_filtered['name'] == jeu_saisi].values.flatten()

        # 9. Préparer les données pour le modèle KNN
        X_all = df_filtered_weighted.drop('name', axis=1, errors='ignore').values  # Les caractéristiques sans la colonne 'name'
        y_all = df_filtered['name']  # Les étiquettes des jeux

        # Séparer les données en ensembles d'entraînement et de test
        X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size=0.2, random_state=42)

        # Entraîner le modèle KNN
        knn = KNeighborsClassifier(n_neighbors=5)  # Vous pouvez ajuster n_neighbors selon vos besoins
        knn.fit(X_train, y_train)

        # Calculer la précision du modèle
        accuracy = knn.score(X_test, y_test)

        # 10. Trouver les jeux les plus similaires
        distances, indices = knn.kneighbors([X_jeu], n_neighbors=6)  # Inclut le jeu sélectionné lui-même

        # 11. Afficher les jeux les plus similaires
        top_n = 5  # Par exemple, recommander les 5 jeux les plus similaires
        similar_games_indices = indices.flatten()[1:]  # Exclure le jeu lui-même
        jeux_similaires = df_filtered.iloc[similar_games_indices]['name']

        print(f"Jeux recommandés similaires à '{jeu_saisi}' dans le genre '{genre_du_jeu}' et sur la plateforme '{platform_du_jeu}':")
        for jeu in jeux_similaires:
            print(jeu)

        print(f"\nAccuracy du modèle KNN: {accuracy:.4f}")
else:
    print(f"Le jeu '{jeu_saisi}' n'existe pas dans la base de données.")


In [None]:
# Essai avec suggestion de complétion :

import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

# Préparer les données pour l'auto-complétion
def prepare_autocomplete_index(df):
    index = pd.Series(df['name'].str.lower().values, index=df['name'])
    return index

# Auto-complétion pour le nom du jeu
def autocomplete(query, index):
    query = query.lower()
    matches = [name for name in index.index if name.lower().startswith(query)]
    return matches

# Saisie de l'utilisateur
def main():

    # Préparer l'index pour l'auto-complétion
    autocomplete_index = prepare_autocomplete_index(df_cleaned)

    # Saisie de l'utilisateur avec suggestions
    jeu_saisi = input("Saisissez le nom d'un jeu : ")
    suggestions = autocomplete(jeu_saisi, autocomplete_index)

    if suggestions:
        print("Suggestions :")
        for i, suggestion in enumerate(suggestions[:5], 1):  # Limiter à 5 suggestions
            print(f"{i}. {suggestion}")

        selected_index = int(input("Choisissez le numéro du jeu ou appuyez sur Enter pour le premier : ")) - 1
        if selected_index < 0 or selected_index >= len(suggestions):
            selected_index = 0  # Choisir le premier en cas d'entrée invalide

        jeu_saisi = suggestions[selected_index]
    else:
        print("Aucune suggestion trouvée.")
        return

    # 2. Recherche du jeu dans le DataFrame
    if jeu_saisi in df_cleaned['name'].values:
        jeu_selectionne = df_cleaned[df_cleaned['name'] == jeu_saisi]

        # 3. Trouver le genre et les plateformes du jeu sélectionné
        genre_columns = ['Card', 'RPG', 'Shooter', 'Strategy', 'Action', 'Sports',
                         'Massively Multiplayer', 'Platformer', 'Puzzle', 'Educational',
                         'Family', 'Casual', 'Indie', 'Simulation', 'Arcade', 'Fighting',
                         'Racing', 'Board Games', 'Adventure']

        platform_columns = ['PlayStation 5', 'Commodore / Amiga', 'SEGA Saturn', 'SNES', 'Dreamcast',
                            'Nintendo Switch', 'Atari 5200', 'Xbox Series S/X', '3DO', 'Atari 7800',
                            'SEGA CD', 'Game Boy Advance', 'Nintendo 64', 'Xbox', 'Atari Lynx',
                            'Nintendo DS', 'Xbox 360', 'Atari Flashback', 'Neo Geo', 'Apple II',
                            'Nintendo 3DS', 'NES', 'PS Vita', 'Game Boy', 'Linux', 'iOS', 'Genesis',
                            'PC', 'Jaguar', 'SEGA 32X', 'Atari ST', 'Wii U', 'Web', 'PlayStation 3',
                            'Game Boy Color', 'Game Gear', 'Classic Macintosh', 'PSP', 'PlayStation 2',
                            'macOS', 'Atari 8-bit', 'PlayStation 4', 'Android', 'Wii', 'Atari XEGS',
                            'PlayStation', 'SEGA Master System', 'GameCube', 'Xbox One', 'Atari 2600',
                            'Nintendo DSi']

        genre_selectionne = jeu_selectionne[genre_columns].values.flatten()
        platform_selectionne = jeu_selectionne[platform_columns].values.flatten()
        genre_du_jeu = genre_columns[np.where(genre_selectionne == 1)[0][0]]  # Trouver le genre du jeu sélectionné
        platform_du_jeu = platform_columns[np.where(platform_selectionne == 1)[0][0]]  # Trouver la plateforme du jeu sélectionné

        # 4. Filtrer le DataFrame pour ne conserver que les jeux du même genre et plateforme
        df_filtered = df_cleaned[(df_cleaned[genre_du_jeu] == 1) & (df_cleaned[platform_du_jeu] == 1)]

        # 5. Vérifier s'il y a assez de jeux dans le genre et plateforme sélectionnés
        if len(df_filtered) <= 1:
            print(f"Pas assez de jeux dans le genre '{genre_du_jeu}' et sur la plateforme '{platform_du_jeu}' pour faire des recommandations.")
        else:
            # 6. Appliquer la pondération aux colonnes des genres et des plateformes pour les jeux filtrés
            df_filtered_weighted_genres = df_filtered[genre_columns].copy()
            df_filtered_weighted_platforms = df_filtered[platform_columns].copy()

            # 7. Concaténer les colonnes des genres et des plateformes
            df_filtered_weighted = pd.concat([df_filtered_weighted_genres, df_filtered_weighted_platforms], axis=1)

            # 8. Extraire les caractéristiques du jeu sélectionné
            X_jeu = df_filtered_weighted.loc[df_filtered['name'] == jeu_saisi].values.flatten()

            # 9. Préparer les données pour le modèle KNN
            X_all = df_filtered_weighted.drop('name', axis=1, errors='ignore').values  # Les caractéristiques sans la colonne 'name'
            y_all = df_filtered['name']  # Les étiquettes des jeux

            # Séparer les données en ensembles d'entraînement et de test
            X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size=0.2, random_state=42)

            # Entraîner le modèle KNN
            knn = KNeighborsClassifier(n_neighbors=5)  # Vous pouvez ajuster n_neighbors selon vos besoins
            knn.fit(X_train, y_train)

            # Calculer la précision du modèle
            accuracy = knn.score(X_test, y_test)

            # 10. Trouver les jeux les plus similaires
            distances, indices = knn.kneighbors([X_jeu], n_neighbors=6)  # Inclut le jeu sélectionné lui-même

            # 11. Afficher les jeux les plus similaires
            top_n = 5  # Par exemple, recommander les 5 jeux les plus similaires
            similar_games_indices = indices.flatten()[1:]  # Exclure le jeu lui-même
            jeux_similaires = df_filtered.iloc[similar_games_indices]['name']

            print(f"Jeux recommandés similaires à '{jeu_saisi}' dans le genre '{genre_du_jeu}' et sur la plateforme '{platform_du_jeu}':")
            for jeu in jeux_similaires:
                print(jeu)

            print(f"\nAccuracy du modèle KNN: {accuracy:.4f}")
    else:
        print(f"Le jeu '{jeu_saisi}' n'existe pas dans la base de données.")

# Exécuter la fonction principale
if __name__ == "__main__":
    main()
