In [3]:
import pandas as pd

# Chemin vers le fichier CSV
file_path = 'movies_metadata.csv'

# Lecture du fichier CSV avec pandas, en désactivant l'avertissement de faible mémoire
df = pd.read_csv(file_path, low_memory=False)

# Sélection des colonnes importantes
columns_to_keep = ['title', 'genres', 'original_language', 'overview', 'release_date', 'runtime', 'vote_average', 'vote_count']
df = df[columns_to_keep]

# Nettoyage des données
# Convertir 'runtime' en numérique et remplacer les valeurs non numériques par NaN
df['runtime'] = pd.to_numeric(df['runtime'], errors='coerce')

# Supprimer les lignes avec des valeurs manquantes dans les colonnes clés
df.dropna(subset=['title', 'genres', 'original_language', 'runtime'], inplace=True)

# Convertir 'release_date' en datetime et gérer les erreurs
df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')

# Supprimer les lignes où 'release_date' ou 'runtime' est NaN
df.dropna(subset=['release_date', 'runtime'], inplace=True)

# Afficher les premières lignes du DataFrame nettoyé
print(df.head())




                         title  \
0                    Toy Story   
1                      Jumanji   
2             Grumpier Old Men   
3            Waiting to Exhale   
4  Father of the Bride Part II   

                                              genres original_language  \
0  [{'id': 16, 'name': 'Animation'}, {'id': 35, '...                en   
1  [{'id': 12, 'name': 'Adventure'}, {'id': 14, '...                en   
2  [{'id': 10749, 'name': 'Romance'}, {'id': 35, ...                en   
3  [{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...                en   
4                     [{'id': 35, 'name': 'Comedy'}]                en   

                                            overview release_date  runtime  \
0  Led by Woody, Andy's toys live happily in his ...   1995-10-30     81.0   
1  When siblings Judy and Peter discover an encha...   1995-12-15    104.0   
2  A family wedding reignites the ancient feud be...   1995-12-22    101.0   
3  Cheated on, mistreated and stepped 

In [5]:
def search_by_title(df, title):
    # Cette fonction filtre les films par titre. 
    # 'str.contains' est utilisé pour vérifier si la chaîne 'title' est présente dans la colonne 'title' du DataFrame.
    # 'case=False' rend la recherche insensible à la casse.
    # 'na=False' exclut les valeurs NaN lors de la recherche.
    return df[df['title'].str.contains(title, case=False, na=False)]

def search_by_genre(df, genre):
    # Cette fonction filtre les films par genre.
    # Ici aussi, 'str.contains' est utilisé pour chercher le genre dans la colonne 'genres'.
    # Assurez-vous que la colonne 'genres' est au format de chaîne de caractères.
    return df[df['genres'].str.contains(genre, case=False, na=False)]

def search_by_language(df, language):
    # Cette fonction filtre les films par leur langue originale.
    # La colonne 'original_language' est comparée directement avec la langue spécifiée.
    return df[df['original_language'] == language]

def search_by_date_range(df, start_date, end_date):
    # Cette fonction filtre les films par une plage de dates.
    # Les films dont la date de sortie est comprise entre 'start_date' et 'end_date' sont sélectionnés.
    return df[(df['release_date'] >= start_date) & (df['release_date'] <= end_date)]

def search_by_runtime(df, min_runtime, max_runtime):
    # Cette fonction filtre les films par durée.
    # Les films dont la durée est comprise entre 'min_runtime' et 'max_runtime' sont sélectionnés.
    return df[(df['runtime'] >= min_runtime) & (df['runtime'] <= max_runtime)]

def search_by_vote_average(df, min_vote_average):
    # Cette fonction filtre les films par note moyenne.
    # Seuls les films ayant une note moyenne supérieure ou égale à 'min_vote_average' sont sélectionnés.
    return df[df['vote_average'] >= min_vote_average]



In [6]:
pip install argparse

Collecting argparse
  Downloading argparse-1.4.0-py2.py3-none-any.whl (23 kB)
Installing collected packages: argparse
Successfully installed argparse-1.4.0
Note: you may need to restart the kernel to use updated packages.


In [10]:
def search_by_title(df, title):
    return df[df['title'].str.contains(title, case=False, na=False)]

def search_by_genre(df, genre):
    return df[df['genres'].str.contains(genre, case=False, na=False)]

def search_by_language(df, language):
    return df[df['original_language'] == language]

def search_by_date_range(df, start_date, end_date):
    return df[(df['release_date'] >= start_date) & (df['release_date'] <= end_date)]

def search_by_runtime(df, min_runtime, max_runtime):
    return df[(df['runtime'] >= min_runtime) & (df['runtime'] <= max_runtime)]

def search_by_vote_average(df, min_vote_average):
    return df[df['vote_average'] >= min_vote_average]



In [16]:
import argparse
import pandas as pd
import sys

# Fonctions de recherche...
# (comme défini précédemment)
def search_by_title(df, title):
    return df[df['title'].str.contains(title, case=False, na=False)]

def search_by_genre(df, genre):
    return df[df['genres'].str.contains(genre, case=False, na=False)]

def search_by_language(df, language):
    return df[df['original_language'] == language]

def search_by_date_range(df, start_date, end_date):
    return df[(df['release_date'] >= start_date) & (df['release_date'] <= end_date)]

def search_by_runtime(df, min_runtime, max_runtime):
    return df[(df['runtime'] >= min_runtime) & (df['runtime'] <= max_runtime)]

def search_by_vote_average(df, min_vote_average):
    return df[df['vote_average'] >= min_vote_average]


# Charger les données avec low_memory=False pour éviter le DtypeWarning
df = pd.read_csv('movies_metadata.csv', low_memory=False)

# Création du parseur
parser = argparse.ArgumentParser(description='Rechercher des films dans la base de données Netflix.')
parser.add_argument('--title', help='Rechercher par titre')
parser.add_argument('--genre', help='Rechercher par genre')
parser.add_argument('--language', help='Rechercher par langue originale')
parser.add_argument('--start_date', help='Date de début pour la recherche par plage de dates')
parser.add_argument('--end_date', help='Date de fin pour la recherche par plage de dates')
parser.add_argument('--min_runtime', type=int, help='Durée minimale du film pour la recherche par durée')
parser.add_argument('--max_runtime', type=int, help='Durée maximale du film pour la recherche par durée')
parser.add_argument('--min_vote_average', type=float, help='Note moyenne minimale pour la recherche par note')

# Exécution du parseur
# Vérifiez si le script est exécuté dans un environnement Jupyter
if any("jupyter" in arg for arg in sys.argv):
    args = parser.parse_args(args=[])
else:
    args = parser.parse_args()

# Traitement des commandes
if args.title:
    print(search_by_title(df, args.title))
if args.genre:
    print(search_by_genre(df, args.genre))
if args.language:
    print(search_by_language(df, args.language))
if args.start_date and args.end_date:
    print(search_by_date_range(df, args.start_date, args.end_date))
if args.min_runtime and args.max_runtime:
    print(search_by_runtime(df, args.min_runtime, args.max_runtime))
if args.min_vote_average:
    print(search_by_vote_average(df, args.min_vote_average))
