In [2]:
from imdb import IMDb

# Créer un objet
ia = IMDb()

# Chercher un film
movies = ia.search_movie('Inception')

# Voir le premier résultat
inception = movies[0]
ia.update(inception)

# Afficher quelques infos
print('Titre:', inception['title'])
print('Année:', inception['year'])
print('Note:', inception.get('rating'))
print('Genres:', inception.get('genres'))


Titre: Inception
Année: 2010
Note: 8.8
Genres: ['Action', 'Adventure', 'Sci-Fi', 'Thriller']


In [8]:
# Installer IMDbPY et pandas si besoin
# !pip install IMDbPY pandas

from imdb import IMDb
import pandas as pd
import time

# 1. Connexion IMDb
ia = IMDb()

# 2. Fonction pour extraire les infos d'un film
def extract_movie_info(movie):
    try:
        ia.update(movie)  # Pour charger plus d'infos
    except Exception as e:
        print(f"Erreur sur {movie}: {e}")
        return None
    
    return {
        'title': movie.get('title'),
        'year': movie.get('year'),
        'genres': ', '.join(movie.get('genres', [])),
        'director': ', '.join([d['name'] for d in movie.get('director', [])]),
        'runtime': movie.get('runtimes', [None])[0],
        'rating': movie.get('rating'),
        'votes': movie.get('votes'),
        'plot': movie.get('plot outline'),
        'budget': movie.get('budget'),
        'box office': movie.get('box office'),
        'production companies': ', '.join([c['name'] for c in movie.get('production companies', [])])
    }

# 3. Chercher les 250 meilleurs films
top_movies = ia.get_top250_movies()




In [9]:
print(top_movies)
print(len(top_movies))

[]
0


In [10]:
from imdb import IMDb

ia = IMDb()
top_movies = ia.get_top250_movies()

print(top_movies[0])   # Premier film
print(top_movies[0].movieID)  # ID IMDb du premier film

ia.update(top_movies[0])
print(top_movies[0].get('title'))  # Devrait être "The Shawshank Redemption" par ex


IndexError: list index out of range

In [None]:
# 4. Boucle pour tout stocker
movies_info = []

for idx, movie in enumerate(top_movies):
    print(f"Récupération de {idx+1}/{len(top_movies)}: {movie}")
    info = extract_movie_info(movie)
    if info:
        movies_info.append(info)
    time.sleep(1)  # IMDbPY recommande d'attendre entre les requêtes

# 5. Créer un DataFrame
df = pd.DataFrame(movies_info)


# 6. Sauvegarder en CSV
#df.to_csv('imdb_top250_dataset.csv', index=False)

#print('✅ Dataset créé et sauvegardé sous imdb_top250_dataset.csv')

In [7]:
print(df.head())

Empty DataFrame
Columns: []
Index: []


In [1]:
import requests
import pandas as pd
from imdb import IMDb
import pandas as pd
import time

# Ta clé API ici
api_key = 'd8e84c0a'

# Exemple de recherche d'un film
def get_movie_info(title):
    url = f'http://www.omdbapi.com/?t={title}&apikey={api_key}'
    response = requests.get(url)
    return response.json()

# Liste de films à récupérer
movie_titles = ['Inception', 'The Godfather', 'Pulp Fiction', 'The Dark Knight', 'Forrest Gump']

movies_info = []

for title in movie_titles:
    print(f"Récupération de {title}...")
    data = get_movie_info(title)
    if data['Response'] == 'True':
        movies_info.append({
            'Title': data.get('Title'),
            'Year': data.get('Year'),
            'Genre': data.get('Genre'),
            'Director': data.get('Director'),
            'Runtime': data.get('Runtime'),
            'IMDB_Rating': data.get('imdbRating'),
            'IMDB_Votes': data.get('imdbVotes'),
            'BoxOffice': data.get('BoxOffice'),
            'Production': data.get('Production'),
            'Plot': data.get('Plot')
        })

# Créer un DataFrame
df = pd.DataFrame(movies_info)

# Sauvegarder
df.to_csv('omdb_movies_dataset.csv', index=False)

print('✅ Dataset créé et sauvegardé sous omdb_movies_dataset.csv')


Récupération de Inception...


ConnectionError: HTTPConnectionPool(host='www.omdbapi.com', port=80): Max retries exceeded with url: /?t=Inception&apikey=d8e84c0a (Caused by NameResolutionError("<urllib3.connection.HTTPConnection object at 0x1117fbd70>: Failed to resolve 'www.omdbapi.com' ([Errno 8] nodename nor servname provided, or not known)"))

In [2]:
import requests
import pandas as pd
import time

# Ta clé API OMDb
api_key = 'd8e84c0a'

# Fonction pour chercher un film par titre
def get_movie_info(title):
    url = f'http://www.omdbapi.com/?t={title}&apikey={api_key}'
    try:
        response = requests.get(url)
        data = response.json()
        if data.get('Response') == 'True':
            return {
                'Title': data.get('Title'),
                'Year': data.get('Year'),
                'Genre': data.get('Genre'),
                'Director': data.get('Director'),
                'Runtime': data.get('Runtime'),
                'IMDB_Rating': data.get('imdbRating'),
                'IMDB_Votes': data.get('imdbVotes'),
                'BoxOffice': data.get('BoxOffice'),
                'Production': data.get('Production'),
                'Plot': data.get('Plot')
            }
    except Exception as e:
        print(f"Erreur pour {title}: {e}")
    return None

# Générer automatiquement une grande liste de titres de films populaires
popular_movies = [
    'Inception', 'The Godfather', 'Pulp Fiction', 'The Dark Knight', 'Fight Club',
    'Forrest Gump', 'The Matrix', 'The Lord of the Rings: The Return of the King',
    'Interstellar', 'The Shawshank Redemption', 'The Green Mile', 'Gladiator',
    'Saving Private Ryan', 'The Silence of the Lambs', 'Se7en', 'Avengers: Endgame',
    'Whiplash', 'Django Unchained', 'The Prestige', 'Joker',
    # ➡️ Tu peux en ajouter **beaucoup plus** ici
]

# Stocker les résultats
movies_info = []

# Boucle pour chercher chaque film
for idx, title in enumerate(popular_movies):
    print(f"({idx+1}/{len(popular_movies)}) Récupération de : {title}")
    info = get_movie_info(title)
    if info:
        movies_info.append(info)
    time.sleep(0.5)  # Petite pause pour respecter l'API

# Créer un DataFrame
df = pd.DataFrame(movies_info)

# Sauvegarder en CSV
#df.to_csv('omdb_movies_dataset.csv', index=False)

#print('✅ Dataset créé et sauvegardé sous omdb_movies_dataset.csv')


(1/20) Récupération de : Inception
(2/20) Récupération de : The Godfather
(3/20) Récupération de : Pulp Fiction
(4/20) Récupération de : The Dark Knight
(5/20) Récupération de : Fight Club
(6/20) Récupération de : Forrest Gump
(7/20) Récupération de : The Matrix
(8/20) Récupération de : The Lord of the Rings: The Return of the King
(9/20) Récupération de : Interstellar
(10/20) Récupération de : The Shawshank Redemption
(11/20) Récupération de : The Green Mile
(12/20) Récupération de : Gladiator
(13/20) Récupération de : Saving Private Ryan
(14/20) Récupération de : The Silence of the Lambs
(15/20) Récupération de : Se7en
(16/20) Récupération de : Avengers: Endgame
(17/20) Récupération de : Whiplash
(18/20) Récupération de : Django Unchained
(19/20) Récupération de : The Prestige
(20/20) Récupération de : Joker


In [3]:
df

Unnamed: 0,Title,Year,Genre,Director,Runtime,IMDB_Rating,IMDB_Votes,BoxOffice,Production,Plot
0,Inception,2010,"Action, Adventure, Sci-Fi",Christopher Nolan,148 min,8.8,2671882,"$292,587,330",,A thief who steals corporate secrets through t...
1,The Godfather,1972,"Crime, Drama",Francis Ford Coppola,175 min,9.2,2108592,"$136,381,073",,The aging patriarch of an organized crime dyna...
2,Pulp Fiction,1994,"Crime, Drama",Quentin Tarantino,154 min,8.9,2318236,"$107,928,762",,"The lives of two mob hitmen, a boxer, a gangst..."
3,The Dark Knight,2008,"Action, Crime, Drama",Christopher Nolan,152 min,9.0,2997696,"$534,987,076",,When a menace known as the Joker wreaks havoc ...
4,Fight Club,1999,"Crime, Drama, Thriller",David Fincher,139 min,8.8,2456010,"$37,030,102",,An insomniac office worker and a devil-may-car...
5,Forrest Gump,1994,"Drama, Romance",Robert Zemeckis,142 min,8.8,2368927,"$330,455,270",,The history of the United States from the 1950...
6,The Matrix,1999,"Action, Sci-Fi","Lana Wachowski, Lilly Wachowski",136 min,8.7,2147060,"$172,076,928",,When a beautiful stranger leads computer hacke...
7,The Lord of the Rings: The Return of the King,2003,"Adventure, Drama, Fantasy",Peter Jackson,201 min,9.0,2064201,"$381,878,219",,Gandalf and Aragorn lead the World of Men agai...
8,Interstellar,2014,"Adventure, Drama, Sci-Fi",Christopher Nolan,169 min,8.7,2301429,"$203,227,580",,When Earth becomes uninhabitable in the future...
9,The Shawshank Redemption,1994,Drama,Frank Darabont,142 min,9.3,3031101,"$28,767,189",,A banker convicted of uxoricide forms a friend...


In [4]:
import requests
import pandas as pd
import time

# Ta clé API OMDb
api_key = 'd8e84c0a'

# Fonction pour chercher un film par IMDb ID
def get_movie_info(imdb_id):
    url = f'http://www.omdbapi.com/?i={imdb_id}&apikey={api_key}'
    try:
        response = requests.get(url)
        data = response.json()
        if data.get('Response') == 'True' and data.get('Type') == 'movie':
            return {
                'imdbID': imdb_id,
                'Title': data.get('Title'),
                'Year': data.get('Year'),
                'Genre': data.get('Genre'),
                'Director': data.get('Director'),
                'Runtime': data.get('Runtime'),
                'IMDB_Rating': data.get('imdbRating'),
                'IMDB_Votes': data.get('imdbVotes'),
                'BoxOffice': data.get('BoxOffice'),
                'Production': data.get('Production'),
                'Plot': data.get('Plot')
            }
    except Exception as e:
        print(f"Erreur pour {imdb_id}: {e}")
    return None

# Stocker les résultats
movies_info = []

# Paramètres
start = 1000000   # Commencer à tt1000000 (film moderne)
end = start + 1000  # Limite de 1000 requêtes pour ne pas exploser ta limite journalière

for number in range(start, end):
    imdb_id = f'tt{number:07d}'  # Format avec 7 chiffres
    print(f"Récupération de : {imdb_id}")
    info = get_movie_info(imdb_id)
    if info:
        movies_info.append(info)
    time.sleep(0.6)  # Petite pause pour respecter l'API (0.5 sec minimum recommandé)

# Créer un DataFrame
df_2 = pd.DataFrame(movies_info)

# Sauvegarder
#df.to_csv('omdb_1000_movies_dataset.csv', index=False)

#print(f'✅ Dataset créé avec {len(df)} films et sauvegardé sous omdb_1000_movies_dataset.csv')


Récupération de : tt1000000
Récupération de : tt1000001
Récupération de : tt1000002
Récupération de : tt1000003
Récupération de : tt1000004
Récupération de : tt1000005
Récupération de : tt1000006
Récupération de : tt1000007
Récupération de : tt1000008
Récupération de : tt1000009
Récupération de : tt1000010
Récupération de : tt1000011
Récupération de : tt1000012
Récupération de : tt1000013
Récupération de : tt1000014
Récupération de : tt1000015
Récupération de : tt1000016
Récupération de : tt1000017
Récupération de : tt1000018
Récupération de : tt1000019
Récupération de : tt1000020
Récupération de : tt1000021
Récupération de : tt1000022
Récupération de : tt1000023
Récupération de : tt1000024
Récupération de : tt1000025
Récupération de : tt1000026
Récupération de : tt1000027
Récupération de : tt1000028
Récupération de : tt1000029
Récupération de : tt1000030
Récupération de : tt1000031
Récupération de : tt1000032
Récupération de : tt1000033
Récupération de : tt1000034
Récupération de : tt

In [5]:
df_2

Unnamed: 0,imdbID,Title,Year,Genre,Director,Runtime,IMDB_Rating,IMDB_Votes,BoxOffice,Production,Plot
0,tt1000000,Rocco Ravishes St. Petersburg,2007,Adult,Rocco Siffredi,145 min,8.2,39,,,
1,tt1000001,Rough Crossings,2007,Drama,Steve Condie,84 min,6.5,49,,BBC,Simon Schama's Rough Crossings movie was relea...
2,tt1000003,Say Goodnight Dick!,2007,Adult,,,,,,,
3,tt1000004,Seduced by a Cougar 2,2007,Adult,Brett Brando,,,,,,
4,tt1000005,Share My Cock! 5,2007,Adult,Scott Hancock,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
174,tt1000770,Rattler: Behind the Fangs,2007,Documentary,Chris Godden,,,,,,
175,tt1000771,Recount,2008,"Drama, History",Jay Roach,116 min,7.3,13872,,,A chronicle of the weeks after the 2000 U.S. P...
176,tt1000772,Ruby's Town,2007,Documentary,Erik McCowan,105 min,,,,,
177,tt1000774,Sex and the City,2008,"Comedy, Drama, Romance",Michael Patrick King,145 min,5.7,130090,"$152,647,258",,Carrie is finally getting married to her Mr. B...


In [6]:
import requests
import pandas as pd
import time
from tqdm import tqdm

# Ta clé API OMDb
api_key = 'd8e84c0a'  # Remplace ici !

# Fonction pour récupérer un film par IMDb ID
def get_movie_info(imdb_id):
    url = f'http://www.omdbapi.com/?i={imdb_id}&apikey={api_key}'
    try:
        response = requests.get(url)
        data = response.json()
        if data.get('Response') == 'True' and data.get('Type') == 'movie':
            return {
                'imdbID': imdb_id,
                'Title': data.get('Title'),
                'Year': data.get('Year'),
                'Genre': data.get('Genre'),
                'Director': data.get('Director'),
                'Runtime': data.get('Runtime'),
                'IMDB_Rating': data.get('imdbRating'),
                'IMDB_Votes': data.get('imdbVotes'),
                'BoxOffice': data.get('BoxOffice'),
                'Production': data.get('Production'),
                'Plot': data.get('Plot')
            }
    except Exception as e:
        print(f"Erreur pour {imdb_id}: {e}")
    return None

# Stockage
movies_info = []

# Paramètres d'ID
start = 1200000  # Début de plage : films récents (~2010+)
end = start + 3000  # Essayer sur 3000 IDs (tu atteindras ta limite avec ça)

# Compteur pour arrêter après 1000 appels réussis (films trouvés ou non)
requests_made = 0
max_requests_per_day = 950  # pour être safe (moins que 1000 exactement)

# Boucle de récupération
for number in tqdm(range(start, end)):
    if requests_made >= max_requests_per_day:
        break

    imdb_id = f'tt{number:07d}'
    info = get_movie_info(imdb_id)
    requests_made += 1

    if info:
        movies_info.append(info)

    time.sleep(0.6)  # respecter OMDb (pas spammer)

# Résultat
df_3 = pd.DataFrame(movies_info)

# Sauvegarde


#print(f'✅ Fini ! {len(df)} films collectés et sauvegardés dans omdb_movies_dataset.csv')


 32%|███▏      | 950/3000 [13:48<29:48,  1.15it/s]  


In [10]:
df_3.to_csv('omdb_movies_dataset.csv', index=False)
print(f'✅ Fini ! {len(df_3)} films collectés et sauvegardés dans omdb_movies_dataset.csv')


✅ Fini ! 0 films collectés et sauvegardés dans omdb_movies_dataset.csv


In [9]:
df_3

In [11]:
import requests
import pandas as pd
from tqdm import tqdm
import time

# Ta clé API TMDb
api_key = '9d6fb86c8e6e0842572265e5c282ca7e'  # Remplace ici !

# URL de base
base_url = 'https://api.themoviedb.org/3/discover/movie'

# Paramètres généraux
params = {
    'api_key': api_key,
    'sort_by': 'popularity.desc',
    'include_adult': 'false',
    'include_video': 'false',
    'language': 'en-US',
    'page': 1
}

# Stocker les résultats
movies = []

# On va récupérer 50 pages (environ 1000 films, 20 par page)
for page in tqdm(range(52, 151)):
    params['page'] = page
    response = requests.get(base_url, params=params)
    data = response.json()

    for movie in data.get('results', []):
        movies.append({
            'id': movie.get('id'),
            'title': movie.get('title'),
            'release_date': movie.get('release_date'),
            'genres': movie.get('genre_ids'),
            'language': movie.get('original_language'),
            'popularity': movie.get('popularity'),
            'vote_count': movie.get('vote_count'),
            'vote_average': movie.get('vote_average'),
            'overview': movie.get('overview')
        })

    time.sleep(0.3)  # petite pause pour éviter d’abuser

# Créer un DataFrame
df = pd.DataFrame(movies)

# Nettoyage : supprimer les films sans note
df = df[df['vote_average'] > 0]

# Sauvegarde
df.to_csv('tmdb_movies_dataset.csv', index=False)

print(f"✅ {len(df)} films collectés et sauvegardés dans tmdb_movies_dataset.csv")

100%|██████████| 99/99 [01:35<00:00,  1.03it/s]

✅ 1953 films collectés et sauvegardés dans tmdb_movies_dataset.csv





In [12]:
df

Unnamed: 0,id,title,release_date,genres,language,popularity,vote_count,vote_average,overview
0,276907,Legend,2015-09-09,"[80, 53]",en,14.3952,3966,7.054,"Suave, charming and volatile, Reggie Kray and ..."
1,1893,Star Wars: Episode I - The Phantom Menace,1999-05-19,"[12, 28, 878]",en,12.7219,14941,6.600,"Anakin Skywalker, a young slave strong with th..."
2,841,Dune,1984-12-14,"[28, 878, 12]",en,14.0893,3167,6.183,"In the year 10,191, the most precious substanc..."
3,14443,The Garbage Pail Kids Movie,1987-08-22,"[12, 878, 35, 10751]",en,11.6129,106,3.500,Seven disgusting kids but nevertheless of inte...
4,68735,Warcraft,2016-05-25,"[28, 12, 14]",en,14.0983,6896,6.384,The peaceful realm of Azeroth stands on the br...
...,...,...,...,...,...,...,...,...,...
1975,9415,Murder at 1600,1997-04-18,"[28, 18, 9648, 53, 80]",en,8.6223,542,6.100,A secretary is found dead in a White House bat...
1976,9884,Collateral Damage,2002-02-06,"[28, 53, 18]",en,7.9877,1396,5.760,Firefighter Gordon Brewer is plunged into the ...
1977,9359,Maverick,1994-05-20,"[28, 12, 35, 18, 37]",en,8.1670,1636,6.881,Bret Maverick is a gambler who would rather co...
1978,8965,Atlantis: Milo's Return,2003-02-25,"[14, 16, 878, 10751, 28]",en,8.6966,3839,6.300,Milo and Kida reunite with their friends to in...


In [13]:
df.to_csv('tmdb_movies_dataset_part2.csv', index=False)
print("✅ Fichier 'tmdb_movies_dataset_part2.csv' sauvegardé.")


✅ Fichier 'tmdb_movies_dataset_part2.csv' sauvegardé.
