# Extraire 50000 films du dataset TMDB

Ce notebook extrait les 5000 premi√®res lignes du dataset TMDB complet et les sauvegarde dans un nouveau fichier CSV.

In [1]:
import pandas as pd

# Lire seulement les 5000 premi√®res lignes du dataset TMDB complet
print("Lecture des 5000 premi√®res lignes du dataset TMDB...")
df = pd.read_csv('TMDB_movie_dataset_v11.csv', nrows=50000)

print(f"Nombre de films charg√©s: {len(df)}")
print(f"\nAper√ßu des donn√©es:")
print(df.head())
print(f"\nColonnes disponibles:")
print(df.columns.tolist())

Lecture des 5000 premi√®res lignes du dataset TMDB...
Nombre de films charg√©s: 50000

Aper√ßu des donn√©es:
       id            title  vote_average  vote_count    status release_date  \
0   27205        Inception         8.364       34495  Released   2010-07-15   
1  157336     Interstellar         8.417       32571  Released   2014-11-05   
2     155  The Dark Knight         8.512       30619  Released   2008-07-16   
3   19995           Avatar         7.573       29815  Released   2009-12-15   
4   24428     The Avengers         7.710       29166  Released   2012-04-25   

      revenue  runtime  adult                     backdrop_path  ...  \
0   825532764      148  False  /8ZTVqvKDQ8emSGUEMjsS4yHAwrp.jpg  ...   
1   701729206      169  False  /pbrkL804c8yAv3zBZR4QPEafpAR.jpg  ...   
2  1004558444      152  False  /nMKdUUepR0i5zn0y1T4CsSB5chy.jpg  ...   
3  2923706026      162  False  /vL5LR6WdxWPjLPFRLe133jXWsh5.jpg  ...   
4  1518815515      143  False  /9BBTo63ANSmhC4e6r62OJFuK

In [2]:
# Informations sur les donn√©es
print("Informations sur le dataset:")
print(f"Dimensions: {df.shape}")
print(f"\nTypes de donn√©es:")
print(df.dtypes)
print(f"\nValeurs manquantes:")
print(df.isnull().sum())

Informations sur le dataset:
Dimensions: (50000, 24)

Types de donn√©es:
id                        int64
title                    object
vote_average            float64
vote_count                int64
status                   object
release_date             object
revenue                   int64
runtime                   int64
adult                      bool
backdrop_path            object
budget                    int64
homepage                 object
imdb_id                  object
original_language        object
original_title           object
overview                 object
popularity              float64
poster_path              object
tagline                  object
genres                   object
production_companies     object
production_countries     object
spoken_languages         object
keywords                 object
dtype: object

Valeurs manquantes:
id                          0
title                       0
vote_average                0
vote_count                  0
stat

In [3]:
# Sauvegarder dans un nouveau fichier CSV avec 50000 films
output_file = 'TMDB_movie_dataset_5k.csv'
df.to_csv(output_file, index=False)

print(f"‚úÖ Fichier cr√©√©: {output_file}")
print(f"üìä Nombre de films: {len(df)}")
print(f"üíæ Taille du fichier: {round(pd.io.common.get_filepath_or_buffer(output_file)[0].stat().st_size / (1024*1024), 2)} MB")

‚úÖ Fichier cr√©√©: TMDB_movie_dataset_5k.csv
üìä Nombre de films: 50000


AttributeError: module 'pandas.io.common' has no attribute 'get_filepath_or_buffer'

## Statistiques rapides sur les 50000 films

In [None]:
# Statistiques sur les notes
print("üìà Statistiques des notes TMDB:")
print(f"Note moyenne: {df['vote_average'].mean():.2f}")
print(f"Note m√©diane: {df['vote_average'].median():.2f}")
print(f"Note min: {df['vote_average'].min():.2f}")
print(f"Note max: {df['vote_average'].max():.2f}")

print(f"\nüó≥Ô∏è Nombre de votes:")
print(f"Total de votes: {df['vote_count'].sum():,.0f}")
print(f"Moyenne de votes par film: {df['vote_count'].mean():,.0f}")

print(f"\nüìÖ Plage d'ann√©es:")
df['year'] = pd.to_datetime(df['release_date'], errors='coerce').dt.year
print(f"Ann√©e la plus ancienne: {int(df['year'].min())}")
print(f"Ann√©e la plus r√©cente: {int(df['year'].max())}")

In [None]:
# Top 10 films les mieux not√©s
print("üèÜ Top 10 des films les mieux not√©s:")
top_10 = df.nlargest(10, 'vote_average')[['title', 'release_date', 'vote_average', 'vote_count']]
for idx, row in top_10.iterrows():
    print(f"{row['title']} ({row['release_date'][:4] if pd.notna(row['release_date']) else 'N/A'}) - {row['vote_average']:.1f} ‚≠ê ({row['vote_count']:,.0f} votes)")