In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Charger les données
movies_df = pd.read_csv('/Film_recom/Datasets/movies.csv')

# Afficher les premières lignes du DataFrame
print(movies_df.head())

# Afficher les informations sur le DataFrame
print(movies_df.info())


In [None]:
# 1. Vérifier les valeurs manquantes
print(movies_df.isnull().sum())

# 2. Extraire l'année du titre
movies_df['year'] = movies_df['title'].str.extract('(\d{4})', expand=False)
movies_df['title'] = movies_df['title'].str.replace('(\(\d{4}\))', '', regex=True).str.strip()

# 3. Séparer les genres en colonnes individuelles
genres = movies_df['genres'].str.get_dummies(sep='|')
movies_df = pd.concat([movies_df, genres], axis=1)

# 4. Vérifier les doublons
print("Nombre de doublons :", movies_df.duplicated().sum())

# Afficher les premières lignes du DataFrame nettoyé
print(movies_df.head())

# Afficher les informations sur le DataFrame nettoyé
print(movies_df.info())

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Distribution des films par année
plt.figure(figsize=(20, 10))  # Augmentons la taille pour une meilleure lisibilité
year_counts = movies_df['year'].value_counts().sort_index()
year_counts.plot(kind='bar')
plt.title('Distribution des films par année', fontsize=20)
plt.xlabel('Année', fontsize=16)
plt.ylabel('Nombre de films', fontsize=16)
plt.xticks(rotation=90, ha='center', fontsize=12)  # Rotation verticale des années
plt.yticks(fontsize=12)

# Ajuster l'espacement
plt.tight_layout()

# Ajouter des grilles pour une meilleure lisibilité
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.show()

# 2. Top 10 des genres les plus courants
genre_counts = movies_df.iloc[:, 5:].sum().sort_values(ascending=False)
plt.figure(figsize=(12, 6))
genre_counts.head(10).plot(kind='bar')
plt.title('Top 10 des genres les plus courants')
plt.xlabel('Genre')
plt.ylabel('Nombre de films')
plt.show()

# 3. Nombre moyen de genres par film
movies_df['genre_count'] = movies_df.iloc[:, 5:].sum(axis=1)
print("Nombre moyen de genres par film :", movies_df['genre_count'].mean())

# 4. Films avec le plus grand nombre de genres
print(movies_df.nlargest(5, 'genre_count')[['title', 'year', 'genre_count']])

# 5. Corrélation entre les genres
correlation = movies_df.iloc[:, 5:-1].corr()
plt.figure(figsize=(12, 10))
sns.heatmap(correlation, annot=False, cmap='coolwarm')
plt.title('Corrélation entre les genres')
plt.show()

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

# 1. Examiner la distribution des années
print(movies_df['year'].describe())

# 2. Filtrer les films à partir de 1900
movies_df['year'] = pd.to_numeric(movies_df['year'], errors='coerce')
movies_filtered = movies_df[movies_df['year'] >= 1900]

# Vérifier combien de films ont été supprimés
print(f"Nombre de films supprimés : {len(movies_df) - len(movies_filtered)}")

# 3. Recréer le graphique avec les données nettoyées
plt.figure(figsize=(20, 10))
year_counts = movies_filtered['year'].value_counts().sort_index()
year_counts.plot(kind='bar')
plt.title('Distribution des films par année (1900-présent)', fontsize=20)
plt.xlabel('Année', fontsize=16)
plt.ylabel('Nombre de films', fontsize=16)
plt.xticks(rotation=90, ha='center', fontsize=12)
plt.yticks(fontsize=12)

plt.tight_layout()
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.show()

# Afficher les 10 films les plus anciens après le filtrage
print(movies_filtered.nsmallest(10, 'year')[['title', 'year']])

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Convertir l'année en numérique et filtrer les films à partir de 1900
movies_df['year'] = pd.to_numeric(movies_df['year'], errors='coerce')
movies_filtered = movies_df[movies_df['year'] >= 1900].copy()  # Utiliser .copy() ici

# 1. Distribution des films par année
plt.figure(figsize=(20, 10))
year_counts = movies_filtered['year'].value_counts().sort_index()
year_counts.plot(kind='bar')
plt.title('Distribution des films par année (1900-présent)', fontsize=20)
plt.xlabel('Année', fontsize=16)
plt.ylabel('Nombre de films', fontsize=16)
plt.xticks(rotation=90, ha='center', fontsize=12)
plt.yticks(fontsize=12)
plt.tight_layout()
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

# 2. Top 10 des genres les plus courants
genre_counts = movies_filtered.iloc[:, 5:-1].sum().sort_values(ascending=False)
plt.figure(figsize=(12, 6))
genre_counts.head(10).plot(kind='bar')
plt.title('Top 10 des genres les plus courants', fontsize=16)
plt.xlabel('Genre', fontsize=12)
plt.ylabel('Nombre de films', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

# 3. Nombre moyen de genres par film
movies_filtered['genre_count'] = movies_filtered.iloc[:, 5:-1].sum(axis=1)
print("Nombre moyen de genres par film :", movies_filtered['genre_count'].mean())

# 4. Films avec le plus grand nombre de genres
print(movies_filtered.nlargest(5, 'genre_count')[['title', 'year', 'genre_count']])

# 5. Corrélation entre les genres
correlation = movies_filtered.iloc[:, 5:-2].corr()
plt.figure(figsize=(12, 10))
sns.heatmap(correlation, annot=False, cmap='coolwarm')
plt.title('Corrélation entre les genres', fontsize=16)
plt.tight_layout()
plt.show()

In [1]:
from movie_data_pipeline import MovieDataPipeline

pipeline = MovieDataPipeline('/Film_recom/Datasets/movies.csv')
pipeline.run_pipeline()
processed_data = pipeline.get_data()

# Si vous voulez décrire les données séparément
pipeline.describe_data()

Données chargées avec succès.
Données nettoyées avec succès.
Genres traités avec succès.
Type de données de la colonne 'genres': object
Premières valeurs de la colonne 'genres': 0    [Adventure, Animation, Children, Comedy, Fantasy]
1                       [Adventure, Children, Fantasy]
2                                    [Comedy, Romance]
3                             [Comedy, Drama, Romance]
4                                             [Comedy]
Name: genres, dtype: object
Nombre de valeurs nulles dans 'genres': 57
Nombre de genres par film calculé.

Description des données traitées:
Nombre total de films: 27278
Nombre de colonnes: 25

Colonnes présentes:
- movieId
- title
- genres
- year
- (no genres listed)
- Action
- Adventure
- Animation
- Children
- Comedy
- Crime
- Documentary
- Drama
- Fantasy
- Film-Noir
- Horror
- IMAX
- Musical
- Mystery
- Romance
- Sci-Fi
- Thriller
- War
- Western
- genre_count

Aperçu des données numériques:
             movieId          year  (no genre