In [2]:
!pip install pandas numpy matplotlib seaborn scipy

Defaulting to user installation because normal site-packages is not writeable


In [3]:
!pip install scikit-learn

Defaulting to user installation because normal site-packages is not writeable


In [4]:
!pip install dask

Defaulting to user installation because normal site-packages is not writeable
Collecting dask
  Downloading dask-2025.2.0-py3-none-any.whl (1.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m0m
Collecting cloudpickle>=3.0.0
  Downloading cloudpickle-3.1.1-py3-none-any.whl (20 kB)
Collecting fsspec>=2021.09.0
  Downloading fsspec-2025.2.0-py3-none-any.whl (184 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m184.5/184.5 KB[0m [31m26.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting toolz>=0.10.0
  Downloading toolz-1.0.0-py3-none-any.whl (56 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.4/56.4 KB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting partd>=1.4.0
  Downloading partd-1.4.2-py3-none-any.whl (18 kB)
Collecting importlib_metadata>=4.13.0
  Downloading importlib_metadata-8.6.1-py3-none-any.whl (26 kB)
Collecting zipp>=3.20
  Downloading 

In [5]:
!pip install plotly

Defaulting to user installation because normal site-packages is not writeable
Collecting plotly
  Downloading plotly-6.0.0-py3-none-any.whl (14.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.8/14.8 MB[0m [31m20.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting narwhals>=1.15.1
  Downloading narwhals-1.29.0-py3-none-any.whl (305 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m305.2/305.2 KB[0m [31m47.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: narwhals, plotly
Successfully installed narwhals-1.29.0 plotly-6.0.0


In [6]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import MinMaxScaler
from scipy.sparse import csr_matrix
import datetime as dt
from matplotlib.colors import LinearSegmentedColormap
from collections import defaultdict
import plotly.express as px
import plotly.graph_objects as go
import csv
import dask.dataframe as dd
import random

ImportError: Missing optional dependency 'pyarrow'.  Use pip or conda to install pyarrow.

## Đọc dữ liệu

In [22]:
def load_data():
    # Đọc file lịch sử nghe nhạc
    listening_history = pd.read_csv('sample_listening_history.tsv', 
                                    sep='\t', 
                                    names=['userid', 'timestamp', 'artid', 'artname', 'traid', 'traname'])
    
    # Đọc file thông tin người dùng
    user_profiles = pd.read_csv('dataset/userid-profile.tsv', 
                               sep='\t',
                               names=['userid', 'gender', 'age', 'country', 'signup'])
    
    # Chỉ giữ lại thông tin của các người dùng có trong mẫu listening_history
    unique_users = listening_history['userid'].unique()
    user_profiles = user_profiles[user_profiles['userid'].isin(unique_users)]
    
    return listening_history, user_profiles

In [4]:
def preprocess_data(listening_history, user_profiles):
    # Xử lý timestamp
    listening_history['timestamp'] = pd.to_datetime(listening_history['timestamp'])
    
    # Xử lý các giá trị rỗng trong user_profiles
    user_profiles['gender'].fillna('unknown', inplace=True)
    user_profiles['age'].fillna(-1, inplace=True)
    user_profiles['country'].fillna('unknown', inplace=True)
    user_profiles['signup'].fillna(pd.Timestamp.now().date(), inplace=True)
    
    # Chuyển đổi kiểu dữ liệu
    user_profiles['age'] = user_profiles['age'].astype(float).astype('Int64')
    user_profiles['signup'] = pd.to_datetime(user_profiles['signup'])
    
    # Kết hợp dữ liệu từ cả hai bảng
    combined_data = pd.merge(listening_history, user_profiles, on='userid', how='left')
    
    return listening_history, user_profiles, combined_data

# Phân tích xu hướng nghe nhạc

In [23]:
def analyze_listening_trends(combined_data):
    # Thời điểm nghe trong ngày
    combined_data['hour'] = combined_data['timestamp'].dt.hour
    hourly_plays = combined_data.groupby('hour').size()
    
    # Nghệ sĩ phổ biến nhất
    top_artists = combined_data.groupby('artname').size().sort_values(ascending=False).head(10)
    
    # Bài hát phổ biến nhất
    top_tracks = combined_data.groupby('traname').size().sort_values(ascending=False).head(10)
    
    # Phân tích theo quốc gia
    country_plays = combined_data.groupby('country').size().sort_values(ascending=False).head(10)
    
    # Phân tích theo độ tuổi
    age_groups = pd.cut(combined_data['age'], bins=[-2, 0, 18, 25, 35, 50, 100], 
                         labels=['Unknown', '<18', '18-25', '26-35', '36-50', '>50'])
    combined_data['age_group'] = age_groups
    age_plays = combined_data.groupby('age_group').size()
    
    return hourly_plays, top_artists, top_tracks, country_plays, age_plays


# Trực quan hóa xu hướng nghe nhạc

In [24]:
def visualize_trends(hourly_plays, top_artists, top_tracks, country_plays, age_plays):
    # Tạo subplot grid
    plt.figure(figsize=(18, 15))
    
    # 1. Biểu đồ thời điểm nghe trong ngày
    plt.subplot(2, 2, 1)
    hourly_plays.plot(kind='bar', color='skyblue')
    plt.title('Distribution of Listening Time During Day')
    plt.xlabel('Hour of Day')
    plt.ylabel('Number of Plays')
    plt.xticks(rotation=45)
    
    # 2. Biểu đồ nghệ sĩ phổ biến
    plt.subplot(2, 2, 2)
    top_artists.plot(kind='barh', color='salmon')
    plt.title('Top 10 Most Popular Artists')
    plt.xlabel('Number of Plays')
    plt.ylabel('Artist')
    
    # 3. Biểu đồ bài hát phổ biến
    plt.subplot(2, 2, 3)
    top_tracks.plot(kind='barh', color='lightgreen')
    plt.title('Top 10 Most Popular Tracks')
    plt.xlabel('Number of Plays')
    plt.ylabel('Track Name')
    
    # 4. Biểu đồ độ tuổi
    plt.subplot(2, 2, 4)
    age_plays.plot(kind='pie', autopct='%1.1f%%', colors=sns.color_palette("pastel"))
    plt.title('Listening Distribution by Age Group')
    plt.ylabel('')
    
    plt.tight_layout()
    return plt

# Tạo ma trận user-item

In [25]:
def create_user_item_matrix(listening_history):
    # Tạo ma trận người dùng-bài hát
    user_track_matrix = listening_history.groupby(['userid', 'traid']).size().unstack(fill_value=0)
    
    # Nếu ma trận quá lớn, có thể giảm kích thước
    if user_track_matrix.shape[1] > 5000:
        # Chọn những bài hát được nghe nhiều nhất
        popular_tracks = listening_history['traid'].value_counts().head(5000).index
        user_track_matrix = user_track_matrix[popular_tracks]
    
    return user_track_matrix

# Xây dựng hệ thống đề xuất dựa trên nội dung

In [26]:
def content_based_recommendations(listening_history, userid, n_recommendations=10):
    # Tạo feature artist cho mỗi track
    track_artist_df = listening_history[['traid', 'traname', 'artid', 'artname']].drop_duplicates()
    
    # Lấy danh sách các bài hát đã nghe của người dùng
    user_tracks = listening_history[listening_history['userid'] == userid]['traid'].unique()
    
    # Tìm các nghệ sĩ từ bài hát đã nghe
    user_artists = listening_history[
        (listening_history['userid'] == userid) & 
        (listening_history['traid'].isin(user_tracks))
    ]['artid'].value_counts().index.tolist()
    
    # Đề xuất bài hát từ các nghệ sĩ yêu thích
    recommended_tracks = track_artist_df[
        (track_artist_df['artid'].isin(user_artists)) & 
        (~track_artist_df['traid'].isin(user_tracks))
    ].drop_duplicates('traid')
    
    # Đếm số lần xuất hiện của mỗi nghệ sĩ trong lịch sử nghe
    artist_counts = listening_history[listening_history['userid'] == userid]['artid'].value_counts().to_dict()
    
    # Gán trọng số cho từng bài hát dựa trên độ phổ biến của nghệ sĩ
    recommended_tracks['score'] = recommended_tracks['artid'].map(
        lambda x: artist_counts.get(x, 0)
    )
    
    # Sắp xếp và trả về kết quả
    return recommended_tracks.sort_values('score', ascending=False).head(n_recommendations)

# Xây dựng hệ thống đề xuất cộng tác

In [27]:
def collaborative_filtering_recommendations(user_track_matrix, userid, n_recommendations=10):
    # Kiểm tra xem người dùng có trong ma trận hay không
    if userid not in user_track_matrix.index:
        return pd.DataFrame()  # Trả về DataFrame rỗng nếu không tìm thấy người dùng
    
    # Tính toán ma trận tương đồng
    user_similarity = cosine_similarity(user_track_matrix)
    user_similarity_df = pd.DataFrame(user_similarity, 
                                     index=user_track_matrix.index, 
                                     columns=user_track_matrix.index)
    
    # Tìm những người dùng tương tự
    user_index = user_track_matrix.index.get_loc(userid)
    similar_users = user_similarity_df.iloc[user_index].sort_values(ascending=False)[1:11]
    
    # Bài hát đã nghe của người dùng
    user_listened = set(user_track_matrix.columns[user_track_matrix.loc[userid] > 0])
    
    # Tìm bài hát được nghe bởi người dùng tương tự mà người dùng hiện tại chưa nghe
    recommendations = defaultdict(float)
    
    for similar_user, similarity in similar_users.items():
        # Bỏ qua nếu similarity quá thấp
        if similarity <= 0.1:
            continue
            
        # Bài hát được nghe bởi người dùng tương tự
        similar_user_tracks = set(user_track_matrix.columns[user_track_matrix.loc[similar_user] > 0])
        
        # Tìm bài hát mà người dùng tương tự đã nghe nhưng người dùng hiện tại chưa nghe
        new_tracks = similar_user_tracks - user_listened
        
        # Thêm điểm cho mỗi bài hát dựa trên độ tương đồng
        for track in new_tracks:
            listen_count = user_track_matrix.loc[similar_user, track]
            recommendations[track] += similarity * listen_count
    
    # Sắp xếp các đề xuất
    sorted_recommendations = sorted(recommendations.items(), key=lambda x: x[1], reverse=True)
    
    # Lấy top n recommendations
    top_recommendations = sorted_recommendations[:n_recommendations]
    
    # Trả về danh sách track_ids
    return [track_id for track_id, score in top_recommendations]

# Đánh giá hệ thống đề xuất

In [28]:
def evaluate_recommendations(listening_history, user_track_matrix, test_users=10):
    # Chọn ngẫu nhiên một số người dùng để đánh giá
    test_user_ids = np.random.choice(user_track_matrix.index, min(test_users, len(user_track_matrix.index)), replace=False)
    
    # Lưu trữ kết quả
    results = []
    
    for user_id in test_user_ids:
        # Lấy đề xuất
        content_recs = content_based_recommendations(listening_history, user_id, n_recommendations=10)
        collab_recs = collaborative_filtering_recommendations(user_track_matrix, user_id, n_recommendations=10)
        
        # Đếm số bài hát được đề xuất
        n_content_recs = len(content_recs)
        n_collab_recs = len(collab_recs)
        
        results.append({
            'userid': user_id,
            'content_recommendations': n_content_recs,
            'collaborative_recommendations': n_collab_recs
        })
    
    return pd.DataFrame(results)

# Trực quan hóa hệ thống đánh giá

In [29]:
def visualize_evaluation(eval_results):
    plt.figure(figsize=(10, 6))
    
    # Tạo dữ liệu cho biểu đồ
    users = eval_results['userid']
    content_recs = eval_results['content_recommendations']
    collab_recs = eval_results['collaborative_recommendations']
    
    # Vẽ biểu đồ cột ghép
    x = np.arange(len(users))
    width = 0.35
    
    plt.bar(x - width/2, content_recs, width, label='Content-based')
    plt.bar(x + width/2, collab_recs, width, label='Collaborative')
    
    plt.xlabel('Users')
    plt.ylabel('Number of Recommendations')
    plt.title('Comparison of Recommendation Methods')
    plt.xticks(x, [f'User {i+1}' for i in range(len(users))], rotation=45)
    plt.legend()
    
    plt.tight_layout()
    return plt

# Trực quan hóa mạng lưới người dùng và bài hát

In [30]:
def visualize_user_track_network(listening_history, max_users=20, max_tracks=30):
    # Giới hạn số lượng dữ liệu để biểu đồ không quá phức tạp
    top_users = listening_history['userid'].value_counts().head(max_users).index
    filtered_history = listening_history[listening_history['userid'].isin(top_users)]
    
    top_tracks = filtered_history['traname'].value_counts().head(max_tracks).index
    filtered_history = filtered_history[filtered_history['traname'].isin(top_tracks)]
    
    # Tạo danh sách các cạnh
    edges = filtered_history[['userid', 'traname']].drop_duplicates()
    
    # Tạo biểu đồ tương tác với Plotly
    fig = go.Figure()
    
    # Thêm các cạnh
    for _, edge in edges.iterrows():
        fig.add_trace(go.Scatter(
            x=[edge['userid'], edge['traname']],
            y=[0, 1],
            mode='lines',
            line=dict(width=0.5, color='#888'),
            hoverinfo='none'
        ))
    
    # Thêm các nút người dùng
    fig.add_trace(go.Scatter(
        x=top_users,
        y=[0] * len(top_users),
        mode='markers',
        marker=dict(size=10, color='blue'),
        text=top_users,
        name='Users'
    ))
    
    # Thêm các nút bài hát
    fig.add_trace(go.Scatter(
        x=top_tracks,
        y=[1] * len(top_tracks),
        mode='markers',
        marker=dict(size=10, color='red'),
        text=top_tracks,
        name='Tracks'
    ))
    
    # Cập nhật layout
    fig.update_layout(
        title='User-Track Network',
        showlegend=True,
        hovermode='closest',
        margin=dict(b=20, l=5, r=5, t=40),
        xaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
        yaxis=dict(showgrid=False, zeroline=False, showticklabels=False)
    )
    
    return fig

# Biểu đồ nhiệt để hiển thị mối tương quan giữa người dùng

In [31]:
def visualize_user_similarity_heatmap(user_track_matrix, max_users=50):
    # Giới hạn số lượng người dùng để biểu đồ không quá phức tạp
    if len(user_track_matrix) > max_users:
        # Chọn những người dùng có nhiều lượt nghe nhất
        active_users = user_track_matrix.sum(axis=1).nlargest(max_users).index
        user_track_subset = user_track_matrix.loc[active_users]
    else:
        user_track_subset = user_track_matrix
    
    # Tính toán ma trận tương đồng
    user_similarity = cosine_similarity(user_track_subset)
    
    # Tạo DataFrame từ ma trận tương đồng
    user_similarity_df = pd.DataFrame(
        user_similarity, 
        index=user_track_subset.index, 
        columns=user_track_subset.index
    )
    
    # Tạo biểu đồ nhiệt
    plt.figure(figsize=(12, 10))
    
    # Tạo bảng màu từ xanh dương đến đỏ
    colors = ['#EFF3FF', '#C6DBEF', '#9ECAE1', '#6BAED6', '#4292C6', '#2171B5', '#084594']
    cmap = LinearSegmentedColormap.from_list('custom_blues', colors, N=100)
    
    # Vẽ biểu đồ nhiệt
    sns.heatmap(user_similarity_df, 
               cmap=cmap,
               vmin=0, 
               vmax=1, 
               square=True, 
               linewidths=.5, 
               cbar_kws={"shrink": .5})
    
    plt.title('User Similarity Heatmap (Cosine Similarity)')
    plt.tight_layout()
    
    return plt

# Hiển thị UI cho hệ thống đề xuất

In [32]:
def display_recommendations_for_user(listening_history, user_track_matrix, combined_data, userid):
    # Lấy thông tin người dùng
    user_info = combined_data[combined_data['userid'] == userid].iloc[0]
    
    # Lấy các bài hát đã nghe
    listened_tracks = listening_history[listening_history['userid'] == userid]
    top_listened = listened_tracks['traname'].value_counts().head(5)
    
    # Lấy đề xuất dựa trên nội dung
    content_recs = content_based_recommendations(listening_history, userid)
    
    # Lấy đề xuất dựa trên lọc cộng tác
    collab_tracks = collaborative_filtering_recommendations(user_track_matrix, userid)
    
    # Lấy tên bài hát từ ID
    track_map = dict(zip(listening_history['traid'], listening_history['traname']))
    collab_track_names = [track_map.get(track_id, "Unknown") for track_id in collab_tracks]
    
    # Hiển thị thông tin
    print(f"Music Recommendations for User: {userid}")
    print("=" * 50)
    print(f"User Profile: Gender: {user_info['gender']}, Age: {user_info['age']}, Country: {user_info['country']}")
    print("\nTop Listened Tracks:")
    for i, (track, count) in enumerate(top_listened.items(), 1):
        print(f"{i}. {track} - {count} plays")
    
    print("\nContent-Based Recommendations:")
    if not content_recs.empty:
        for i, (_, row) in enumerate(content_recs.iterrows(), 1):
            print(f"{i}. {row['traname']} by {row['artname']}")
    else:
        print("No content-based recommendations available.")
    
    print("\nCollaborative Filtering Recommendations:")
    if collab_track_names:
        for i, track in enumerate(collab_track_names, 1):
            print(f"{i}. {track}")
    else:
        print("No collaborative filtering recommendations available.")
    
    # Trả về dữ liệu để trực quan hóa trong các biểu đồ
    return {
        'top_listened': top_listened,
        'content_recs': content_recs['traname'] if not content_recs.empty else pd.Series(),
        'collab_recs': pd.Series(collab_track_names)
    }

# Trực quan hóa đề xuất cho người dùng

In [33]:
def visualize_user_recommendations(rec_data):
    # Tạo figure với 3 subplots
    fig, (ax1, ax2, ax3) = plt.subplots(3, 1, figsize=(12, 15))
    
    # 1. Biểu đồ bài hát đã nghe
    if not rec_data['top_listened'].empty:
        rec_data['top_listened'].plot(kind='barh', ax=ax1, color='skyblue')
        ax1.set_title('Top Listened Tracks')
        ax1.set_xlabel('Number of Plays')
        ax1.set_ylabel('Track Name')
    else:
        ax1.text(0.5, 0.5, 'No listening history data available', 
                horizontalalignment='center', verticalalignment='center')
    
    # 2. Biểu đồ đề xuất dựa trên nội dung
    if not rec_data['content_recs'].empty:
        rec_data['content_recs'].value_counts().plot(kind='barh', ax=ax2, color='salmon')
        ax2.set_title('Content-Based Recommendations')
        ax2.set_xlabel('Recommendation Score')
        ax2.set_ylabel('Track Name')
    else:
        ax2.text(0.5, 0.5, 'No content-based recommendations available', 
                horizontalalignment='center', verticalalignment='center')
    
    # 3. Biểu đồ đề xuất dựa trên lọc cộng tác
    if not rec_data['collab_recs'].empty:
        rec_data['collab_recs'].value_counts().plot(kind='barh', ax=ax3, color='lightgreen')
        ax3.set_title('Collaborative Filtering Recommendations')
        ax3.set_xlabel('Recommendation Score')
        ax3.set_ylabel('Track Name')
    else:
        ax3.text(0.5, 0.5, 'No collaborative filtering recommendations available', 
                horizontalalignment='center', verticalalignment='center')
    
    plt.tight_layout()
    return plt

# Hàm chạy toàn bộ quy trình

In [None]:
def run_recommendation_system():
    print("Loading data...")
    listening_history, user_profiles = load_data()
    
    print("Preprocessing data...")
    listening_history, user_profiles, combined_data = preprocess_data(listening_history, user_profiles)
    
    print("Analyzing listening trends...")
    hourly_plays, top_artists, top_tracks, country_plays, age_plays = analyze_listening_trends(combined_data)
    
    print("Creating user-item matrix...")
    user_track_matrix = create_user_item_matrix(listening_history)
    
    print("Visualizing trends...")
    trend_visualization = visualize_trends(hourly_plays, top_artists, top_tracks, country_plays, age_plays)
    trend_visualization.show()
    
    print("Evaluating recommendation system...")
    eval_results = evaluate_recommendations(listening_history, user_track_matrix)
    
    print("Visualizing evaluation results...")
    eval_visualization = visualize_evaluation(eval_results)
    eval_visualization.show()
    
    print("Visualizing user similarity heatmap...")
    similarity_heatmap = visualize_user_similarity_heatmap(user_track_matrix)
    similarity_heatmap.show()
    
    # Chọn một người dùng để hiển thị đề xuất
    random_user = np.random.choice(user_profiles['userid'].values)
    
    print(f"\nGenerating recommendations for random user: {random_user}")
    rec_data = display_recommendations_for_user(listening_history, user_track_matrix, combined_data, random_user)
    
    print("Visualizing recommendations...")
    rec_visualization = visualize_user_recommendations(rec_data)
    rec_visualization.show()
    
    print("\nDone!")

# Hàm chính
if __name__ == "__main__":
    run_recommendation_system()

Loading data...


NameError: name 'load_data' is not defined