# 导入包

In [None]:
import pandas as pd
import numpy as np
import json
import ast

# 修改 numpy 的默认配置
np.set_printoptions(threshold=np.inf, linewidth=np.inf)

# 处理数据，展开json
## credits.csv

In [None]:
# 读取credits.csv
df = pd.read_csv('data_origin/credits.csv')

# 先处理cast
# 将 'cast' 列中的 JSON 数据转换为 Python 对象
df['cast'] = df['cast'].apply(ast.literal_eval)

# 使用列表推导式将 'cast' 列中的 JSON 数据展开为一个新的列表
list = []
for idx, row in df.iterrows():
    for cast in row['cast']:
        list.append({'id': row['id'], 'cast_cast_id': cast['cast_id'], 'cast_character': cast['character'], 'cast_credit_id': cast['credit_id'], 'cast_gender': cast['gender'], 'cast_id':cast['id'], 'cast_name': cast['name'], 'cast_order': cast['order'], 'cast_profile_path': cast['profile_path']})

# 将列表转换为 DataFrame 并保存为 CSV 文件
result_df = pd.DataFrame(list, columns=['id', 'cast_cast_id', 'cast_character', 'cast_credit_id', 'cast_gender', 'cast_id', 'cast_name', 'cast_order', 'cast_profile_path'])

# 保存为新的 CSV 文件
result_df.to_csv('data_process/cast.csv', index=False)


In [None]:
# 再处理crew
df = pd.read_csv('data_origin/credits.csv')
# 将 'crew' 列中的 JSON 数据转换为 Python 对象
df['crew'] = df['crew'].apply(ast.literal_eval)

# 使用列表推导式将 'crew' 列中的 JSON 数据展开为一个新的列表
list = []
for idx, row in df.iterrows():
    for crew in row['crew']:
        list.append({'id': row['id'], 'crew_credit_id': crew['credit_id'], 'crew_department': crew['department'], 'crew_gender': crew['gender'], 'crew_id': crew['id'], 'crew_job': crew['job'], 'crew_name': crew['name'], 'crew_profile_path': crew['profile_path']})
# 将列表转换为 DataFrame 并保存为 CSV 文件
result_df = pd.DataFrame(list, columns=['id', 'crew_credit_id', 'crew_department', 'crew_gender', 'crew_id', 'crew_job', 'crew_name', 'crew_profile_path'])

# 保存为新的 CSV 文件
result_df.to_csv('data_process/crew.csv', index=False)

## keywords.csv

In [None]:
# 读取keywords.csv
df = pd.read_csv('data_origin/keywords.csv')

# 将 'keywords' 列中的 JSON 数据转换为 Python 对象
df['keywords'] = df['keywords'].apply(ast.literal_eval)

# 使用列表推导式将 'keywords' 列中的 JSON 数据展开为一个新的列表
list = []
for idx, row in df.iterrows():
    for keyword in row['keywords']:
        list.append({'id': row['id'], 'keyword_id': keyword['id'], 'keyword_name': keyword['name']})

# 将列表转换为 DataFrame 并保存为 CSV 文件
result_df = pd.DataFrame(list, columns=['id', 'keyword_id', 'keyword_name'])

# 保存为新的 CSV 文件
result_df.to_csv('data_process/keywords.csv', index=False)

## movies_metadata.csv

In [None]:
# 读取movies_metadata.csv
df = pd.read_csv('data_origin/movies_metadata.csv')

# 先处理genre

# 将 'genres' 列中的 JSON 数据转换为 Python 对象
df['genres'] = df['genres'].apply(ast.literal_eval)

# 使用列表推导式将 'genres' 列中的 JSON 数据展开为一个新的列表
list = []
for idx, row in df.iterrows():
    for genre in row['genres']:
        list.append({'id': row['id'], 'genres_id': genre['id'], 'genres_name': genre['name']})

# 将列表转换为 DataFrame 并保存为 CSV 文件
result_df = pd.DataFrame(list, columns=['id', 'genres_id', 'genres_name'])

# 保存为新的 CSV 文件
result_df.to_csv('data_process/genres.csv', index=False)

# 转化为可以导入mysql的sql文件
## actor表

In [None]:
# 读取data_process/cast.csv
df = pd.read_csv('data_process/cast.csv', usecols=['cast_id', 'cast_name', 'cast_gender'])

# 删除重复cast_cast_id的行
df = df.drop_duplicates(subset=['cast_id'])

# 重命名列名
df = df.rename(columns={'cast_id': 'actorId', 'cast_name': 'actorName', 'cast_gender': 'gender'})

# 保存为新的 CSV 文件
df.to_csv('data_sql/actor.csv', index=False)

## cast表

In [None]:
# 读取data_process/cast.csv
df = pd.read_csv('data_process/cast.csv', usecols=['cast_order', 'cast_character', 'cast_cast_id', 'cast_id', 'cast_profile_path', 'id'])

# 重命名列名
df = df.rename(columns={'cast_order': 'order', 'cast_character': 'character', 'cast_cast_id': 'castId', 'cast_id': 'actorId', 'cast_profilePath': 'ProfilePath', 'id': 'movieId'})

# 保存为新的 CSV 文件
df.to_csv('data_sql/cast.csv', index=False)

## worker表

In [None]:
# 读取data_process/crew.csv
df = pd.read_csv('data_process/crew.csv', usecols=['crew_id', 'crew_name', 'crew_gender'])

# 删除重复crew_id的行
df = df.drop_duplicates(subset=['crew_id'])

# 重命名列名
df = df.rename(columns={'crew_id': 'workerId', 'crew_name': 'workerName', 'crew_gender': 'gender'})

# 保存为新的 CSV 文件
df.to_csv('data_sql/worker.csv', index=False)

## crew表

In [None]:
# 读取data_process/crew.csv
df = pd.read_csv('data_process/crew.csv', usecols=['crew_credit_id', 'crew_department', 'crew_job', 'crew_id', 'crew_profile_path', 'id'])

# 重命名列名
df = df.rename(columns={'crew_credit_id': 'creditId', 'crew_department': 'department', 'crew_job': 'job', 'crew_id': 'workerId', 'crew_profile_path': 'profilePath', 'id': 'movieId'})

# 保存为新的 CSV 文件
df.to_csv('data_sql/crew.csv', index=False)

## keywords表

In [None]:
# 读取data_process/keywords.csv
df = pd.read_csv('data_process/keywords.csv', usecols=['id', 'keyword_id'])

# 重命名列名
df = df.rename(columns={'id': 'movieId', 'keyword_id': 'keywordId'})

# 保存为新的 CSV 文件
df.to_csv('data_sql/keywords.csv', index=False)


## taghub表

In [None]:
# 读取data_process/keywords.csv
df = pd.read_csv('data_process/keywords.csv', usecols=['keyword_id', 'keyword_name'])

# 删除重复keyword_id的行
df = df.drop_duplicates(subset=['keyword_id'])

# 重命名列名
df = df.rename(columns={'keyword_id': 'keywordId', 'keyword_name': 'keywordName'})

# 保存为新的 CSV 文件
df.to_csv('data_sql/taghub.csv', index=False)

## user表

In [46]:
# 读取data_origin/ratings.csv
df = pd.read_csv('data_origin/ratings.csv', usecols=['userId'])

# 删除重复userId的行
df = df.drop_duplicates(subset=['userId'])

# 保存为新的 CSV 文件
df.to_csv('data_sql/user.csv', index=False)

## rate表

In [None]:
# 读取data_origin/ratings.csv
df = pd.read_csv('data_origin/ratings.csv', usecols=['userId', 'movieId', 'rating'])

# 保存为新的 CSV 文件
df.to_csv('data_sql/rate.csv', index=False)

## genrehub表

In [None]:
# 读取data_process/genres.csv
df = pd.read_csv('data_process/genres.csv', usecols=['genres_id', 'genres_name'])

# 删除重复genres_id的行
df = df.drop_duplicates(subset=['genres_id'])

# 重命名列名
df = df.rename(columns={'genres_id': 'genreId', 'genres_name': 'genreName'})

# 保存为新的 CSV 文件
df.to_csv('data_sql/genrehub.csv', index=False)

## movie表

In [47]:
# 读取movies_metadata.csv
df = pd.read_csv('data_origin/movies_metadata.csv')

# 保留需要的列
df = df[['id', 'adult', 'budget', 'homepage', 'original_language', 'original_title', 'overview', 'popularity', 'poster_path', 'release_date', 'revenue', 'runtime', 'status', 'tagline', 'title', 'video', 'vote_average', 'vote_count']]

# 重命名列名
df.rename(columns={'id': 'movieId', 'original_language': 'originalLanguage', 'original_title': 'originalTitle', 'release_date': 'releaseDate', 'poster_path': 'posterPath', 'vote_average': 'voteAverage', 'vote_count': 'voteCount'}, inplace=True)

# 将overview列缩减为前100个字符
df['overview'] = df['overview'].str[:100]

# 保存为新的 CSV 文件
df.to_csv('data_sql/movie.csv', index=False)

  df = pd.read_csv('data_origin/movies_metadata.csv')


## genre表

In [45]:
# 读取data_process/genres.csv
df = pd.read_csv('data_process/genres.csv', usecols=['id', 'genres_id'])

# 重命名列名
df = df.rename(columns={'id': 'movieId', 'genres_id': 'genreId'})

# 保存为新的 CSV 文件
df.to_csv('data_sql/genres.csv', index=False)