In [68]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
import seaborn as sns

import json
import re

#*----------------------------------------------------------------
mpl.rcParams['font.sans-serif'] = ['SimHei'] # *允许显示中文
plt.rcParams['axes.unicode_minus']=False# *允许显示坐标轴负数
#*----------------------------------------------------------------

params = {'legend.fontsize': 7,}

plt.rcParams.update(params)

# 数据的读入

In [69]:
file = open("data//OriginalData.json" , 'r' , encoding='utf-8')
original_data = json.load(file)
file.close()

In [70]:
print(original_data[0])
len(original_data)

{'片名': '肖申克的救赎 The Shawshank Redemption', '导演': '弗兰克·德拉邦特', '编剧': ['弗兰克·德拉邦特', '斯蒂芬·金'], '主演': ['蒂姆·罗宾斯', '摩根·弗里曼', '鲍勃·冈顿', '威廉姆·赛德勒', '克兰西·布朗', '吉尔·贝罗斯', '马克·罗斯顿', '詹姆斯·惠特摩', '杰弗里·德曼', '拉里·布兰登伯格', '尼尔·吉恩托利', '布赖恩·利比', '大卫·普罗瓦尔', '约瑟夫·劳格诺', '祖德·塞克利拉', '保罗·麦克兰尼', '芮妮·布莱恩', '阿方索·弗里曼', 'V·J·福斯特', '弗兰克·梅德拉诺', '马克·迈尔斯', '尼尔·萨默斯', '耐德·巴拉米', '布赖恩·戴拉特', '唐·麦克马纳斯'], '类型': ['剧情', '犯罪'], '制片国家/地区': ['美国'], '语言': ['英语'], '上映日期': ['1994-09-10(多伦多电影节)', '1994-10-14(美国)'], '片长': ['142分钟'], '评分': '9.7', '评价人数': '2568415'}


250

# 数据清洗

<font size = 4> 介于编剧和主演的多样性，并不能嵌入pandas进行数据分析，所以我们单把这两个数据拿出来，并根据剩下的数据进行归类</font>

<font size = 3>首先，我们发现，评分和评价人数对每个影片是唯一的，所以我们将这两项数据先单独拿出来构建dataframe</font>
<font size = 3>随后，对每个类型、国家、语言、上映时间还有片长做表格分类</font>

In [71]:
df_judge = pd.DataFrame(columns=['排名' , '片名' , '评分' , '评价人数'])
for index , film in enumerate(original_data):
    df_judge.loc[index] = [index + 1 , film['片名'] , float(film['评分']) , int(film['评价人数'])]

In [72]:
index = 0
df_types = pd.DataFrame(columns = ['排名' , '片名' , '类型' ])
for rank , film in enumerate(original_data):
    for i in film['类型']:
        df_types.loc[index] = [rank + 1 , film['片名'] , i]
        index += 1

In [73]:
index = 0
df_countries = pd.DataFrame(columns = ['排名' , '片名' , '国家' ])
for rank , film in enumerate(original_data):
    for area in film['制片国家/地区']:
        if '大陆' in area or '香港' in area or '台湾' in area:
            area = '中国'
        if '戛纳' in area:
            area = '法国'
        df_countries.loc[index] = [rank + 1 , film['片名'] , area]
        index += 1

In [74]:
index = 0
df_languages = pd.DataFrame(columns = ['排名' , '片名' , '语言' ])
for rank , film in enumerate(original_data):
    for language in film['语言']:
        df_languages.loc[index] = [rank + 1 , film['片名'] , language]
        index += 1

In [75]:
index = 0
df_times = pd.DataFrame(columns = ['排名' , '片名' , '上映日期'])
for rank , film in enumerate(original_data):
    for time in film['上映日期']:
        df_times.loc[index] = [rank + 1 , film['片名'] , time[0:4]]
        index += 1

In [79]:
index = 0
df_lens = pd.DataFrame(columns = ['排名' , '片名' , '片长'])
for rank , film in enumerate(original_data):
    for lens in film['片长']:
        df_lens.loc[index] = [rank + 1 , film['片名'] , re.findall('\d+', lens)[0]]
        index += 1
        

In [77]:
df_judge

Unnamed: 0,排名,片名,评分,评价人数
0,1,肖申克的救赎 The Shawshank Redemption,9.7,2568415
1,2,霸王别姬,9.6,1907546
2,3,阿甘正传 Forrest Gump,9.5,1929466
3,4,泰坦尼克号 Titanic,9.4,1891082
4,5,这个杀手不太冷 Léon,9.4,2086370
...,...,...,...,...
245,246,千年女优 千年女優,8.8,216490
246,247,聚焦 Spotlight,8.8,248904
247,248,驴得水,8.3,830205
248,249,小萝莉的猴神大叔 Bajrangi Bhaijaan,8.4,443891


In [80]:
df_lens

Unnamed: 0,排名,片名,片长
0,1,肖申克的救赎 The Shawshank Redemption,142
1,2,霸王别姬,171
2,2,霸王别姬,155
3,3,阿甘正传 Forrest Gump,142
4,4,泰坦尼克号 Titanic,194
...,...,...,...
327,247,聚焦 Spotlight,128
328,248,驴得水,111
329,249,小萝莉的猴神大叔 Bajrangi Bhaijaan,159
330,249,小萝莉的猴神大叔 Bajrangi Bhaijaan,141
