## 探索性分析

In [1]:
import csv
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
from matplotlib import font_manager
from collections import Counter
from pyecharts.charts import Line, Bar, Pie
from pyecharts import options as opts 
%matplotlib inline

In [2]:
# 解决matplotlib 无法显示中文的问题
my_font = font_manager.FontProperties(fname='/System/Library/Fonts/PingFang.ttc',size=18)

In [3]:
data = pd.read_csv('data.csv')

### 电影评分与时长的统计

In [4]:
data.head(5)

Unnamed: 0,title,actor,releasetime,stars,style,location,film_duration(minutes),release-year,release-month
0,霸王别姬,"张国荣,张丰毅,巩俐",1993-01-01,9.5,"爱情,剧情",中国,171,1993,1
1,肖申克的救赎,"蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿",1994-09-10,9.5,"犯罪,剧情",美国,142,1994,9
2,罗马假日,"格利高里·派克,奥黛丽·赫本,埃迪·艾伯特",1953-09-02,9.1,"喜剧,剧情,爱情",美国,118,1953,9
3,这个杀手不太冷,"让·雷诺,加里·奥德曼,娜塔莉·波特曼",1994-09-14,9.5,"剧情,惊悚,犯罪",法国,110,1994,9
4,泰坦尼克号,"莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩",1998-04-03,9.5,"历史,爱情,灾难",美国,194,1998,4


In [5]:
data[['stars','film_duration(minutes)']].mean()

stars                       9.029
film_duration(minutes)    128.750
dtype: float64

#### 我们可以看到，100部电影，平均评分9.03，平均时长129分钟。

In [6]:
index1 = data['stars'].value_counts().sort_index().index.tolist()
value1 = data['stars'].value_counts().sort_index().values.tolist()

In [7]:
bar1 = (
    Bar()
    .add_xaxis(index1)
    .add_yaxis('评分',value1)
    .set_global_opts(title_opts=opts.TitleOpts(title="电影评分分布"),
                     yaxis_opts=opts.AxisOpts(name="数量"),
                     xaxis_opts=opts.AxisOpts(name="评分"))

)
bar1.render_notebook()

#### 我们可以看到受欢迎的电影评分大致分布在8.8-9.1之间

### 电影年份趋势

In [52]:
index2 = data['release-year'].value_counts().sort_index().index.astype(str).tolist()
value2 = data['release-year'].value_counts().sort_index().values.tolist()

In [54]:
l1 = Line()
l1.add_xaxis(index2)
l1.add_yaxis("数量",value2)
l1.set_global_opts(title_opts=opts.TitleOpts(title="电影年份趋势"))

l1.render_notebook()

#### 我们可以看到比较受欢迎的电影大多分布在近20年内

### 电影月份趋势

In [56]:
index3 = data['release-month'].value_counts().sort_index().index.tolist()
value3 = data['release-month'].value_counts().sort_index().values.tolist()

In [59]:
bar2 = (
    Bar()
    .add_xaxis(index3)
    .add_yaxis('评分',value3)
    .set_global_opts(title_opts=opts.TitleOpts(title="电影月份分布"),
                     yaxis_opts=opts.AxisOpts(name="数量"),
                     xaxis_opts=opts.AxisOpts(name="月"))

)
bar2.render_notebook()

#### 我们可以看到电影在后六个月上映的数量比前六个月多一些

### 电影类型分布

In [61]:
list1 = []
for dat in data['style']:
    for da in dat.split(','):
        list1.append(da)
len(list1)

267

In [62]:
c = Counter(list1)

In [63]:
sel = Series(c)
sel = sel.sort_values(ascending=False)
print(sel)

剧情     54
爱情     26
冒险     23
动作     22
奇幻     20
喜剧     18
家庭     16
动画     15
犯罪     13
惊悚     11
科幻      8
战争      8
悬疑      6
传记      6
历史      5
古装      4
纪录片     3
音乐      2
歌舞      2
武侠      2
灾难      1
恐怖      1
西部      1
dtype: int64


In [87]:
index4 = list(sel.index)[0:15]
value4 = list(sel.values.astype(str))[0:15]
data1 = list(zip(index4,value4))

In [100]:
p1 = (
        Pie()
        .add("", [list(z) for z in zip(index4, value4)])
        .set_global_opts(
            title_opts=opts.TitleOpts(title="电影类型分布"),
            legend_opts=opts.LegendOpts(
                orient="vertical", pos_top="15%", pos_left="2%"
            ))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    )
p1.render_notebook()

#### 我们可以看到剧情，爱情，冒险，动作片是受欢迎类型的主流影片

### 电影地区分布

In [94]:
loc_data = data['location'].value_counts()
index5 = list(loc_data.index)
value5 = list(loc_data.values.astype(str))

In [96]:
p2 = (
        Pie()
        .add("", [list(z) for z in zip(index5, value5)])
        .set_global_opts(
            title_opts=opts.TitleOpts(title="电影地区分布"),
            legend_opts=opts.LegendOpts(
                orient="vertical", pos_top="15%", pos_left="2%"
            ))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    )
p2.render_notebook()

#### 我们可以看到，猫眼电影上较受欢迎的影片大多来自美国和中国，其次是日本，韩国

### 演员出现次数

In [101]:
list2 = []
for dat in data['actor']:
    for da in dat.split(','):
        list2.append(da)

In [102]:
c2 = Counter(list2)

In [122]:
sel2 = Series(c2)
sel2 = sel2.sort_values(ascending=False)
index6 = list(sel2.index)[:10]
value6 = list(sel2.values.astype(str))[:10]

In [123]:
value6

['7', '4', '4', '3', '3', '3', '3', '3', '3', '3']

In [126]:
bar3 = (
    Bar()
    .add_xaxis(index6)
    .add_yaxis('评分',value6)
    .set_global_opts(title_opts=opts.TitleOpts(title="演员出现次数"),
                     yaxis_opts=opts.AxisOpts(name="次数"),
                     xaxis_opts=opts.AxisOpts(name="演员",axislabel_opts=opts.LabelOpts(rotate=-15)))

)
bar3.render_notebook()

#### 港台男明星和好莱坞影星在国内有较大的影响