## 探索性分析

In [1]:
import csv
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
from matplotlib import font_manager
from collections import Counter
from pyecharts.charts import Line, Bar, Pie
from pyecharts import options as opts 
%matplotlib inline

In [2]:
# 解决matplotlib 无法显示中文的问题
my_font = font_manager.FontProperties(fname='/System/Library/Fonts/PingFang.ttc',size=18)

In [3]:
data = pd.read_csv('data.csv')

### 电影评分与时长的统计

In [4]:
data.head(5)

Unnamed: 0,title,actor,releasetime,stars,style,location,film_duration(minutes),release-year,release-month
0,霸王别姬,"张国荣,张丰毅,巩俐",1993-01-01,9.5,"爱情,剧情",中国,171,1993,1
1,肖申克的救赎,"蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿",1994-09-10,9.5,"犯罪,剧情",美国,142,1994,9
2,罗马假日,"格利高里·派克,奥黛丽·赫本,埃迪·艾伯特",1953-09-02,9.1,"喜剧,剧情,爱情",美国,118,1953,9
3,这个杀手不太冷,"让·雷诺,加里·奥德曼,娜塔莉·波特曼",1994-09-14,9.5,"剧情,惊悚,犯罪",法国,110,1994,9
4,泰坦尼克号,"莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩",1998-04-03,9.5,"历史,爱情,灾难",美国,194,1998,4


In [5]:
data[['stars','film_duration(minutes)']].mean()

stars                       9.029
film_duration(minutes)    128.750
dtype: float64

#### 我们可以看到，100部电影，平均评分9.03，平均时长129分钟。

In [6]:
index1 = data['stars'].value_counts().sort_index().index.tolist()
value1 = data['stars'].value_counts().sort_index().values.tolist()

In [7]:
bar1 = (
    Bar()
    .add_xaxis(index1)
    .add_yaxis('评分',value1)
    .set_global_opts(title_opts=opts.TitleOpts(title="电影评分分布"),
                     yaxis_opts=opts.AxisOpts(name="数量"),
                     xaxis_opts=opts.AxisOpts(name="评分"))

)
bar1.render_notebook()

#### 我们可以看到受欢迎的电影评分大致分布在8.8-9.1之间

### 电影年份趋势

In [52]:
index2 = data['release-year'].value_counts().sort_index().index.astype(str).tolist()
value2 = data['release-year'].value_counts().sort_index().values.tolist()

In [54]:
l1 = Line()
l1.add_xaxis(index2)
l1.add_yaxis("数量",value2)
l1.set_global_opts(title_opts=opts.TitleOpts(title="电影年份趋势"))

l1.render_notebook()

#### 我们可以看到比较受欢迎的电影大多分布在近20年内

### 电影月份趋势

In [None]:
index3 = data['release-month'].value_counts().sort_index().index.tolist()
value3 = data['release-month'].value_counts().sort_index().values.tolist()

In [None]:
b2 = Bar('电影月份分布')
b2.add('',index3,value3,is_label_show=True,xaxis_name='月',yaxis_name='数量')
b2.render(r'outputs/月份.html')

In [None]:
plt.figure(figsize=(20,8),dpi=80)

# 绘制条形图
rects = plt.bar(index3,[i for i in value3],width=0.5,color= 'red')

plt.xticks(index3)
plt.yticks(range(0,16,2))

# 在条形图上加标注(水平居中)
for rect in rects:
    height = rect.get_height()
    plt.text(rect.get_x() + rect.get_width() / 2, height+0.1, str(height),ha="center")
    # x的起始坐标 + 1/2的宽度 得到柱子中点的坐标； y的高度随便加一个小数 增高一下避免重叠

    
plt.xlabel('月份',fontproperties=my_font,size=20)
plt.ylabel('数量',fontproperties=my_font,size=20)
plt.title('电影月份趋势',fontproperties=my_font,size=25)

plt.show()

#### 我们可以看到后六个月的数量比前六个月明显增多。

### 电影类型分布

In [None]:
list1 = []
for dat in data['style']:
    for da in dat.split(','):
        list1.append(da)
len(list1)

In [None]:
c = Counter(list1)

In [None]:
sel = Series(c)
sel = sel.sort_values(ascending=False)
print(sel)

In [None]:
index4 = list(sel.index)[0:15]
value4 = list(sel.values)[0:15]
a = zip(index4,value4)
a

In [None]:
dict1={}
for i in zip(index4,value4):
    dict1[i[0]]=i[1]

In [None]:
dict1

In [None]:
p1 = Pie('电影类型分布', title_pos='center')
p1.add('',index4,value4,center=[50,60],is_label_show=True,is_legend_show=False)
p1.render(r'outputs/电影类型分布.html')

In [None]:
plt.figure(figsize=(20,8),dpi=80)

# 绘制条形图
rects = plt.bar(index3,[i for i in value3],width=0.3,color= 'blue')

plt.xticks(index3,fontproperties=my_font,rotation=45)
plt.yticks(range(0,9,2))

# 在条形图上加标注(水平居中)
for rect in rects:
    height = rect.get_height()
    plt.text(rect.get_x() + rect.get_width() / 2, height+0.1, str(height),ha="center")
    # x的起始坐标 + 1/2的宽度 得到柱子中点的坐标； y的高度随便加一个小数 增高一下避免重叠

    
plt.xlabel('演员',fontproperties=my_font,size=20)
plt.ylabel('数量',fontproperties=my_font,size=20)
plt.title('演员出现次数',fontproperties=my_font,size=25)

plt.show()

In [None]:
fig = plt.figure(figsize=(15, 12.5), dpi=80)


label_list = index4    # 各部分标签
size = value4    # 各部分大小

"""
绘制饼图
explode：设置各部分突出
label:设置各部分标签
labeldistance:设置标签文本距圆心位置，1.1表示1.1倍半径
autopct：设置圆里面文本  "%1.1f%%",   .1f小数点后取1位 浮点型  %% 最后再加上一个百分号 
shadow：设置是否有阴影
startangle：起始角度，默认从0开始逆时针转
pctdistance：设置圆内文本距圆心距离
返回值
l_text：圆内部文本，matplotlib.text.Text object
p_text：圆外部文本
"""

# 返回的是一个元组
patches, l_text, p_text = plt.pie(size,  
                                  labels=label_list, 
                                  labeldistance=1.1, 
                                  autopct="%1.1f%%",  
                                  shadow=False, 
                                  startangle=0,
                                  pctdistance=0.85)

for t in l_text: 
    t.set_fontproperties(my_font)
    t.set_size(16)
    
for t in p_text: 
    t.set_size(16)
    
for t in patches: 
    t.set_color('pink')
    #print(dir(t)) # 查看内部参数 和函数
    break
    # 利用循环 只改第一部分的颜色

plt.title('电影类型分布',fontproperties=my_font,size=20)

plt.show()

#### 我们可以看到剧情，爱情，冒险，动作片是受欢迎类型的主流影片

### 电影地区分布

In [None]:
loc_data = data['location'].value_counts()
index5 = list(loc_data.index)
value5 = list(loc_data.values)

In [None]:
p2 = Pie('电影地区分布',title_pos='center')
p2.add('',index5,value5,center=[50,60],is_label_show=True,is_legend_show=False)
p2.render(r'outputs/电影地区分布.html')

#### 我们可以看到，猫眼电影上较受欢迎的影片大多来自美国和中国，其次是日本，韩国

### 演员出现次数

In [None]:
list2 = []
for dat in data['actor']:
    for da in dat.split(','):
        list2.append(da)

In [None]:
c2 = Counter(list2)

In [None]:
sel2 = Series(c2)
sel2 = sel2.sort_values(ascending=False)
index6 = list(sel2.index)[:10]
value6 = list(sel2.values)[:10]

In [None]:
b3 = Bar('演员出现次数')
b3.add("演员",index6,value6,is_label_show=True,xaxis_name='演员',yaxis_name='次数',xaxis_interval=0, xaxis_rotate=30, yaxis_rotate=30)
b3.render(r'outputs/演员.html')

#### 港台男明星和好莱坞影星在国内有较大的影响