# 数据分析总览


### 数据导入与初步清洗


In [29]:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

#! 导入相关数据，并对其日期行进行单独编译
#? 2022年上海各区各行业交易笔数和金额
allTransactionData = pd.read_excel(
    "E:\\PythonProject\\Data\\6.xlsx",
    "TotalTransaction",
    parse_dates=["月份"]
    )

#? 2022年上海各区各行业商户数量
industryMerchantsData = pd.read_excel(
    "E:\\PythonProject\\Data\\7.xlsx",
    "IndustryMerchants",
    parse_dates=["月份"]
    )


### 2022 年上海各区各行业交易笔数和金额(6.xlsx)


#### 箱线图

In [7]:
fig1=px.box(
    allTransactionData,
    x="区",
    y="交易金额",
    log_y=True,
    color="行业",
    title="不同行业在不同区的交易金额箱线图",
    color_discrete_sequence=px.colors.qualitative.Light24)
fig2=px.box(
    allTransactionData,
    x="区",
    y="交易笔数",
    log_y=True,
    color="行业",
    title="不同行业在不同区的交易笔数箱线图",
    color_discrete_sequence=px.colors.qualitative.Light24)
fig1.show()
fig2.show()

#### 各区各行业三年内交易金额与交易笔数占比

In [8]:
colData = allTransactionData["区"].tolist()
col1Data = allTransactionData["行业"].tolist()
col2Data = allTransactionData["交易金额"].tolist()
col3Data = allTransactionData["交易笔数"].tolist()
fig0 = make_subplots(
    rows=2,
    cols=2,
    horizontal_spacing=0.15,
    vertical_spacing=0.1,
    specs=[
           [{'type': 'domain'},
            {'type': 'domain'}],
           [{'type': 'domain'},
            {'type': 'domain'}],
          ],
    subplot_titles=("各个区三年内交易金额占比",
                    "各个区三年交易笔数占比",
                    "各个行业三年内交易金额占比",
                    "各个行业三年交易笔数占比"))
fig0.add_trace(go.Pie(labels=colData, values=col2Data), 1, 1)
fig0.add_trace(go.Pie(labels=colData, values=col3Data), 1, 2)
fig0.add_trace(go.Pie(labels=col1Data, values=col2Data), 2, 1)
fig0.add_trace(go.Pie(labels=col1Data, values=col3Data), 2, 2)
fig0.update_traces(textinfo="label+percent")
fig0.update_layout(autosize=False, width=900, height=1300)
fig0.show()


In [9]:
figI=px.sunburst(allTransactionData,path=["行业","区"],values="交易笔数",title="各个行业各个区的交易笔数占比")
figI.update_traces(textinfo="label+percent entry")
figI.update_layout(autosize=False,height=800,width=1000)
figII=px.sunburst(allTransactionData,path=["行业","区"],values="交易金额",title="各个行业各个区的交易金额占比")
figII.update_traces(textinfo="label+percent entry")
figII.update_layout(autosize=False,height=800,width=1000)
figI.show()
figII.show()

In [10]:
def get_division(df):
    return df["交易金额"]/df["交易笔数"]
#! 不同区的交易笔数与交易金额散点图
# di = allTransactionData.copy().groupby(["月份", "区"], as_index=False).agg(np.sum)
# di.loc[:, "单笔平均金额"] = di.apply(get_division, axis=1)
# figD=px.scatter(
#     di,
#     x="交易笔数",
#     y="交易金额",
#     color="区",
#     size="单笔平均金额",
#     size_max=100,
#     log_x=True,
#     log_y=True,
#     animation_frame=di.月份.astype(str),
#     title="不同区的交易笔数与交易金额散点图",
#     color_discrete_sequence=px.colors.qualitative.Light24)
dj = allTransactionData.copy().groupby(["月份", "行业"], as_index=False).agg(np.sum)
dj.loc[:, "单笔平均金额"] = dj.apply(get_division, axis=1)
figE=px.scatter(
    dj,
    x="交易笔数",
    y="交易金额",
    color="行业",
    size="单笔平均金额",
    size_max=100,
    log_x=True,
    log_y=True,
    animation_frame=dj.月份.astype(str),
    title="不同行业的交易笔数与交易金额散点图",
    color_discrete_sequence=px.colors.qualitative.Light24)
figE.show()
# figD.show()


### 2022年上海各区各行业商户数量(7.xlsx)

In [11]:
px.bar(
    industryMerchantsData,
    x="区",
    y="商户数",
    log_y=True,
    color="行业",
    barmode="group",
    animation_frame=industryMerchantsData.月份.astype(str),
    color_discrete_sequence=px.colors.qualitative.Light24
)

In [12]:
figN1=px.sunburst(
    industryMerchantsData,
    path=["行业","区"],
    values="商户数",
    title="各个行业各个区的商户数占比",
    )
figN1.update_traces(textinfo="label+percent entry").update_layout(autosize=False,height=800,width=1000).show()

In [13]:
px.box(
    industryMerchantsData,
    x="区",
    y="商户数",
    log_y=True,
    color="行业",
    title="不同行业在不同区的商户数箱线图",
    color_discrete_sequence=px.colors.qualitative.Light24,
)

##### 保险行业随时间变化的交易金额与交易笔数

In [32]:
timeData=allTransactionData[allTransactionData["行业"]=="保险行业"]
print(timeData.head())
px.scatter(
    timeData,
    x="月份",
    y="交易笔数",
    color="区",
    size="交易金额",
    size_max=100,
    log_y=True,
    title="保险行业交易笔数金额散点图(y值代表交易笔数,圈的大小代表金额)",
    color_discrete_sequence=px.colors.qualitative.Light24)

        区    行业  交易笔数        交易金额         月份
1     嘉定区  保险行业    40   631589.57 2019-01-01
42    崇明区  保险行业    41   111149.88 2019-01-01
107  浦东新区  保险行业  1246  1596313.89 2019-01-01
136   金山区  保险行业     2     5422.95 2019-01-01
162   闵行区  保险行业    24    86140.00 2019-01-01
