这个项目是优达学城(Udacity)数据分析师(进阶)纳米学位的第四个项目。以使用Tableau阐释数据背后的规律为主要目的。我们选择了研究摩拜的数据,并进行了简单的数据清洗,并人工提取了大量的新关系。
摩拜单车是中国共享单车领域的两大巨头之一,于2018年4月被美团点评收购。2018年9月更新的美团招股书中,承认了摩拜的巨额亏损。我们感到意料之外和情理之中的同时,对摩拜巨额亏损的根源感到深深的好奇:摩拜究竟有没有过可持续的商业模型?为了探索这一问题,我们探索了摩拜2016年8月在上海真实运营数据中抽取的,共计10万条数据的样本,初步描绘了共享单车大战开始之前摩拜的基本运营情况,以尝试回答这一问题。我们的的可视化围绕着我们的分析框架展开,分别探索了1)需求是否刚需,2)用户使用频率如何,和3)单车的运转是否高效这三大问题。
我们深入了需求场景,分别从骑行行为和骑行时间段的角度证实了共享单车极好的满足了短途出行,和工作日通勤及周末出行的场景。我们探索了用户的交易频率,发现绝大多数用户在一个月内都会使用1次以上摩拜单车。我们还发现,摩拜在满足刚需高频两大条件下,其单车周转效率却低得令人咋舌——高达80%的单车在8月这一个月里在订单里只出现了1次。深入分析该月订单增长的增长动力之后,我们发现摩拜订单增长的动力来自于运营区域范围的扩大、单车投放数量的提升,和老用户的复购行为,而新用户的增长带来的贡献微乎其微。进一步调查之后,我们发现,单车的投入数量和新用户增长不成比例。
在采用最不保守的数据构建最最基本的单车单日收入和成本模型后,我们发现,单车单日依靠骑行产生的收入不足以覆盖当日的折旧成本。我们总结认为,摩拜的商业模式的基本矛盾在于坚持以押金的负债对应不断因折旧贬值的单车资产,而其商业模式成立的基本条件,就是这一基本矛盾能够调和。理论上,重模式的摩拜必须依靠单车的高效利用来覆盖每日固定的折旧成本,否则,因基本矛盾产生的财务漏洞无从填补;而现实中摩拜高价造车的重资产模式,搭配现实中较低的周转效率,使得依靠骑行收入覆盖折旧成本的目标永远无法实现,使得基本矛盾无可调和。为了填补资产负债表上的漏洞,摩拜依赖于资本持续不断的输血,而资本的耐心是有限的——商业模式成立的基本条件失效,折旧的黑洞最终吞噬了摩拜独立发展之路。
这个Repo包含:1)原始数据集;2)项目进行数据清洗和挖掘过程中使用的代码;3)清洗干净后的主数据集,和人工提取的,从不同维度展现数据关系的众多新数据集。不包含:1)优达最后要求提交的文档,2)最终的报告和可视化文件。
完整报告请移步:摩拜新说:算不过帐的上海首役与填不满的折旧黑洞,可视化请移步至Tableau Public(注意:注意,此页面并不符合优达最终提交要求)。
- 原始数据:
mobike_shanghai_sample_updated.csv
:原始数据集。MOBIKE 样本数据说明(data_description).pdf
:数据集字段说明。
- 清洗后用于数据分析的主数据集:
py_mobike_master.csv
py_mobike_master_new_user_status.csv
:在订单中标定下单用户/接单单车是否为当日新用户/新单车的主数据集
- 项目完整代码:
nb_master.ipynb
:主清洗和整理过程nb_Geocoding_Baidu.ipynb
:通过百度地图获取路径点地理信息的过程nb_new_user_order.ipynb
:在主数据集中标记当日新单车和新用户的订单
- 整理出的其他数据集:
- 单车:
py_bike_usage
: 每辆单车8月每天的承载单量和激活情况(首单算激活)py_bike_usage_pivot.csv
:8月的每一天,承载不同订单的单车数量py_bike_active_days_pivot.csv
:8月整月不同活跃天数的单车数量统计py_bike_order_counts_pivot.csv
:8月整月不同承载单量的单车数量统计py_bike_release_e.csv
:基于单车编号对单车投放量的估算tableau_bike_order_counts.csv
:不同单车8月整月的承载单量
- 用户:
py_user_freq.csv
:每位用户每天的订单数量和激活情况(首单算激活)py_user_freq_pivot.csv
: 8月的每一天,下不同数量订单的用户数量py_user_active_days_pivot.csv
:8月整月不同活跃天数的用户数量统计py_user_order_counts_pivot.csv
:8月整月不同下单次数的用户数量统计py_user_growth_e
:基于用户编号对用户增长量的估计tableau_user_order_counts.csv
:不同用户8月整月的订单数量tableau_user_distance_total.csv
:不同用户8月整月的骑行里程
- 逆地理编码
py_order_location_unfinished.csv
:提取的订单轨迹点起点、终点的坐标order_location_s.csv
:经逆地理编码的订单轨迹点起点、终点py_order_location_s1(-10).csv
:用于逆地理编码的子数据集py_waypoint.csv
:顺序正确的订单轨迹点坐标
- 单车: