本项目所有代码,均使用如下环境跑通,不一定能保证所有环境都能运行,主要目的以熟悉PySpark为主.
- 系统环境
- Ubuntu == 18.04
- Hadoop == 2.7.7
- Spark == 2.4.3
- PyCharm == 2019.3 Pro
- Python == 3.7+
- 单机伪分布式
- i7 8750H,24G,GTX1060,笔记本
- Python包版本
- Pandas == 0.25.0
- Numpy == 1.17.2
- PySpark == 2.4.0.post2
1.Kaggle IEEE-CIS Fraud Detection 完成