Skip to content

考虑到工作开始慢慢接触spark生态,学习下Spark,PySpark功能,尝试使用PySpark,将Kaggle,DataCastle,TianChi,JData,Kesci,ppd,AiChallenger上面一些高质量比赛的参赛者分享的基于Pandas和Ligthtgbm的top方案,用PySpark和LightGBM on Apache Spark来进行复现,一方面熟悉相关包的功能和接口,一方面也了解top选手的一些数据挖掘、分析的思路和套路,trick等等,工作以后能刷比赛的时间实在太少了,如果有自己参加比赛成绩较好的,也会尝试复现。包含:IEEE-CIS Fraud Detection

Notifications You must be signed in to change notification settings

AiIsBetter/PySpark_Kaggle_DataCastle_TianChi_JData_Kesci_ppd_AiChallenger

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 

Repository files navigation

说明

Python Versions image image image image image

本项目所有代码,均使用如下环境跑通,不一定能保证所有环境都能运行,主要目的以熟悉PySpark为主.

运行环境如下:

  • 系统环境
    • Ubuntu == 18.04
    • Hadoop == 2.7.7
    • Spark == 2.4.3
    • PyCharm == 2019.3 Pro
    • Python == 3.7+
    • 单机伪分布式
    • i7 8750H,24G,GTX1060,笔记本
  • Python包版本
    • Pandas == 0.25.0
    • Numpy == 1.17.2
    • PySpark == 2.4.0.post2

进度

1.Kaggle IEEE-CIS Fraud Detection 完成

About

考虑到工作开始慢慢接触spark生态,学习下Spark,PySpark功能,尝试使用PySpark,将Kaggle,DataCastle,TianChi,JData,Kesci,ppd,AiChallenger上面一些高质量比赛的参赛者分享的基于Pandas和Ligthtgbm的top方案,用PySpark和LightGBM on Apache Spark来进行复现,一方面熟悉相关包的功能和接口,一方面也了解top选手的一些数据挖掘、分析的思路和套路,trick等等,工作以后能刷比赛的时间实在太少了,如果有自己参加比赛成绩较好的,也会尝试复现。包含:IEEE-CIS Fraud Detection

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages