1.Udacity数据分析(入门) -->2018.04 已完成(证书)
- Python入门 ; pandas ; SQL ; 数据分析入门 ; 数据可视化 ;统计学基础
2.Udacity数据分析(进阶) -->2018.07 已完成(证书)
- 数据挖掘 ; 数据评估及清洗;R语言;Tableau可视化
3.Udacity数据科学家 -->2019.09 已完成(证书)
- 有监督学习;深度学习;无监督学习;软件工程;数据工程;统计实验设计;推荐系统;Spark及云服务
技能:Spark、有监督学习
描述:利用AWS与Spark对12GB的Sparkify用户数据进行清洗、特征构造及建模,预测用户是否会取消会员订阅,最终取得了0.7045的F1-score。
项目开源链接:Github
技能:推荐系统、有监督学习
描述:利用Knowledge Based,Collaborative Filtering Based ,Content Based以及机器学习的方法对音乐软件Sparkify构造新老用户的推荐系统。
项目开源链接:Github
技能:实验设计、有监督学习
描述:利用A/B-test及有监督学习模型优化Starbucks营销的增量回应率(IRR)与净营收增量(NIR),IRR由0.0077提升至0.0228,NIR由-759.95提升至298.10;
项目开源链接:Github
技能:无监督学习、特征工程
描述:利用Bertelsmann提供的德国人口普查数据与Arvato提供的客户数据,使用无监督学习方法去做市场细分,筛选潜在客户,并进行精准营销。
项目开源链接:Github
技能:深度学习、Pytorch
描述:利用深度学习算法CNN构建花卉图像分类器,并部署成命令行应用。我在本项目中,利用Pytorch对数据进行加载和预处理,并利用多种CNN算法训练图像分类器,最终达到了80%以上的准确率。
项目开源链接:Github
技能:有监督学习、scikit-learn
描述:依据人口普查数据,挖掘更有可能像慈善机构捐款的人物特征。我在本项目中对慈善机构CharityML 提供的数据进行清洗、特征选择与构造,对比利用多种有监督学习方法,并择优调优,最终实现了正确率0.8707,F1-score 0.8683的结果。
项目开源链接:Github
技能:数据分析、可视化、pandas、matplotlib、seaborn
描述: 通过不同的方式收集推特用户 @dog_rates 的档案,对收集的数据进行清洗,完成分析及可视化!其中数据清洗部分是难点。
链接:Github
技能:数据分析、可视化
描述:此项中使用了两个数据集,一个来自联邦调查局 (FBI) 的全国即时犯罪背景调查系统 (NICS),另一个数据集收纳了美国的人口普查的州级数据 (U.S. census data),对两个数据集进行探索性数据分析,进行可视化,得出结论。
链接:GitHub
技能:统计学、statsmodels
描述:利用某电子商务网站运行的 A/B 测试的数据,利用统计学知识来帮助公司弄清楚他们是否应该使用新的页面,保留旧的页面,或者应该将测试时间延长,之后再做出决定。
链接:Github
技能:R语言数据分析
描述:在p2p企业中,用户还款逾期会对公司的资金链产生冲击,欠款金额越高,逾期时间越久,冲击就会越大,为了减少这种冲击,我们应该尽可能的降低逾期事件的概率。 所以在此项目中,我们的目标是通过对现有数据的分析及可视化,并引入了新变量逾期比
指出具有哪些特征的标容易逾期。
链接:Github
技能:Excel、SQL
描述:使用SQL从数据库中提取数据,并在Excel中完成数据处理和可视化,得出结论。
链接:Github
技能:Tableau
描述:使用Tableau创建一个数据分析故事,并做分享。
链接:Github