- 邮箱:723395286@qq.com
- wechat:brownbearXiang
- 周湘/女/1991
- 技术博客:https://github.com/bigdataXiang
- 期望职位:数据挖掘及大数据分析师
- 期望城市:北京
- 对数据有着敏锐的直觉,能够利用编程工具搜集数据,快速定位问题
- 有千万级数据的获取,清洗与分析经验
- 扎实的java编程水平
- 乐观自信,敢于挑战自己,爱生活,积极向上
- gpa:3.3,年级排名15%
- 大一至大三获得学校三等奖学金
- 英语:cet6
- 课程:高等数学,线性代数,概率统计,地理信息系统,城市规划,土地资源管理
- 课程:应用概率论,数值计算方法,地理信息系统高级算法,地理信息系统,城市经济与城市空间结构,GIS空间分析方法,面向对象程序设计——C++
毕业论文 房地产时空大数据分析系统 |2015年9月至今|独自完成
- 基于java爬虫htmlunit\jsoup,爬取房天下、我爱我家、安居客、链家等主要商业门户网站的新房、二手房、租房和求租信息以及北京地区的房管机构的政务公开网站的房屋交易信息,形成持续的,较全面的房地产泛在网络数据获取能力。
- 截至目前已获得700w条房源数据,并通过地理编码技术将房屋信息时空化,形成具有统一空间基准的长时间多要素的房地产序列栅格化数据库(MongoDB)。
- 构建房产价格标准衡量模型,解决价格、地段、朝向、楼层、户型、装饰等多要素的房产价格标准化处理方法。
- 基于高斯平面坐标系和房源经纬度坐标,运用Leaflet以及chartjs等可视化html组件,开发基于网格的北京房价可视化平台,实现每个地理网格的房价时序曲线可视化
- 泛在房地产时空区划分析方法研究(正在研究)
- 泛在房地产市场的动力过程研究(正在研究)
- 基于java/python爬虫,获取泛在网络的企业黄页数据
- 利用基于规则地名的地理编码技术和基于文本时空融合技术对企业数据空间化
- 利用空间聚类方法,挖掘全国产业分布区划(正在研究)
- 运用LDA模型,提取全国产业标签(正在研究)
- 基于java/python爬虫,获取泛在网络的全国高校、医院等网站以及百度百科的简历数据(千万级)
- 对数据做结构化的清理,并利用空间化技术对简历数据进行时空化处理,并建立人口时空数据库
- 利用pageRank算法,挖掘出基于行政区划单元(县)的人口流程特征
- 利用Gephi挖掘出人口流动的聚集特征
- 利用大规模曲线自动分类方法挖掘每个县的人口流动曲线特征并对其进行分类
- 研究人口流动的区域性特征和区域内部流动特点(正在研究中)
- 人口流动与距离等因素的相关性研究(正在研究中)
- 负责全国重点行业企业的数据的获取与空间化工作
- 利用多时相红外与高分遥感数据与历史土壤污染数据挖掘全国土壤污染源,确定全国土壤污染边界
- 基于mysql建立全国土壤污染源详查数据库
- sql查询和统计全国土壤污染源
以下均为我熟悉的知识范围
- 数据分析:聚类分析、决策树(学习中)、神经网络(学习中)
- 机器学习:RNN分类(学习中)
- 数据建模:回归模型
- 地图学:地图学/gis
以下均为我熟练使用的技能
- 网络爬虫:java/htmlunit/http协议/chromedebug,python
- 地图学:arcgis制图
- 计算机技能:linux/shell
- 编程技能:java(熟练)java数据结构与算法/idea/maven/git/github
- python R语言(正在学习中)
- 数据库:mongodb/mysql
- 常规分析:sql
- 大数据分析:hadoop hive/spark(学习中)
- 文本挖掘:lucene全文检索(学习中)
- 数据可视化:简单的html5及bootstrap,d3,chartjs报表,leaflet
感谢您花时间阅读我的简历,期待能有机会和您共事。