## 数据科学简介与应用

> + 数据科学：以统计学习、机器学习、数据可视化以及（某一）领域知识为理论基础，其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理。
> + [百度百科](https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E5%AD%A6%E5%92%8C%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6)介绍




### 数据科学所具备的能力

+ 统计(Statistic)
    + 单变量分析、多变量分析、变异数分析
+ 数据处理(Data Munging)
    + 抓取数据、清理数据、转换数据
+ 数据可视化(Data Visualization)
    + 图标、商业智能系统
    
### 数据科学主要的步骤
+ 按照职能进行划分的话，**前三步主要是是数据工程师，后两步主要是是数据科学家**
    + 收集资料
    + 储存资料
    + 资料的处理、清理和转换
    + 建立模型
    + 通过模型得到的结果，进行数据的预测、推荐以及视觉化

## Python与数据科学
### 查看官网，了解[Python](https://wiki.python.org/moin/BeginnersGuideChinese)

+ 优势：
    + 简单易用，唯一的超级语言
    + 第三方模块丰富，拿来即用
        + 大数据处理：Pyspark, and so on
        + 统计科学：Numpy, Scipy, statsmodels, and so on
        + 结构化数据分析：Pandas, and so on
        + 机器学习：Scikit-learn, and so on
        + 深度学习：TensorFlow, Mxnet, and so on
        
### 安装[Anaconda](https://anaconda.org/)

+ 详见官网介绍
    + Windows下面，注意安装的时候，勾选要“添加路径到系统环境变量”
    
### 使用Jupyter Notebook（或Jupyter lab）

+ Jupyter Notebook的使用
+ md的相关语法，参加[果冻虾仁的github](https://github.com/guodongxiaren/README)

### Python3 语法知识

+ [Python基础语法复习](https://www.jianshu.com/p/9af39a293cdf)
+ 参加《Python程序语言设计》董老师的课程，本仓库亦有[学习笔记](./Python程序语言设计_董老师.ipynb)
+ Python程序语言设计，北理，黄天羽老师在中国慕课网上的课程，学习笔记
+ Python数据分析，南京大学，慕课网学习笔记

### 数据科学实战——使用Python计算文章中的字

In [12]:
test_text = 'Next, install the Python interpreter on your computer. This is the program that reads Python programs and carries out their instructions; you need it before you can do any Python programming. Mac OSX distributions from 10.3 (Panther) and up include a version of Python, which may be suitable for beginning despite being as much as two years out of date. Linux distributions also frequently include Python, which is readily upgraded.'

In [18]:
speech = test_text.split()
# 大小写敏感
# speech = test_text.lower.split()

In [14]:
len(speech)

70

In [20]:
print(type(dict.items()), type(dict))

<class 'dict_items'> <class 'dict'>


In [16]:
# 对文中的word进行计数
dict = {}
for world in speech:
    dict[world] = dict.get(world,0) + 1
dict

{'(Panther)': 1,
 '10.3': 1,
 'Linux': 1,
 'Mac': 1,
 'Next,': 1,
 'OSX': 1,
 'Python': 3,
 'Python,': 2,
 'This': 1,
 'a': 1,
 'also': 1,
 'and': 2,
 'any': 1,
 'as': 2,
 'be': 1,
 'before': 1,
 'beginning': 1,
 'being': 1,
 'can': 1,
 'carries': 1,
 'computer.': 1,
 'date.': 1,
 'despite': 1,
 'distributions': 2,
 'do': 1,
 'for': 1,
 'frequently': 1,
 'from': 1,
 'include': 2,
 'install': 1,
 'instructions;': 1,
 'interpreter': 1,
 'is': 2,
 'it': 1,
 'may': 1,
 'much': 1,
 'need': 1,
 'of': 2,
 'on': 1,
 'out': 2,
 'program': 1,
 'programming.': 1,
 'programs': 1,
 'readily': 1,
 'reads': 1,
 'suitable': 1,
 'that': 1,
 'the': 2,
 'their': 1,
 'two': 1,
 'up': 1,
 'upgraded.': 1,
 'version': 1,
 'which': 2,
 'years': 1,
 'you': 2,
 'your': 1}

In [25]:
# 使用lambda，按照value降序
sorted(dict.items(), key = lambda x:x[1], reverse = True)

[('Python', 3),
 ('the', 2),
 ('is', 2),
 ('and', 2),
 ('out', 2),
 ('you', 2),
 ('distributions', 2),
 ('include', 2),
 ('of', 2),
 ('Python,', 2),
 ('which', 2),
 ('as', 2),
 ('Next,', 1),
 ('install', 1),
 ('interpreter', 1),
 ('on', 1),
 ('your', 1),
 ('computer.', 1),
 ('This', 1),
 ('program', 1),
 ('that', 1),
 ('reads', 1),
 ('programs', 1),
 ('carries', 1),
 ('their', 1),
 ('instructions;', 1),
 ('need', 1),
 ('it', 1),
 ('before', 1),
 ('can', 1),
 ('do', 1),
 ('any', 1),
 ('programming.', 1),
 ('Mac', 1),
 ('OSX', 1),
 ('from', 1),
 ('10.3', 1),
 ('(Panther)', 1),
 ('up', 1),
 ('a', 1),
 ('version', 1),
 ('may', 1),
 ('be', 1),
 ('suitable', 1),
 ('for', 1),
 ('beginning', 1),
 ('despite', 1),
 ('being', 1),
 ('much', 1),
 ('two', 1),
 ('years', 1),
 ('date.', 1),
 ('Linux', 1),
 ('also', 1),
 ('frequently', 1),
 ('readily', 1),
 ('upgraded.', 1)]

In [None]:
# 使用lambda，按照key升序
sorted(dict.items(), key = lambda x:x[0])

In [38]:
# 使用operator，按照value降序
import operator
swd = sorted(dict.items(), key=operator.itemgetter(1), reverse=True)

In [None]:
# import nltk
# nltk.download()
from nltk.corpus import stopwords

In [39]:
# 去除停用词
stop_worlds = stopwords.words("english")
for k,v in swd:
    if k not in stop_worlds:
        print(k,v)

LookupError: 
**********************************************************************
  Resource 'corpora/stopwords' not found.  Please use the NLTK
  Downloader to obtain the resource:  >>> nltk.download()
  Searched in:
    - 'C:\\Users\\17870/nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - 'D:\\programes\\Anaconda\\nltk_data'
    - 'D:\\programes\\Anaconda\\lib\\nltk_data'
    - 'C:\\Users\\17870\\AppData\\Roaming\\nltk_data'
**********************************************************************

In [41]:
# 使用collections里面的Counter
from collections import Counter
c = Counter(speech)

In [42]:
type(c)

collections.Counter

In [43]:
c.most_common(10)

[('Python', 3),
 ('the', 2),
 ('is', 2),
 ('and', 2),
 ('out', 2),
 ('you', 2),
 ('distributions', 2),
 ('include', 2),
 ('of', 2),
 ('Python,', 2)]

In [None]:
for sw in stop_words:
    del c[sw]
    
c.most_common(10)

In [44]:
d = Counter('dkaljerlqorelj;af')
d

Counter({';': 1,
         'a': 2,
         'd': 1,
         'e': 2,
         'f': 1,
         'j': 2,
         'k': 1,
         'l': 3,
         'o': 1,
         'q': 1,
         'r': 2})

In [45]:
d.most_common(3)

[('l', 3), ('a', 2), ('j', 2)]

## 数据基础

### 数据型态

+ 定性数据（Qualitative）：一组表示事物性质、规定事物类别的文字表属性数据，不能将其量化，只能将其定性
+ 定量数据（Quantitative）：可以被计数或测量
    + 离散（Discrete）
        + 数值只能用自然数或整数单位计算，如企业的人数
    + 连续（Continuous）
        + 一定区间内可以任意取值的数据，通常是连续不断的，如人的身高
+ 关系
    + 统一，相互补充：定性是定量的基本前提，定量使定性更加科学、准确和深入
    + 定性是定量的依据，定量是定性的具体化
    + 定性是根据直觉、经验等，对对象的性质、特点和发展变化规律做出判断；定量是依据统计数据，建立数学模型来进行分析
    + 一般都通过**比较对照**来分析和说明问题。环比、同比，销量、优劣、效率、小号、发展速度等
+ 个人理解
    + 定性提供的信息，比较宽泛，更偏向于有无多少；定量提供的数据更加精准；各有不同的适用范围。

### 结构化|半结构化|非结构化
#### 结构化数据
> 结构化数据，又叫行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理

+ 每个记录都有固定的字段、固定的格式，方便程序进行后续的取用和分析
+ 常见的关系型数据库的数据
+ 主要查询使用SQL

#### 半结构化数据

+ 介于结构化和非结构化数据之间
+ 数据具有字段，可以依据字段来查找，使用方便，但每个记录的字段可能不一致
+ 常见的有XML、JSON等
+ NoSQL数据库的数据，MongoDB等

#### 非结构化数据

+ 没有固定的格式，必须整理以后才能存取
+ 没有格式的文字、网页数据等
+ 需要使用ETL工具进行数据的抽取、转换和存储

### Python的IO和档案管理
#### 文件操作
```python
# 打开文件
f = open(file_name [, access_mode][, buffering])
# 写入文件
f.write('hello world')
# 关闭文件
f.close()

# with
with open('test.md','r') as fp:
    print(fp.read())

```

## 数据处理和收集

> 数据收集完成数据的初始积累

### 处理不同格式的数据
#### 处理CSV数据

In [60]:
with open('./Excel_to_Python.csv', 'r+', encoding='utf-8') as fp:
#     print(fp.read()) # 返回的是str
#     print(fp.readline()) # 返回的是str

#     print(fp.readlines()) #返回的是列表

    for line in fp.readlines():
        print(line)

date,city,category-size,age,price,gender,m-point,pay,group,sign,category,size

2013-01-02,beijing,100-A,23,1200.0,male,10,y,low,,100,A

2013-01-03,shanghai,100-B,44,3299.5,female,11,n,high,,100,B

2013-01-04,guangzhou,120-A,54,2133.0,male,11,y,low,,120,A

2013-01-05,shenzhen,110-C,32,5433.0,female,123,n,high,,110,C

2013-01-06,shanghai,210-A,34,3299.5,male,42,y,high,,210,A

2013-01-07,beijing,130-F,32,4432.0,female,213,y,high,1.0,130,F



In [64]:
# 使用read_csv读取csv数据，read_json, read_excel
import pandas
df = pandas.read_csv('./Excel_to_Python.csv')
df

Unnamed: 0,date,city,category-size,age,price,gender,m-point,pay,group,sign,category,size
0,2013-01-02,beijing,100-A,23,1200.0,male,10,y,low,,100,A
1,2013-01-03,shanghai,100-B,44,3299.5,female,11,n,high,,100,B
2,2013-01-04,guangzhou,120-A,54,2133.0,male,11,y,low,,120,A
3,2013-01-05,shenzhen,110-C,32,5433.0,female,123,n,high,,110,C
4,2013-01-06,shanghai,210-A,34,3299.5,male,42,y,high,,210,A
5,2013-01-07,beijing,130-F,32,4432.0,female,213,y,high,1.0,130,F


+ 爬取腾讯新闻

In [69]:
# 爬取腾讯新闻
import requests, pandas
from bs4 import BeautifulSoup

res = requests.get('https://news.qq.com/')
soup = BeautifulSoup(res.text, 'html.parser')
soup

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="webkit" name="renderer">
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<title>新闻中心_腾讯网</title>
<meta content="新闻 新闻中心 事实派 新闻频道,时事报道" name="keywords"/>
<meta content="腾讯新闻，事实派。新闻中心,包含有时政新闻、国内新闻、国际新闻、社会新闻、时事评论、新闻图片、新闻专题、新闻论坛、军事、历史、的专业时事报道门户网站" name="description"/>
<meta content="skeetershi" name="author">
<meta content="pc,mobile" name="applicable-device"/>
<link href="https://xw.qq.com/" media="only screen and (max-width: 640px)" rel="alternate"/>
<!--  <link rel="stylesheet" type="text/css" href="//mat1.gtimg.com/news/skeetershi/news_index/css/index.min_080409.css"> -->
<link href="//mat1.gtimg.com/news/2018css/index.min_180905.css" rel="stylesheet" type="text/css"/>
<!-- 2016.7.13 jackiejiang add house.com use-->
<script src="//mat1.gtimg.com/house/js/h5rewrite.js"></script>
<!--2014.3.20 byAustinjin-->
<!--20140225 menshen-->
<script src="//js.aq.qq.com/js/aq_common.js" type="text/javasc

In [97]:
newsary = []
for news in soup.select('.linkto'):
#     print(news.attrs['href'])
    newsary.append({'title':news.text.strip(),'url':news.attrs['href']})
print(newsary)

[{'title': '中国成功发射两颗北斗导航卫星 首次加装搜救设备', 'url': 'https://new.qq.com/omn/20180920/20180920A09A1T.html'}, {'title': '少林寺等景区门票今起降价 国庆出游能省多少钱？', 'url': 'https://new.qq.com/omn/20180920/20180920A01H2M.html'}, {'title': '俄罗斯军机抵近日本周边空域飞行 日战机紧急升空', 'url': 'https://new.qq.com/omn/20180920/20180920A01KEG.html'}, {'title': '故宫将继续扩大开放：延禧宫筹建外国文物馆', 'url': 'https://new.qq.com/omn/20180920/20180920A01H3A.html'}, {'title': '新京报评论：又现“霸座女” 处置不能总在下车后', 'url': 'https://new.qq.com/omn/20180920/20180920A04OX7.html'}, {'title': '巴西众院弹劾总统案获通过 罗塞夫政党承认落败', 'url': 'http://news.qq.com/a/20160418/023091.htm'}, {'title': '国际媒体头条速览：朝韩把球踢给了美国 华盛顿该作何反应', 'url': 'http://new.qq.com/omn/20180920/20180920A0LWL400'}, {'title': '谈退休接班人回应恶意中伤 马云在达沃斯演讲的所有要点都在这了', 'url': 'http://new.qq.com/zt/template/?id=FIN2018091700432500'}, {'title': '直击公安部统一销毁非法枪爆物 现场大量非法枪支铺满地', 'url': 'http://new.qq.com/cmsn/20180920/TWF2018092000757500'}, {'title': '江苏国安公布两起台湾间谍案 三男子这样被台湾间谍拉下水', 'url': 'http://new.qq.com/zt/template/?id=TWF2018091504114300

In [120]:
newdf = pandas.DataFrame(newsary)
newdf.to_excel('TencentNews.xlsx')
print(newsary[0])

{'title': '中国成功发射两颗北斗导航卫星 首次加装搜救设备', 'url': 'https://new.qq.com/omn/20180920/20180920A09A1T.html'}


In [89]:
newdf

Unnamed: 0,title,url
0,中国成功发射两颗北斗导航卫星 首次加装搜救设备,https://new.qq.com/omn/20180920/20180920A09A1T...
1,少林寺等景区门票今起降价 国庆出游能省多少钱？,https://new.qq.com/omn/20180920/20180920A01H2M...
2,俄罗斯军机抵近日本周边空域飞行 日战机紧急升空,https://new.qq.com/omn/20180920/20180920A01KEG...
3,故宫将继续扩大开放：延禧宫筹建外国文物馆,https://new.qq.com/omn/20180920/20180920A01H3A...
4,新京报评论：又现“霸座女” 处置不能总在下车后,https://new.qq.com/omn/20180920/20180920A04OX7...
5,巴西众院弹劾总统案获通过 罗塞夫政党承认落败,http://news.qq.com/a/20160418/023091.htm
6,国际媒体头条速览：朝韩把球踢给了美国 华盛顿该作何反应,http://new.qq.com/omn/20180920/20180920A0LWL400
7,谈退休接班人回应恶意中伤 马云在达沃斯演讲的所有要点都在这了,http://new.qq.com/zt/template/?id=FIN201809170...
8,直击公安部统一销毁非法枪爆物 现场大量非法枪支铺满地,http://new.qq.com/cmsn/20180920/TWF20180920007...
9,江苏国安公布两起台湾间谍案 三男子这样被台湾间谍拉下水,http://new.qq.com/zt/template/?id=TWF201809150...


In [106]:
# 或者
newsary_ = []
for news in soup.select('.Q-tpList .text'):
#     print(news.select('a')[0]['href'])
    newsary_.append({'Title':news.select('a')[0].text,'URL':news.select('a')[0]['href']})
print(newsary_[0])

{'Title': '中国成功发射两颗北斗导航卫星 首次加装搜救设备', 'URL': 'https://new.qq.com/omn/20180920/20180920A09A1T.html'}


In [108]:
# 存储为csv
newdf_ = pandas.DataFrame(newsary_)
# newdf_
newdf_.to_csv('TencentNews.csv')

In [116]:
# 使用json存储
import json
with open('TencentNews.json','w+', encoding='utf-8') as fp:
    json.dump(newsary_, fp)

In [119]:
# 使用json读取
with open('./TencentNews.json','r', encoding='utf-8') as fp:
    print(json.load(fp))

[{'Title': '中国成功发射两颗北斗导航卫星 首次加装搜救设备', 'URL': 'https://new.qq.com/omn/20180920/20180920A09A1T.html'}, {'Title': '少林寺等景区门票今起降价 国庆出游能省多少钱？', 'URL': 'https://new.qq.com/omn/20180920/20180920A01H2M.html'}, {'Title': '俄罗斯军机抵近日本周边空域飞行 日战机紧急升空', 'URL': 'https://new.qq.com/omn/20180920/20180920A01KEG.html'}, {'Title': '故宫将继续扩大开放：延禧宫筹建外国文物馆', 'URL': 'https://new.qq.com/omn/20180920/20180920A01H3A.html'}, {'Title': '新京报评论：又现“霸座女” 处置不能总在下车后', 'URL': 'https://new.qq.com/omn/20180920/20180920A04OX7.html'}, {'Title': '巴西众院弹劾总统案获通过 罗塞夫政党承认落败', 'URL': 'http://news.qq.com/a/20160418/023091.htm'}, {'Title': '国际媒体头条速览：朝韩把球踢给了美国 华盛顿该作何反应', 'URL': 'http://new.qq.com/omn/20180920/20180920A0LWL400'}, {'Title': '谈退休接班人回应恶意中伤 马云在达沃斯演讲的所有要点都在这了', 'URL': 'http://new.qq.com/zt/template/?id=FIN2018091700432500'}, {'Title': '直击公安部统一销毁非法枪爆物 现场大量非法枪支铺满地', 'URL': 'http://new.qq.com/cmsn/20180920/TWF2018092000757500'}, {'Title': '江苏国安公布两起台湾间谍案 三男子这样被台湾间谍拉下水', 'URL': 'http://new.qq.com/zt/template/?id=TWF2018091504114300

+ 爬取房天下

In [267]:
# 导入模块
import requests
import pandas as pd
from urllib import request
from urllib import parse
from bs4 import BeautifulSoup
from fake_useragent import UserAgent

In [317]:
ua_list = UserAgent()
HEADERS = {'user-agent':ua_list.random}

def get_url(url):
    res = requests.get(url, headers = HEADERS)
    soup = BeautifulSoup(res.text, 'html.parser')
    url_tag = soup.find_all('h4', attrs = {'class':'clearfix'})[0]
    url_tail = url_tag.find_all('a')[0]['href']
    domain = urllib.parse.urlsplit(url)
    url1 = "http://"+ domain.netloc + url_tail
    print(url1)
    res1 = requests.get(url1, headers = HEADERS)
    return res1.text

def parse(text):
    soup = BeautifulSoup(text, 'html.parser')
    try:
        info = {}
        bt = soup.find_all('h1', attrs={'class':'title floatl'})[0].text.strip()
        jg = soup.select('.trl-item price_esf  sty1')
#         jg = soup.find_all('div', attrs={'class':'trl-item price_esf  sty1'})
#         dj = soup.select('.tt')
        print(jg)
#         tel_shopinfo = soup.find_all('p', attrs={'class':'tel_shop'})[0]
#         fzinfos = tel_shopinfo.text.strip().split('|')
#         fzinfo = list(map(lambda x:x.strip(), fzinfos))
#         wz = soup.select('.add_shop')[0].text.strip().split()
#         td = soup.find_all('p', attrs={'class':'clearfix label'})[0].text.strip()
#         jjr = soup.select('.people_name')[0].text.strip()
#         info['标题'] = bt
#         info['总价'] = jg[0]
#         info['单价'] = jg[1]
#         info['户型'] = fzinfo[0]
#         info['建筑面积'] = fzinfo[1]
#         info['楼层'] = fzinfo[2]
#         info['朝向'] = fzinfo[3]
#         info['建筑时间'] = fzinfo[4]
#         info['位置'] = wz[1]
#         info['小区'] = wz[0]
#         info['优势'] = td
#         info['经纪人'] = jjr
    except Exception as e:
        print(e)
    
    return info
    
def store_csv(data):
    df = pd.DataFrame(data)
    df.to_csv('house.csv')
    
def main():
    usual_head = 'http://gz.esf.fang.com/house/i3'
    houseary = []
    for i in range(1,101):
        url = usual_head + str(i)
        text = get_url(url)
        info = parse(text)
#         houseary.append(info)
#         print(houseary)
#         store_csv(houseary)
        break
if __name__ == "__main__":
    main()

http://gz.esf.fang.com/chushou/3_230856092.htm
[]
