### Thinking1
当我们思考数据源的时候，都有哪些维度，如果你想要使用爬虫抓取数据，都有哪些工具？

答：我们思考数据源时可以考虑的维度有：开放数据源、爬虫抓取、传感器、日志采集；  
&emsp;&emsp;使用爬虫抓取时可以使用的工具有：八爪鱼等无需编程的可视化工具、Python工具（requests+BeautifulSoup,Selenium,Scrapy,Puppeteer...)

### Thingking2
企业的数据源来自多个维度，请思考什么是企业的数据中台，你是如何理解一方数据，二方数据，三方数据？

答：数据中台：一套将数据孤岛有效连接从而使数据能够服务于某项业务的机制，包括数据采集到数据分析再到数据应用、数据价值变现。  
&emsp;&emsp;一方数据：自有渠道的数据，如：App内行为数据、CRM系统中的数据；  
&emsp;&emsp;二方数据：合作方的数据，如：媒体交互行为数据；  
&emsp;&emsp;三方数据：非合作方的其他公开数据源的数据，如：从数据供应商处购买的数据。

### Action1
不用任何数学库，如何求出sqrt(10)，并且精确到小数点后10位

In [10]:
from math import sqrt
eps = 1e-10
low = 3
high = 4
mid = low + (high - low)/2
while abs(mid**2 - 10) > eps:
    if mid**2 < 10:
        low = mid
    else:
        high = mid
    mid = low + (high - low)/2
print(mid)
print(sqrt(10))

3.162277660157997
3.1622776601683795


### Action2
汽车投诉信息采集：
数据源：http://www.12365auto.com/zlts/0-0-0-0-0-0_0-0-1.shtml
投诉编号，投诉品牌，投诉车系，投诉车型，问题简述，典型问题，投诉时间，投诉状态
可以采用Python爬虫，或者第三方可视化工具

In [5]:
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import pandas as pd

# 生成随机的UserAgent
ua = UserAgent()
ua_random = ua.random


# 根据指定的url得到BS对象
def get_page_content(url):
    header = {'user-agent':ua_random}
    html = requests.get(url, headers=header, timeout=10)
    content = html.text
    soup = BeautifulSoup(content, 'html.parser')
    return soup

# 通过BS对象来提取当前是页面的内容
def analysis(bs):
    # 锁定整张表格
    temp = bs.find('div',{'class':'tslb_b'})
    df = pd.DataFrame()
    # 找到每一条信息
    tr_list = temp.find_all('tr')
    # 提取信息中所需字段：投诉编号，投诉品牌，投诉车系，投诉车型，问题简述，典型问题，投诉时间，投诉状态
    for tr in tr_list:
        temp = {}
        td_list = tr.find_all('td')
        if len(td_list) != 0:
            text_list = [td.text for td in td_list]
            temp['id'], temp['brand'], temp['car_series'], temp['car_model'], \
            temp['problem_description'], temp['problem'], temp['datetime'], temp['status'] = text_list
            df = df.append(temp, ignore_index=True)
    return df

# 提取前5页数据
pages = 5
base_url = 'http://www.12365auto.com/zlts/0-0-0-0-0-0_0-0-'
df = pd.DataFrame()
for i in range(pages):
    url = base_url + str(i+1) + '.shtml'
    bs = get_page_content(url)
    temp = analysis(bs)
    df = df.append(temp, ignore_index=True) 
print(df)
df.to_csv('car_complaints.csv', index=False)

      brand                      car_model car_series    datetime      id  \
0     一汽-大众            2017款 230TSI 自动 舒适型         速腾  2020-08-23  512988   
1      东风本田  2019款 240TURBO CVT 两驱 风尚版 国VI     本田CR-V  2020-08-23  512986   
2      北京奔驰                  2016款 200 运动版       奔驰C级  2020-08-23  512985   
3    上汽通用五菱     2019款 1.5T CVT 智能驾控豪华版 国VI    新宝骏RS-5  2020-08-23  512982   
4      广汽本田            2014款 1.5L 手动 LX舒适型         飞度  2020-08-23  512979   
..      ...                            ...        ...         ...     ...   
145    广汽本田       2020款 锐·混动 2.0L 两驱 锐·幻夜版         皓影  2020-08-22  512512   
146    雷克萨斯           2016款 300h E-CVT 豪华版     雷克萨斯GS  2020-08-22  512511   
147   长安马自达   2019款 2.0L 自动 两驱 智享型 云控版 国VI    马自达CX-5  2020-08-22  512509   
148   一汽-大众       2019款 200TSI DSG 舒适型 国VI         速腾  2020-08-22  512503   
149    奇瑞汽车        2019款 1.5T 自动 尊享型 6座 国V      捷途X90  2020-08-22  512502   

                     problem     problem_description status  
0    D156,D29

In [1]:
# 查看当前工作目录
import os
os.getcwd()

'C:\\Users\\80566\\BI\\week1'