# 数据收集

在数据分析过程中，数据收集是至关重要的第一步。通常我们可以通过 Python 脚本收集、API 收集、数据生成这几个方法获得数据。

知识点：Python 脚本收集、API 收集、数据生成

## Python 脚本收集

脚本可以帮助我们自动化地从不同来源获取新闻、电影评论、股票、天气、商品价格和社交媒体等数据。使用Python来作为数据收集的脚本语言有多个优势，这些优势使得Python成为数据科学和数据工程领域的首选语言：

1. **易学易用**： Python 被广泛认为是一门易学易用的编程语言，因此非常适合初学者。其简洁的语法和清晰的代码结构使得编写数据收集脚本相对容易，减少了学习曲线。

2. **丰富的库和框架**： Python 拥有众多的数据科学和数据工程库，如 NumPy 、 Pandas 、 Matplotlib 、 Requests 等，这些库提供了各种数据操作、分析和可视化工具，可以大大简化数据收集和处理的任务。

3. **强大的生态系统**： Python 生态系统拥有大量的第三方库和工具，例如 Beautiful Soup 和 Scrapy 用于网页抓取、 SQLAlchemy 用于数据库连接等等。这些工具可帮助用户轻松地处理各种数据源。

4. **跨平台支持**： Python 是跨平台的编程语言，可以在 Windows 、 macOS 和 Linux 等操作系统上运行，这使得它适用于不同的开发环境。

### 准备工作

在开始之前，确保已经安装了Python，并且安装相应的两个库。可以通过 `pip install requests` 和 `pip install beautifulsoup4` 来安装

### 使用Requests库进行HTTP请求

Python的requests库是一种流行的HTTP库，它允许用户轻松发送HTTP请求并获取网页内容。以下是一些示例用法：



In [None]:
import requests

# 发送GET请求
response = requests.get("https://baidu.com")

# 获取网页内容
html_content = response.text

# 打印网页内容
print(html_content)


### 使用Beautiful Soup解析网页内容

一旦获取了网页的HTML内容，通常需要使用解析库来提取所需的信息。Beautiful Soup是一个强大的库，用于解析HTML和XML文档，并提供了简便的方法来导航和搜索文档。以下是一个示例：

In [None]:
from bs4 import BeautifulSoup

# 使用Beautiful Soup解析HTML
soup = BeautifulSoup(html_content, 'html.parser',from_encoding='utf-8')

# 查找特定标签
title = soup.title
print("标题:", title.text)

# 查找所有链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))


### 使用CSS选择器或XPath进行元素选择

在Beautiful Soup中，您可以使用CSS选择器或XPath来选择和提取特定的HTML元素。这允许您以更精确的方式定位所需的数据。以下是一些示例：

使用CSS选择器：

In [None]:
# 选择所有带有class="article"的元素
articles = soup.select('.article')


使用XPath：（这里需要安装 lxml）

In [None]:
# 使用XPath选择所有<h2>元素
# headings = soup.xpath('//h2')

from bs4 import BeautifulSoup
import lxml

# 使用Beautiful Soup解析HTML并指定解析器为lxml
soup = BeautifulSoup(html_content, 'lxml')

# 使用XPath选择所有<h2>元素
headings = soup.xpath('//h2')

# 打印选择的元素
for heading in headings:
    print(heading.text)

### 处理动态网页

某些网页使用JavaScript来动态加载数据，这可能需要使用更高级的技术。您可以考虑使用Selenium等工具来模拟浏览器行为，并获取JavaScript生成的内容。

如果需要使用Selenium，则需要在终端输入 `pip install Selenium`

In [None]:
from selenium import webdriver

# 创建一个浏览器驱动程序
driver = webdriver.Chrome()

# 打开网页
driver.get("https://example.com")

# 等待一段时间，以确保页面加载完成
driver.implicitly_wait(10)

# 获取动态加载的内容
dynamic_content = driver.page_source

# 关闭浏览器
driver.quit()


### 保存数据

可以用过Python将获得的数据存成html、CSV、JSON格式。保存至本地给其他任务使用。

#### html格式存储

- 首先发送HTTP GET请求获取网页内容，然后检查响应状态码以确保请求成功。
- 接下来，我们指定要保存的文件路径和文件名（在这里是baidu_webpage.html），并使用open函数创建文件对象。
- 然后，使用write方法将网页内容写入文件中。最后，我们在完成文件写入后关闭文件。

请确保指定的文件路径和文件名是正确的，以及有适当的文件写入权限。以下示例将网页内容保存为HTML文件：

In [None]:
import requests

# 发送HTTP GET请求获取网页内容
url = "http://baidu.com"
response = requests.get(url)

# 检查响应状态码，200表示成功
if response.status_code == 200:
    # 获取网页内容
    html_content = response.text

    # 指定要保存的文件路径和文件名
    file_path = "baidu_webpage.html"

    # 打开文件并写入网页内容
    with open(file_path, 'w', encoding='utf-8') as file:
        file.write(html_content)

    print(f"网页内容已保存到 {file_path}")
else:
    print("请求失败")


#### JSON格式存储

使用json模块来将数据写入JSON文件。json.dump函数用于将数据写入JSON文件，ensure_ascii=False参数用于处理非ASCII字符，indent参数用于指定缩进。

In [None]:
import requests
import json

# 发送HTTP GET请求获取数据
url = "https://jsonplaceholder.typicode.com/posts"
response = requests.get(url)

# 检查响应状态码，200表示成功
if response.status_code == 200:
    # 获取数据（假设数据是JSON格式）
    data = response.json()

    # 指定要保存的JSON文件路径和文件名
    json_file_path = "data.json"

    # 将数据写入JSON文件
    with open(json_file_path, 'w', encoding='utf-8') as json_file:
        json.dump(data, json_file, ensure_ascii=False, indent=4)

    print(f"数据已保存到 {json_file_path}")
else:
    print("请求失败")


#### CSV格式存储

和JSON格式存储类似，但不同的是CSV格式需要设置表头。使用csv模块来将数据写入CSV文件。根据数据的类型（列表或字典），我们使用不同的方法来写入数据。如果数据是列表，我们使用writerows方法写入多行数据。如果数据是字典，我们遍历字典中的键值对，并使用writerow方法写入每一行。请根据您的数据类型进行适当的调整。

In [None]:
import requests
import csv

# 发送HTTP GET请求获取数据
url = "https://jsonplaceholder.typicode.com/posts"
response = requests.get(url)

# 检查响应状态码，200表示成功
if response.status_code == 200:
    # 获取数据（假设数据是列表或字典）
    data = response.json()

    # 指定要保存的CSV文件路径和文件名
    csv_file_path = "data.csv"

    # 将数据写入CSV文件
    with open(csv_file_path, 'w', newline='', encoding='utf-8') as csv_file:
        csv_writer = csv.writer(csv_file)

        # 如果数据是列表，可以直接写入
        if isinstance(data, list):
            csv_writer.writerows(data)
        # 如果数据是字典，可以从字典中提取数据并写入
        elif isinstance(data, dict):
            for key, value in data.items():
                csv_writer.writerow([key, value])

    print(f"数据已保存到 {csv_file_path}")
else:
    print("请求失败")


#### 网站说明

`https://jsonplaceholder.typicode.com/posts` 是一个用于演示和测试的假数据 API（Application Programming Interface）。它是一个由 JSONPlaceholder 提供的免费的开发者工具，旨在模拟一个RESTful API，并提供一些虚构的数据，以便开发者可以在不访问真实数据的情况下测试和开发应用程序。

该 API 提供了一些常见的资源，如帖子（posts）、评论（comments）、用户（users）等，可以用于测试和学习如何与 RESTful API 进行交互。开发者可以通过发送 HTTP 请求（例如，GET、POST、PUT、DELETE）来与该 API 进行通信，并获取、创建、更新和删除虚构的数据。

这对于学习如何使用 HTTP 请求与 API 互动，以及如何处理返回的 JSON 数据非常有用。然而，请注意，这些数据都是虚构的，仅用于开发和测试目的，不包含真实的信息。如果您需要使用真实的数据，请查找适合您项目需求的实际 API。

### 网页抓取的伦理和法律问题

在进行网页抓取时，必须注意伦理和法律问题。确保遵守网站的使用政策，不要过度频繁地请求网页以避免对服务器造成负担。某些网站可能会禁止自动抓取，因此请仔细检查网站的robots.txt文件并尊重其规则。



### 样例: 获取电影评论数据


In [3]:
# 样例1 但是爬不到

import requests
from bs4 import BeautifulSoup
import lxml
import csv


def get_movie_reviews(movie_id,page_limit=10):

    url_template=f'https://movie.douban.com/subject/{movie_id}/comments?start={{start}}&limit=20 sort=new_score&status=P'
    # 设置请求头，模拟浏览器访问
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }

    reviews_data=[]

    for i in range(page_limit):
        url=url_template.format(start=i*20)
        response=requests.get(url,headers=headers)
        response.encoding='utf-8'

        soup= BeautifulSoup(response.text,'lxml')

        for item in soup.find_all('div',class_='comment_item'):
            user_element=item.find('span',class_='comment-info').find('a')
            user=user_element.text.strip()

            rating_element=item.find_all('div',class_='rating')
            rating=rating_element['title'] if rating_element else ''

            comment_element= item.find('span',class_='short')
            comment=comment_element.text.strip()

            reviews_data.append({
                'user':user,
                'rating':rating,
                'comment':comment,
            })
        
    return reviews_data

def save_to_csv(reviews_data,filename):
    with open(filename,'w',newline='',encoding='utf-8') as csvfile:
        fieldnames=['user','rating','comment']
        writer=csv.DictWriter(csvfile,fieldnames=fieldnames)
        writer.writeheader()
        for row in reviews_data:
            writer.writerow(row)

movie_id='1292722' # 泰坦尼克号的电影ID
reviews_data = get_movie_reviews(movie_id)
save_to_csv(reviews_data,'titanic_reviews.csv')
print('数据已成功抓取并保存为CSV文件: titanic_reviews.csv')


数据已成功抓取并保存为CSV文件: titanic_reviews.csv


In [2]:
# 样例2 成功爬取

import requests
from bs4 import BeautifulSoup
import csv

# 设置豆瓣电影页面的URL

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
url = 'https://movie.douban.com/subject/1292722/reviews'

# 发送HTTP请求获取页面内容
response=requests.get(url,headers=headers)
if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
else:
    print("无法访问网页")
    exit()

data = []

# 查找评论元素
reviews = soup.find_all('div', class_='review-item')

# 遍历评论元素并提取信息
for review in reviews:
    reviewer = review.find('a', class_='name').text.strip()
    rating = review.find('span', class_='main-title-rating')
    if rating:
        rating = rating.text.strip()
    else:
        rating = '未评分'
    content = review.find('div', class_='short-content').text.strip()

    # 将提取的信息添加到数据列表中
    data.append([reviewer, rating, content])

# 将数据保存到CSV文件
with open('titanic_reviews.csv', 'w', newline='', encoding='utf-8') as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(['评论者', '评分', '评论内容'])  # 写入CSV文件头
    csv_writer.writerows(data)  # 写入数据行

print("数据已成功抓取并保存为CSV文件：titanic_reviews.csv")

数据已成功抓取并保存为CSV文件：titanic_reviews.csv


### 练习

抓取新浪网最近一天的新闻数据，包括新闻主题、时间、摘要。抓取对应信息后，将信息存放在CSV文件中。

新浪网的地址是 https://news.sina.com.cn/world