# 使用Python函数open()导入数据

## 文本文件

In [9]:
path = 'excerpt.txt'

with open(path, 'r') as f:
    content = f.read()

print(content)

Today, robots can talk to humans using natural language, and they're getting smarter. Even so, very few people understand how these robots work or how they might use these technologies in their own orojects.

Natural language processing (NLP) - a branch of artificial intelligence that helps machines understand and respond to human language - is the key technology that lies at the heart of any digital assistant product.


open()函数的第一个参数是txt文件的路径，这里在同一个文件夹中，所以是使用先对路径就可以了；open()函数的第二个参数是权限参数，使用的是'r'，所以是只读；as f则是open()函数返回指定模式的文件对象；然后，使用file对象的read()方法读取文件的全部内容。

使用with关键字可以确保open()函数打开的文件在文件处理之后，即使引发了异常，file对象也能够正确的关闭。否则需要调用f.close()关闭文件对象并且释放所消耗的系统资源。

with open() 是 Python 中用于打开文件的一种推荐方式。其中的 with 关键字起到了确保文件在操作完成后正确关闭的作用。

具体来说，当使用 with open() 打开一个文件时，Python 会在进入代码块之前自动调用文件对象的 `__enter__()` 方法，将文件对象赋值给指定的变量（通常是 file）。然后，在代码块执行完毕后，无论是否发生异常，Python 都会自动调用文件对象的  `__exit__()` 方法来关闭文件。

这种方式的好处是：

1. 代码更加简洁和易读。不需要显式地调用 close() 方法来关闭文件。
2. 可以确保文件始终被关闭，即使在处理文件过程中发生了异常。
3. 支持上下文管理器的更多功能，例如在 with 语句中指定特定的文件模式、编码等。

In [10]:
with open(path, 'r') as f:
    for i, line in enumerate(f):
        if line.strip():
            print(f"Line {i}: ", line.strip())

Line 0:  Today, robots can talk to humans using natural language, and they're getting smarter. Even so, very few people understand how these robots work or how they might use these technologies in their own orojects.
Line 2:  Natural language processing (NLP) - a branch of artificial intelligence that helps machines understand and respond to human language - is the key technology that lies at the heart of any digital assistant product.


enumerate()函数是Python的内置函数，用于将一个可遍历的数据对象（如列表、元组或字符串）组合为一个索引序列，同时列出数据和数据下标。使用方法如下：


In [11]:
fruits = ['苹果', '香蕉', '橙子']
for index, fruit in enumerate(fruits):
    print(index, fruit)

0 苹果
1 香蕉
2 橙子


## 表格数据文件

CSV文件，全称为逗号分隔值文件（Comma-Separated Values），是一种存储表格和电子表格信息的纯文本文件格式。这种文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符常见的是逗号或者制表符。由于其可以用任何文本编辑器或专用软件打开，并且可以存储、传输和编辑数据，因此CSV文件被广泛应用在各种场景中。

你可以使用如记事本、Excel等工具来创建和编辑CSV文件。同时，如果需要处理大量的CSV数据，可以使用Python的pandas库来操作。总的来说，CSV文件因其格式简单、使用方便的特点，成为了数据交换和存储的重要方式。

In [12]:
import csv

path = 'cars.csv'

with open(path, 'r') as csv_file:
    csv_reader = csv.DictReader(csv_file)
    cars = []
    for row in csv_reader:
        cars.append(dict(row))
print(cars)

[{'Year': '1997', 'Make': 'Ford', 'Model': 'E350', 'Price': '3200.00'}, {'Year': '1999', 'Make': 'Chevy', 'Model': 'Venture', 'Price': '4800.00'}, {'Year': '1996', 'Make': 'Jeep', 'Model': 'Grand Cherokee', 'Price': '4900.00'}]


DictReader()方法将每行数据映射到字典中，然后将字典的每一个元素添加到列表中。

或者也可以使用csv模块的reader()方法将.csv文件转换为嵌套列表，其中每个内部列表代表文件的一行：

In [13]:
import csv

path = 'cars.csv'
with open(path, 'r') as csv_file:
    csv_reader = csv.reader(csv_file)
    cars = []
    for row in csv_reader:
        cars.append(row)
print(cars)

[['Year', 'Make', 'Model', 'Price'], ['1997', 'Ford', 'E350', '3200.00'], ['1999', 'Chevy', 'Venture', '4800.00'], ['1996', 'Jeep', 'Grand Cherokee', '4900.00']]


csv.DictReader()和csv.reader()都有一个可以选择的分隔符参数，用于设置表格数据文件中的分隔符。

# 将数据导出到文件

修改cars.csv文件的一行，从而修改某一辆车的价格。

In [18]:
import csv

path = 'cars.csv'

with open(path, 'r') as csv_file:
    csv_reader = csv.DictReader(csv_file)
    cars = []
    for row in csv_reader:
        cars.append(dict(row))

for row in cars:
    print(list(row.values()))

['1997', 'Ford', 'E350', '3200.00']
['1999', 'Chevy', 'Venture', '4800.00']
['1996', 'Jeep', 'Grand Cherokee', '4900.00']


假设我们需要修改第二行的Price字段，即更改Chevy Venture的价格，那么可以采用如下所示的方法：

In [22]:
to_update = ['1999', 'Chevy', 'Venture']
new_price = '4500.00'

with open(path, 'w') as csvfile:
    fieldnames = cars[0].keys()
    writer = csv.DictWriter(csvfile, fieldnames = fieldnames)
    writer.writeheader()
    for row in cars:
        if set(to_update).issubset(set(row.values())):
            row['Price'] = new_price
        writer.writerow(row)

在上述代码中，首先要一种方法来标识需要被更新的第2行，这里创建了一个名为 to_update 的列表，其中包含足够多的字段来唯一标识改行。将需要修改的字段的新值指定为new_price，接下来打开cars.csv文件，将open()函数的第二个参数设置为w，w表示覆盖文件的现有内容。

car.csv文件中的内容现在如下所示：
```txt
Year,Make,Model,Price

1997,Ford,E350,3200.00

1999,Chevy,Venture,4500.00

1996,Jeep,Grand Cherokee,49```00.00


# 访问远程文件和API

HTTP，全称为超文本传输协议，是一种客户端和服务器之间的通信规范。这种规范详细定义了请求和响应报文的格式，以及相关的控制和错误处理方式。在实际应用中，HTTP协议通常用于浏览器和Web服务器之间的通信，以发布和接收HTML页面。

HTTP请求是一种客户端向服务器发送的请求，包含了请求行、请求头和请求体三个部分。其中，请求行主要包含了请求方法、URL字段和HTTP协议版本等信息。常见的请求方法有GET、POST、HEAD、PUT、DELETE、OPTIONS等。例如，GET请求主要用于从服务器获取数据。而根据 HTTP 标准，HTTP1.1相较于HTTP1.0还新增了六种请求方法：OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。这些请求方法都实现了不同的语义，以表明要对给定资源执行的操作。

Urllib3是一个功能强大且易于使用的Python HTTP库，用于发送HTTP请求和处理HTTP响应。它提供了许多高级功能和选项，使得在Python中进行HTTP通信变得更加简单和灵活。一些主要的功能和特点包括：支持HTTP和HTTPS协议，自动管理连接池以提高性能和效率，支持连接重用和连接超时设置，支持代理和证书的配置，提供灵活的请求头和请求体定制，自动处理重定向和重试，以及支持SSL/TLS请求的处理。

Urllib3也具有优秀的线程安全性和并发性，这使其在处理大量并发请求时表现出色。此外，Urllib3还为文件上传提供了使用multipart编码的支持，并为重传请求并处理HTTP重定向提供了辅助功能。尽管名字叫做 Urllib3，但它并不是 Python自带的 urllib2 的后继版本。

如果你喜欢爬虫或者需要进行大量的网络请求操作，那么Urllib3会是一个很好的选择。要使用Urllib3库，首先需要安装。你可以使用pip命令进行安装：`pip install urllib3`。

In [25]:
import requests

r = requests.get('https://github.com/YeJiu97/python-for-data-science-a-hands-on-introduction/blob/main/excerpt.txt')
for i, line in enumerate(r.text.split('\n')):
    if line.strip():
        print('Line %i: ' %(i), line.strip())



# 将数据移入或者移除数据框

## 导入嵌套的JSON结构

现在有一个JSON文档，如下所示：

In [26]:
data = [{'Emp':'Jeff Russell',
        'POs':[{'Pono':2608,'Total':35},
              {'Pono':2617, 'Total':35},
              {'Pono':2620,'Total':139}
              ]},
       {'Emp':'Jane Boorman',
       "POs":[{'Pono':2621, 'Total':95},
             {'Pono': 2626, 'Total': 218}
             ]
       }]

使用pandas库的reader方法将JSON_normalize()将这个具有层级结构的JSON文档转换为pandas库的一个表状数据框。

In [27]:
import pandas as pd
df = pd.json_normalize(data, 'POs', 'Emp').set_index(['Emp', 'Pono'])
print(df)

                   Total
Emp          Pono       
Jeff Russell 2608     35
             2617     35
             2620    139
Jane Boorman 2621     95
             2626    218


pd.json_normalize()是Pandas库中的一个函数，用于将嵌套的JSON数据转换为扁平化的表格形式。

具体来说，pd.json_normalize()函数接受一个包含嵌套JSON数据的列表作为输入，并将其转换为一个或多个DataFrame对象。它通过递归地遍历嵌套的JSON结构，并将每个嵌套的键值对展开为新的行和列来实现这一目标。

该函数的主要参数包括：

1. records：包含嵌套JSON数据的列表。
2. meta：可选参数，用于指定元数据字段的名称。默认情况下，它将使用"metadata"作为元数据字段的名称。
3. record_path：可选参数，用于指定记录路径，即JSON中表示单个记录的路径。默认情况下，它将使用列表的第一个元素作为记录路径。
4. fields：可选参数，用于指定要展开的字段列表。默认情况下，它将展开所有字段。
5. errors：可选参数，用于指定如何处理解析错误。默认情况下，它将引发异常。

## 使用pandas-datareader库将在线数据加载到数据框中

可以使用Python的dir()函数来输出方法的列表：

In [28]:
import pandas_datareader.data as pdr
print(dir(pdr))



使用 get_data_stooq()方法来从Stooq网站获取数据。

In [30]:
import pandas_datareader as pdr

# 设置起始和结束日期
start_date = '2020-01-01'
end_date = '2020-12-31'

# 使用get_data_stooq()方法获取数据
data = pdr.get_data_stooq('AAPL', start=start_date, end=end_date)

# 打印数据
print(data)

                Open      High       Low     Close        Volume
Date                                                            
2020-12-31  132.4860  133.1340  130.1530  131.1200  1.003064e+08
2020-12-30  133.9320  134.3800  131.8180  132.1370  9.760997e+07
2020-12-29  136.4140  137.1420  132.7450  133.2640  1.225004e+08
2020-12-28  132.3960  135.7260  131.9270  135.0780  1.259806e+08
2020-12-24  129.7540  131.8780  129.5350  130.4030  5.558946e+07
...              ...       ...       ...       ...           ...
2020-01-08   72.7810   74.5626   72.7790   74.2575  1.351095e+08
2020-01-07   73.4350   73.6972   72.8607   73.0831  1.138238e+08
2020-01-06   71.9515   73.4649   71.7023   73.4250  1.210384e+08
2020-01-03   72.7790   73.6185   72.6185   72.8488  1.495753e+08
2020-01-02   72.5537   73.6225   72.2955   73.5616  1.384613e+08

[253 rows x 5 columns]
