# NumPy库

## 创建NumPy数组

NumPy数组可以由一个或者多个列表创建。

In [19]:
import numpy as np

jeff_salary = [2700, 3000, 3000]
nick_salary = [2600, 2800, 2800]
tom_salary = [2300, 2500, 2500]

base_salary = np.array([jeff_salary, nick_salary, tom_salary])

print(base_salary)

[[2700 3000 3000]
 [2600 2800 2800]
 [2300 2500 2500]]


这是一个二维数组，有两个维度，索引从0开始。轴0垂直向下穿过数组的行，而轴1水平穿过数组的列。

基于同样的方式，可以创建每个员工的每月奖金的数组：

In [20]:
jeff_bonus = [500, 400, 400]
nick_bonus = [600, 300, 400]
tom_bonus = [200, 500, 400]

bonus_salary = np.array([jeff_bonus, nick_bonus, tom_bonus])
print(bonus_salary)

[[500 400 400]
 [600 300 400]
 [200 500 400]]


NumPy支持逐点运算，如下所示：

![image.png](attachment:ef4aa9c0-7db9-4083-9078-384f57e0c77f.png)

当维度相同的时候，逐点运算非常容易实现：

In [21]:
salary_bonus = base_salary + bonus_salary

In [22]:
print(salary_bonus)

[[3200 3400 3400]
 [3200 3100 3200]
 [2500 3000 2900]]


In [23]:
# 查看一下类型
print(type(salary_bonus))

<class 'numpy.ndarray'>


## 使用NumPy统计函数

NumPy统计函数用于分析数组数据。

In [24]:
# max()函数可以找出数组中组大的值
print(salary_bonus.max())

3400


In [25]:
# NumPy统计函数还可以找出数组中指定轴的最大值，使用amax()函数
print(np.amax(salary_bonus, axis = 1))

[3400 3200 3000]


上面计算了过去三个月，每个员工的最高月收入。

关于轴的解释，可以参考这篇文章：https://zhuanlan.zhihu.com/p/468987828

# Pandas库

## 序列

序列是一个一维的带标签的数组。默认情况之下，序列的标签为其位置索引，就像在Python列表中一样。

In [26]:
import pandas as pd

data = ['Jeff Russell', 'Jane Boorman', 'Tom Heints']

emps_names = pd.Series(data)
print(emps_names)

0    Jeff Russell
1    Jane Boorman
2      Tom Heints
dtype: object


dtype显示了序列基础数据的数据类型。默认情况之下，pandas使用数据类型object存储字符串。

我们可以创建一个自定义索引的序列：

In [27]:
data = ['Jeff Russell', 'Jane Boorman', 'Tom Heints']
emps_names = pd.Series(data, index = [9001, 9002, 9003])
print(emps_names)

9001    Jeff Russell
9002    Jane Boorman
9003      Tom Heints
dtype: object


In [28]:
# 访问序列元素
print(emps_names[9001])

Jeff Russell


In [29]:
# 或者使用序列对象的loc属性来访问序列元素
print(emps_names.loc[9001])

Jeff Russell


In [30]:
# 或者可是使用内置的序列索引，而忽略自定义的序列索引
print(emps_names.iloc[1])

Jane Boorman


In [31]:
# 使用切片来访问多个元素
print(emps_names.loc[9001:9002])

9001    Jeff Russell
9002    Jane Boorman
dtype: object


In [32]:
# 同样的
print(emps_names.iloc[0:2])

9001    Jeff Russell
9002    Jane Boorman
dtype: object


可以发现，如果是loc[x:y]，则包含y的位置的元素；如果是iloc[x:y]，则不包含y的位置的元素。

多个序列可以被合并成为一个数据框：

In [33]:
data = ['jeff.russell', 'jane.boorman', 'tom.heints']
emps_emails = pd.Series(data, index = [9001, 9002, 9003], name = 'emails')
emps_names.name = 'names'
df = pd.concat([emps_names, emps_emails], axis = 1)
print(df)

             names        emails
9001  Jeff Russell  jeff.russell
9002  Jane Boorman  jane.boorman
9003    Tom Heints    tom.heints


数据框是一种带标签的二维数据结构，每一列的数据类型可以不同。数据框可以被视为一个类似于字典的用于存储序列的容器，字典的每个键都是列标签，对应的值是一个序列。

![image.png](attachment:24c21d78-ed03-4941-bc93-dddf312c3d7e.png)

数据框包含一个索引列，默认情况之下，数据框从0开始索引而不是1。

In [34]:
# 创建数据框
import yfinance as yf  # 请求 Yahoo Finance API
tkr = yf.Ticker('TSLA')  # 向API发送一个请求，获得一个给定的股票代码的股价数据
hist = tkr.history(period = '5d')  # shiyong1yfinance库的history()方法指定需要查询5天的数据
hist = hist.drop("Dividends", axis = 1)  # 获得数据框之后，删除几列
hist = hist.drop("Stock Splits", axis = 1)
hist = hist.reset_index()  # 把数据框的索引变为数字索引

TSLA: No price data found, symbol may be delisted (period=5d)


KeyError: "['Dividends'] not found in axis"

In [None]:
# 把索引设置为Date列
hist = hist.set_index('Date')

In [None]:
hist

将Json数据传入，并且转换为pandas对象。

In [35]:
# 把Json文档转换为pandas对象
import json
import pandas as pd

data = [
    {'Empno' : 9001, 'Salary' : 3000},
    {'Empno' : 9002, 'Salary' : 2800},
    {'Empno' : 9003, 'Salary' : 2500},
]

# 开始将JSON字符读入数据框
json_data = json.dumps(data)
salary = pd.read_json(json_data)
salary = salary.set_index('Empno')

print(salary)

       Salary
Empno        
9001     3000
9002     2800
9003     2500


  salary = pd.read_json(json_data)


另外一种做法。

In [36]:
import pandas as pd

data = [
    ['9001', 'Jeff Russell', 'sales'],
    ['9002', 'Jane Boorman', 'sales'],
    ['9003', 'Tom Heints', 'sales']
]

emps = pd.DataFrame(data, columns = ['Empno', 'Name', "Job"])
column_types = {'Empno':int, 'Name':str, 'Job':str}
emps = emps.astype(column_types)
emps = emps.set_index('Empno')

print(emps)

               Name    Job
Empno                     
9001   Jeff Russell  sales
9002   Jane Boorman  sales
9003     Tom Heints  sales


pandas合并数据框。

In [37]:
# 使用 join() 函数来合并数据框
emps_salary = emps.join(salary)
print(emps_salary)

               Name    Job  Salary
Empno                             
9001   Jeff Russell  sales    3000
9002   Jane Boorman  sales    2800
9003     Tom Heints  sales    2500


join()函数的主要功能是根据索引合并数据框。

我们可以考虑emps数据框中还有一行，但是salary数据框中没有对应的行。

In [38]:
new_emp = pd.Series({'Name': 'John Hardy', 'Job': 'sales'}, name = 9004)

In [39]:
emps

Unnamed: 0_level_0,Name,Job
Empno,Unnamed: 1_level_1,Unnamed: 2_level_1
9001,Jeff Russell,sales
9002,Jane Boorman,sales
9003,Tom Heints,sales


In [40]:
emps = pd.concat([emps, new_emp.to_frame().T])  

In [41]:
emps

Unnamed: 0,Name,Job
9001,Jeff Russell,sales
9002,Jane Boorman,sales
9003,Tom Heints,sales
9004,John Hardy,sales


再次合并emps和salary数据框。

In [42]:
emps_salary = emps.join(salary)
print(emps_salary)

              Name    Job  Salary
9001  Jeff Russell  sales  3000.0
9002  Jane Boorman  sales  2800.0
9003    Tom Heints  sales  2500.0
9004    John Hardy  sales     NaN


最后一行Salary字段中的NaN表示缺少薪资值。

一对多合并。

In [43]:
import pandas as pd

# 创建数据框1
data1 = {'key': ['A', 'B', 'C', 'D'],
         'value': [1, 2, 3, 4]}
df1 = pd.DataFrame(data1)

# 创建数据框2
data2 = {'key': ['B', 'D', 'E', 'F'],
         'value': [5, 6, 7, 8]}
df2 = pd.DataFrame(data2)

# 使用merge()函数进行一对多合并
result = pd.merge(df1, df2, on='key', how='outer')

print(result)

  key  value_x  value_y
0   A      1.0      NaN
1   B      2.0      5.0
2   C      3.0      NaN
3   D      4.0      6.0
4   E      NaN      7.0
5   F      NaN      8.0


groupby()函数。

In [44]:
import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Tom', 'John'],
        'Age': [20, 21, 19, 20, 18],
        'Score': [90, 85, 88, 92, 89]}

df = pd.DataFrame(data)
grouped = df.groupby('Name')
average_score = grouped['Score'].mean()
print(average_score)

Name
John    88.5
Nick    85.0
Tom     91.0
Name: Score, dtype: float64


# scikit-learn库

## 安装和获得样本数据

如何安装：

```python3
pip3 install scikit-learn
```

结果如下所示：

![image.png](attachment:4dc0f285-c793-4fe0-9a8d-798bf73c2c65.png)

数据位置：https://archive.ics.uci.edu/dataset/331/sentiment+labelled+sentences

为了简单，这里只采用来自Amazon的评论数据。

## 机器学习

导入数据集。

In [45]:
import pandas as pd

df = pd.read_csv('sentiment labelled sentences/amazon_cells_labelled.txt', names = ['review', 'sentiment'], sep = '\t')

第一列保存评论，第二列保存相应的情绪，原始的数据采用了Tab进行分隔，所以这里使用 \t 。

将数据分为训练集和测试机数据集。

In [46]:
from sklearn.model_selection import train_test_split

# .values属性将这两列数据转换为NumPy数组
reviews = df['review'].values
sentiments = df['sentiment'].values

# 使用train_test_split函数将数据集划分为训练集和测试集。
# test_size = 0.2表示测试集占总数据集的比例为20%。
# random_state = 500是一个随机种子，用于确保每次运行代码时都能得到相同的划分结果。
reviews_train, reviews_test, sentiment_train, sentiment_test = train_test_split(reviews, sentiments, test_size = 0.2, random_state = 500)

将文本转换为数值特征向量。

In [47]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorizer.fit(reviews)
X_train = vectorizer.transform(reviews_train)
X_test = vectorizer.transform(reviews_test)

首先创建了一个vectorizer对象；然后使用fit()函数来构建reviews数据集的单词组成的词汇表；最后，使用vectorizer对象的transform()方法分别将训练集和测试集中的文本数据转换为数字特征的向量。

训练和评估模型。

In [48]:
from sklearn.linear_model import LogisticRegression

classifier = LogisticRegression()
classifier.fit(X_train, sentiment_train)

In [49]:
accuracy = classifier.score(X_test, sentiment_test)
print("Accuracy", accuracy)

Accuracy 0.81


开始做预测。

In [50]:
new_reviews = ['Old version of python useless', 'Very good effor, but not five stars', 'Clear and concise']

X_new = vectorizer.transform(new_reviews)
print(classifier.predict(X_new))

[0 0 1]


0表示的是负面评论，而1表示的是正面评论。