Pandas是一个开源的Python数据分析库，它提供了高效的数据结构和数据分析工具，使得数据处理变得更加简单、快速和灵活。Pandas主要包含两种数据结构：Series和DataFrame。

Pandas提供了丰富的数据操作和处理功能，包括数据清洗、数据筛选、数据分组、数据聚合、数据合并、数据重塑等。同时，Pandas还支持多种数据格式的读写，包括CSV、Excel、SQL、JSON等。

In [1]:
import pandas as pd

# 生成对象

Series是一种一维数组，可以存储任意类型的数据，每个元素都有一个索引，可以通过索引来访问元素。

生成Series时，pandas默认自动生成整数索引

In [2]:
# 从列表创建Series
my_list = [10, 20, 30, 40, 50]
my_series = pd.Series(my_list)
print(my_series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [3]:
# 从字典创建Series
my_dict = {'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}
my_series = pd.Series(my_dict)
print(my_series)

a    10
b    20
c    30
d    40
e    50
dtype: int64


In [4]:
# 从NumPy数组创建Series
import numpy as np
my_array = np.array([10, 20, 30, 40, 50])
my_series = pd.Series(my_array)
print(my_series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


DataFrame是一种二维表格，可以看作是由多个Series组成的，每个Series代表一列数据，每列数据可以是不同的数据类型，每行数据都有一个索引，可以通过索引来访问元素。

In [6]:
#用含日期时间索引与标签的 NumPy 数组生成 DataFrame
dates = pd.date_range('20130101', periods=6)#`periods` 参数用于指定时间序列的长度，即包含多少个时间点
dates
#freq是指时间序列的频率或间隔。在这个例子中，时间序列的频率是'D'，表示每个日期之间的间隔为一天
#dtype='datetime64[ns]表示数据类型为日期时间类型，数据类型的精度为64位，其中[ns]表示时间精度为纳秒级别

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [7]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
#生成一个6行4列的Pandas DataFrame，行索引为dates变量中的日期，列索引为A、B、C、D。
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.067052,-0.70584,-0.642275,0.380692
2013-01-02,2.153731,-1.542218,-0.851476,0.371424
2013-01-03,1.183724,0.684146,0.603775,-1.719785
2013-01-04,0.308195,-0.248869,0.242976,0.596211
2013-01-05,-2.112417,0.156748,-1.955114,0.340336
2013-01-06,-0.973022,0.350092,-0.069854,-0.851402


In [14]:
#用Series字典对象生成DataFrame
df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20130102'),
                    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D': np.array([3] * 4, dtype='int32'),
                    'E': pd.Categorical(["test", "train", "test", "train"]),
                    'F': 'foo'})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


列A的所有值都为1.0

列B的值为时间戳

列C的值为一个长度为4的float32类型的Series

列D的值为一个长度为4的int32类型的数组

列E的值为一个长度为4的分类变量

列F的值为字符串“foo”。

pd.Categorical是Pandas库中的一个数据类型，用于表示有限数量的离散值或分类变量。它可以将一组数据转换为分类变量，并为每个值分配一个唯一的整数编码。这个数据类型可以用于数据分析、可视化和建模等方面。它的主要优点是可以减少内存使用和提高计算效率。

pd.Timestamp是Pandas库中的一个类，用于表示时间戳。它可以表示一个具体的日期和时间，精确到纳秒级别。

In [17]:
#DataFrame 的列有不同数据类型
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

category：分类变量(分类变量是一种离散变量，其取值只能是有限的一组可能值)

object：对象类型，通常表示字符串或混合类型数据

In [None]:
df2.

#IPython支持 tab 键自动补全列名与公共属性。下面是可自动补全的属性：
1. DataFrame.columns：列名
2. DataFrame.index：行索引
3. DataFrame.shape：数据框形状
4. DataFrame.info()：数据框信息
5. DataFrame.describe()：数据框描述性统计信息
6. DataFrame.head()：前几行数据
7. DataFrame.tail()：后几行数据
8. DataFrame.drop()：删除指定行或列
9. DataFrame.groupby()：按指定列分组
10. DataFrame.merge()：按指定列合并数据框
11. DataFrame.sort_values()：按指定列排序
12. DataFrame.isnull()：检查缺失值
13. DataFrame.fillna()：填充缺失值
14. DataFrame.drop_duplicates()：删除重复行
15. DataFrame.apply()：按行或列应用函数
16. DataFrame.plot()：绘制数据图表
17. DataFrame.to_csv()：将数据框保存为CSV文件
18. DataFrame.to_excel()：将数据框保存为Excel文件
19. DataFrame.to_sql()：将数据框保存到SQL数据库中
20. DataFrame.pivot_table()：生成数据透视表

# 查看数据

可以使用 DataFrame 的 `head()` 和 `tail()` 方法来查看 DataFrame 的头部和尾部数据。

`head()` 方法默认返回 DataFrame 的前五行数据，可以通过传入参数来指定返回的行数。例如，要返回前十行数据，可以使用 `df.head(10)`。

`tail()` 方法默认返回 DataFrame 的后五行数据，也可以通过传入参数来指定返回的行数。例如，要返回后十行数据，可以使用 `df.tail(10)`。

In [22]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-0.067052,-0.70584,-0.642275,0.380692
2013-01-02,2.153731,-1.542218,-0.851476,0.371424
2013-01-03,1.183724,0.684146,0.603775,-1.719785
2013-01-04,0.308195,-0.248869,0.242976,0.596211
2013-01-05,-2.112417,0.156748,-1.955114,0.340336


In [23]:
df.tail(3)

Unnamed: 0,A,B,C,D
2013-01-04,0.308195,-0.248869,0.242976,0.596211
2013-01-05,-2.112417,0.156748,-1.955114,0.340336
2013-01-06,-0.973022,0.350092,-0.069854,-0.851402


In [None]:
要显示索引和列名，可以使用df.head()(该方法将显示前5行数据，包括索引和列名。)
也可以使用df.index(返回索引)、df.columns(返回列名)

In [24]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [25]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [26]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-0.067052,-0.70584,-0.642275,0.380692
2013-01-02,2.153731,-1.542218,-0.851476,0.371424
2013-01-03,1.183724,0.684146,0.603775,-1.719785
2013-01-04,0.308195,-0.248869,0.242976,0.596211
2013-01-05,-2.112417,0.156748,-1.955114,0.340336


# DataFrame.to_numpy()

DataFrame.to_numpy() 方法将 DataFrame 转换为 NumPy 数组。它返回一个 NumPy 数组，其中包含 DataFrame 中的所有数据。这个方法可以用于将 DataFrame 转换为 NumPy 数组，以便在 NumPy 中进行计算和操作。

当 DataFrame 的列由多种数据类型组成时，Pandas 需要对每个元素进行类型检查和转换，这会导致操作耗费更多的系统资源。这也是 Pandas 和 NumPy 的本质区别：NumPy 数组只有一种数据类型，DataFrame 每列的数据类型各不相同。此外，由于不同的数据类型需要不同的内存空间，这也会增加内存的使用量。

以下是使用 DataFrame.to_numpy() 时需要注意的几点：

1. DataFrame.to_numpy() 方法返回一个 NumPy 数组，其中包含 DataFrame 中的所有数据。这个数组是一个视图，而不是副本。因此，对返回的数组进行修改会影响原始 DataFrame 中的数据。

2. 如果 DataFrame 中包含不同的数据类型，to_numpy() 方法会将它们转换为一种通用的数据类型。这可能会导致数据类型的损失，因此需要谨慎使用。

3. 如果 DataFrame 中包含缺失值（NaN），to_numpy() 方法会将它们转换为浮点数类型的 NaN 值。这可能会导致数据类型的不一致，因此需要谨慎使用。

4. 如果 DataFrame 中包含字符串类型的数据，to_numpy() 方法会将它们转换为 object 类型的 NumPy 数组。这可能会导致数据类型的不一致，因此需要谨慎使用。

5. 如果 DataFrame 中包含日期时间类型的数据，to_numpy() 方法会将它们转换为 datetime64 类型的 NumPy 数组。这可能会导致数据类型的不一致，因此需要谨慎使用。

Pandas 查找支持 DataFrame 里所有数据类型的 NumPy 数据类型。如下

| Pandas 数据类型 | NumPy 数据类型 |
| --- | --- |
| object | object |
| int64 | int_ |
| float64 | float_ |
| bool | bool_ |
| datetime64 | datetime64 |
| timedelta[ns] | timedelta64 |
| category | int_ 或 object |

In [28]:
df.to_numpy()

array([[-0.06705184, -0.70584015, -0.64227536,  0.38069202],
       [ 2.15373064, -1.5422178 , -0.8514761 ,  0.37142447],
       [ 1.18372436,  0.6841458 ,  0.6037746 , -1.71978481],
       [ 0.30819459, -0.24886879,  0.24297577,  0.59621138],
       [-2.1124171 ,  0.15674782, -1.95511426,  0.34033563],
       [-0.97302186,  0.35009151, -0.06985386, -0.85140157]])

In [29]:
#df2 这个 DataFrame 包含了多种类型，DataFrame.to_numpy() 操作就会耗费较多资源。
df2.to_numpy()

array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

还有一种数据类型是 object,可以使用 pandas 的 astype() 方法将 DataFrame 列的数据类型转换为 object 类型。

In [51]:
df3 = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})
df3

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c


In [52]:
df3.dtypes

A     int64
B    object
dtype: object

In [53]:
df3['A'] = df3['A'].astype('object')
df3.dtypes

A    object
B    object
dtype: object

DataFrame.to_numpy() 的输出是一个 NumPy 数组，其中不包含行索引和列标签。它只包含数据本身。

In [215]:
df4 = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8], 'C': [9, 10, 11, 12]}, index=['a', 'b', 'c','d'])
array = df4.to_numpy()
print(array)

[[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]]


In [216]:
df4

Unnamed: 0,A,B,C
a,1,5,9
b,2,6,10
c,3,7,11
d,4,8,12


In [217]:
#describe() 快速查看数据的统计摘要
df4.describe()

Unnamed: 0,A,B,C
count,4.0,4.0,4.0
mean,2.5,6.5,10.5
std,1.290994,1.290994,1.290994
min,1.0,5.0,9.0
25%,1.75,5.75,9.75
50%,2.5,6.5,10.5
75%,3.25,7.25,11.25
max,4.0,8.0,12.0


count计算非NA/空观测的数量

mean表示数据的平均值

std表示数据的标准差

25%、50%、75%分别表示数据的第一四分位数、中位数和第三四分位数

In [218]:
df4.T#转置

Unnamed: 0,a,b,c,d
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12


In [219]:
#按轴排序
df4.sort_index(axis=1, ascending=False)#ascending=False表示降序排列

Unnamed: 0,C,B,A
a,9,5,1
b,10,6,2
c,11,7,3
d,12,8,4


In [220]:
#按值排序
df4 = pd.DataFrame({'A': [1, 13, 3, 4], 'B': [5, 9, 7, 8], 'C': [13, 10, 11, 12]}, index=['a', 'b', 'c','d'])
df4

Unnamed: 0,A,B,C
a,1,5,13
b,13,9,10
c,3,7,11
d,4,8,12


In [221]:
df4.sort_values(by='A')#指定行/列的值进行排序，会改变行索引的顺序，因此会对其他行/列产生影响

Unnamed: 0,A,B,C
a,1,5,13
c,3,7,11
d,4,8,12
b,13,9,10


# 选择数据

## 获取数据

In [222]:
#选择单列，产生 Series，与 df.A 等效
df4['A']

a     1
b    13
c     3
d     4
Name: A, dtype: int64

In [223]:
df4.A

a     1
b    13
c     3
d     4
Name: A, dtype: int64

In [224]:
#用 [ ] 切片行
df4[0:3]

Unnamed: 0,A,B,C
a,1,5,13
b,13,9,10
c,3,7,11


In [225]:
df4['a':'c']

Unnamed: 0,A,B,C
a,1,5,13
b,13,9,10
c,3,7,11


## 按标签选择数据DataFrame.loc()

In [339]:
df5 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
df5

Unnamed: 0,A,B,C,D
2013-01-01,0.714287,0.775568,-0.495897,-0.010776
2013-01-02,-1.128176,1.364633,0.445825,-0.277324
2013-01-03,-0.750977,1.976593,1.125147,0.572404
2013-01-04,2.006577,0.365397,-0.327764,-1.533695
2013-01-05,-0.570798,-0.49903,-1.600058,-0.59734
2013-01-06,0.635551,-0.403946,1.25529,0.519406


In [340]:
#用标签提取一行数据
df5.loc[dates[0]]#日期时间索引为0的行数据

A    0.714287
B    0.775568
C   -0.495897
D   -0.010776
Name: 2013-01-01 00:00:00, dtype: float64

In [341]:
df5.loc[:,['A']]

Unnamed: 0,A
2013-01-01,0.714287
2013-01-02,-1.128176
2013-01-03,-0.750977
2013-01-04,2.006577
2013-01-05,-0.570798
2013-01-06,0.635551


In [342]:
#用标签选择多列数据
df5.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,0.714287,0.775568
2013-01-02,-1.128176,1.364633
2013-01-03,-0.750977,1.976593
2013-01-04,2.006577,0.365397
2013-01-05,-0.570798,-0.49903
2013-01-06,0.635551,-0.403946


In [343]:
#用标签切片，包含行与列结束点
df5.loc['20130102':'20130104', ['A', 'B']]

Unnamed: 0,A,B
2013-01-02,-1.128176,1.364633
2013-01-03,-0.750977,1.976593
2013-01-04,2.006577,0.365397


In [344]:
#返回对象降维
df5.loc['20130102', ['A', 'B']]#返回Series对象且只有一维

A   -1.128176
B    1.364633
Name: 2013-01-02 00:00:00, dtype: float64

In [345]:
df5.loc[['20130102'], ['A', 'B']]#返回DataFrame对象

Unnamed: 0,A,B
2013-01-02,-1.128176,1.364633


In [346]:
#提取标量值
df5.loc[dates[0], 'A']

0.7142867335835624

In [347]:
#快速访问标量，与上述方法等效
df5.at[dates[0], 'A']
#DataFrame的at方法是用于获取或设置单个元素的方法

0.7142867335835624

## 按位置选择DataFrame.iloc()

In [348]:
df5

Unnamed: 0,A,B,C,D
2013-01-01,0.714287,0.775568,-0.495897,-0.010776
2013-01-02,-1.128176,1.364633,0.445825,-0.277324
2013-01-03,-0.750977,1.976593,1.125147,0.572404
2013-01-04,2.006577,0.365397,-0.327764,-1.533695
2013-01-05,-0.570798,-0.49903,-1.600058,-0.59734
2013-01-06,0.635551,-0.403946,1.25529,0.519406


In [349]:
#用整数位置选择
df5.iloc[3]

A    2.006577
B    0.365397
C   -0.327764
D   -1.533695
Name: 2013-01-04 00:00:00, dtype: float64

In [350]:
#类似 NumPy / Python，用整数切片
df5.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,2.006577,0.365397
2013-01-05,-0.570798,-0.49903


In [351]:
#类似 NumPy / Python，用整数列表按位置切片
df5.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2013-01-02,-1.128176,0.445825
2013-01-03,-0.750977,1.125147
2013-01-05,-0.570798,-1.600058


In [352]:
#显式整行切片
df5.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,-1.128176,1.364633,0.445825,-0.277324
2013-01-03,-0.750977,1.976593,1.125147,0.572404


In [353]:
#显式整列切片
df5.iloc[:, 1:3]

Unnamed: 0,B,C
2013-01-01,0.775568,-0.495897
2013-01-02,1.364633,0.445825
2013-01-03,1.976593,1.125147
2013-01-04,0.365397,-0.327764
2013-01-05,-0.49903,-1.600058
2013-01-06,-0.403946,1.25529


In [354]:
#显式提取值
df5.iloc[1, 1]

1.3646325014898617

In [355]:
#快速访问标量，与上述方法等效
df5.iat[1, 1]
#DataFrame.iat()访问指定位置的元素

1.3646325014898617

## 布尔索引

In [356]:
#用单列的值选择数据
df5[df5.A > 0]

Unnamed: 0,A,B,C,D
2013-01-01,0.714287,0.775568,-0.495897,-0.010776
2013-01-04,2.006577,0.365397,-0.327764,-1.533695
2013-01-06,0.635551,-0.403946,1.25529,0.519406


In [357]:
#选择 DataFrame 里满足条件的值
df5[df5 > 0]

Unnamed: 0,A,B,C,D
2013-01-01,0.714287,0.775568,,
2013-01-02,,1.364633,0.445825,
2013-01-03,,1.976593,1.125147,0.572404
2013-01-04,2.006577,0.365397,,
2013-01-05,,,,
2013-01-06,0.635551,,1.25529,0.519406


In [358]:
df5

Unnamed: 0,A,B,C,D
2013-01-01,0.714287,0.775568,-0.495897,-0.010776
2013-01-02,-1.128176,1.364633,0.445825,-0.277324
2013-01-03,-0.750977,1.976593,1.125147,0.572404
2013-01-04,2.006577,0.365397,-0.327764,-1.533695
2013-01-05,-0.570798,-0.49903,-1.600058,-0.59734
2013-01-06,0.635551,-0.403946,1.25529,0.519406


In [359]:
#用 isin() 筛选
df6=df5.copy()
df6['E']=[1,2,3,4,5,6]
df6

Unnamed: 0,A,B,C,D,E
2013-01-01,0.714287,0.775568,-0.495897,-0.010776,1
2013-01-02,-1.128176,1.364633,0.445825,-0.277324,2
2013-01-03,-0.750977,1.976593,1.125147,0.572404,3
2013-01-04,2.006577,0.365397,-0.327764,-1.533695,4
2013-01-05,-0.570798,-0.49903,-1.600058,-0.59734,5
2013-01-06,0.635551,-0.403946,1.25529,0.519406,6


In [360]:
df6[df6['E'].isin([2, 4])]

Unnamed: 0,A,B,C,D,E
2013-01-02,-1.128176,1.364633,0.445825,-0.277324,2
2013-01-04,2.006577,0.365397,-0.327764,-1.533695,4


## 赋值

In [361]:
#用索引自动对齐新增列的数据
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20130102', periods=6))
s1

2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

In [362]:
df5['F'] = s1
df5

Unnamed: 0,A,B,C,D,F
2013-01-01,0.714287,0.775568,-0.495897,-0.010776,
2013-01-02,-1.128176,1.364633,0.445825,-0.277324,1.0
2013-01-03,-0.750977,1.976593,1.125147,0.572404,2.0
2013-01-04,2.006577,0.365397,-0.327764,-1.533695,3.0
2013-01-05,-0.570798,-0.49903,-1.600058,-0.59734,4.0
2013-01-06,0.635551,-0.403946,1.25529,0.519406,5.0


In [363]:
#按标签赋值
df5.at[dates[0], 'A'] = 0
df5

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.775568,-0.495897,-0.010776,
2013-01-02,-1.128176,1.364633,0.445825,-0.277324,1.0
2013-01-03,-0.750977,1.976593,1.125147,0.572404,2.0
2013-01-04,2.006577,0.365397,-0.327764,-1.533695,3.0
2013-01-05,-0.570798,-0.49903,-1.600058,-0.59734,4.0
2013-01-06,0.635551,-0.403946,1.25529,0.519406,5.0


In [364]:
#按位置赋值
df5.iat[2, 3] = 0
df5

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.775568,-0.495897,-0.010776,
2013-01-02,-1.128176,1.364633,0.445825,-0.277324,1.0
2013-01-03,-0.750977,1.976593,1.125147,0.0,2.0
2013-01-04,2.006577,0.365397,-0.327764,-1.533695,3.0
2013-01-05,-0.570798,-0.49903,-1.600058,-0.59734,4.0
2013-01-06,0.635551,-0.403946,1.25529,0.519406,5.0


In [365]:
#按 NumPy 数组赋值
df5.loc[:, 'D'] = np.array([5] * len(df5))
#将df5中D列的所有值设置成5

In [366]:
df5

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.775568,-0.495897,5,
2013-01-02,-1.128176,1.364633,0.445825,5,1.0
2013-01-03,-0.750977,1.976593,1.125147,5,2.0
2013-01-04,2.006577,0.365397,-0.327764,5,3.0
2013-01-05,-0.570798,-0.49903,-1.600058,5,4.0
2013-01-06,0.635551,-0.403946,1.25529,5,5.0


In [367]:
#用 where 条件赋值
df7 = df5.copy()
df7[df7 > 0] = -df7
df7

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,-0.775568,-0.495897,-5,
2013-01-02,-1.128176,-1.364633,-0.445825,-5,-1.0
2013-01-03,-0.750977,-1.976593,-1.125147,-5,-2.0
2013-01-04,-2.006577,-0.365397,-0.327764,-5,-3.0
2013-01-05,-0.570798,-0.49903,-1.600058,-5,-4.0
2013-01-06,-0.635551,-0.403946,-1.25529,-5,-5.0


## 缺失值

Pandas 主要用 np.nan 表示缺失数据。 计算时，默认不包含空值

In [369]:
#重建索引（reindex）可以更改、添加、删除指定轴的索引，并返回数据副本，即不更改原数据。
df1 = df5.reindex(index=dates[0:4], columns=list(df5.columns) + ['E'])#取1到4行，增加E列
df1.loc[dates[0]:dates[1], 'E'] = 1#选择dates[0]到dates[1]的行，并将E列的值设置为1
df1

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.775568,-0.495897,5,,1.0
2013-01-02,-1.128176,1.364633,0.445825,5,1.0,1.0
2013-01-03,-0.750977,1.976593,1.125147,5,2.0,
2013-01-04,2.006577,0.365397,-0.327764,5,3.0,


In [371]:
#删除所有含缺失值的行
df1.dropna(how='any')
#参数how='any'表示只要该行中存在任何一个缺失值，就将该行删除。如果想要删除所有值是缺失值的行，可以使用how='all'参数。

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.775568,-0.495897,5,,1.0
2013-01-02,-1.128176,1.364633,0.445825,5,1.0,1.0
2013-01-03,-0.750977,1.976593,1.125147,5,2.0,
2013-01-04,2.006577,0.365397,-0.327764,5,3.0,


In [372]:
#填充缺失值
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.775568,-0.495897,5,5.0,1.0
2013-01-02,-1.128176,1.364633,0.445825,5,1.0,1.0
2013-01-03,-0.750977,1.976593,1.125147,5,2.0,5.0
2013-01-04,2.006577,0.365397,-0.327764,5,3.0,5.0


In [373]:
#提取 nan 值的布尔掩码
pd.isna(df1)
#pd.isna()检查每个元素是否为缺失值，并返回布尔值

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


布尔掩码是一种用于过滤数据的技术，它是一个由True和False组成的布尔值数组，其中True表示要保留的数据，False表示要删除的数据。在Pandas中，可以使用布尔掩码来选择DataFrame或Series中的特定行或列，或者用于计算统计量，如平均值或标准差。

# 运算

## 统计

In [374]:
#一般情况下，运算时排除缺失值
#描述性统计(用于描述和总结数据集的特征和属性)：
df5.mean()#计算平均值

A    0.032030
B    0.596536
C    0.067090
D    5.000000
F    3.000000
dtype: float64

In [375]:
df5

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.775568,-0.495897,5,
2013-01-02,-1.128176,1.364633,0.445825,5,1.0
2013-01-03,-0.750977,1.976593,1.125147,5,2.0
2013-01-04,2.006577,0.365397,-0.327764,5,3.0
2013-01-05,-0.570798,-0.49903,-1.600058,5,4.0
2013-01-06,0.635551,-0.403946,1.25529,5,5.0


In [376]:
#在另一个轴(即，行)上执行同样的操作
df5.mean(1)

2013-01-01    1.319918
2013-01-02    1.336456
2013-01-03    1.870153
2013-01-04    2.008842
2013-01-05    1.266023
2013-01-06    2.297379
Freq: D, dtype: float64

In [377]:
#不同维度对象运算时，要先对齐，此外，pandas自动沿指定维度广播
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
#shift(2) 表示将这个 Series 对象中的所有值向后移动两个位置，即将前两个位置填充为 NaN。这个操作可以用于时间序列数据中的滞后计算。
s

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

In [379]:
df5.sub(s, axis='index')
#用于将 二维表格 中的每个元素减去一个 一维数组 中对应的元素
#如果 DataFrame 和 Series 的形状不匹配，则会自动进行广播操作，使得它们的形状相同。

Unnamed: 0,A,B,C,D,F
2013-01-01,,,,,
2013-01-02,,,,,
2013-01-03,-1.750977,0.976593,0.125147,4.0,1.0
2013-01-04,-0.993423,-2.634603,-3.327764,2.0,0.0
2013-01-05,-5.570798,-5.49903,-6.600058,0.0,-1.0
2013-01-06,,,,,


## Apply函数

apply函数是Python中的一个内置函数，它的作用是将一个函数应用于一个序列或者一个可迭代对象中的每个元素，并返回一个包含结果的列表。

（Python内置函数是Python解释器中已经预定义的函数，可以直接使用而无需导入任何模块。这些函数包括数学函数、字符串函数、列表函数、字典函数、文件函数等等。）

In [380]:
df5.apply(np.cumsum)
#对每一行进行累加操作

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.775568,-0.495897,5,
2013-01-02,-1.128176,2.1402,-0.050071,10,1.0
2013-01-03,-1.879154,4.116793,1.075076,15,3.0
2013-01-04,0.127423,4.48219,0.747312,20,6.0
2013-01-05,-0.443374,3.98316,-0.852747,25,10.0
2013-01-06,0.192177,3.579214,0.402543,30,15.0


In [382]:
df5.apply(lambda x: x.max() - x.min())
#计算每一列的极差（即最大值和最小值之差）

A    3.134753
B    2.475624
C    2.855348
D    0.000000
F    4.000000
dtype: float64

## 直方图

In [383]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

0    6
1    1
2    0
3    1
4    6
5    1
6    4
7    0
8    2
9    4
dtype: int64

In [384]:
s.value_counts()#用于计算Series中每个唯一值的出现次数，并返回一个新的Series对象，其中每个唯一值作为索引，其出现次数作为值

1    3
6    2
0    2
4    2
2    1
dtype: int64

## 字符串方法

Series 的 str 属性是用于对字符串类型的 Series 进行操作的属性。它包含了一系列的字符串处理方法，例如字符串的拼接、替换、切片、查找、大小写转换等等。使用 Series 的 str 属性可以方便地对字符串类型的数据进行处理和分析。以下是常用的Series的str属性方法
- str.cat(): 将多个字符串拼接成一个字符串。
- str.contains(): 判断字符串是否包含某个子串。
- str.replace(): 将字符串中的某个子串替换为另一个字符串。
- str.split(): 将字符串按照某个分隔符进行分割。
- str.strip(): 去除字符串两端的空格。
- str.upper(): 将字符串转换为大写。
- str.lower(): 将字符串转换为小写。
- str.title(): 将字符串中每个单词的首字母大写。

In [387]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s

0       A
1       B
2       C
3    Aaba
4    Baca
5     NaN
6    CABA
7     dog
8     cat
dtype: object

In [391]:
s.str.contains('a')

0    False
1    False
2    False
3     True
4     True
5      NaN
6    False
7    False
8     True
dtype: object

In [392]:
s.str.replace('a', 'o')

0       A
1       B
2       C
3    Aobo
4    Boco
5     NaN
6    CABA
7     dog
8     cot
dtype: object

# 合并

Pandas 提供了多种将 Series、DataFrame 对象组合在一起的功能，用索引与关联代数功能的多种设置逻辑可执行连接（join）与合并（merge）操作。

## 结合

In [394]:
df = pd.DataFrame(np.random.randn(10, 4))#生成的是标准正态分布（均值为0，标准差为1）的随机数
df

Unnamed: 0,0,1,2,3
0,-0.407771,-0.625835,-1.181337,1.141708
1,-0.105748,-0.145052,0.314179,-1.792773
2,0.793153,1.285525,0.59098,-1.175739
3,2.06664,-0.798458,-0.51216,1.268114
4,-0.750226,-0.906254,-0.331603,0.2902
5,1.214896,0.151071,0.866594,-0.445455
6,1.390298,-1.813089,0.260346,-0.152808
7,-1.167127,-0.704784,0.404565,-1.075521
8,-0.420603,-0.429581,-0.165772,-1.300182
9,0.179121,1.015714,0.296599,0.920599


In [396]:
#将原始数据框df按行分成三个部分，分别是前三行、第八行到最后一行、第四行到第七行。然后使用pd.concat()函数将这三个部分重新合并成一个新的数据框，其中行的顺序不变。
pieces = [df[:3], df[7:], df[3:7]]
pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,-0.407771,-0.625835,-1.181337,1.141708
1,-0.105748,-0.145052,0.314179,-1.792773
2,0.793153,1.285525,0.59098,-1.175739
7,-1.167127,-0.704784,0.404565,-1.075521
8,-0.420603,-0.429581,-0.165772,-1.300182
9,0.179121,1.015714,0.296599,0.920599
3,2.06664,-0.798458,-0.51216,1.268114
4,-0.750226,-0.906254,-0.331603,0.2902
5,1.214896,0.151071,0.866594,-0.445455
6,1.390298,-1.813089,0.260346,-0.152808


## 连接

In [None]:
SQL风格的合并，使用JOIN操作进行连接





是的，UNION、UNION ALL和JOIN操作符都是SQL语言中的操作符。 

UNION和UNION ALL操作符用于将两个或多个SELECT语句的结果集合并为一个结果集，其中UNION操作符会去重，而UNION ALL不会去重。

JOIN操作符用于将两个或多个表中的数据连接起来，以便在一个查询中同时检索这些表中的数据。JOIN操作符可以根据指定的条件将两个表中的数据进行匹配，从而返回一个包含两个表中匹配数据的结果集。





SQL风格的连接是指使用SQL语句中的JOIN关键字将两个或多个表中的数据连接起来。SQL风格的连接包括内连接、左连接、右连接和全连接。

数据集风格的连接是指使用数据集工具（如Excel、Power BI等）中的连接功能将两个或多个数据集中的数据连接起来。数据集风格的连接包括内连接、左连接、右连接和全连接，与SQL风格的连接类似。

两种连接方式的主要区别在于实现方式和使用场景。SQL风格的连接适用于数据库中的数据连接，需要使用SQL语句进行连接操作；而数据集风格的连接适用于数据集工具中的数据连接，可以通过可视化界面进行连接操作。

In [436]:
left = pd.DataFrame({'key': ['fa','fb','fc'], 'lval': [9,8,7]})

left

Unnamed: 0,key,lval
0,fa,9
1,fb,8
2,fc,7


In [437]:
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [454]:
pd.merge(left, right, how="left", on=['key'])

Unnamed: 0,key,lval,rval
0,fa,9,
1,fb,8,
2,fc,7,


1. 内连接（inner join）：只保留两个数据框中都存在的行，其他行被删除。
2. 左连接（left join）：保留左边数据框中的所有行，右边数据框中没有匹配的行用NaN填充。
3. 右连接（right join）：保留右边数据框中的所有行，左边数据框中没有匹配的行用NaN填充。
4. 外连接（outer join）：保留两个数据框中的所有行，没有匹配的行用NaN填充。
5. cross方式:指将两个数据框中的所有行进行组合，生成一个新的数据框。这种方式的合并不需要指定任何键，因为它会将两个数据框中的所有行进行组合，生成一个新的数据框。这种方式的合并通常用于数据框之间的笛卡尔积操作，即将两个数据框中的所有行进行组合，生成一个新的数据框，其中每个行都包含两个数据框中的一行。 

pd.merge()是pandas库中用于合并数据的函数，其参数含义如下：

- left：要合并的左侧DataFrame。
- right：要合并的右侧DataFrame。
- how：合并方式，包括"left"、"right"、"outer"和"inner"，默认为"inner"。
- on：用于合并的列名，必须在左右两个DataFrame中都存在。
- left_on：左侧DataFrame中用于合并的列名。
- right_on：右侧DataFrame中用于合并的列名。
- left_index：如果为True，则使用左侧DataFrame的索引进行合并。
- right_index：如果为True，则使用右侧DataFrame的索引进行合并。
- sort：如果为True，则按照合并键进行排序。
- suffixes：如果左右两个DataFrame中存在重复列名，则为它们添加后缀。
- copy：如果为True，则复制数据，否则尝试在原始数据上进行修改。
- indicator：如果为True，则添加一个名为_merge的列，用于指示合并方式。
- validate：如果为"one_to_one"，则检查合并键是否唯一。如果为"one_to_many"，则检查左侧DataFrame中的合并键是否唯一。如果为"many_to_one"，则检查右侧DataFrame中的合并键是否唯一。如果为"many_to_many"，则不进行检查。默认为None。

In [None]:
SQL 风格的合并和数据库风格连接是两种不同的操作。

SQL 风格的合并是指使用 SQL 语句中的 UNION 或 UNION ALL 操作符将两个或多个表中的数据合并成一个结果集。这种操作通常用于将多个表中的相似数据合并在一起，以便进行更方便的查询和分析。

数据库风格连接是指使用数据库中的 JOIN 操作将两个或多个表中的数据连接在一起。这种操作通常用于将两个或多个表中的数据进行关联，以便进行更复杂的查询和分析。连接操作可以根据不同的条件进行，如 INNER JOIN、LEFT JOIN、RIGHT JOIN 等。

总的来说，SQL 风格的合并和数据库风格连接都是将多个表中的数据合并在一起，但是它们的操作方式和使用场景有所不同。

## 追加

In [458]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,0.745354,-0.936185,-0.19122,0.585069
1,0.665332,0.543754,0.715556,0.314863
2,0.478944,0.251797,1.328815,-1.193518
3,0.894408,1.336346,-0.060368,-0.240897
4,2.352622,-0.286563,0.018372,-0.838077
5,-0.365273,-1.263877,0.387781,0.775846
6,-0.065322,1.923964,1.467536,0.619224
7,-0.871707,-1.259449,-1.062032,-1.347017


In [474]:
s = df.iloc[3]
pd.concat([df,s.to_frame().T] ,ignore_index=True)
#`s.to_frame().T`将Series转换为DataFrame，并将其转置以匹配原始DataFrame的形状。然后使用`pd.concat()`方法将两个DataFrame连接在一起。
#将DataFrame中第3行的数据保存到变量s中，然后将s作为新的一行添加到DataFrame的末尾，并返回一个新的DataFrame。ignore_index=True参数表示忽略原DataFrame中的索引，新的DataFrame将会自动创建一个新的整数索引。

Unnamed: 0,A,B,C,D
0,0.745354,-0.936185,-0.19122,0.585069
1,0.665332,0.543754,0.715556,0.314863
2,0.478944,0.251797,1.328815,-1.193518
3,0.894408,1.336346,-0.060368,-0.240897
4,2.352622,-0.286563,0.018372,-0.838077
5,-0.365273,-1.263877,0.387781,0.775846
6,-0.065322,1.923964,1.467536,0.619224
7,-0.871707,-1.259449,-1.062032,-1.347017
8,0.894408,1.336346,-0.060368,-0.240897


## 分组

“group by” 指的是涵盖下列一项或多项步骤的处理流程：

- 分割：按条件把数据分割成多组；
- 应用：为每组单独应用函数；
- 组合：将处理结果组合成一个数据结构

In [475]:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',
                         'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three',
                          'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})
df

Unnamed: 0,A,B,C,D
0,foo,one,-0.437705,-1.00962
1,bar,one,-0.829267,-0.766313
2,foo,two,-0.164164,-0.86911
3,bar,three,-0.49797,-2.015269
4,foo,two,-0.226826,0.223147
5,bar,two,0.615278,1.779878
6,foo,one,-0.474856,-0.861006
7,foo,three,-0.681298,0.332081


In [480]:
#先分组，再用 sum()函数计算每组的汇总数据
df.groupby('A').sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,-0.711959,-1.001704
foo,-1.98485,-2.184508


In [481]:
#多列分组后，生成多层索引，也可以应用 sum 函数
df.groupby(['A', 'B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.829267,-0.766313
bar,three,-0.49797,-2.015269
bar,two,0.615278,1.779878
foo,one,-0.912562,-1.870627
foo,three,-0.681298,0.332081
foo,two,-0.39099,-0.645963


# 重塑

## 堆叠

In [482]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                      'foo', 'foo', 'qux', 'qux'],
                     ['one', 'two', 'one', 'two',
                      'one', 'two', 'one', 'two']]))
tuples

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

In [483]:
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
#创建了一个包含两个级别的多级索引（MultiIndex），其中第一个级别名为'first'，第二个级别名为'second'
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
#然后，使用这个多级索引创建了一个DataFrame，其中包含8行和2列，列名为'A'和'B'，数据由随机数生成
df2 = df[:4]#使用切片操作将前4行的数据赋值给了df2。
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.184648,-0.731468
bar,two,-1.262293,0.64461
baz,one,0.547978,0.66062
baz,two,0.403012,0.308341


In [484]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.184648,-0.731468
bar,two,-1.262293,0.64461
baz,one,0.547978,0.66062
baz,two,0.403012,0.308341
foo,one,0.780517,-0.555479
foo,two,0.566229,-0.802752
qux,one,0.441295,0.566414
qux,two,-0.970669,0.122079


In [488]:
#stack()方法把 DataFrame 列压缩至一层
stacked = df2.stack()
stacked

first  second   
bar    one     A    0.184648
               B   -0.731468
       two     A   -1.262293
               B    0.644610
baz    one     A    0.547978
               B    0.660620
       two     A    0.403012
               B    0.308341
dtype: float64

In [487]:
#压缩后的 DataFrame 或 Series 具有多层索引， stack() 的逆操作是 unstack()，默认为拆叠最后一层
#将多层索引的Series或DataFrame对象中的最内层索引转换为列
stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.184648,-0.731468
bar,two,-1.262293,0.64461
baz,one,0.547978,0.66062
baz,two,0.403012,0.308341


In [489]:
stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,0.184648,-1.262293
bar,B,-0.731468,0.64461
baz,A,0.547978,0.403012
baz,B,0.66062,0.308341


In [490]:
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,0.184648,0.547978
one,B,-0.731468,0.66062
two,A,-1.262293,0.403012
two,B,0.64461,0.308341


# 数据透视表

一种数据分析工具，它可以将大量数据按照不同的维度进行汇总和分析，以便更好地理解数据。
数据透视表通常包括行标签、列标签、值和筛选器四个部分。行标签和列标签用于分类汇总数据，值用于显示数据的统计结果，筛选器用于过滤数据。

In [491]:
df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,
                   'B': ['A', 'B', 'C'] * 4,
                    'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                    'D': np.random.randn(12),
                    'E': np.random.randn(12)})
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,0.266053,-1.138083
1,one,B,foo,-0.085679,0.455088
2,two,C,foo,-0.495268,0.616068
3,three,A,bar,-0.081185,-2.796117
4,one,B,bar,0.65706,-0.692536
5,one,C,bar,-0.451964,1.17613
6,two,A,foo,0.424558,-0.665315
7,three,B,foo,-1.247134,-0.580554
8,one,C,foo,0.701587,0.339762
9,one,A,bar,-1.739617,1.656603


In [492]:
#用上述数据生成数据透视表，将数据框df按照'A'和'B'列的值进行分组，并在'C'列上创建列索引，然后对'D'列的值进行聚合，生成一个透视表。透视表中的每个单元格包含了'A'和'B'列的组合、'C'列的值和'D'列的聚合结果
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-1.739617,0.266053
one,B,0.65706,-0.085679
one,C,-0.451964,0.701587
three,A,-0.081185,
three,B,,-1.247134
three,C,-0.015958,
two,A,,0.424558
two,B,0.166124,
two,C,,-0.495268


# 时间序列

Pandas中的时间序列数据通常是指按时间顺序排列的数据集，通常使用DatetimeIndex对象来表示。DatetimeIndex对象是一个包含日期和时间的索引，它可以用于对时间序列数据进行索引、切片、聚合等操作。

In [493]:
rng = pd.date_range('1/1/2012', periods=100, freq='S')
#predios指定了时间范围内的时间点数量，这里是从2012年1月1日开始，100个时间点，即100秒后的时间点。
#freq指定了时间点之间的间隔，这里是每秒一个时间点。
#创建一个时间序列，从2012年1月1日开始，每秒钟生成一个时间戳，共生成100个时间戳。
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
#创建一个Series对象，其中包含100个随机整数，这些整数的范围在0到500之间，这些整数的索引是上面生成的时间戳。
ts.resample('5Min').sum()
#对Series对象进行重新采样，将数据按照5分钟为一个时间段进行聚合，并对每个时间段内的数据求和。返回一个新的Series对象，其中包含了重新采样后的数据。

2012-01-01    27177
Freq: 5T, dtype: int64

In [494]:
rng

DatetimeIndex(['2012-01-01 00:00:00', '2012-01-01 00:00:01',
               '2012-01-01 00:00:02', '2012-01-01 00:00:03',
               '2012-01-01 00:00:04', '2012-01-01 00:00:05',
               '2012-01-01 00:00:06', '2012-01-01 00:00:07',
               '2012-01-01 00:00:08', '2012-01-01 00:00:09',
               '2012-01-01 00:00:10', '2012-01-01 00:00:11',
               '2012-01-01 00:00:12', '2012-01-01 00:00:13',
               '2012-01-01 00:00:14', '2012-01-01 00:00:15',
               '2012-01-01 00:00:16', '2012-01-01 00:00:17',
               '2012-01-01 00:00:18', '2012-01-01 00:00:19',
               '2012-01-01 00:00:20', '2012-01-01 00:00:21',
               '2012-01-01 00:00:22', '2012-01-01 00:00:23',
               '2012-01-01 00:00:24', '2012-01-01 00:00:25',
               '2012-01-01 00:00:26', '2012-01-01 00:00:27',
               '2012-01-01 00:00:28', '2012-01-01 00:00:29',
               '2012-01-01 00:00:30', '2012-01-01 00:00:31',
               '2012-01-

In [495]:
ts

2012-01-01 00:00:00    381
2012-01-01 00:00:01    159
2012-01-01 00:00:02     86
2012-01-01 00:00:03    422
2012-01-01 00:00:04    484
                      ... 
2012-01-01 00:01:35    383
2012-01-01 00:01:36    372
2012-01-01 00:01:37      6
2012-01-01 00:01:38      1
2012-01-01 00:01:39    260
Freq: S, Length: 100, dtype: int64

In [497]:
#时区表示
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
#创建一个时间序列，从'3/6/2012 00:00'开始，包含5个时间点，每个时间点间隔1天。
ts = pd.Series(np.random.randn(len(rng)), rng)
#生成一个长度为rng的随机数数组，用rng作为索引，将随机数数组转换为pandas的Series对象。
ts

2012-03-06   -1.931034
2012-03-07   -0.027284
2012-03-08    0.519225
2012-03-09    1.936307
2012-03-10   -0.754574
Freq: D, dtype: float64

In [498]:
ts_utc = ts.tz_localize('UTC')
#将ts时间序列的时区设置为UTC（协调世界时），即将时间序列转换为UTC时间。
ts_utc

2012-03-06 00:00:00+00:00   -1.931034
2012-03-07 00:00:00+00:00   -0.027284
2012-03-08 00:00:00+00:00    0.519225
2012-03-09 00:00:00+00:00    1.936307
2012-03-10 00:00:00+00:00   -0.754574
Freq: D, dtype: float64

In [499]:
#转换成其它时区
ts_utc.tz_convert('US/Eastern')
#将一个UTC时间转换为美国东部时间

2012-03-05 19:00:00-05:00   -1.931034
2012-03-06 19:00:00-05:00   -0.027284
2012-03-07 19:00:00-05:00    0.519225
2012-03-08 19:00:00-05:00    1.936307
2012-03-09 19:00:00-05:00   -0.754574
Freq: D, dtype: float64

In [500]:
#转换时间段
rng = pd.date_range('1/1/2012', periods=5, freq='M')
#创建一个时间范围对象rng，从2012年1月1日开始，包含5个月，频率为每月（'M'）
ts = pd.Series(np.random.randn(len(rng)), index=rng)
# 创建一个时间序列对象ts，其中包含与rng相同数量的随机数，使用rng作为索引。
ts

2012-01-31   -1.961276
2012-02-29   -0.363894
2012-03-31   -1.559153
2012-04-30    0.359193
2012-05-31    0.056668
Freq: M, dtype: float64

In [501]:
ps = ts.to_period()
#将ts转换为周期对象ps
ps

2012-01   -1.961276
2012-02   -0.363894
2012-03   -1.559153
2012-04    0.359193
2012-05    0.056668
Freq: M, dtype: float64

In [502]:
ps.to_timestamp()
#将ps转换回时间戳对象

2012-01-01   -1.961276
2012-02-01   -0.363894
2012-03-01   -1.559153
2012-04-01    0.359193
2012-05-01    0.056668
Freq: MS, dtype: float64

Pandas 函数可以很方便地转换时间段与时间戳

In [503]:
prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')
# 创建一个时间段索引，从1990年第一季度到2000年第四季度，频率为每季度，以11月为结束月份。
ts = pd.Series(np.random.randn(len(prng)), prng)
#创建一个随机数值的时间序列，长度与时间段索引相同。
ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9
#将时间序列的索引修改为每月最后一天加一小时再加上9小时，以表示每个季度的结束时间。
ts.head()

1990-03-01 09:00   -0.089416
1990-06-01 09:00    1.798362
1990-09-01 09:00   -1.284090
1990-12-01 09:00    0.001439
1991-03-01 09:00    0.816439
Freq: H, dtype: float64

# 类别型

类别型（Categorical）是一种数据类型，用于表示具有有限数量的可能值的数据。类别型数据通常是字符串或数字，但是它们的值是有限的，例如性别（男/女）、颜色（红/绿/蓝）或血型（A/B/O/AB）等。Pandas中的类别型数据可以提高数据分析的效率和性能，因为它们可以使用整数来存储，而不是使用字符串。这样可以减少内存使用和计算时间，同时还可以提高数据的可读性和可视化效果。

In [513]:
df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 6],
                    "raw_grade": ['a', 'b', 'b', 'a', 'a', 'e']})
df

Unnamed: 0,id,raw_grade
0,1,a
1,2,b
2,3,b
3,4,a
4,5,a
5,6,e


In [514]:
df["grade"] = df["raw_grade"].astype("category")
#将raw_grade列的数据类型转换为category类型。
df["grade"]

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): ['a', 'b', 'e']

In [515]:
df["grade"].cat.categories = ["very good", "good", "very bad"]
#将category类型的数据中的分类标签修改为"very good", "good", "very bad"。

In [508]:
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium",
                                               "good", "very good"])
#将category类型的数据中的分类标签重新排序为"very bad", "bad", "medium", "good", "very good"。
df["grade"]

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): ['very bad', 'bad', 'medium', 'good', 'very good']

In [509]:
df.sort_values(by="grade")#按照grade列的值进行排序。

Unnamed: 0,id,raw_grade,grade
5,6,e,very bad
1,2,b,good
2,3,b,good
0,1,a,very good
3,4,a,very good
4,5,a,very good


In [510]:
df.groupby("grade").size()#按照grade列的值进行分组，并统计每组的大小。

grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

# 数据输入/输出

## 读取CSV文件

In [526]:
#写入CSV文件
df.to_csv('foo.csv')

In [527]:
#读取
pd.read_csv('foo.csv')

Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,2000-01-01,0.002323,0.467800,-0.904467,-0.276890
1,2000-01-02,-1.141990,-0.176003,0.183346,0.397054
2,2000-01-03,-0.352149,1.217163,-0.299848,0.585128
3,2000-01-04,-0.068176,2.208641,1.744691,-0.766616
4,2000-01-05,-1.130445,1.890970,2.597313,-1.936652
...,...,...,...,...,...
995,2002-09-22,-21.646492,-8.781106,27.188948,9.184471
996,2002-09-23,-21.048951,-8.602733,26.599823,9.670182
997,2002-09-24,-21.993389,-9.192363,27.113115,9.823510
998,2002-09-25,-23.544904,-8.824221,27.743635,9.911230


## HDF5

In [528]:
df.to_hdf('foo.h5', 'df')#写入

In [529]:
pd.read_hdf('foo.h5', 'df')#读取

Unnamed: 0,A,B,C,D
2000-01-01,0.002323,0.467800,-0.904467,-0.276890
2000-01-02,-1.141990,-0.176003,0.183346,0.397054
2000-01-03,-0.352149,1.217163,-0.299848,0.585128
2000-01-04,-0.068176,2.208641,1.744691,-0.766616
2000-01-05,-1.130445,1.890970,2.597313,-1.936652
...,...,...,...,...
2002-09-22,-21.646492,-8.781106,27.188948,9.184471
2002-09-23,-21.048951,-8.602733,26.599823,9.670182
2002-09-24,-21.993389,-9.192363,27.113115,9.823510
2002-09-25,-23.544904,-8.824221,27.743635,9.911230


## Excel

In [530]:
df.to_excel('foo.xlsx', sheet_name='Sheet1')#写入

In [531]:
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])#读取

Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,2000-01-01,0.002323,0.467800,-0.904467,-0.276890
1,2000-01-02,-1.141990,-0.176003,0.183346,0.397054
2,2000-01-03,-0.352149,1.217163,-0.299848,0.585128
3,2000-01-04,-0.068176,2.208641,1.744691,-0.766616
4,2000-01-05,-1.130445,1.890970,2.597313,-1.936652
...,...,...,...,...,...
995,2002-09-22,-21.646492,-8.781106,27.188948,9.184471
996,2002-09-23,-21.048951,-8.602733,26.599823,9.670182
997,2002-09-24,-21.993389,-9.192363,27.113115,9.823510
998,2002-09-25,-23.544904,-8.824221,27.743635,9.911230
