## pandas基本介绍

numpy其实就是序列化好的矩阵，pandas更像一个字典形式的numpy，numpy是一个列表的话，pandas相当于一个字典，因为pandas可以给不同行不同列重新命名，比如某行是房屋价格，某行是房屋的面积

In [1]:
import pandas as pd
import numpy as np

pandas中主要有两种数据结构：series和dataframe

## 创建Series

Series类似表格中的一个列(column)，类似于一维数组，可以通过一维数组来创建

In [2]:
s = pd.Series([1,3,6,np.nan,44,1])
print(s)

0     1.0
1     3.0
2     6.0
3     NaN
4    44.0
5     1.0
dtype: float64


pandas.Series( data, index, dtype, name, copy)，index：数据索引标签，如果不指定，默认从 0 开始

## 创建时间序列

pandas.date_range()生成一个固定频率的时间索引。可作为描述dataframe的行索引

In [3]:
dates = pd.date_range('20220101',periods=6)
print(dates)

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06'],
              dtype='datetime64[ns]', freq='D')


## 创建DateFrame

numpy.random.randn(d0,d1,d2,...,dn)，randn函数返回一个或一组样本，具有标准正态分布，将上面的时间序列作为行索引

In [4]:
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
df

Unnamed: 0,a,b,c,d
2022-01-01,-0.552985,1.089651,-0.121608,0.156703
2022-01-02,-0.552788,0.691991,-1.168671,0.329971
2022-01-03,-0.407416,0.742799,-1.166687,1.913535
2022-01-04,1.010987,-0.500611,1.34483,-0.398496
2022-01-05,0.40305,0.778699,-1.421099,1.022338
2022-01-06,1.044112,0.496923,0.171829,0.987612


DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由Series组成的字典(共同用一个索引)。DateFrame就类似于二维的numpy(矩阵)，index作为行索引，columns作为列索引

如果不传入行索引和列索引，默认用数字作为行索引和列索引

In [5]:
df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
df1

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


用字典创建DataFrame

In [6]:
df2 = pd.DataFrame({'A':pd.Timestamp('20220612'),'B':pd.Series(1)})
df2

Unnamed: 0,A,B
0,2022-06-12,1


字母后面代表该列下面的数据，如果每列数据长度不同，就以最长的数据为准

In [7]:
df2 = pd.DataFrame({'A':1.,
                    'B':pd.Timestamp('20220612'),
                    'C':pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D':np.array([3]*4,dtype='int32'),
                    'E':pd.Categorical(["test","train","test","train"]),
                    'F':'foo'})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2022-06-12,1.0,3,test,foo
1,1.0,2022-06-12,1.0,3,train,foo
2,1.0,2022-06-12,1.0,3,test,foo
3,1.0,2022-06-12,1.0,3,train,foo


## 查看DataFrame的数据类型

In [8]:
print(df2.dtypes)

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object


## 查看DataFrame的行索引

In [9]:
print(df2.index)

Int64Index([0, 1, 2, 3], dtype='int64')


## 查看DataFrame的列索引

In [10]:
print(df2.columns)

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')


## 查看DataFrame的所有值

In [11]:
print(df2.values)

[[1.0 Timestamp('2022-06-12 00:00:00') 1.0 3 'test' 'foo']
 [1.0 Timestamp('2022-06-12 00:00:00') 1.0 3 'train' 'foo']
 [1.0 Timestamp('2022-06-12 00:00:00') 1.0 3 'test' 'foo']
 [1.0 Timestamp('2022-06-12 00:00:00') 1.0 3 'train' 'foo']]


## 查看描述性统计

只描述数字列

In [12]:
print(df2.describe())

         A    C    D
count  4.0  4.0  4.0
mean   1.0  1.0  3.0
std    0.0  0.0  0.0
min    1.0  1.0  3.0
25%    1.0  1.0  3.0
50%    1.0  1.0  3.0
75%    1.0  1.0  3.0
max    1.0  1.0  3.0


## 数据转置

In [13]:
print(df2.T)

                     0                    1                    2  \
A                  1.0                  1.0                  1.0   
B  2022-06-12 00:00:00  2022-06-12 00:00:00  2022-06-12 00:00:00   
C                  1.0                  1.0                  1.0   
D                    3                    3                    3   
E                 test                train                 test   
F                  foo                  foo                  foo   

                     3  
A                  1.0  
B  2022-06-12 00:00:00  
C                  1.0  
D                    3  
E                train  
F                  foo  


## 按列索引排序

对行操作，横着排

In [14]:
df2.sort_index(axis=1,ascending=False) #降序

Unnamed: 0,F,E,D,C,B,A
0,foo,test,3,1.0,2022-06-12,1.0
1,foo,train,3,1.0,2022-06-12,1.0
2,foo,test,3,1.0,2022-06-12,1.0
3,foo,train,3,1.0,2022-06-12,1.0


## 按索引排序

axis=0对列操作，按index排序，axis=1对行操作，按columns排序。默认为升序排列

In [15]:
df2.sort_index(axis=0,ascending=False)

Unnamed: 0,A,B,C,D,E,F
3,1.0,2022-06-12,1.0,3,train,foo
2,1.0,2022-06-12,1.0,3,test,foo
1,1.0,2022-06-12,1.0,3,train,foo
0,1.0,2022-06-12,1.0,3,test,foo


## 按值排序

对某一列按值排序(必须指定by参数)

In [16]:
df2.sort_values(by='E')

Unnamed: 0,A,B,C,D,E,F
0,1.0,2022-06-12,1.0,3,test,foo
2,1.0,2022-06-12,1.0,3,test,foo
1,1.0,2022-06-12,1.0,3,train,foo
3,1.0,2022-06-12,1.0,3,train,foo
