# 使用pandas数据整理

pandas是为了解决数据分析任务而创建的，纳入了大量的库和标准数据模型，提供了高效地操作大型数据集所需的工具。

**pandas中的数据结构:**

1. Series: 一维数组，类似于python中的基本数据结构list，区别是series只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。就像数据库中的列数据。
- DataFrame: 二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。
- Panel：三维的数组，可以理解为DataFrame的容器。

In [1]:
import pandas as pd
import numpy as np

## Series对象

In [2]:
numbers_arr = np.array([1, 2, 3, 4, 5, 6])
print(numbers_arr)

numbers = pd.Series(numbers_arr)
numbers

[1 2 3 4 5 6]


0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [3]:
dates = pd.date_range('20180901', periods=6)
dates

DatetimeIndex(['2018-09-01', '2018-09-02', '2018-09-03', '2018-09-04',
               '2018-09-05', '2018-09-06'],
              dtype='datetime64[ns]', freq='D')

## DataFrame对象

In [4]:
df = pd.DataFrame({
    'Dates': dates,
    'Numbers1': numbers,
    'Numbers2': 7 - numbers
})

df

Unnamed: 0,Dates,Numbers1,Numbers2
0,2018-09-01,1,6
1,2018-09-02,2,5
2,2018-09-03,3,4
3,2018-09-04,4,3
4,2018-09-05,5,2
5,2018-09-06,6,1


In [5]:
df.dtypes

Dates       datetime64[ns]
Numbers1             int64
Numbers2             int64
dtype: object

In [6]:
df.head()

Unnamed: 0,Dates,Numbers1,Numbers2
0,2018-09-01,1,6
1,2018-09-02,2,5
2,2018-09-03,3,4
3,2018-09-04,4,3
4,2018-09-05,5,2


In [7]:
df.tail(3)

Unnamed: 0,Dates,Numbers1,Numbers2
3,2018-09-04,4,3
4,2018-09-05,5,2
5,2018-09-06,6,1


In [8]:
df.index

RangeIndex(start=0, stop=6, step=1)

In [9]:
df.columns

Index(['Dates', 'Numbers1', 'Numbers2'], dtype='object')

In [10]:
df.values

array([[Timestamp('2018-09-01 00:00:00'), 1, 6],
       [Timestamp('2018-09-02 00:00:00'), 2, 5],
       [Timestamp('2018-09-03 00:00:00'), 3, 4],
       [Timestamp('2018-09-04 00:00:00'), 4, 3],
       [Timestamp('2018-09-05 00:00:00'), 5, 2],
       [Timestamp('2018-09-06 00:00:00'), 6, 1]], dtype=object)

In [11]:
df.describe()

Unnamed: 0,Numbers1,Numbers2
count,6.0,6.0
mean,3.5,3.5
std,1.870829,1.870829
min,1.0,1.0
25%,2.25,2.25
50%,3.5,3.5
75%,4.75,4.75
max,6.0,6.0


In [12]:
df.T

Unnamed: 0,0,1,2,3,4,5
Dates,2018-09-01 00:00:00,2018-09-02 00:00:00,2018-09-03 00:00:00,2018-09-04 00:00:00,2018-09-05 00:00:00,2018-09-06 00:00:00
Numbers1,1,2,3,4,5,6
Numbers2,6,5,4,3,2,1


In [13]:
df.sort_index(axis=0, ascending=True)

Unnamed: 0,Dates,Numbers1,Numbers2
0,2018-09-01,1,6
1,2018-09-02,2,5
2,2018-09-03,3,4
3,2018-09-04,4,3
4,2018-09-05,5,2
5,2018-09-06,6,1


In [14]:
df.sort_values('Numbers2')

Unnamed: 0,Dates,Numbers1,Numbers2
5,2018-09-06,6,1
4,2018-09-05,5,2
3,2018-09-04,4,3
2,2018-09-03,3,4
1,2018-09-02,2,5
0,2018-09-01,1,6


## 选择数据

In [15]:
df.Dates

0   2018-09-01
1   2018-09-02
2   2018-09-03
3   2018-09-04
4   2018-09-05
5   2018-09-06
Name: Dates, dtype: datetime64[ns]

In [16]:
df[3:6]

Unnamed: 0,Dates,Numbers1,Numbers2
3,2018-09-04,4,3
4,2018-09-05,5,2
5,2018-09-06,6,1


In [17]:
df.index = dates
df

Unnamed: 0,Dates,Numbers1,Numbers2
2018-09-01,2018-09-01,1,6
2018-09-02,2018-09-02,2,5
2018-09-03,2018-09-03,3,4
2018-09-04,2018-09-04,4,3
2018-09-05,2018-09-05,5,2
2018-09-06,2018-09-06,6,1


In [18]:
df.loc['20180901']

Dates       2018-09-01 00:00:00
Numbers1                      1
Numbers2                      6
Name: 2018-09-01 00:00:00, dtype: object

In [19]:
df[df.Numbers2 > 3]

Unnamed: 0,Dates,Numbers1,Numbers2
2018-09-01,2018-09-01,1,6
2018-09-02,2018-09-02,2,5
2018-09-03,2018-09-03,3,4


In [20]:
isin = df.Numbers2.isin(range(1, 6))
print(isin)

df[isin]

2018-09-01    False
2018-09-02     True
2018-09-03     True
2018-09-04     True
2018-09-05     True
2018-09-06     True
Freq: D, Name: Numbers2, dtype: bool


Unnamed: 0,Dates,Numbers1,Numbers2
2018-09-02,2018-09-02,2,5
2018-09-03,2018-09-03,3,4
2018-09-04,2018-09-04,4,3
2018-09-05,2018-09-05,5,2
2018-09-06,2018-09-06,6,1


In [21]:
df['Numbers3'] = df.Numbers1 + df.Numbers2
df['Numbers4'] = df.Numbers1 / df.Numbers2
print(df.dtypes)
df

Dates       datetime64[ns]
Numbers1             int64
Numbers2             int64
Numbers3             int64
Numbers4           float64
dtype: object


Unnamed: 0,Dates,Numbers1,Numbers2,Numbers3,Numbers4
2018-09-01,2018-09-01,1,6,7,0.166667
2018-09-02,2018-09-02,2,5,7,0.4
2018-09-03,2018-09-03,3,4,7,0.75
2018-09-04,2018-09-04,4,3,7,1.333333
2018-09-05,2018-09-05,5,2,7,2.5
2018-09-06,2018-09-06,6,1,7,6.0


## 导出导入数据

In [22]:
df.to_csv('df.csv')

In [23]:
df2 = pd.read_csv('df.csv')
df2

Unnamed: 0.1,Unnamed: 0,Dates,Numbers1,Numbers2,Numbers3,Numbers4
0,2018-09-01,2018-09-01,1,6,7,0.166667
1,2018-09-02,2018-09-02,2,5,7,0.4
2,2018-09-03,2018-09-03,3,4,7,0.75
3,2018-09-04,2018-09-04,4,3,7,1.333333
4,2018-09-05,2018-09-05,5,2,7,2.5
5,2018-09-06,2018-09-06,6,1,7,6.0


## 缺失数据处理

In [24]:
df3 = df2.dropna()
df3

Unnamed: 0.1,Unnamed: 0,Dates,Numbers1,Numbers2,Numbers3,Numbers4
0,2018-09-01,2018-09-01,1,6,7,0.166667
1,2018-09-02,2018-09-02,2,5,7,0.4
2,2018-09-03,2018-09-03,3,4,7,0.75
3,2018-09-04,2018-09-04,4,3,7,1.333333
4,2018-09-05,2018-09-05,5,2,7,2.5
5,2018-09-06,2018-09-06,6,1,7,6.0


In [25]:
df4 = df2.fillna(100)
df4

Unnamed: 0.1,Unnamed: 0,Dates,Numbers1,Numbers2,Numbers3,Numbers4
0,2018-09-01,2018-09-01,1,6,7,0.166667
1,2018-09-02,2018-09-02,2,5,7,0.4
2,2018-09-03,2018-09-03,3,4,7,0.75
3,2018-09-04,2018-09-04,4,3,7,1.333333
4,2018-09-05,2018-09-05,5,2,7,2.5
5,2018-09-06,2018-09-06,6,1,7,6.0
