# Series结构
Series结构是pandas的一维数据结构，由数据值和标签组成，数据值与标签一一对应。Series可以保存任何数据标签默认整数，从零开始递增。

![Series结构](https://c.biancheng.net/uploads/allimg/210901/15400SM1-0.gif)


## 创建Series对象
创建Series对象使用
```python
import pandas as pd
s=pd.Series( data, index, dtype, copy)
```
参数说明：

| 参数名称  | 描述                                     |
|-------|----------------------------------------|
| data  | 输入的数据，可以是列表、常量、ndarray 数组等。            |
| index | 索引值必须是惟一的，如果没有传递索引，则默认为 np.arrange(n)。 |
| dtype | dtype表示数据类型，如果没有提供，则会自动判断得出。           |
| copy  | 表示对 data 进行拷贝，默认为 False。               |


1. 创建空Series

In [76]:
import pandas as pd

s = pd.Series()
print(s)

Series([], dtype: object)


2. ndarray创建Series
ndarray是Numpy中的数组类型，传递索引参数时必须与数据相同长度，默认range(n)，n为数组长度

**默认索引**

In [77]:
import pandas as pd
import numpy as np

data = np.array([1, 2, 3, 4, 5, 6])
s = pd.Series(data)
print(s)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64


**指定索引**

In [78]:
import pandas as pd
import numpy as np

data = np.array([1, 2, 3, 4, 5, 6])
s = pd.Series(data, index=[10, 20, 30, 40, 50, 60])
print(s)

10    1
20    2
30    3
40    4
50    5
60    6
dtype: int64


3. dict创建Series
使用dict创建Series，如果没有传索引，则索引为字典key，如果传了索引则将索引与字典key一一对应，没有对应数据则值为NaN

**未传索引**

In [9]:
import pandas as pd

d = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(d)
print(s)

a    1
b    2
c    3
dtype: int64


**传索引**

In [80]:
import pandas as pd

d = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(d, index=['c', 'b', 'd'])
print(s)

c    3.0
b    2.0
d    NaN
dtype: float64


4. 常量创建Series
如果数据是常量值，则必须提供索引，否则Series只有一个数据

In [81]:
import pandas as pd

s = pd.Series(5, index=range(3))
print(s)

0    5
1    5
2    5
dtype: int64


## 访问Series数据
1. 位置索引访问
与ndarray和list相同，使用元素下标访问，从0开始

In [8]:
import pandas as pd

d = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print('位置下标')
print(d[2])  #位置下标
print('索引下标')
print(d['c'])  #索引下标
print('切片访问')
print(d[2:])  #切片访问
print('切片访问最后2个元素')
print(d[-2:])  #切片访问最后2个元素

位置下标
3
索引下标
3
切片访问
c    3
d    4
dtype: int64
切片访问最后2个元素
c    3
d    4
dtype: int64


  print(d[2])  #位置下标


2. 索引标签访问
类似dict，把索引当作key，Series序列元素值当作value，不存在则报错

In [83]:
import pandas as pd

d = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print('索引标签访问')
print(d['c'])  #索引标签访问
print('索引标签访问多个值')
print(d[['a', 'c', 'd']])  #索引标签访问多个值
print('访问不存在的标签')
print(d['e'])  #访问不存在的标签

索引标签访问
3
索引标签访问多个值
a    1
c    3
d    4
dtype: int64
访问不存在的标签


KeyError: 'e'

## Series 常用属性

| 名称     | 属性                          |
|--------|-----------------------------|
| axes   | 以列表形式返回所有行索引标签              |
| dtype  | 返回对象的数据类型                   |
| empty  | 返回一个空的Series对象              |
| ndim   | 返回输入数据的维度                   |
| size   | 返回数据的元素数量                   |
| values | 以ndarray的形式返回Series对象       |
| index  | 返回一个RangeIndex对象用来描述索引的取值范围 |

## Series常用方法
1. head()&tail()查看数据，若要查看部分数据，可以使用head()和tail()方法
head(n)返回前n行数据，默认前5行

In [None]:
import pandas as pd

d = pd.Series(range(5))
print(d)
print('返回前3行')
print(d.head(3))

tail(n)返回最后n行数据，默认5行

In [None]:
import pandas as pd

d = pd.Series(range(5))
print(d)
print('返回后3行')
print(d.tail(3))

2. isnull和nonull检查缺失值
即检查检查不存在、丢失、缺少的数据
- isnull：如果值为不存在或缺失则返回True
- nonull：如果值为不存在或缺失则返回False

In [None]:
import pandas as pd

d = pd.Series([1, 2, 4, 5, None])
print(pd.isnull(d))
print(pd.notnull(d))

# DataFrame结构
pandas在进行数据分析时最常用的数据结构之一。
DataFrame是表格型的数据结构，既有行标签(index)，又有列标签(columns)，被称为异构数据表，即表格中每列的数据类型可以不同
![DataFrame结构](https://c.biancheng.net/uploads/allimg/210901/154931A54-0.gif)
上表中每列的数据类型如下

| Column | Type    |
|--------|---------|
| name   | String  |
| age    | Integer |
| gender | String  |
| rating | float   |

DataFrame的每一列数据都可以看作是一个Series结构，只不过DataFrame为列添加了列标签

DataFrame结构的特点
- 表格型数据，有行和列
- 每一列允许使用不同的数据类型
- 每个数据值都可以修改
- 行、列允许增加、删除
- 可以对行和列执行算术运算
- 有两个方向的标签轴，即行标签和列标签


## 创建DataFrame对象
语法格式
```python
import pandas as pd
pd.DataFrame( data, index, columns, dtype, copy)
```

| 参数名称    | 说明                                                       |
|---------|----------------------------------------------------------|
| data    | 输入的数据，可以是 ndarray，series，list，dict，标量以及一个 DataFrame。     |
| index   | 行标签，如果没有传递 index 值，则默认行标签是 np.arange(n)，n 代表 data 的元素个数。 |
| columns | 列标签，如果没有传递 columns 值，则默认列标签是 np.arange(n)。               |
| dtype   | dtype表示每一列的数据类型。                                         |
| copy    | 默认为 False，表示复制数据 data。                                   |

1. 空DataFrame对象

In [None]:
import pandas as pd

df = pd.DataFrame()
print(df)

2. 列表创建DataFrame
可以使用简单列表或嵌套列表创建

In [None]:
# 使用简单列表创建
import pandas as pd

data = [1, 2, 3, 4]
df = pd.DataFrame(data)
print(df)

In [None]:
# 使用嵌套列表创建，列表长度不等，缺失数据为NaN
import pandas as pd

data = [['Jack', 20], ['Alice', 18], ['John', 25]]
df = pd.DataFrame(data, index=[1, 2, 3], columns=['name', 'age'])
print(df)

3. 字典嵌套列表创建DataFrame
字典中键对应的值的元素长度即数组长度需相同，若传索引则索引长度等于数组长度，默认range(n)，n为数组长度。

In [None]:
import pandas as pd

data = {'name': ['Jack', 'Alice', 'John'], 'age': [18, 22, 31]}
df = pd.DataFrame(data, index=[1, 2, 3])
print(df)

4. 列表嵌套字典创建DataFrame
字典键做列名，缺失的数据为NaN

In [None]:
import pandas as pd

data = [{'name': 'Jace', 'age': 18}, {'name': 'Alice', 'age': 32, }, {'name': 'John', 'age': 31, 'size': 3}, ]
df = pd.DataFrame(data)
print(df)

5. Series创建DataFrame

In [84]:
import pandas as pd

d = {
    'one': pd.Series([1, 2, 3, 4], index=['w', 'x', 'y', 'z']),
    'two': pd.Series([9, 8, 7], index=['m', 'x', 'y'])
}
df = pd.DataFrame(d)
print(df)

   one  two
m  NaN  9.0
w  1.0  NaN
x  2.0  8.0
y  3.0  7.0
z  4.0  NaN


## 列索引操作DataFrame
DataFrame可以使用列列索引(column index)来完成选取，添加和删除操作

1. 列索引选取数据列

In [85]:
import pandas as pd

d = {
    'one': pd.Series([1, 2, 3, 4], index=['w', 'x', 'y', 'z']),
    'two': pd.Series([9, 8, 7], index=['m', 'x', 'y'])
}
df = pd.DataFrame(d)
print(df['one'])

m    NaN
w    1.0
x    2.0
y    3.0
z    4.0
Name: one, dtype: float64


2. 列索引添加数据列

In [86]:
import pandas as pd

d = {
    'one': pd.Series([1, 2, 3, 4], index=['w', 'x', 'y', 'z']),
    'two': pd.Series([9, 8, 7], index=['m', 'x', 'y'])
}
df = pd.DataFrame(d)
print('使用列索引创建新数据列')
df['three'] = pd.Series([10, 20, 30], index=['m', 'x', 'y'])
print(df)
print('对已存在的数据列做加法运算')
df['four'] = df['one'] + df['two']
print(df)
print('使用insert方法插入新的列')
df.insert(2, column='two.5', value=[3, 4, 5, 19, 20])  # value数组长度需和原来的列数组长度相等
print(df)

使用列索引创建新数据列
   one  two  three
m  NaN  9.0   10.0
w  1.0  NaN    NaN
x  2.0  8.0   20.0
y  3.0  7.0   30.0
z  4.0  NaN    NaN
对已存在的数据列做加法运算
   one  two  three  four
m  NaN  9.0   10.0   NaN
w  1.0  NaN    NaN   NaN
x  2.0  8.0   20.0  10.0
y  3.0  7.0   30.0  10.0
z  4.0  NaN    NaN   NaN
使用insert方法插入新的列
   one  two  two.5  three  four
m  NaN  9.0      3   10.0   NaN
w  1.0  NaN      4    NaN   NaN
x  2.0  8.0      5   20.0  10.0
y  3.0  7.0     19   30.0  10.0
z  4.0  NaN     20    NaN   NaN


3. 索引删除数据列
pop()和del都能够删除DataFrame中的数据列

In [87]:
import pandas as pd

d = {'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
     'three': pd.Series([10, 20, 30], index=['a', 'b', 'c'])}
df = pd.DataFrame(d)
print('原DataFrame数据')
print(df)
print('pop删除后数据')
df.pop('one')
print(df)
print('del删除后数据')
del df['two']
print(df)

原DataFrame数据
   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN
pop删除后数据
   two  three
a    1   10.0
b    2   20.0
c    3   30.0
d    4    NaN
del删除后数据
   three
a   10.0
b   20.0
c   30.0
d    NaN


## 行索引操作DataFrame
1. 标签索引选取
将标签传给loc函数来选取数据

In [88]:
import pandas as pd

data = {'one': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
        'two': pd.Series([9, 8, 7], index=['a', 'b', 'c'])}
df = pd.DataFrame(data)
print(df.loc['a'])

one    1.0
two    9.0
Name: a, dtype: float64


    loc函数允许传入两个参数行和列，但只能接受标签索引

2. 整数索引选取
将数据行所在的索引位置传给iloc函数选取

In [89]:
import pandas as pd

data = {'one': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
        'two': pd.Series([9, 8, 7], index=['a', 'b', 'c'])}
df = pd.DataFrame(data)
print(df.iloc[2])

one    3.0
two    7.0
Name: c, dtype: float64


iloc允许传入两个参数行和列，但只能接受整数索引

3. 切片操作多行选取

In [90]:
import pandas as pd

data = {'one': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
        'two': pd.Series([9, 8, 7], index=['a', 'b', 'c'])}
df = pd.DataFrame(data)
print(df[:2])  #左闭又开

   one  two
a    1  9.0
b    2  8.0


4. 添加数据行
使用concat函数可以在将多个DataFrame链接成一个，达到添加数据行效果

In [91]:
import pandas as pd

data = {'one': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
        'two': pd.Series([9, 8, 7], index=['a', 'b', 'c'])}
df1 = pd.DataFrame(data)
df2 = pd.DataFrame(data)
print(pd.concat([df1, df2]))

   one  two
a    1  9.0
b    2  8.0
c    3  7.0
d    4  NaN
a    1  9.0
b    2  8.0
c    3  7.0
d    4  NaN


5. 删除数据行
可以使用索引标签从DataFrame中删除某一行数据，如果索引标签重复，则一起删除

In [101]:
data = {'one': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
        'two': pd.Series([9, 8, 7], index=['a', 'b', 'c'])}
df = pd.DataFrame(data)
print(df)
df = df.drop('d')
print(df)

   one  two
a    1  9.0
b    2  8.0
c    3  7.0
d    4  NaN
   one  two
a    1  9.0
b    2  8.0
c    3  7.0


## 常用的属性和方法
与Series类似

| 名称      | 属性&方法描述                             |
|---------|-------------------------------------|
| T       | 行和列转置。                              |
| axes    | 返回一个仅以行轴标签和列轴标签为成员的列表。              |
| dtypes  | 返回每列数据的数据类型。                        |
| empty   | DataFrame中没有数据或者任意坐标轴的长度为0，则返回True。 |
| ndim    | 轴的数量，也指数组的维数。                       |
| shape   | 返回一个元组，表示了 DataFrame 维度。            |
| size    | DataFrame中的元素数量。                    |
| values  | 使用 numpy 数组表示 DataFrame 中的元素值。      |
| head()  | 返回前 n 行数据。                          |
| tail()  | 返回后 n 行数据。                          |
| shift() | 将行或列移动指定的步幅长度                       |

创建演示数据

In [25]:
import pandas as pd
import numpy as np

d = {'Name': pd.Series(['c语言中文网', '编程帮', "百度", '360搜索', '谷歌', '微学苑', 'Bing搜索']),
     'years': pd.Series([5, 6, 15, 28, 3, 19, 23]),
     'Rating': pd.Series([4.23, 3.24, 3.98, 2.56, 3.20, 4.6, 3.8])}
#构建DataFrame
df = pd.DataFrame(d)
#输出series
print(df)

     Name  years  Rating
0  c语言中文网      5    4.23
1     编程帮      6    3.24
2      百度     15    3.98
3   360搜索     28    2.56
4      谷歌      3    3.20
5     微学苑     19    4.60
6  Bing搜索     23    3.80


1. T：返回DataFrame的转置，即行列交换

In [50]:
print(df.T)

             0     1     2      3    4    5       6
Name    c语言中文网   编程帮    百度  360搜索   谷歌  微学苑  Bing搜索
years        5     6    15     28    3   19      23
Rating    4.23  3.24  3.98   2.56  3.2  4.6     3.8


2. axes：返回有行标签和列标签组成的列表

In [49]:
print(df.axes)

[RangeIndex(start=0, stop=7, step=1), Index(['Name', 'years', 'Rating'], dtype='object')]


3. dtypes：返回每一列的数据类型

In [48]:
print(df.dtypes)

Name       object
years       int64
Rating    float64
dtype: object


4. empty：判断DataFrame是否为空

In [47]:
print(df.empty)

False


5. ndim: 返回DataFrame的维数

In [46]:
print(df.ndim)

2


6. shape: 返回DataFrame维度的元组，(a,b)a为行数，b为列数

In [45]:
print(df.shape)

(7, 3)


7. size：返回DataFrame中元素的数量

In [44]:
print(df.size)

21


8. values: 以ndarray形式返回DataFrame中的数据

In [43]:
print(df.values)

[['c语言中文网' 5 4.23]
 ['编程帮' 6 3.24]
 ['百度' 15 3.98]
 ['360搜索' 28 2.56]
 ['谷歌' 3 3.2]
 ['微学苑' 19 4.6]
 ['Bing搜索' 23 3.8]]


9. head()&tail()：查看DataFrame部分数据，head(n)查看前n行，tail(n)查看后n行，默认5行

In [41]:
print(df.head())

     Name  years  Rating
0  c语言中文网      5    4.23
1     编程帮      6    3.24
2      百度     15    3.98
3   360搜索     28    2.56
4      谷歌      3    3.20


In [51]:
print(df.tail(2))

     Name  years  Rating
5     微学苑     19     4.6
6  Bing搜索     23     3.8


10. shift(): 移动行或列
shift()函数语法格式
```python
DataFrame.shift(periods=1, freq=None, axis=0)
```
参数说明：

| 参数名称       | 说明                                                 |
|------------|----------------------------------------------------|
| peroids    | 类型为int，表示在特定的轴上移动指定的步幅，可以是正数，也可以是负数，默认值为1。                 |
| freq       | 日期偏移量，默认值为None，适用于时间序。取值为符合时间规则的字符串。               |
| axis       | 如果是 0 或者 "index" 表示上下移动，如果是 1 或者 "columns" 则会左右移动。 |
| fill_value | 该参数用来填充缺失值。                                        |



In [7]:
import pandas as pd

info = pd.DataFrame({'a_data': [40, 28, 39, 32, 18],
                     'b_data': [20, 37, 41, 35, 45],
                     'c_data': [22, 17, 11, 25, 15]})
print(info)
#移动幅度为3
print(info.shift(periods=3, fill_value=4444))

   a_data  b_data  c_data
0      40      20      22
1      28      37      17
2      39      41      11
3      32      35      25
4      18      45      15
   a_data  b_data  c_data
0    4444    4444    4444
1    4444    4444    4444
2    4444    4444    4444
3      40      20      22
4      28      37      17
