## Series结构
Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

### 1、创建
#### 1）列表/数组作为数据源创建series

In [2]:
# 列表作为数据源创建series
import pandas as pd
import numpy as np
ar_list = [3,4,5,10,3]
s1 = pd.Series(ar_list)
print(s1)
print(type(s1))

0     3
1     4
2     5
3    10
4     3
dtype: int64
<class 'pandas.core.series.Series'>


In [3]:
# 数组作为数据源
np_rand = np.arange(1,6)
s1 = pd.Series(np_rand)
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

- <b>通过index和values属性取得对应的标签和值</b>

In [4]:
s1.index

RangeIndex(start=0, stop=5, step=1)

In [6]:
list(s1.index)

[0, 1, 2, 3, 4]

In [26]:
s1.values

array([ 1, 50,  3,  4,  5, 40, 30])

- <b>通过标签取得对应的值或者修改对应的值

In [7]:
s1[1]

2

In [9]:
s1[1] = 50 
s1

0     1
1    50
2     3
3     4
4     5
dtype: int64

In [11]:
# s1[-1]
# 会报错。默认的索引不能使用负值从后往前找元素
# 但是可以赋值，相当于新增数据
s1[-1] = 40
s1

 0     1
 1    50
 2     3
 3     4
 4     5
-1    40
dtype: int64

In [12]:
s1.index

Int64Index([0, 1, 2, 3, 4, -1], dtype='int64')

In [16]:
s1["a"] = 30
s1

0      1
1     50
2      3
3      4
4      5
-1    40
a     30
dtype: int64

In [17]:
s1.index

Index([0, 1, 2, 3, 4, -1, 'a'], dtype='object')

### 2）字典作为数据源创建series

In [23]:
d = {'a':1, 'b':2, 'c':3}
ser = pd.Series(d)
ser

a    1
b    2
c    3
dtype: int64

- <b>通过index和values属性取得对应的标签和值

In [24]:
ser.index

Index(['a', 'b', 'c'], dtype='object')

In [25]:
ser.values

array([1, 2, 3])

- <b>通过标签取得对应的值或者修改对应的值

In [27]:
ser['a']

1

In [29]:
ser['s'] = 50
ser

a     1
b     2
c     3
s    50
dtype: int64

In [31]:
# index没有整形时，可以通过标签下标取值
# series取值优先使用标签索引
ser[-1]


50

### 2、参数说明

 - a、index参数
 索引值必须是可散列的，并且与数据长度相同，允许使用非唯一索引值，如未提供将默认Rangeindex（0，1，2，3，……）

In [3]:
# 使用显示索引
data = np.array(['a','b','c','d'])
s = pd.Series(data, index=[100,101,102,103])
s

100    a
101    b
102    c
103    d
dtype: object

In [4]:
# 从指定索引的字典构造序列
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d)
ser

a    1
b    2
c    3
dtype: int64

In [5]:
# 当传递索引值未匹配对应的字典时，使用NAN（非数字）填充
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d,index=['x','b','z'])
ser
# 注意：索引首先使用字典中的键构建，

x    NaN
b    2.0
z    NaN
dtype: float64

In [6]:
# 通过匹配的索引值改变Series数据的顺序
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d, index=['c','b','a'])
ser

c    3
b    2
a    1
dtype: int64

- b、name参数，给Series对象起个名称

In [7]:
dict_data1 = {
    'Beijing':100,
    'Shanghai':200,
    'Shengzhen':300
}
data1 = pd.Series(dict_data1)
data1

Beijing      100
Shanghai     200
Shengzhen    300
dtype: int64

In [8]:
data1.name = "city_data"
data1.index.name = "city_name"
data1

city_name
Beijing      100
Shanghai     200
Shengzhen    300
Name: city_data, dtype: int64

In [9]:
# 使用Series创建DataFrame类型
df = pd.DataFrame(data1)
print(df,type(df))
print("*"*20)

print(df['city_data'],type(df['city_data']))

           city_data
city_name           
Beijing          100
Shanghai         200
Shengzhen        300 <class 'pandas.core.frame.DataFrame'>
********************
city_name
Beijing      100
Shanghai     200
Shengzhen    300
Name: city_data, dtype: int64 <class 'pandas.core.series.Series'>


- c、copy参数，默认false，仅对数组和列表有影响

### 3、Series索引/切片

### 1.下标索引
类似于列表索引，标签索引和位置索引刚好一致，使用标签索引。
当使用负值时会报错

### 2、标签索引

In [2]:
# 索引标签访问单个元素
s = pd.Series(np.random.rand(5), index=list("abcde"))
print(s['b'])

0.2753776234910611


In [4]:
# 索引标签访问多个元素值
s = pd.Series(np.arange(1,6), index=list("abcde"))
print(s[['a','c','d']])

a    1
c    3
d    4
dtype: int64


### 3、切片

- Series使用标签切片运算与普通的Python切片运算不同：Series使用标签切片时，其末端是包含的。
- Series使用Python切片运算即使用位置数值切片，其末端是不包含的

In [5]:
# 通过下标切片
s = pd.Series(np.random.rand(10))
s

0    0.974561
1    0.594126
2    0.167755
3    0.718405
4    0.121574
5    0.974081
6    0.565124
7    0.248845
8    0.898487
9    0.123297
dtype: float64

In [9]:
s[1:5]    #切片时优先使用位置索引，取值时优先使用标签索引

1    0.594126
2    0.167755
3    0.718405
4    0.121574
dtype: float64

In [12]:
s = pd.Series([1,2,3,4,5], index = list("abcde"))
s[-3:]

c    3
d    4
e    5
dtype: int64

In [14]:
# 通过标签切片
# Series使用标签切片，其末端是包含的
s1 = pd.Series([1,2,3,4,5], index = list("abcde"))
s1['b':'d']

b    2
c    3
d    4
dtype: int64

注意：
位置索引和标签索引在index为数值时不同
- 当index为数值类型时，索引使用的是名称索引
- 切片时，index为数值时，切片使用位置切片

# Series数据结构，基本技巧
## 1、查看前几条和后几条数据

In [15]:
s = pd.Series(np.random.rand(15))
s

0     0.343603
1     0.406490
2     0.164717
3     0.007091
4     0.667200
5     0.798195
6     0.972140
7     0.782768
8     0.931301
9     0.881787
10    0.850331
11    0.758606
12    0.323112
13    0.019143
14    0.524756
dtype: float64

In [18]:
s.head()   #默认查看前五条
s.head(1)
s.tail()   #默认查看后五条

10    0.850331
11    0.758606
12    0.323112
13    0.019143
14    0.524756
dtype: float64

## 2、重新索引reindex
使用可选填充逻辑，使Series符合新索引


In [19]:
s = pd.Series(np.random.rand(5), index = list("abcde"))
print(s)

s1 = s.reindex(list("cde12")) #
print(s1)

a    0.330269
b    0.293831
c    0.753286
d    0.856022
e    0.255850
dtype: float64
c    0.753286
d    0.856022
e    0.255850
1         NaN
2         NaN
dtype: float64


In [20]:
# 设置填充值
s2 = s.reindex(list("cde12"), fill_value=0)
s2

c    0.753286
d    0.856022
e    0.255850
1    0.000000
2    0.000000
dtype: float64

## 3、对齐运算
### 是数据清洗的重要过程，可以按索引对其进行运算，如果没有对齐的位置补充NaN

In [22]:
s1 = pd.Series(np.random.rand(3), index = ['tom', 'jerry', 'mate'])

s2 = pd.Series(np.random.rand(3), index = ['tom','jane','lily'])

print(s1)
print("=="*10)
print(s2)
print("=="*10)
print(s1+s2)

tom      0.128923
jerry    0.139549
mate     0.359016
dtype: float64
tom     0.049862
jane    0.227580
lily    0.424400
dtype: float64
jane          NaN
jerry         NaN
lily          NaN
mate          NaN
tom      0.178785
dtype: float64


## 4、删除和添加

In [32]:
# 删除
s = pd.Series(np.random.rand(5), index = list("abcde"))

s1 = s.drop("a")   #返回删除后的结果，原值不变

print(s)
print(s1)

a    0.868985
b    0.376600
c    0.919770
d    0.120538
e    0.324233
dtype: float64
b    0.376600
c    0.919770
d    0.120538
e    0.324233
dtype: float64


In [33]:
s1 = s.drop("a", inplace=True)  #原值发生变化返回None

print(s)
print(s1)

b    0.376600
c    0.919770
d    0.120538
e    0.324233
dtype: float64
None


# DataFrame数据类型
Dataframe是pd最重要的数据类型

## dataFrame结构
DataFrame一个表个性的数据结构，有行标签和列标签，也称为异构数据表，即表格中每列数据类型可以不同。

![DataFrame结构](https://www.runoob.com/wp-content/uploads/2021/04/pandas-DataStructure.png)

## 创建DataFrame对象
```
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)
```
- data：输入的数据，可以是ndarray，series，list，dictionary，标量及一个DataFrame
- index：行标签，如果没有传递index值，则默认行标签是Rangeindex（0，1，2，3·····，n）
- column：列标签，如果没有传递columns值，则默认行标签是Rangeindex（0，1，2，3·····，n）
- dtype：要强制的数据类型，只允许使用一种数据类型，如果没有自行推断
- copy：从输入复制数据，默认为False

### 1、使用普通列表创建

In [34]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


### 2、使用嵌套列表创建

In [35]:
data = [[1,2,3,4],[5,6,7,8],[9,10,11,12]]
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


In [37]:
data = [['david',18],['jason',20],['lily',18]]
# 分配列标签
df = pd.DataFrame(data, columns=["name","age"])
df

Unnamed: 0,name,age
0,david,18
1,jason,20
2,lily,18


### 3、指定数值元素的数据类型为float
- 注意dtype只能设置一个，设置多个列的数据类型需要使用其他方式

In [38]:
data = [['wang',20,'male',5000],['lily',23,'female',4500],['yang',31,'male',4000]]
df = pd.DataFrame(data, columns=['name','age','sex','salary'], dtype=int)
df

Unnamed: 0,name,age,sex,salary
0,wang,20,male,5000
1,lily,23,female,4500
2,yang,31,male,4000


### 4、列表嵌套字典创建DataFrame对象
默认情况字典的建作为列名

In [39]:
data = [{'a':1,'b':2},{'a':2,'b':3,'c':5}]
df = pd.DataFrame(data)
df

Unnamed: 0,a,b,c
0,1,2,
1,2,3,5.0


In [42]:
data = [{'a':1,'b':2},{'a':2,'b':3,'c':5}]
df = pd.DataFrame(data,index = ['first','second'] ,columns=['a','b'])
df

Unnamed: 0,a,b
first,1,2
second,2,3


### 5、Series创建DataFrame
可以传递一个字典形式的Series，输出结果的行索引是所有index的合集

In [45]:
d = {
    'column1': pd.Series([1,2,3], index=['a','b','c']),
    'column2': pd.Series([1,2,3,4], index=['a','b','c','d'], dtype=float)
}
df = pd.DataFrame(d)
df

Unnamed: 0,column1,column2
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


### 6、字典对应列表创建


In [47]:
d = {'a':[1,2,3], 'b':[4,5,6]}
df = pd.DataFrame(d)
df

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


## 列操作DataFrame
DataFrame可以通过列标签完成数据选取、添加和删除操作

### 1、选取数据列


- 使用列索引实现数据选取

In [3]:
data = {"Name": ['关羽','刘备','张飞','曹操'], 'Age': [28,34,30,25]}
index = ['no1','no2','no3','no4']
df = pd.DataFrame(data,index)
print(df)
print("===========df[\"Name\"]=============")
print(df["Name"])

    Name  Age
no1   关羽   28
no2   刘备   34
no3   张飞   30
no4   曹操   25
no1    关羽
no2    刘备
no3    张飞
no4    曹操
Name: Name, dtype: object


In [6]:
# 选取多列
df[["Name", "Age"]]

# 列不能使用切片    df["Name":"Age"]  返回空DataFrame

# 无法通过标签位置获取列    df[1]  会报错

Unnamed: 0,Name,Age
no1,关羽,28
no2,刘备,34
no3,张飞,30
no4,曹操,25


### 2、列添加
- 使用columns列索引标签实现添加新的数据列

In [3]:
d = {
    'column1': pd.Series([1,2,3], index=['a','b','c']),
    'column2': pd.Series([1,2,3,4], index=['a','b','c','d'])
}
df = pd.DataFrame(d)

df['column3'] = pd.Series([10,20,30], index=['a','b','c'])
print(df)

df['column4'] = df['column1'] + df['column3']
print(df)

   column1  column2  column3
a      1.0        1     10.0
b      2.0        2     20.0
c      3.0        3     30.0
d      NaN        4      NaN
   column1  column2  column3  column4
a      1.0        1     10.0     11.0
b      2.0        2     20.0     22.0
c      3.0        3     30.0     33.0
d      NaN        4      NaN      NaN


- insert()方法添加
```
df.insert(loc, column, value, allow_duplicates=Fallse)
```

In [10]:
info = [['李杰',18],['刘姐', 19],['王杰', 17]]
df = pd.DataFrame(info, columns=['Name', 'Age'])
print(df)

# 插入列
df.insert(2,column='Score',value=[80,78,90])
print(df)

  Name  Age
0   李杰   18
1   刘姐   19
2   王杰   17
  Name  Age  Score
0   李杰   18     80
1   刘姐   19     78
2   王杰   17     90


### 3、删除数据列
- 通过del和pop()都能删除数据列，pop有返回值

In [11]:
del df['Score']
print(df)

res_pop = df.pop('Age')
print(res_pop)

  Name  Age
0   李杰   18
1   刘姐   19
2   王杰   17
0    18
1    19
2    17
Name: Age, dtype: int64


## DataFrame行操作

### 1、标签选取
- 可以使用 loc 属性返回指定行的数据

In [12]:
d = {
    'column1': pd.Series([1,2,3], index=['a','b','c']),
    'column2': pd.Series([1,2,3,4], index=['a','b','c','d'])
}
df = pd.DataFrame(d)

print(df.loc['a'])

column1    1.0
column2    1.0
Name: a, dtype: float64


- 注意：loc允许接收两个参数，分别是行和列

In [15]:
df.loc['b', 'column1']

2.0

- 行和列可以使用切片


In [16]:
# 标签为b到d的行，对应标签为column1的列
df.loc['b':'d', 'column1']

b    2.0
c    3.0
d    NaN
Name: column1, dtype: float64

In [17]:
df.loc[['a','b'], ['column1','column2']]

Unnamed: 0,column1,column2
a,1.0,1
b,2.0,2


### 2、数值型索引和切片
- 数值型索引需要使用iloc

In [18]:
data = {'Name':['关羽','刘备','张飞','曹操'], 'Age':[34,27,32,33]}
index = ['one','two','three','four']
df = pd.DataFrame(data, index)
df

Unnamed: 0,Name,Age
one,关羽,34
two,刘备,27
three,张飞,32
four,曹操,33


In [19]:
# 获取位置索引为2的数据
df.iloc[2]

Name    张飞
Age     32
Name: three, dtype: object

In [20]:
# 获取位置分别为0，2的数据
df.iloc[[0,2]]

Unnamed: 0,Name,Age
one,关羽,34
three,张飞,32


In [22]:
# 获取行索引为0列索引为1的数据
df.iloc[0,1]

34

In [23]:
# 切片位置索引1到3
df.iloc[1:3]

Unnamed: 0,Name,Age
two,刘备,27
three,张飞,32


In [24]:
# 使用切片可以直接提取行
df[1:3]

Unnamed: 0,Name,Age
two,刘备,27
three,张飞,32


### 3、添加行
- 使用append() 在行末追加数据行
```
df.append(other, ignore_index=False, verify_integrity=False, sort=False)
```

In [25]:
data = {'Name':['关羽','刘备','张飞','曹操'], 'Age':[34,27,32,33], 'Salary':[100,120,300,231]}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Salary
0,关羽,34,100
1,刘备,27,120
2,张飞,32,300
3,曹操,33,231


In [28]:
# 追加字典
d2 = {"Name":'诸葛亮', "Age":30}
df2 = df.append(d2, ignore_index=True)     #需添加属性 ignore_index=True
df2

Unnamed: 0,Name,Age,Salary
0,关羽,34,100.0
1,刘备,27,120.0
2,张飞,32,300.0
3,曹操,33,231.0
4,诸葛亮,30,


In [29]:
s = pd.Series(d2, name='a')
df3 = df2.append(s)
df3

Unnamed: 0,Name,Age,Salary
0,关羽,34,100.0
1,刘备,27,120.0
2,张飞,32,300.0
3,曹操,33,231.0
4,诸葛亮,30,
a,诸葛亮,30,


In [30]:
# 追加列表
a_1 = [[10,"20",30]]
df4 = df.append(a_1)
df4

Unnamed: 0,0,1,2,Age,Name,Salary
0,,,,34.0,关羽,100.0
1,,,,27.0,刘备,120.0
2,,,,32.0,张飞,300.0
3,,,,33.0,曹操,231.0
0,10.0,20.0,30.0,,,


In [32]:
df5 = df.append(a_1, ignore_index=True)
df5

Unnamed: 0,0,1,2,Age,Name,Salary
0,,,,34.0,关羽,100.0
1,,,,27.0,刘备,120.0
2,,,,32.0,张飞,300.0
3,,,,33.0,曹操,231.0
4,10.0,20.0,30.0,,,


In [33]:
df2 = pd.DataFrame(a_1, columns=["Name","Age","Salary"])
df3 = df.append(df2)
df3

Unnamed: 0,Name,Age,Salary
0,关羽,34,100
1,刘备,27,120
2,张飞,32,300
3,曹操,33,231
0,10,20,30


In [34]:
a_2 = [10,20]
df2 = df.append(a_2)
df2

Unnamed: 0,0,Age,Name,Salary
0,,34.0,关羽,100.0
1,,27.0,刘备,120.0
2,,32.0,张飞,300.0
3,,33.0,曹操,231.0
0,10.0,,,
1,20.0,,,


In [35]:
a_3 = [[[1,2,3]]]
df3 = df.append(a_3)
df3

Unnamed: 0,0,Age,Name,Salary
0,,34.0,关羽,100.0
1,,27.0,刘备,120.0
2,,32.0,张飞,300.0
3,,33.0,曹操,231.0
0,"[1, 2, 3]",,,


### 4、删除行
可以使用行索引标签。从DataFrame中删除莫一行数据，如果索引标签存在重复，那么他们将被一起删除。

In [3]:
df = pd.DataFrame([[1,2],[3,4]], columns=['a','b'])
df2 = pd.DataFrame([[5,6],[7,8]], columns=['a','b'])

df = df.append(df2, ignore_index=False)
df

Unnamed: 0,a,b
0,1,2
1,3,4
0,5,6
1,7,8


In [42]:
df1 = df.drop(0)
df1

Unnamed: 0,a,b
1,3,4
1,7,8


In [6]:
df.drop(*df[df['a']==3].index, inplace=True)
df

Unnamed: 0,a,b
0,1,2
0,5,6
