### 1. 查看pandas版本？

In [1]:
import numpy as np  # optional
import pandas as pd
print(pd.__version__)

1.0.5


### 2. 如何从list、numpy array、dict创建一个series？

In [2]:
# 输入
import numpy as np
mylist = list('abcedfghijklmnopqrstuvwxyz')
myarr = np.arange(26)
mydict = dict(zip(mylist, myarr))

In [None]:
# 参考方法
ser1 = pd.Series(mylist)
ser2 = pd.Series(myarr)
ser3 = pd.Series(mydict)
print(ser3.head(3))

注意初始化series时S是大写，dic和zip是python标准函数，见此[Link](https://www.programiz.com/python-programming/methods/built-in/dict)

### 3. 如何将一个series转换为dataframe，并将其index作为dataframe的一列？

In [1]:
# 输入
import numpy as np
mylist = list('abcedfghijklmnopqrstuvwxyz')
myarr = np.arange(26)
mydict = dict(zip(mylist, myarr))

In [None]:
# 利用 reset_index
ser = pd.Series(mydict)  # dict中的 Key作为 Index，Value作为具体的值
ser.name = 'SerName'     # 为 Series 命名，否则默认为 0 
df = ser.reset_index()
df = df.rename(columns={'index':'colA','SerName':'colB'})
df.head()

### 4. 如何将多个series合并为一个dataframe？

In [None]:
# 输入
import numpy as np
ser1 = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))
ser2 = pd.Series(np.arange(26))

In [None]:
# 方法 1 -> 用 conact ,series 和 pandas 均可合并
ser1.name,ser2.name = 'colA','colB'
df = pd.concat([ser1,ser2],axis=1)  # axis = 1 表示在column方向合并，默认0，从index方向合并
print(df.head(5))

# 方法 2 -> 利用 pd.DataFream构造函数
df = pd.DataFrame({'colA':ser1,'colB':ser2})
print(df.head(5))

### 5.如何取两个Series的交集和并集？

In [None]:
# 输入
ser1 = pd.Series([1, 3, 5, 7, 9])
ser2 = pd.Series([7, 9, 11, 13, 15])

In [None]:
# 利用 numpy 的功能
ser_u = pd.Series(np.union1d(ser1,ser2)) # 交集
ser_i = pd.Series(np.intersect1d(ser1,ser2)) # 并集

### 6.如何获取在Series A中却不在Series B中的数据？（差集A-B）

In [2]:
# 输入
serA = pd.Series([1, 3, 5, 7, 9])
serB = pd.Series([7, 9, 11, 13, 15])

In [None]:
# 利用Series的isin函数，返回与Series长度相同的boolean数组
inB = serA.isin(serB)
# 再对boolean数组取反，然后为Series A进行bool索引
serA[~inB]

# 一步到位
serA[~serA.isin(serB)]

### 7.如何获取不同时在Series A和Series B中的数据？（A并B减A交B）

In [None]:
# 输入
serA = pd.Series([1, 3, 5, 7, 9])
serB = pd.Series([7, 9, 11, 13, 15])

In [None]:
# 交集
ser_u = pd.Series(np.union1d(ser1,ser2))
# 并集
ser_i = pd.Series(np.intersect1d(ser1,ser2)) 
# 得到想要的结果
ser_u[~ser_u.isin(ser_i)]

### 8.如何将 Pandas 某整数列转化为前置填充0的字符串？

In [5]:
df = pd.DataFrame({'num':[1,22,333,4444,55555]})
df['num_str'] = df['num'].astype(str).str.zfill(6) #方法一
df['num_str'] = df['num'].astype(str).str.pad(6,fillchar='0') #方法二
df['num_str'] = df['num'].astype(str).str.rjust(6,fillchar='0') #方法三
df

Unnamed: 0,num,num_str
0,1,1
1,22,22
2,333,333
3,4444,4444
4,55555,55555


#### 知识点
- 用字典{key:value}初始化Pandas
- 直接用 df['newcol']添加新列
- Series.astype转化字段类型
- Series.str使用string的方法
- string标准库函数zfill(width)返回左边填充0宽度为width的字符串

### 9.如何改变 DataFrame 列的顺序？

In [17]:
df = pd.DataFrame({'Badge':[101,102,103,104]
                   ,'Name':['张三','李四','王五','赵六']
                   ,'Gender':['男','女','男','女']})
df

Unnamed: 0,Badge,Name,Gender
0,101,张三,男
1,102,李四,女
2,103,王五,男
3,104,赵六,女


In [26]:
# 方法一
df = df[['Name', 'Badge', 'Gender']]

In [27]:
# 方法二
df = df.reindex(['Name', 'Badge', 'Gender'],axis=1)

In [30]:
# 将某列放在第一列 这里以 Gender 列为例
df = df[['Gender'] + list([a for a in df.columns if a != 'Gender'])]

#### 知识点
- 改变列的顺序，核心实际就是构造一个列名的list
- list(df) 或 df.columns 可返回DataFrame列名列表
- 运用python列表推导式，简洁快速生成列表

### 10.如何查询 DataFrame 中某列是否匹配某个模式（类型SQL中的Like操作符串的功能）？

In [23]:
# 可以用 pandas.Series.str.contains

### 11.DateFrame如何重命名列？
假如从Excel读取得到的dateframe列名中含有换行符号，现想要去除

In [3]:
# 简单的测试数据
df = pd.DataFrame({'col\n1':[1,2,3,4,5],'col2':['A','B','C','D','E']})
df

Unnamed: 0,col\n1,col2
0,1,A
1,2,B
2,3,C
3,4,D
4,5,E


In [3]:
# 方法一，构造 rename dict
rename_pattern = {name:name.replace('\r','').replace('\n','') for name in list(df)}
df.rename(columns = rename_pattern)

Unnamed: 0,col1,col2
0,1,A
1,2,B
2,3,C
3,4,D
4,5,E


In [5]:
# 方法二，传匿名函数给 mapper 参数
rename_map = lambda x:x.replace('\r','').replace('\n','')
df.rename(mapper = rename_map, axis = 1)

Unnamed: 0,col1,col2
0,1,A
1,2,B
2,3,C
3,4,D
4,5,E


In [4]:
# 方法三，columns属性整体赋值
new_columns = [name.replace('\r','').replace('\n','') for name in list(df)]
df.columns = new_columns
df

Unnamed: 0,col1,col2
0,1,A
1,2,B
2,3,C
3,4,D
4,5,E
