In [1]:
import pandas as pd
import numpy as np

### 1. 如何从list、numpy array以及dict创建pandas series？

**输入：**

In [3]:
mylist = list('abcedfghijklmnopqrstuvwxyz')
myarr = np.arange(26)
mydict = dict(zip(mylist, myarr))

**答案：**

In [5]:
pd.Series(mylist)
pd.Series(myarr)
pd.Series(mydict).head(5)

a    0
b    1
c    2
e    3
d    4
dtype: int64

### 2. 如何将series的index转换成dataframe的列？

**输入：**

In [7]:
mylist = list('abcedfghijklmnopqrstuvwxyz')
myarr = np.arange(26)
mydict = dict(zip(mylist, myarr))
ser = pd.Series(mydict)
ser.head(5)

a    0
b    1
c    2
e    3
d    4
dtype: int64

**答案：**

In [9]:
ser.reset_index().head(5)  # PS: 多层索引同样适用

Unnamed: 0,index,0
0,a,0
1,b,1
2,c,2
3,e,3
4,d,4


### 3. 如何将多个series转换成dataframe？

**输入：**

In [10]:
import numpy as np
ser1 = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))
ser2 = pd.Series(np.arange(26))

**答案：**

In [12]:
# 方法一：
pd.concat([ser1, ser2], axis=1).head(3)

Unnamed: 0,0,1
0,a,0
1,b,1
2,c,2


In [13]:
# 方法二:
pd.DataFrame({'col1':ser1, 'col2':ser2}).head(3)

Unnamed: 0,col1,col2
0,a,0
1,b,1
2,c,2


### 4. 如何给series 的 index指定名称?

**输入：**

In [14]:
ser = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))

**答案：**

In [15]:
ser.name = 'MyName'
ser.head(3)

0    a
1    b
2    c
Name: MyName, dtype: object

### 5. 如何获取series A 和 series B 的差集（在A中但不在B中的元素）？

**输入：**

In [16]:
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

**答案：**

In [19]:
# 方法一：
# 利用python的集合，取差集
pd.Series(list(set(ser1) - set(ser2)))

0    1
1    2
2    3
dtype: int64

In [20]:
# 方法二:
ser1[~ser1.isin(ser2)]

0    1
1    2
2    3
dtype: int64

### 6. 如何获取不同时在series A 和 series B中的元素？

**输入：**

In [21]:
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

**答案：**

In [23]:
# 方法一：
_ser1 = ser1[~ser1.isin(ser2)]
_ser2 = ser2[~ser2.isin(ser1)]
_ser1.append(_ser2)

0    1
1    2
2    3
2    6
3    7
4    8
dtype: int64

In [25]:
# 方法二：
ser_u = pd.Series(np.union1d(ser1, ser2))  # 取并集
ser_i = pd.Series(np.intersect1d(ser1, ser2))  # 取交集
ser_u[~ser_u.isin(ser_i)]  # 取并集跟交集的差集

0    1
1    2
2    3
5    6
6    7
7    8
dtype: int64

In [32]:
# 方法三：
pd.Series(list((set(ser1)|set(ser2)) - (set(ser1)&set(ser2))))

0    1
1    2
2    3
3    6
4    7
5    8
dtype: int64

### 7. 如何统计元素在series中出现的频度？

**输入:**

In [37]:
# ser = pd.Series(np.take(list('abcdefgh'), np.random.randint(8, size=30)))
# 从’abcdefgh‘中随机取30元素
ser = pd.Series(np.random.choice(list('abcdefgh'), 30))
ser.head(5)

0    a
1    c
2    h
3    g
4    g
dtype: object

**答案：**

In [38]:
# 方法一:
ser.value_counts()  # 排序，从大到小

h    7
b    5
g    4
a    4
e    3
c    3
f    2
d    2
dtype: int64

In [42]:
# 方法二：
from collections import Counter
pd.Series(Counter(ser))  # 乱序，所以更推荐第一种方法

a    4
c    3
h    7
g    4
d    2
e    3
b    5
f    2
dtype: int64

### 7.1. 如何统计元素在series中出现的频率？

**输入：**

In [6]:
ser = pd.Series(np.random.choice(list('abc'), 10))
ser

0    b
1    c
2    a
3    c
4    a
5    c
6    c
7    b
8    a
9    b
dtype: object

**答案：**

In [7]:
ser.value_counts(normalize=True)

c    0.4
a    0.3
b    0.3
dtype: float64

### 8. 如何将频度前2的保留原来元素，其他的元素替换成“Other”？

**输入：**

In [52]:
np.random.RandomState(100)
ser = pd.Series(np.random.randint(1, 5, [12]))
ser

0     3
1     1
2     2
3     3
4     2
5     4
6     1
7     2
8     1
9     4
10    3
11    1
dtype: int64

**答案：**

In [53]:
ser[~ser.isin(ser.value_counts().index[:2])] = 'Other'
ser

0         3
1         1
2     Other
3         3
4     Other
5     Other
6         1
7     Other
8         1
9     Other
10        3
11        1
dtype: object

### 9. 从一个series中查找为3的倍数的元素的位置？

**输入：**

In [54]:
ser = pd.Series(np.random.randint(1, 10, 7))
ser

0    2
1    2
2    6
3    3
4    5
5    5
6    6
dtype: int64

**答案：**

In [58]:
(ser % 3 == 0).nonzero()
# ser % 3 == 0 等同于 ser.map(lambda x: x % 3 == 0) 

  


(array([2, 3, 6]),)

In [62]:
(ser % 3 == 0).to_numpy().nonzero()

(array([2, 3, 6]),)

### 10. 如何从series中获取指定下标的元素？

**输入：**

In [63]:
ser = pd.Series(list('abcdefghijklmnopqrstuvwxyz'))
pos = [0, 4, 8, 14, 20]

**答案：**

In [67]:
ser.take(pos)

0     a
4     e
8     i
14    o
20    u
dtype: object

### 11. 如何将两个series叠加起来(包括横向和纵向)?

**输入：**

In [69]:
ser1 = pd.Series(range(5))
ser2 = pd.Series(list('abcde'))

**答案：**

In [70]:
# 纵向
ser1.append(ser2)
# 或者
pd.concat([ser1, ser2])

0    0
1    1
2    2
3    3
4    4
0    a
1    b
2    c
3    d
4    e
dtype: object

In [71]:
# 横向
pd.concat([ser1, ser2], axis=1)

Unnamed: 0,0,1
0,0,a
1,1,b
2,2,c
3,3,d
4,4,e


### 12. 如何将series中的字符串转换成时间？

**输入：**

In [72]:
ser = pd.Series(['01 Jan 2010', '02-02-2011', '20120303', '2013/04/04', '2014-05-05', '2015-06-06T12:20'])

**答案：**

In [73]:
# 方法一
pd.to_datetime(ser)

0   2010-01-01 00:00:00
1   2011-02-02 00:00:00
2   2012-03-03 00:00:00
3   2013-04-04 00:00:00
4   2014-05-05 00:00:00
5   2015-06-06 12:20:00
dtype: datetime64[ns]

In [74]:
# 方法二
ser.astype('datetime64[ns]')

0   2010-01-01 00:00:00
1   2011-02-02 00:00:00
2   2012-03-03 00:00:00
3   2013-04-04 00:00:00
4   2014-05-05 00:00:00
5   2015-06-06 12:20:00
dtype: datetime64[ns]

In [75]:
# 方法三
from dateutil.parser import parse
ser.map(lambda x: parse(x))

0   2010-01-01 00:00:00
1   2011-02-02 00:00:00
2   2012-03-03 00:00:00
3   2013-04-04 00:00:00
4   2014-05-05 00:00:00
5   2015-06-06 12:20:00
dtype: datetime64[ns]

### 13. 如果将series去重，并且获取去重后元素个数？

**输入：**

In [9]:
ser = pd.Series(list('abcdabcdab'))
ser

0    a
1    b
2    c
3    d
4    a
5    b
6    c
7    d
8    a
9    b
dtype: object

**答案：**

In [10]:
# 去重
ser.unique()

array(['a', 'b', 'c', 'd'], dtype=object)

In [11]:
# 获取去重后元素的个数
ser.nunique()

4