# pandas Series和DataFrame

numpy能够帮助我们处理数值, 但是pandas除了处理数值之外(基于numpy), 还能够帮助我们处理其他类型的数据, 如字符串、时间序列等。

In [16]:
import pandas as pd
import string

# pandas常用数据类型
# Series: 一维的带标签的数组
# DataFrame：二维的Series容器

# 从结果我们可以看出pandas数组是带有索引的
# 第一列为索引标签, 第二列为真实数据
t = pd.Series([1, 2, 3, 4, 5])
print(type(t))
print(t)

# 给一维数组指定索引index, 索引和数组的长度必须一样
t2 = pd.Series([1, 23, 2, 2, 1], index=list("abcde"))
print(t2)

print("*"*50)
# 也可以基于字典来创建
# 通过字典来创建Series时, 其中的索引就是字典的键
# 通过字典创建, 那么内部的值类型默认为object
temp_dict = {"name":"dog", "age":10, "tel":10086}
t3 = pd.Series(temp_dict)
print(t3)

print("*"*50)
# 创建一个字典表达式
a = {string.ascii_uppercase[i]: i for i in range(10)}
print(a)
print("="*50)
t4 = pd.Series(a)
print(t4)

print("*"*50)
# 重新为数组指定其他的索引后, 如果能对应上, 就取其值, 否则赋值为NaN
t4 = pd.Series(a, index=list(string.ascii_uppercase[5: 15]))
print(t4)

# Series也有dtype以及astype方法

<class 'pandas.core.series.Series'>
0    1
1    2
2    3
3    4
4    5
dtype: int64
a     1
b    23
c     2
d     2
e     1
dtype: int64
**************************************************
name      dog
age        10
tel     10086
dtype: object
**************************************************
{'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4, 'F': 5, 'G': 6, 'H': 7, 'I': 8, 'J': 9}
A    0
B    1
C    2
D    3
E    4
F    5
G    6
H    7
I    8
J    9
dtype: int64
**************************************************
F    5.0
G    6.0
H    7.0
I    8.0
J    9.0
K    NaN
L    NaN
M    NaN
N    NaN
O    NaN
dtype: float64


In [17]:
# print(t3)
# 可以通过索引来取值, 也可以通过位置来取值
# 在python的未来版本中, 将使用.iloc[p]来访问p位置的元素
# 下标访问要用iloc
print(t3.iloc[2])
print(t3["tel"])

print("="*50)
# 取连续切片
# 依然是左闭右开区间
print(t3[:2])

print("*"*50)
# 取不连续切片
print(t3.iloc[[1, 2]])
print("*"*50)
print(t3[["name", "age"]])

print("*"*50)
# 布尔索引
print(t[t>4])

10086
10086
name    dog
age      10
dtype: object
**************************************************
age       10
tel    10086
dtype: object
**************************************************
name    dog
age      10
dtype: object
**************************************************
4    5
dtype: int64


In [18]:
# 可以通过方法取索引和具体的值
t = pd.Series({string.ascii_uppercase[i]: i for i in range(10)})
print(t)

# 可以通过index和values来直接取值
# 可以看出Series的索引的类型是pandas.core.indexes.base.Index
print(t.index)
print(type(t.index))

# 可以看出Series的值的类型是numpy数组
print(t.values)
print(type(t.values))

A    0
B    1
C    2
D    3
E    4
F    5
G    6
H    7
I    8
J    9
dtype: int64
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
[0 1 2 3 4 5 6 7 8 9]
<class 'numpy.ndarray'>


In [19]:
# 读取csv中的文件
# 显示出来的是DataFrame结构
df = pd.read_csv("./dogNames2.csv")
print(df)

# 读取数据库
# pd.read_sql(sql_sentence, connection)

      Row_Labels  Count_AnimalName
0              1                 1
1              2                 2
2          40804                 1
3          90201                 1
4          90203                 1
...          ...               ...
16215      37916                 1
16216      38282                 1
16217      38583                 1
16218      38948                 1
16219      39743                 1

[16220 rows x 2 columns]


In [20]:
# DataFrame: 二维的Series容器
import numpy as np

t = pd.DataFrame(np.arange(12).reshape((3, 4)))
print(t)
# 显然第一列是行索引, 第一行是列索引
# DataFrame对象既有行索引, 又有列索引
# 行索引, 表明不同行, 横向索引, 叫index, 0轴, axis=0
# 列索引, 表名不同列, 纵向索引, 叫columns, 1轴, axis=1

# 也可以自己设置行列索引
# index是行索引 columns是列索引
print("."*50)
t = pd.DataFrame(np.arange(12).reshape((3, 4)), index=list("abc"), columns=list("ABCD"))
print(t)

print("*"*50)
# DataFrame也可以通过字典来创建
# 字典内也可以有多个元素, 也可以有多个字典
# 列索引为键, 行索引为序号
d1 = {"name":["dog", "cat"], "age":[10, 20], "tel": [10086, 10010]}
d1 = pd.DataFrame(d1)
print(d1)

print("*"*50)
# 可以看成是多个字典?
d2 = [{"name":"dog", "age":17, "tel":"10086"}, {"name":"cat", "age":42, "tel":"10010"}]
d2 = pd.DataFrame(d2)
print(d2)

   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
..................................................
   A  B   C   D
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
**************************************************
  name  age    tel
0  dog   10  10086
1  cat   20  10010
**************************************************
  name  age    tel
0  dog   17  10086
1  cat   42  10010


In [21]:
# 提取DataFrame的行索引
print("*"*50, "index", sep='\n')
print(d1.index)

# 提取DataFrame的列索引
print("*"*50, "columns", sep='\n')
print(d1.columns)

# 提取DataFrame的值
print("*"*50, "values", sep='\n')
print(d1.values)

# 提取DataFrame的维度
print("*"*50, "ndim", sep='\n')
print(d1.ndim)

# 提取DataFrame的形状
print("*"*50, "shape", sep='\n')
print(d1.shape)

# 提取DataFrame的数据格式
print("*"*50, "dtypes", sep='\n')
print(d1.dtypes)

print("*"*50)
# 显示数据的前几行, 不传参默认显示前五行
print(df.head())

# 显示数据的后几行, 不传参默认显示后五行
print(df.tail())

print("-"*50)
# 展示相关信息的概览
print(df.info())

print("="*50)
# 展示相关信息的统计学数值
print(df.describe())

**************************************************
index
RangeIndex(start=0, stop=2, step=1)
**************************************************
columns
Index(['name', 'age', 'tel'], dtype='object')
**************************************************
values
[['dog' 10 10086]
 ['cat' 20 10010]]
**************************************************
ndim
2
**************************************************
shape
(2, 3)
**************************************************
dtypes
name    object
age      int64
tel      int64
dtype: object
**************************************************
  Row_Labels  Count_AnimalName
0          1                 1
1          2                 2
2      40804                 1
3      90201                 1
4      90203                 1
      Row_Labels  Count_AnimalName
16215      37916                 1
16216      38282                 1
16217      38583                 1
16218      38948                 1
16219      39743      

In [22]:
# 对于统计的狗的名字, 想知道使用次数最高的前几个名字是什么呢
# ascending=True表示升序
df = df.sort_values(by="Count_AnimalName",ascending=False)
print(df.head(10))

      Row_Labels  Count_AnimalName
1156       BELLA              1195
9140         MAX              1153
2660     CHARLIE               856
3251        COCO               852
12368      ROCKY               823
8417        LOLA               795
8552       LUCKY               723
8560        LUCY               710
2032       BUDDY               677
3641       DAISY               649


In [23]:
# pandas取行或者列
# 方括号内写数组, 表示取行, 对行进行操作
# 方括号内写字符串, 表示取列, 对列进行操作
# 取前20行的名字, 取到的是Series类型
print(df[:20]["Row_Labels"])

1156        BELLA
9140          MAX
2660      CHARLIE
3251         COCO
12368       ROCKY
8417         LOLA
8552        LUCKY
8560         LUCY
2032        BUDDY
3641        DAISY
11703    PRINCESS
829        BAILEY
9766        MOLLY
14466       TEDDY
2913        CHLOE
14779        TOBY
8620         LUNA
6515         JACK
8788       MAGGIE
13762      SOPHIE
Name: Row_Labels, dtype: object


In [24]:
# 还有一些优化过的选择方式
w = pd.DataFrame(np.arange(12).reshape((3, 4)), index=list("ABC"), columns=list("WXZY"))
print(w)

print("*"*50)
# loc通过标签索引行数据
print(w.loc["A", "W"])

print("*"*50)
# 可以看到从DataFrame中取一行或一列也是Series类型
print(w.loc["A", ["W", "Z"]])
print(type(w.loc["A", ["W", "Z"]]))

print("*"*50)
print(w.loc[["A", "C"], ["W", "Z"]])

print("*"*50)
# 选择间隔的多行多列
print(w.loc["B":, ["W", "Z"]])

print("*"*50)
# 取一整列, 也可以不写:也是一样的
print(w.loc[:,"Y"])

   W  X   Z   Y
A  0  1   2   3
B  4  5   6   7
C  8  9  10  11
**************************************************
0
**************************************************
W    0
Z    2
Name: A, dtype: int64
<class 'pandas.core.series.Series'>
**************************************************
   W   Z
A  0   2
C  8  10
**************************************************
   W   Z
B  4   6
C  8  10
**************************************************
A     3
B     7
C    11
Name: Y, dtype: int64


In [25]:
# iloc通过位置获取行数据
# 下标从0开始
print(w.iloc[1, :])

print(w.iloc[:,2])

print(w.iloc[:,[2, 1]])

print(w.iloc[[0, 2], [2, 1]])

W    4
X    5
Z    6
Y    7
Name: B, dtype: int64
A     2
B     6
C    10
Name: Z, dtype: int64
    Z  X
A   2  1
B   6  5
C  10  9
    Z  X
A   2  1
C  10  9


In [26]:
# 布尔索引
# 选择使用次数超过800次的名字
print(df[df["Count_AnimalName"]>800])
print()
# 选择使用次数在800和1000次之间的名字
print(df[(df["Count_AnimalName"]>800) & (df["Count_AnimalName"]<1000)])
# 选择使用次数超过700次并且名字的字符串长度大于4的名字
print(df[(df["Count_AnimalName"] > 700) & (df["Row_Labels"].str.len() > 4)])

# 不同条件之间需要用括号括起来  

      Row_Labels  Count_AnimalName
1156       BELLA              1195
9140         MAX              1153
2660     CHARLIE               856
3251        COCO               852
12368      ROCKY               823

      Row_Labels  Count_AnimalName
2660     CHARLIE               856
3251        COCO               852
12368      ROCKY               823
      Row_Labels  Count_AnimalName
1156       BELLA              1195
2660     CHARLIE               856
12368      ROCKY               823
8552       LUCKY               723


In [27]:
# 缺失数据的处理
# 一种是空, 即NaN, 另一种是0

w = pd.DataFrame(np.array([1.0, 2.0, 3.0, 4.0, np.nan, np.nan, 5.0, 6.0, 7.0, 8.0, np.nan, 9.0]).reshape((3, 4)))
print(w)

# 判断是否为NaN
print()
print(pd.isnull(w))

print()
print(pd.notnull(w))

# 第一种方法是删除NaN所在的行列
# axis=0表示删除行
# how="any"是默认的, 只要这一行有NaN就删除这一行
# how="all"是默认的, 这一行全部都是NaN才删除这一行
# inplace表示是否进行原地修改
print()
print(w.dropna(axis=0, how='any', inplace=False))

# 第二种方法是填充数据
print("*"*50)
print()
print(w.fillna(w.mean()))
print()
print(w.fillna(w.median()))
print()
print(w.fillna(0))
print("*"*50)


# 假如只对第0列的NaN进行操作
print(w[0].fillna(w[0].median()))

# 处理为0的数据
# w[w==0] = np.nan


# 在numpy中遇到nan时计算返回结果也是nan
# 但是在pandas中遇到nan时一样可以计算

     0    1    2    3
0  1.0  2.0  3.0  4.0
1  NaN  NaN  5.0  6.0
2  7.0  8.0  NaN  9.0

       0      1      2      3
0  False  False  False  False
1   True   True  False  False
2  False  False   True  False

       0      1      2     3
0   True   True   True  True
1  False  False   True  True
2   True   True  False  True

     0    1    2    3
0  1.0  2.0  3.0  4.0
**************************************************

     0    1    2    3
0  1.0  2.0  3.0  4.0
1  4.0  5.0  5.0  6.0
2  7.0  8.0  4.0  9.0

     0    1    2    3
0  1.0  2.0  3.0  4.0
1  4.0  5.0  5.0  6.0
2  7.0  8.0  4.0  9.0

     0    1    2    3
0  1.0  2.0  3.0  4.0
1  0.0  0.0  5.0  6.0
2  7.0  8.0  0.0  9.0
**************************************************
0    1.0
1    4.0
2    7.0
Name: 0, dtype: float64
