In [1]:
# coding:utf-8
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from pandas import Series, DataFrame

In [2]:
# Series是一种类似于一维数组的对象，由index和values组成
# Series创建的数据必须是一维的，不能使用二维ndarray创建Series
n1 = np.random.randint(0, 10, 5)
s = Series(n1)
s

0    8
1    2
2    5
3    0
4    6
dtype: int32

In [3]:
# 指定Series的索引
s.index = list("abcde")
s

a    8
b    2
c    5
d    0
e    6
dtype: int32

In [12]:
s = Series(n1, index=["张三", "李四", "王五", "赵六", "Mick"])
s

张三      8
李四      2
王五      5
赵六      0
Mick    6
dtype: int32

In [9]:
# 直接使用列表创建
s = Series([1.5, 2, 3.7])
s

0    1.5
1    2.0
2    3.7
dtype: float64

In [11]:
# 使用字典创建
s = Series({'语文' : 89, '数学' : 97.5, '英语' : 88})
s

数学    97.5
英语    88.0
语文    89.0
dtype: float64

In [13]:
# 索引
s["张三"]

8

In [14]:
# .loc：显式索引，index是什么就传什么值
s.loc["张三"]

8

In [15]:
# .iloc：隐式索引，可以直接使用数字进行操作
s.iloc[2]

5

In [16]:
# 切片，右边是包括在内的
s.loc["张三" : "王五"]

张三    8
李四    2
王五    5
dtype: int32

In [18]:
print(s.shape, s.size, s.index, s.values, type(s.values))

(5,) 5 Index(['张三', '李四', '王五', '赵六', 'Mick'], dtype='object') [8 2 5 0 6] <class 'numpy.ndarray'>


In [23]:
# 使用head()、tail()读取头尾数据
path = r'E:\python\PythonSpace\Git\Python\DataAnalysis\Data\Pandas\data.csv'
# 使用gbk编码读数据，同时不把第一行设置成属性
# pandas读的数据是DataFrame类型的
df = pd.read_csv(path, encoding="gbk", header=None, names = ["姓名", "年龄"])
df

Unnamed: 0,姓名,年龄
0,张三,21
1,李四,32
2,王五,33
3,赵六,27
4,Tom,43
5,Mike,26
6,Jack,34
7,Lucy,28


In [26]:
# DataFrame是按照列进行索引的，每一列都是一个Series
age = df["年龄"]
print(age, type(age))

0    21
1    32
2    33
3    27
4    43
5    26
6    34
7    28
Name: 年龄, dtype: int64 <class 'pandas.core.series.Series'>


In [27]:
# head表示取前5个元素，tail表示取后5个元素
age.head()

0    21
1    32
2    33
3    27
4    43
Name: 年龄, dtype: int64

In [28]:
s1 = Series([1, 26, None, np.nan], index=list("abcd"))
s1

a     1.0
b    26.0
c     NaN
d     NaN
dtype: float64

In [29]:
# Series会将Nan类型转化成float类型，所以可以直接求和
s1.sum()

27.0

In [33]:
# 通过notnull()函数可以判断s1中哪些元素不为空，再将这个结果
# 传入s1就可以得到s1中不为空的元素
s2 = s1.notnull()
s1[s2]

a     1.0
b    26.0
dtype: float64

In [34]:
# 为s1中的属性命名
s1.name = "数字"
s1

a     1.0
b    26.0
c     NaN
d     NaN
Name: 数字, dtype: float64

In [35]:
# Series运算
s1+10

a    11.0
b    36.0
c     NaN
d     NaN
Name: 数字, dtype: float64

In [36]:
# 在进行运算时，如果出现了NaN类型的元素，则默认为0
s1.add(10, fill_value=0)

a    11.0
b    36.0
c    10.0
d    10.0
Name: 数字, dtype: float64

In [37]:
# 两个Series做运算时，索引相同的元素才进行运算，不相同的都变成NaN
s2 = Series([1, 3, 5, 7], index=list("abcd"))
s3 = Series([2, 4, 6, 8], index=list("cdef"))
s2+s3

a     NaN
b     NaN
c     7.0
d    11.0
e     NaN
f     NaN
dtype: float64

In [38]:
# 使用函数add可以保留所有的索引，如果索引不相同的，则保留原来的值
s2.add(s3, fill_value=0)

a     1.0
b     3.0
c     7.0
d    11.0
e     6.0
f     8.0
dtype: float64