In [1]:
import pandas as pd

# 1. Series
Series类似于一个有默认key（在Series中被称为index）的dict

In [14]:
series = pd.Series([1,2,3,"猫","狗",1.23])
series

0       1
1       2
2       3
3       猫
4       狗
5    1.23
dtype: object

## 1.1 Series的方法
Series对象也有各种方法，比如values和index

In [18]:
print("This is values")
print(series.values)
print("This is keys")
print(series.index)

This is values
[1 2 3 '猫' '狗' 1.23]
This is keys
RangeIndex(start=0, stop=6, step=1)


Series的索引可以自定义，类似于dict

In [28]:
series = pd.Series([1,2,3,"猫","狗",1.23],["数字1","数字1","数字1","动物1","动物2","小数"])
series

数字1       1
数字1       2
数字1       3
动物1       猫
动物2       狗
小数     1.23
dtype: object

## 1.2 创建Series
Series的初始化可以通过list，也可以通过dict，也可以通过其他的Series对象

In [39]:
print("通过list生成Series")
series = pd.Series([1,3,4,5])
display(series)
print("通过dict生成Series")
series = pd.Series({1:"你好","B":"不好"})
display(series)
print("通过其他的Series对象生成Series")
# 通过传入源series的index，生成新的Series，如果传入的是源Series不存在的inex，则目标Series的index对应值为NaN
series = pd.Series(series,[1,"A"])
display(series)

通过list生成Series


0    1
1    3
2    4
3    5
dtype: int64

通过dict生成Series


1    你好
B    不好
dtype: object

通过其他的Series对象生成Series


1     你好
A    NaN
dtype: object

## 1.3 Series值是否NaN的判断

In [42]:
series.isnull()

1    False
A     True
dtype: bool

## 1.4 Series的运算
可以直接对Series的对象进行运算，运算规则就是直接作用到所有元素

In [47]:
series = pd.Series([1,2,3,"Hello"])
# 对所有的series的元素*2，字符串的话则是翻倍
series * 2

0             2
1             4
2             6
3    HelloHello
dtype: object

In [56]:
series = pd.Series([1,2,3,4])
# 列举出所有元素大于2
series > 2

0    False
1    False
2     True
3     True
dtype: bool

**通过sries > 2后，可以通过把返回值传入series的取值括号内，取出对应的元素**

In [57]:
series[ series > 2]

2    3
3    4
dtype: int64

# 2. DataFrame
就是表，行被称为column列被称为index，可以通过一个行和列唯一定为值

生成方法，可以通过dict生成

**dict的一个value就是一个对应一列，一列的名称为dict的key**

In [59]:
data = {"name":["yahoo","google","facebook"], "marks":[200,400,800], "price":[9, 3, 7]} 
df = pd.DataFrame(data)
df

Unnamed: 0,marks,name,price
0,200,yahoo,9
1,400,google,3
2,800,facebook,7


也可以自定义源dict要用那些key作为column，如：

In [67]:
df = pd.DataFrame(data,columns=["name"])
df

Unnamed: 0,name
0,yahoo
1,google
2,facebook


dataframe的列就是一个Series所以和Series一样，可以改变index（行）的名称，如：

In [68]:
data = {"name":["yahoo","google","facebook"], "marks":[200,400,800], "price":[9, 3, 7]} 
df = pd.DataFrame(data,index=["第一个","第二个","第三个"])
df

Unnamed: 0,marks,name,price
第一个,200,yahoo,9
第二个,400,google,3
第三个,800,facebook,7


## 2.1 列举所有行名称，并且取出指定列

In [72]:
display(df.columns)
# 取出price这一列的Series对象
df["price"]

Index(['marks', 'name', 'price'], dtype='object')

第一个    9
第二个    3
第三个    7
Name: price, dtype: int64

## 2.2 统一给一列赋值：

In [73]:
df["price"] = 9999
df

Unnamed: 0,marks,name,price
第一个,200,yahoo,9999
第二个,400,google,9999
第三个,800,facebook,9999


## 2.3 替换整列的数据对象
因为dataframe的一列就是一个Series对象，所以可以通过创建一个Series来替换掉某列

**通过Series的index的值可以实现自动对应**,如先生成一个dataframe

In [77]:
data = {"name":["yahoo","google","facebook"], "marks":[200,400,800], "price":[9, 3, 7]} 
df = pd.DataFrame(data)
display(df)


Unnamed: 0,marks,name,price
0,200,yahoo,9
1,400,google,3
2,800,facebook,7


然后创建一个Series，注意index

In [79]:
series = pd.Series([888,999],index=[0,2])
series

0    888
2    999
dtype: int64

然后替换掉df的price列的Series对象，注意，目标的df自动对应了series的index。空的对象为NaN

In [81]:
df["price"] = series
df

Unnamed: 0,marks,name,price
0,200,yahoo,888.0
1,400,google,
2,800,facebook,999.0


## 2.4 精确定位元素
通过`DataFrame[行][列]`的方式定位，如：

In [83]:
df["name"][1]

'google'

# 2.5 排序
可以对dataframe按照某列排序，排序后所有其他列位置也对应变动，如：

In [92]:
data = {"name":["yahoo","google","facebook"], "marks":[200,300,800], "price":[3, 3, 7]} 
df = pd.DataFrame(data)
# 按照价格排序,如果传入多个数据为按照主次排序
df.sort_values(["price","name"])

Unnamed: 0,marks,name,price
1,300,google,3
0,200,yahoo,3
2,800,facebook,7
