In [67]:
import pandas as pd
import numpy as np 

#### Series

In [68]:
# Series 存储的是一维数组  可以指索引列index， 数据列 data   如果不指定， 则index默认从0开始

# 指定index列 
data1 = [100,200,300]
index1 = ["a", "b", "c"]
index2 = ['m', 'b', 'n']
p = pd.Series(data=data1, index=index1, name = 's1')
p

a    100
b    200
c    300
Name: s1, dtype: int64

In [69]:
# 不指定index列 
data1 = [100,200,300]
index1 = ["a", "b", "c"]
index2 = ['m', 'b', 'n']
p = pd.Series(data=data1, name = 's2')
p

0    100
1    200
2    300
Name: s2, dtype: int64

In [70]:
# 如果这样并列的放置， 只会输出最后一个  
# p.name
# p.index
# 可以并列放置 
p.name, p.index, p.values   # 名称， 索引列， 数据值 

('s2', RangeIndex(start=0, stop=3, step=1), array([100, 200, 300]))

In [71]:
p.index = ['a1', 'a2', 'a3']  #  可以这样的方式修改index列， 或者名 
p.name = 'hello'
p

a1    100
a2    200
a3    300
Name: hello, dtype: int64

In [72]:
serise_index_name = pd.Index(data=[1,2,3,4], name="i am serise index")  #创建索引列， 并且给索引加上名称    
serise_index_name


Int64Index([1, 2, 3, 4], dtype='int64', name='i am serise index')

In [73]:
p1 = pd.Series(data=['z1', 'z2', 'z3', 'z4'], index=serise_index_name, name='serise with index name', dtype=str)
p1

# 如果没有指定index列的name属性， 那么不会出现 i am serise index （最上面一行）
# serise with index name 是这个serise对象的名称 
# dtype=str  是指定数据类型的，要和data的一致， 否则报错  可以指定为 float str int 等等， 不加的话会自定识别


i am serise index
1    z1
2    z2
3    z3
4    z4
Name: serise with index name, dtype: object

In [74]:
# 可以向操作dict一样操作Series   index列就是dict的key
p1.get(1) 

'z1'

In [75]:
# 可以像操作列表一样，操作Series， 输出的是index和data值
p1[:1]

i am serise index
1    z1
Name: serise with index name, dtype: object

In [76]:
# 可以像操作列表一样，操作Series， 输出的是data值
p1[1]

同样也支持切片操作  


NameError: name '同样也支持切片操作' is not defined

In [None]:
# Series的向量化操作 

index1 = ['a', 'b', 'c']
data = [1,2,3]
p2 = pd.Series(data=data, index=index1, dtype=float, name='series`s name')
p2

In [78]:
# 如果data 是数字， 则可以直接 对其运算 
p2 * 1.3

a    1.3
b    2.6
c    3.9
Name: series`s name, dtype: float64

In [79]:
# Series 与 ndarray 一样，也是支持向量化操作的。同时也可以传递给大多数期望 ndarray 的 NumPy 方法
np.exp(p2)

a     2.718282
b     7.389056
c    20.085537
Name: series`s name, dtype: float64

DataFrame

DataFrame 是一个带有索引的二维数据结构，每列可以有自己的名字，并且可以有不同的数据类型。你可以把它想象成一个 excel 表格或者数据库中的一张表，DataFrame 是最常用的 pandas 对象

创建 DataFrame

In [98]:
# DataFrame 只传data， 不给列索引或者行索引，会默认从0开始  

a1 = [
    [1,2,3],
    ["a", 'b','c', 'd']
]

# index 列索引 对应的是data（即a1）的list的中的元素个数  为 2 
# columns 行索引， 对应的是data的list中的长度最长那个元素的个数 为4， 

d = pd.DataFrame(data=a1, index=['a1', 'a2'])
d


Unnamed: 0,0,1,2,3
a1,1,2,3,
a2,a,b,c,d


In [145]:

index1 = pd.Index(data=['a', 'b', 'c', 'd'], name='index`s name')   # 创建index列名  并指定索引列的列名

# 创建data   age 和city是列的标头 通过dict实现   
data = {
    "age": [18, 30, 25, 40],
    "city": ["BeiJing", "ShangHai", "GuangZhou", "ShenZhen"]
}


p3 = pd.DataFrame(data=data, index=index1)
p3



Unnamed: 0_level_0,age,city
index`s name,Unnamed: 1_level_1,Unnamed: 2_level_1
a,18,BeiJing
b,30,ShangHai
c,25,GuangZhou
d,40,ShenZhen


In [114]:
index1 = pd.Index(data=['a', 'b', 'c', 'd'], name='index`s name')   # 创建index列名  并指定索引列的列名

# 创建data   age 和city是列的标头 通过list 实现  先构建一个二维数组，再生成一个列名称列表。

data = [
    [18, "BeiJing"], 
    [12, "BeiJing2"], 
    [13, "BeiJing3"], 
    [15, "BeiJing4"], 
]
columns = ['age', 'city'] # 列名称列表


p3 = pd.DataFrame(data=data, index=index1, columns=columns)
p3


# 注意使用list 方式和 使用dict方式构造data时候的结构不一样的  

Unnamed: 0_level_0,age,city
index`s name,Unnamed: 1_level_1,Unnamed: 2_level_1
a,18,BeiJing
b,12,BeiJing2
c,13,BeiJing3
d,15,BeiJing4


访问行   

In [109]:
# 访问行   
# 可以通过某行的索引名（即某一行的第一个元素），  借助loc方法  后面是列表的形式  
# 如果获取的不存在，则 报 KeyError  
p3.loc['c']    # 是索引名 


age           13
city    BeiJing3
Name: c, dtype: object

In [111]:
# 访问行   
# 可以通过某行的索引值，  借助 iloc 方法  后面是列表的形式  
# 如果获取的不存在，则 报 KeyError  
p3.iloc[1]  # 是数字 


age           12
city    BeiJing2
Name: b, dtype: object

In [146]:
# 可以通过切分访问多个用户      loc方法是不行的， 只能iloc 
p3.iloc[1:4]

Unnamed: 0_level_0,age,city
index`s name,Unnamed: 1_level_1,Unnamed: 2_level_1
b,30,ShangHai
c,25,GuangZhou
d,40,ShenZhen


访问列

In [125]:
# 可通过 .列名的方式获取该列的数据  
p3.age, p3.city

(index`s name
 a    18
 b    30
 c    25
 d    40
 Name: age, dtype: int64, index`s name
 a      BeiJing
 b     ShangHai
 c    GuangZhou
 d     ShenZhen
 Name: city, dtype: object)

In [147]:
# 或者  数组形式  一次获取一列
p3['age'], p3['city']

(index`s name
 a    18
 b    30
 c    25
 d    40
 Name: age, dtype: int64, index`s name
 a      BeiJing
 b     ShangHai
 c    GuangZhou
 d     ShenZhen
 Name: city, dtype: object)

In [154]:
# 使用数组的形式一次性获取多列 
p3[['age', 'city']] 

Unnamed: 0_level_0,age,city
index`s name,Unnamed: 1_level_1,Unnamed: 2_level_1
a,18,BeiJing
b,30,ShangHai
c,25,GuangZhou
d,40,ShenZhen


In [148]:
# 新增一列  
p3['sex'] = ['male','male','male','female']
# p3['sex'] = 'male'  相当于 ['male','male','male','male']   自动的识别有多少行， 填充为一样的
p3

Unnamed: 0_level_0,age,city,sex
index`s name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,18,BeiJing,male
b,30,ShangHai,male
c,25,GuangZhou,male
d,40,ShenZhen,female


In [149]:
# 删除某一列   pop方法指定列名 
# p3.pop('sex')  
p3

Unnamed: 0_level_0,age,city,sex
index`s name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,18,BeiJing,male
b,30,ShangHai,male
c,25,GuangZhou,male
d,40,ShenZhen,female


In [161]:
# 如果想要保证原有的 DataFrame 不改变的话，我们可以通过 assign 方法来创建新的一列
# p3.assign(new_columns = p3['age'] + 10)

#  这一步没执行成功 ，不知道原因
p3.assign(age_add_one = p3.age + 1)
p3


Unnamed: 0_level_0,age,city,sex
index`s name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,18,BeiJing,male
b,30,ShangHai,male
c,25,GuangZhou,male
d,40,ShenZhen,female


In [159]:
p3

Unnamed: 0_level_0,age,city,sex
index`s name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,18,BeiJing,male
b,30,ShangHai,male
c,25,GuangZhou,male
d,40,ShenZhen,female
