pandas是基于Numpy数组构建的，特别是基于数组的函数，和不使用for循环的数据出来，numpy适合统一的数据结构处理，pandas则支持混杂数据


In [370]:
import pandas as pd
from pandas import Series, DataFrame
#两个主要的数据结构，Series 和DataFrame，Series类似一维数组，由Numpy数据类型和与之相关的数据标签(索引)组成。  
obj=pd.Series([7,4,-5,3])
obj



0    7
1    4
2   -5
3    3
dtype: int64

In [371]:
obj.dtype


dtype('int64')

In [372]:
#对于Series类型 索引在左边，值在右边，没有指定索引，会自动创建0到N-1的索引。

可通过Series的values和index数学获取其数组表示形式和索引对象:


In [373]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [374]:
obj.values

array([ 7,  4, -5,  3], dtype=int64)

In [375]:
from operator import index

#默认索引是数字0到  N-1
#可以手动增加一些其他的索引
obj2 = pd.Series([1, 2, 3, 4, 5],index=['f','d','b','a','c'])
obj2

f    1
d    2
b    3
a    4
c    5
dtype: int64

In [376]:
obj2.index

Index(['f', 'd', 'b', 'a', 'c'], dtype='object')

In [377]:
obj2['a']  #通过索引方式选取serises中的值

4

In [378]:
obj2[['a','b','c']]  #一组值，要用列表括起来

a    4
b    3
c    5
dtype: int64

['c', 'a', 'd']是索引列表，即使它包含的是字符串而不是整数。 使用NumPy函数或类似NumPy的运算（如根据布尔型数组进行 过滤、标量乘法、应用数学函数等）都会保留索引值的链接：

In [379]:
obj2[obj2>3]


a    4
c    5
dtype: int64

In [380]:
obj2*2

f     2
d     4
b     6
a     8
c    10
dtype: int64

In [381]:
import numpy as np

np.exp(obj2)   #obj不是np的对象，但是可以用np处理  类型是通用的

f      2.718282
d      7.389056
b     20.085537
a     54.598150
c    148.413159
dtype: float64

In [382]:
#还可以将Series看成是一个定⻓的有序字典，因为它是索引值到 数据值的一个映射。它可以用在许多原本需要字典参数的函数中  可以当字典用
'b'in obj2

True

In [383]:
#数据如果在字典中，也可以把字典转成Series类型
sdata={'Ohio':35000,'Texas':71000}
obj3=pd.Series(sdata)#强制类型转换
obj3

Ohio     35000
Texas    71000
dtype: int64

In [384]:
states=['California', 'Ohio', 'Oregon','Texas']#你可以传入排好序的列表(列表而不是字典)的键以改变顺序,索引匹配的值自动放到对应位置
obj4=pd.Series(sdata,index=states)

In [385]:
obj4#NaN表示 not a number   表示缺失或者不是一个值

California        NaN
Ohio          35000.0
Oregon            NaN
Texas         71000.0
dtype: float64

In [386]:
#使用pandas的isnull和notnull进行检测缺失的数据
pd.isnull(obj4)


California     True
Ohio          False
Oregon         True
Texas         False
dtype: bool

In [387]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon        False
Texas          True
dtype: bool

In [388]:
#或者用类方法   也可以得到

obj4.isnull()


California     True
Ohio          False
Oregon         True
Texas         False
dtype: bool

In [389]:
#Series会根据确实的数据进行对其
obj3

Ohio     35000
Texas    71000
dtype: int64

In [390]:
obj4

California        NaN
Ohio          35000.0
Oregon            NaN
Texas         71000.0
dtype: float64

In [391]:
obj3+obj4  #数据对齐功能，类似数据库的join

California         NaN
Ohio           70000.0
Oregon             NaN
Texas         142000.0
dtype: float64

In [392]:
#Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系非常密切：  本身及其索引
obj4.name='population'
obj4.index.name='state'
obj4

state
California        NaN
Ohio          35000.0
Oregon            NaN
Texas         71000.0
Name: population, dtype: float64

In [393]:
obj

0    7
1    4
2   -5
3    3
dtype: int64

In [394]:
obj.index=['Bob','Steve','Jeff','Ryan']
obj  #直接改索引

Bob      7
Steve    4
Jeff    -5
Ryan     3
dtype: int64

DataFrame是一个表格型的数据结构，它含有一组有序的列，每 列可以是不同的值类型（数值、字符串、布尔值等）。  DF对比Series :Series：

一维，单一数据类型
行索引
适合一维操作（统计、过滤）
从列表、字典、标量创建
DataFrame：

二维，多种数据类型
行和列索引
适合多维操作（数据透视、合并、分组）
从二维数组、字典列表、Series字典创建

DataFrame中的数据是以一个或多 个二维块存放的（而不是列表、字典或别的一维数据结构）。

In [395]:
#建DataFrame 方法：直接传等长的列表或者Numpy数组组成的的字典
data={'state':['California', 'Ohio', 'Oregon','Texas']
      ,'year':[2000,2001,2002,2001],'pop':[1.5,1.7,3.6,2.9]
      
      }
frame=pd.DataFrame(data)
frame  #会自动加上索引，这就是有序排列

Unnamed: 0,state,year,pop
0,California,2000,1.5
1,Ohio,2001,1.7
2,Oregon,2002,3.6
3,Texas,2001,2.9


In [396]:
#对于特别大的DataFrame，head 方法选取前5行
frame.head()#但这里表格比较小 五行都没到

Unnamed: 0,state,year,pop
0,California,2000,1.5
1,Ohio,2001,1.7
2,Oregon,2002,3.6
3,Texas,2001,2.9


In [397]:
#可以指定序列进行排列
pd.DataFrame(data,columns=['pop','year'])#甚至能隐藏一些栏目

Unnamed: 0,pop,year
0,1.5,2000
1,1.7,2001
2,3.6,2002
3,2.9,2001


In [398]:
#传入的列找不到，结果中会有缺失值  会产生缺失值,会产生这一栏，但是是空值
frame2=pd.DataFrame(data,columns=['year','one','two','three','state'])
frame2

Unnamed: 0,year,one,two,three,state
0,2000,,,,California
1,2001,,,,Ohio
2,2002,,,,Oregon
3,2001,,,,Texas


In [399]:
#DataFrame列(一维),能够将DataFrame 列获得成一个Series
frame2['state']


0    California
1          Ohio
2        Oregon
3         Texas
Name: state, dtype: object

In [400]:
frame3=frame2.year  #()方法或属性的方式获取

笔记：IPython提供了类似属性的访问（即frame2.year）和tab补全。frame2[column]适用于任何列的名，但是frame2.column只有 在列名是一个合理的Python变量名时才适用。

In [401]:
frame3.index=['year1','year2','year3','year4']

In [402]:
frame3

year1    2000
year2    2001
year3    2002
year4    2001
Name: year, dtype: int64

In [403]:
frame2=pd.DataFrame(data,columns=['year','one','two','three','state'])

loc是Pandas中的一种索引方法，用于基于标签（索引名）进行数据选择和提取。它可以用于选择行、列或行列的子集。

用法：
选择行：

df.loc['row_label']：选择指定行标签的行。
选择列：

df.loc[:, 'column_label']：选择指定列标签的列。
选择行和列：

df.loc['row_label', 'column_label']：选择特定的行和列。
选择多个行或列：

df.loc[['row1', 'row2'], ['col1', 'col2']]：选择多个行和列。

In [404]:

frame2.loc[:'three']

Unnamed: 0,year,one,two,three,state
0,2000,,,,California
1,2001,,,,Ohio
2,2002,,,,Oregon
3,2001,,,,Texas


In [405]:
#可以批量赋值
frame2['debt']=16.5


#定义好的表格 列的顺序修改  赋值的方式

In [406]:
frame2=frame2[['year','state','debt']]  #列表里加列表才行

In [407]:
frame2#上面给debt都赋了一个值


Unnamed: 0,year,state,debt
0,2000,California,16.5
1,2001,Ohio,16.5
2,2002,Oregon,16.5
3,2001,Texas,16.5


赋值操作：你可以将一个列表或Series赋值给DataFrame的某一列。

长度匹配：如果使用列表，长度必须与DataFrame的行数相同。

索引匹配：如果使用Series，会根据索引匹配DataFrame的行。如果Series中的索引在DataFrame中不存在，则对应位置会填充NaN。




In [408]:
frame2['debt']=np.arange(4.)
frame2

Unnamed: 0,year,state,debt
0,2000,California,0.0
1,2001,Ohio,1.0
2,2002,Oregon,2.0
3,2001,Texas,3.0


In [409]:

#之前上面是批量赋值同一个数 ，现在是单独赋值。 用一个serices类型，val=pd.Series([])
val=pd.Series([-1.2,-1.5,-1.7],index=['0','1','2'])
frame2['debt']=val
frame2

Unnamed: 0,year,state,debt
0,2000,California,
1,2001,Ohio,
2,2002,Oregon,
3,2001,Texas,


In [410]:
data = {
    'year': [2000, 2001, 2002, 2001, 2002, 2003],
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}

index = ['one', 'two', 'three', 'four', 'five', 'six']

frame2 = pd.DataFrame(data, index=index)

# 修改 'debt' 列
frame2['debt'] = np.arange(6.)
frame2


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [411]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [412]:
frame2['eastern']=frame2.state=='ohio'#为不存在的列赋值，首先会创建一个新的列，del可以删除
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,False
two,2001,Ohio,1.7,-1.2,False
three,2002,Ohio,3.6,,False
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [413]:
del frame2['eastern']

In [414]:
frame2.columns  #返回的是视图 不是副本，如果对返回值修改，全部会反映到源上，可以通过copy的方法复制指定的列

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [415]:
#删除行drop()

frame2.drop('one')

Unnamed: 0,year,state,pop,debt
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [416]:
#另一种常⻅的数据形式是嵌套字典：
pop={'Nevada':{2001:2.4,2002:2.5,2003:2.6,2004:2.7,2005:2.8},'ohio':{2001:2.9,2002:3.0,2003:3.1,2004:3.2,2005:3.3}}#外层的字典是列，内存的字典是行索引
frame3=pd.DataFrame(pop)   

In [417]:
frame3

Unnamed: 0,Nevada,ohio
2001,2.4,2.9
2002,2.5,3.0
2003,2.6,3.1
2004,2.7,3.2
2005,2.8,3.3


In [419]:
#用NumPy方法,对DataFrame进行转置
frame3.T#转置后内层的键会被合并，排序成最终索引，这个索引是不确定的，如果在一开始创建的时候明确指定就不会  pd.Dateframe(pop,index[2001,2002,2003])   #pop在这是人口

Unnamed: 0,2001,2002,2003,2004,2005
Nevada,2.4,2.5,2.6,2.7,2.8
ohio,2.9,3.0,3.1,3.2,3.3


In [420]:
#由serise组成字典 
pdata={'ohio':frame3['ohio'][:-1],'Nevada':frame3['Nevada'][:2]}#[:-1]表示提取所有行 除了最后一行  [:2]表示提取前两行
pd.DataFrame(pdata)


Unnamed: 0,ohio,Nevada
2001,2.9,2.4
2002,3.0,2.5
2003,3.1,
2004,3.2,


In [423]:
#设置了DataFrame的index和columns的name属性
frame3.index.name='year';frame3.columns.name='state'
frame3

state,Nevada,ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,2.9
2002,2.5,3.0
2003,2.6,3.1
2004,2.7,3.2
2005,2.8,3.3


In [424]:
#跟Series一样，values属性也会以二维ndarray的形式返回DataFrame中的数据
frame3.values   #这是各列数据类型相同的情况

array([[2.4, 2.9],
       [2.5, 3. ],
       [2.6, 3.1],
       [2.7, 3.2],
       [2.8, 3.3]])

In [1]:
#如果数据类型不同 ，也能兼容
frame2.values


NameError: name 'frame2' is not defined

类型: 二维ndarray  
说明: 数据矩阵，还可以传入行标和列�  

类型: 列表或元组组成的字典  
说明: 每个序列会变成DataFrame的一列。所有序列的长度必须相同  

类型: NumPy的结构化/记录数组  
说明: 类似于“由数组组成的字典”  

类型: 由Series组成的字典  
说明: 每个Series会成为一列。如果没有显式指定索引，则各Series的索引会被合并成结果的行索引  

类型: 由字典组成的字典  
说明: 各内层字典会成为一列。键会被合并成结果的行索引。即“由Series组成的字典”情形一样  

类型: 字典或Series的列表  
说明: 各项将会成为DataFrame的一行，字典键或Series索引的并集将会成为DataFrame的列标  

类型: 列表或元组组成的列表  
说明: 类似于“二维ndarray”  

类型: 另一个DataFrame  
说明: 该DataFrame的索引将会被沿用，除非显式指定了其他索引  

类型: NumPy的MaskedArray  
说明: 类似于“二维ndarray”的情况，只是掩码值在结果DataFrame会变成NA/缺失值  


In [None]:
#索引对象