In [2]:
import numpy as np
import pandas as pd

In [3]:
##--------------------------##
## -----Pandas对象简介-------##
##--------------------------##

In [4]:
##------Pandas的Series对象--------##

#Pandas 的 Series 对象是一个带索引数据构成的一维数组。 可以用一个数组创建 Series 对象
data = pd.Series([0.12,0.24,0.36,0.60])
data

0    0.12
1    0.24
2    0.36
3    0.60
dtype: float64

In [5]:
#可以通过查看Series对象的index和values属性获取数据
#index属性
data.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
#values属性
data.values

array([0.12, 0.24, 0.36, 0.6 ])

In [7]:
#使用索引查看数据
print(data[1])
print(data[1:3])

0.24
1    0.24
2    0.36
dtype: float64


In [8]:
####01. Serise是通用的NumPy数组#####

#pandas和numpy的本质区别是索引： 
#NumPy 数组通过隐式定义的整数索引获取数值， 
#Pandas 的 Series 对象用一种显式定义的索引与数值关联。例如， 索引不再仅仅是整数， 还可以是任意想要的类型。 
#如果需要， 完全可以用字符串定义索引
data2=pd.Series([3.5,5.6,7.8,3.3],
               index = ["T1","T2","T2","T4"])
data2

T1    3.5
T2    5.6
T2    7.8
T4    3.3
dtype: float64

In [9]:
#同时可是使用字符索引
data2["T2"]

T2    5.6
T2    7.8
dtype: float64

In [10]:
data2[1:3]

T2    5.6
T2    7.8
dtype: float64

In [11]:
#也可以使用不连续或不按顺序的索引
data3=pd.Series([0.1,0.2,0.3,0.4],
               index = [7,7,6,8])
data3

7    0.1
7    0.2
6    0.3
8    0.4
dtype: float64

In [12]:
data3[7]

7    0.1
7    0.2
dtype: float64

In [13]:
#####Series是特殊的字典######

In [14]:
#创建一个字典
dic = {'pH':5.7,
      'Heigh':3.3,
      'Weight':15,
      'SPAD':20}
dic

{'pH': 5.7, 'Heigh': 3.3, 'Weight': 15, 'SPAD': 20}

In [15]:
#将字典转换为series对象
#可以直接用 Python 的字典创建一个 Series 对象，Series 对象与字典的类比更加清晰
dic2=pd.Series(dic)
dic2

pH         5.7
Heigh      3.3
Weight    15.0
SPAD      20.0
dtype: float64

In [16]:
#仍然可以使用字符或index进行索引
print(dic2[2])
print(dic2["Weight"])

15.0
15.0


In [17]:
#####创建Series对象######

#pd.Series(data, index=index)
#其中index是可选参数

In [18]:
#data 可以是列表或 NumPy 数组， 这时 index 默认值为整数序列
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [19]:
#data也可以是标量, 会重复填充到每个索引上
pd.Series(1,index=[12,33,123,11])

12     1
33     1
123    1
11     1
dtype: int64

In [20]:
#data 还可以是一个字典， index默认是排序是字典的键：
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

In [21]:
##------Pandas的DataFram对象--------##

In [22]:
#Pandas 的另一个基础数据结构是 DataFrame。 
#与Series 对象一样， DataFrame既可以作为一个通用型 NumPy 数组，也可以看作特殊的 Python 字典。 

In [23]:
#####DataFrame是通用的NumPy数组######

#如果将 Series 类比为带灵活索引的一维数组， 那么 DataFrame 就可以看作是一种既有灵活的行索引， 又有灵活列名的二维数组。 就像你
#可以把二维数组看成是有序排列的一维数组一样， 你也可以把 DataFrame 看成是有序排列的若干 Series 对象。 这里的“排列”指的是它们拥有共同的索引

In [24]:
#首先创建一个新的Series对象 area
area_dict = {'California': 423967, 
             'Texas': 695662, 
             'New York': 141297,
             'Florida': 170312, 
             'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [25]:
#再创建一个新的Series对象 population
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [26]:
#创建一个DataFrame对象,用一个字典创建一个包含这些信息的二维对象
states=pd.DataFrame({"AREA":area,"POPULATION":population})
states

Unnamed: 0,AREA,POPULATION
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [27]:
#与series类似，DataFrame同样可以通过访问index或values属性获取数据
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [28]:
states.values

array([[  423967, 38332521],
       [  695662, 26448193],
       [  141297, 19651127],
       [  170312, 19552860],
       [  149995, 12882135]], dtype=int64)

In [29]:
#DataFrame 还有一个 columns 属性， 是存放列标签的 Index 对象
states.columns

Index(['AREA', 'POPULATION'], dtype='object')

In [30]:
#####DataFrame是特殊的字典######

In [31]:
#与 Series 类似， 我们也可以把 DataFrame 看成一种特殊的字典。 字典是一个键映射一个值， 而 DataFrame 是一列映射一个 Series 的数据。 
#例如， 通过 'area' 的列属性可以返回包含面积数据的 Series 对象
states["AREA"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: AREA, dtype: int64

In [32]:
#####创建DataFram对象######

In [33]:
#(1) 通过单个 Series 对象创建。 DataFrame 是一组 Series 对象的集合， 可以用单个 Series 创建一个单列的 DataFrame：
pd.DataFrame(population,columns=["Populatuin"])

Unnamed: 0,Populatuin
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [34]:
#(2) 通过字典列表创建, 即使字典中有些键不存在， Pandas 也会用缺失值 NaN
pd.DataFrame([{"a":1,"b":2},{"a":3,"b":4}])

Unnamed: 0,a,b
0,1,2
1,3,4


In [35]:
pd.DataFrame([{'a': 1, 'b': 2}, 
              {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [36]:
#(3)通过 Series 对象字典创建。 
pd.DataFrame({'population': population, 
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [37]:
#（4）通过numpy二维数组直接创建
pd.DataFrame(np.arange(9).reshape(3,3), 
             index = ["f1","f2","f3"],
             columns= ["A","B","C"])

Unnamed: 0,A,B,C
f1,0,1,2
f2,3,4,5
f3,6,7,8


In [38]:
##------Pandas的Index对象--------##

In [39]:
#Pandas 的 Index 对象是一个很有趣的数据结构， 可以将它看作
#是一个不可变数组或有序集合（实际上是一个多集， 因为 Index 对象可能会包含重复值)

In [40]:
#首先创建一个index对象
ind=pd.Index([2,4,6,8,10])
ind

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [41]:
#01. 将Index看作不可变数组
#Index的许多操作都与数组类似
print(ind.shape,
      ind.size,
      ind.dtype)

(5,) 5 int64


In [42]:
#最重要的区别，index对象的值是不能改变的
ind[0] = 1
#TypeError: Index does not support mutable operations

TypeError: Index does not support mutable operations

In [43]:
#02. 将Index看作有序集合
#Pandas 对象被设计用于实现许多操作， 如连接（join） 数据集， 其中会涉及许多集合操作。
ind=pd.Index([2,4,6,8,10])
ind1=pd.Index([1,2,3,4,5])

ind & ind1
ind | ind1

  ind & ind1
  ind | ind1


Int64Index([1, 2, 3, 4, 5, 6, 8, 10], dtype='int64')