## 1.Series 的创建
Series 是一种一位数组对象，包含一个值序列，并且包含数据标签，成为索引（index），通过索引来访问数组中的数据

In [2]:
# 1)通过列表创建
import pandas as pd
obj = pd.Series([1,-2,3,-4])
print(obj)

0    1
1   -2
2    3
3   -4
dtype: int64


# 2.DataFrame
DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同类型的值（数值、字符串、布尔值等）。DataFrame 既有行索引也有列索引，它可以被看作由Series组成的字典（共用同一个索引）。跟其他类似的数据结构相比（如R的 data. frame），DataFrame中面向行和面向列的操作基本上是平衡的。


In [4]:
# DataFrame 的创建
data = {
    'name':['张三','李四','王五','小明'],
    'sex':['female','female','male','male'],
    'year':[2001,2001,2003,2002],
    'city':['北京','上海','广州','北京']
    }
df = pd.DataFrame(data)
print(df)

  name     sex  year city
0   张三  female  2001   北京
1   李四  female  2001   上海
2   王五    male  2003   广州
3   小明    male  2002   北京


跟 Series 一样，如果传入的列在数据中找不到，就会产生 NaN 值

In [5]:
# DataFrame 创建时的空缺值
df2 = pd.DataFrame(data,columns = ['name','year','sex','city','address'])
print(df2)

  name  year     sex city address
0   张三  2001  female   北京     NaN
1   李四  2001  female   上海     NaN
2   王五  2003    male   广州     NaN
3   小明  2002    male   北京     NaN


In [8]:
# DataFrame 创建时指定列名
df3 = pd.DataFrame(data,columns = ['name','year','sex','city'],index=['a','b','c','d'])
print(df3)

  name  year     sex city
a   张三  2001  female   北京
b   李四  2001  female   上海
c   王五  2003    male   广州
d   小明  2002    male   北京


# 3.索引对象
Pandas 的索引对象负责管理轴标签 和 其他元数据（例如轴名称等）。构建 Series 或 DataFrame 时，所用到的任何数组 或 其他序列的标签都会被转换成一个 Index。

In [9]:
# 显示 DataFrame 的索引 和 列
print(df)
print(df.index)
print(df.columns)

  name     sex  year city
0   张三  female  2001   北京
1   李四  female  2001   上海
2   王五    male  2003   广州
3   小明    male  2002   北京
RangeIndex(start=0, stop=4, step=1)
Index(['name', 'sex', 'year', 'city'], dtype='object')


索引对象不能进行修改，否则会报错，因此用户不能对其进行修改。不可修改性非常重要，因为这样才能使Index对象在多个数据结构之间安全共享。
除了长得像数组，Index的功能也类似于一个固定大小的集合

In [22]:
# DataFrame 的 Index
print('name' in df.columns)
print( 2 in df.index)
print( '2' in df.index)

True
True
False


每个索引都有一些方法和属性，它们可用于设置逻辑并回答有关该索引所包含的数据的常见问题。Index的常用方法和属性见表4-1。

In [24]:
# 表4_1
data= {
    '方法':['append','diff','intersection','union','isin','delete','drop','insert','is_monotonic','is.unique','unique'],
    '属性':['连接另一个Index对象，产生一个新的Index','计算差集，并得到一个Index ','计算交集','计算并集','计算一个指示各值是否都包含在参数集合中的布尔型数组','删除索引i处的元素，并得到新的Index','删除传入的值，并得到新的Index','将元素插入索引i处，并得到新的Index','当各元素均大于或等于前一个元素时，返回True','当Index没有重复值时，返回True','计算Index中唯一值的数组']
}
df4_1 = pd.DataFrame(data)
print(df4_1)

              方法                         属性
0         append   连接另一个Index对象，产生一个新的Index
1           diff           计算差集，并得到一个Index 
2   intersection                       计算交集
3          union                       计算并集
4           isin  计算一个指示各值是否都包含在参数集合中的布尔型数组
5         delete       删除索引i处的元素，并得到新的Index
6           drop          删除传入的值，并得到新的Index
7         insert       将元素插入索引i处，并得到新的Index
8   is_monotonic    当各元素均大于或等于前一个元素时，返回True
9      is.unique        当Index没有重复值时，返回True
10        unique             计算Index中唯一值的数组


In [25]:
# 插入索引值
df.index.insert(1,'w')

Index([0, 'w', 1, 2, 3], dtype='object')

# 4.查看DataFrame 的常用属性
DataFrame的基础属性有values、index、columns、dtypes、ndim和shape，分别可以获取DataFrame的元素、索引、列名、类型、维度和形状。

In [28]:
print(df)
print('信息表的所有值为：\n',df.values)
print('信息表的所有列为\n',df.columns)
print('信息表的元素个数为\n',df.size)
print('信息表的维度时\n',df.ndim)
print('信息表的形状为\n',df.shape)

  name     sex  year city
0   张三  female  2001   北京
1   李四  female  2001   上海
2   王五    male  2003   广州
3   小明    male  2002   北京
信息表的所有值为：
 [['张三' 'female' 2001 '北京']
 ['李四' 'female' 2001 '上海']
 ['王五' 'male' 2003 '广州']
 ['小明' 'male' 2002 '北京']]
信息表的所有列为
 Index(['name', 'sex', 'year', 'city'], dtype='object')
信息表的元素个数为
 16
信息表的维度时
 2
信息表的形状为
 (4, 4)
