# Series和DataFrame对象的创建
    
pandas中的核心对象是Series和DataFrame，这一节主要介绍如何创建这两种对象。
    Pandas 有两种自己独有的基本数据结构，它固然有着两种数据结构，因为它依然是 Python 的一个库，所以，Python 中有的数据类型在这里依然适用，也同样还可以使用类自己定义数据类型。只不过，Pandas 里面又定义了两种数据类型：Series 和 DataFrame，它们让数据操作更简单了


In [5]:
!cd

C:\Code\python\pandas_notebook


In [1]:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd

---
# 1. Series

Series是pandas中暴露给我们使用的基本对象，它是由相同元素类型构成的一维数据结构，同时具有列表和字典的属性（字典的属性由索引赋予）。

    Series：有序，有索引
    list：  有序，无索引
    dict：  无序，有索引
    
    比如这样一个列表：[9, 3, 8]，如果跟索引值写到一起，就是：
    data	9	3	8
    index   0	1	2
    不过，在有些时候，需要把它竖过来表示
    index	data
        0	9
        1	3
        2	8
    Series 就是“竖起来”的 list

## 1.1 预览

In [2]:
data = [1,2,3]
index = ['a','b','c']  #指定索引值
s = pd.Series(data=data, index=index, name = 'sss')
s

a    1
b    2
c    3
Name: sss, dtype: int64

In [4]:
s2 = Series([100, "Python", "C++", 3.1415])  #未指定索引，默认0，1，2，3
s2

0       100
1    Python
2       C++
3    3.1415
dtype: object

In [9]:
s.index  # 四个属性之一：索引（字典的key）

Index(['a', 'b', 'c'], dtype='object')

In [10]:
s.name  # 四个属性之二：名字，

'sss'

In [11]:
s.values # 四个属性之三：值

array([1, 2, 3], dtype=int64)

In [12]:
s.dtype # 四个属性之四：元素类型  问题？s2.dtype

dtype('int64')

In [5]:
s2.index

RangeIndex(start=0, stop=4, step=1)

- 列表的索引只能是从 0 开始的整数，Series 数据类型在默认情况下，其索引也是如此。
- 不过，区别于列表的是，Series 可以自定义索引

----
## 1.2 创建
`pd.Series(data=None, index=None, name = None)`
- data：多种类型，见下面具体介绍
- index：索引
- name：对data的说明，用的不多，一般在和DataFrame、Index互相转换时才需要。

### 1.2.1 data无索引
- 如果 data 为 **ndarray(1D) 或 list(1D)**，那么其缺少 Series 需要的索引信息；
- 如果提供 index，如果给定则必须和data长度相同；
- 如果不提供 index，那么其将生成默认数值索引 range(0, data.shape[0])。

In [6]:
# data = [1,2,3]
data1 = np.array([1,2,3])
index1 = ['a','b','c']
s = pd.Series(data = data1, index = index1)
s

a    1
b    2
c    3
dtype: int32

In [15]:
s2 = Series([100, "Python", "C++", 3.1415], index=["mark", "easy", "hard", "pi"])
s2

mark       100
easy    Python
hard       C++
pi      3.1415
dtype: object

### 1.2.2 data有索引
 - 如果 data 为 **Series 或 dict** ，那么其已经提供了 Series 需要的索引信息，所以 index 项是不需要提供的；
 - 如果额外提供了 index 项，那么其将对当前构建的Series进行 重索引（增删）（等同于reindex操作）。

In [8]:
# data = pd.Series([a,b,c], index = ['a','b','c'] )
data2 = { 'a':1, 'b':2,'c':3 }
index2 = ['a','b','d']
s = pd.Series(data = data2, index = index2)
s
#s['a']

a    1.0
b    2.0
d    NaN
dtype: float64

如上，index项用于从当前已有索引中匹配出相同的行，如果当前索引缺失给定的索引，则填充NaN（NaN：not a number为pandas缺失值标记）。

## 1.3 根据索引访问
 - 自定义索引，的确比较有意思。就凭这个，也是必须的。
 - 每个元素都有了索引，就可以根据索引操作元素了。还记得 list 中的操作吗？Series 中，也有类似的操作。先看简单的，根据索引查看其值和修改其值

In [17]:
s2 = Series([100, "Python", "C++", 3.1415], index=["mark", "easy", "hard", "pi"])
s2

mark       100
easy    Python
hard       C++
pi      3.1415
dtype: object

In [18]:
s2["easy"]

'Python'

这是不是又有点类似 dict 数据了呢？的确如此。看下面就理解了。
前面定义 Series 对象的时候，用的是列表，即 Series() 方法的参数中，第一个列表就是其数据值，如果需要定义 index，放在后面，依然是一个列表。
除了这种方法之外，还可以用下面的方法定义 Series 对象：

In [9]:
sd = {"python":8000, "C++":8100, "Java":4000}
s3 = Series(sd)
s3

C++       8100
Java      4000
python    8000
dtype: int64

现在是否理解为什么前面那个类似 dict 了？因为本来就是可以这样定义的。
这时候，索引依然可以自定义。Pandas 的优势在这里体现出来，如果自定义了索引，自定的索引会自动寻找原来的索引，如果一样的，就取原来索引对应的值，这个可以简称为“自动对齐”。

In [11]:
s4 = Series(sd, index=["Java", "python", "C++", "C#"])
s4

Java      4000.0
python    8000.0
C++       8100.0
C#           NaN
dtype: float64

在 sd 中，只有'python':8000, 'c++':8100, 'Java':4000，没有"C#"，但是在索引参数中有，于是其它能够“自动对齐”的照搬原值，没有的那个"C#"，依然在新 Series 对象的索引中存在，并且自动为其赋值 NaN。在 Pandas 中，如果没有值，都对齐赋给 NaN。

## 1.4 Series运算
### 1.4.1 判空

In [12]:
pd.isnull(s4)

Java      False
python    False
C++       False
C#         True
dtype: bool

In [22]:
pd.notnull(s4)

Java       True
python     True
C++        True
C#        False
dtype: bool

此外，Series 对象也有同样的方法

In [23]:
s4.isnull()

Java      False
python    False
C++       False
C#         True
dtype: bool

### 1.4.2 比较

In [13]:
s5 = Series([3,9,4,7], index=['a', 'b', 'c', 'd'])
s5

a    3
b    9
c    4
d    7
dtype: int64

In [14]:
s5 > 5

a    False
b     True
c    False
d     True
dtype: bool

In [25]:
s5[s5 > 5]

b    9
d    7
dtype: int64

### 1.4.3 四则运算

In [26]:
s5 * 5

a    15
b    45
c    20
d    35
dtype: int64

In [27]:
s5 + s5

a     6
b    18
c     8
d    14
dtype: int64

----
# 2. DataFrame
DataFrame由具有共同索引的Series按列排列构成（2D），是使用最多的对象。
DataFrame 是一种二维的数据结构，非常接近于电子表格或者类似 mysql 数据库的形式。它的竖行称之为 columns，横行跟前面的 Series 一样，称之为 index，也就是说可以通过 columns 和 index 来确定一个主句的位置
<img src=resource/DataFrame.png style="width:509px;height:156px;float:left">


## 2.1 预览

In [15]:
data = [[1,2,3],
       [4,5,6]]
index = ['a','b']
columns = ['A','B','C']
df = pd.DataFrame(data=data, index = index, columns = columns)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [29]:
df.index  # 行索引

Index(['a', 'b'], dtype='object')

In [30]:
df.columns  # 列索引，与Series的name一个意思

Index(['A', 'B', 'C'], dtype='object')

In [31]:
df.values # 值

array([[1, 2, 3],
       [4, 5, 6]], dtype=int64)

In [32]:
df.dtypes  # 这里的dtype带s，查看每列元素类型

A    int64
B    int64
C    int64
dtype: object

----
## 2.2 创建
####  pd.DataFrame(data=None, index=None, columns=None)
函数由多个参数，对我们有用的主要是：`data`,`index`和`columns`三项

### 2.1 data无 行索引，无 列索引
- 如果 data 为 **ndarray(2D) or list(2D)**，那么其缺少 DataFrame 需要的行、列索引信息；
- 如果提供 index 或 columns 项，其必须和data的行 或 列长度相同；
- 如果不提供 index 或 columns 项，那么其将默认生成数值索引range(0, data.shape[0])) 或 range(0, data.shape[1])。

In [33]:
# data = [[1,2,3],
#        [4,5,6]]
data1 = np.array([[1,2,3],
                [4,5,6]] )
index1 = ['a','b']
columns1 = ['A','B','C']
df = pd.DataFrame(data=data1, index = index1, columns = columns1)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


### 2.2 data无 行索引，有 列索引
 - 如果data为 **dict of ndarray(1D) or list(1D)**，所有ndarray或list的长度必须相同。且dict的key为DataFrame提供了需要的columns信息，缺失index；
 - 如果提供 index 项，必须和list的长度相同；
 - 如果不提供 index，那么其将默认生成数值索引range(0, data.shape[0]))；
 - 如果还额外提供了columns项，那么其将对当前构建的DataFrame进行 **列重索引**。

In [17]:
data2 = { 'A' : [1,4], 'B': [2,5], 'C':[3,6] }
index2 = ['a','b']
columns2 = ['A','B','D']
df = pd.DataFrame(data=data2, index = index2, columns = columns2)
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


### 2.3 data有 行索引，有 列索引
 - 如果data为 **dict of Series or dict**，那么其已经提供了DataFrame需要的所有信息；
 - 如果多个Series或dict间的索引不一致，那么取并操作（pandas不会试图丢掉信息），缺失的数据填充NaN；
 - 如果提供了index项或columns项，那么其将对当前构建的DataFrame进行 重索引（reindex，pandas内部调用接口）。

In [18]:
# data3 = { 'A' : pd.Series([1,4] ,index = ['a','b']), 'B' : pd.Series([2,5] ,index = ['a','b']), 'C' : pd.Series([3,6] ,index = ['a','c']) }
data3 = { 'A' : { 'a':1, 'b':4}, 'B': {'a':2,'b':5}, 'C':{'a':3, 'c':6} }
df = pd.DataFrame(data=data3)
dfs

Unnamed: 0,A,B,C
a,1.0,2.0,3.0
b,4.0,5.0,
c,,,6.0


## 2.4 小结
- DataFrame 对象的常用方法——使用 dict 定义。字典的“键”（"name"，"marks"，"price"）就是 DataFrame 的 columns 的值（名称），字典中每个“键”的“值”是一个列表，它们就是那一竖列中的具体填充数据。上面的定义中没有确定索引，所以，按照惯例（Series 中已经形成的惯例）就是从 0 开始的整数。从上面的结果中很明显表示出来，这就是一个二维的数据结构（类似 excel 或者 mysql 中的查看效果）

In [20]:
data = {"name":["yahoo","google","facebook"], "marks":[200,400,800], "price":[9, 3, 7]} 
f1 = DataFrame(data) 
f1

Unnamed: 0,marks,name,price
0,200,yahoo,9
1,400,google,3
2,800,facebook,7


- 上面的数据显示中，columns 的顺序没有规定，就如同字典中键的顺序一样，但是在 DataFrame 中，columns 跟字典键相比，有一个明显不同，就是其顺序可以被规定，向下面这样做：

In [37]:
f2 = DataFrame(data, columns=['name','price','marks']) 
f2

Unnamed: 0,name,price,marks
0,yahoo,9,200
1,google,3,400
2,facebook,7,800


- 跟 Series 类似的，DataFrame 数据的索引也能够自定义

In [1]:
#f3 = DataFrame(data, columns=['name', 'price', 'marks', 'debt'], index=['a','b','c','d']) 
#f3 = DataFrame(data, columns=['name', 'price', 'marks', 'debt'], index=['a','b','c']) 

- 报错了。这个报错信息就太不友好了，也没有提供什么线索。这就是交互模式的不利之处。修改之，错误在于 index 的值——列表——的数据项多了一个，data 中是三行，这里给出了四个项（['a','b','c','d']）

## 2.5 属性和方法

In [21]:
f3 = DataFrame(data, columns=['name', 'price', 'marks', 'debt'], index=['a','b','c']) 
f3.columns 

Index(['name', 'price', 'marks', 'debt'], dtype='object')

- DataFrame 对象的 columns 属性，能够显示所有的 columns 名称。并且，还能用下面类似字典的方式，得到某竖列的全部内容（当然包含索引）

In [22]:

f3['name']

a       yahoo
b      google
c    facebook
Name: name, dtype: object

- 这是什么？这其实就是一个 Series，或者说，可以将 DataFrame 理解为是有一个一个的 Series 组成的。
- 下面统一列赋值

In [23]:
f3['debt'] = 89.2
f3

Unnamed: 0,name,price,marks,debt
a,yahoo,9,200,89.2
b,google,3,400,89.2
c,facebook,7,800,89.2


- 除了能够统一赋值之外，还能够“点对点”添加数值，结合前面的 Series，既然 DataFrame 对象的每竖列都是一个 Series 对象，那么可以先定义一个 Series 对象，然后把它放到 DataFrame 对象中

In [44]:
sdebt = Series([2.2, 3.3], index=["a","c"])    #注意索引 
f3['debt'] = sdebt 
f3

Unnamed: 0,name,price,marks,debt
a,yahoo,9,200,2.2
b,google,3,400,
c,facebook,7,800,3.3


- 将 Series 对象(sdebt 变量所引用) 赋给 f3['debt']列，，Pandas 的一个重要特性——自动对齐——在这里起做用了，在 Series 中，只有两个索引（"a","c"），它们将和 DataFrame 中的索引自动对齐。自动对齐之后，没有被复制的依然保持 NaN

- 还可以更精准的修改数据吗？当然可以，完全仿照字典的操作：

In [47]:
f3["price"]["c"]= 300 

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


---
# 3. 由文件创建

## 3.1 由.csv文件创建

#### pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None,index_col=None, encoding=None ) 
read_csv的参数很多，但这几个参数就够我们使用了：
- filepath_or_buffer：路径和文件名不要带中文，带中文容易报错。
- sep: csv文件数据的分隔符，默认是','，根据实际情况修改；
- header：如果有列名，那么这一项不用改；
- names：如果没有列名，那么必须设置header = None， names为列名的列表，不设置默认生成数值索引；
- index_col：int型，选取这一列作为索引。
- encoding：根据你的文档编码来确定，如果有中文读取报错，试试encoding = 'gbk'。

In [25]:
tips = pd.read_csv('tips.csv')
tips.head()   #前五行

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [26]:
tips.index

RangeIndex(start=0, stop=244, step=1)

In [27]:
tips.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

In [28]:
tips.values

array([[16.99, 1.01, 'Female', ..., 'Sun', 'Dinner', 2],
       [10.34, 1.66, 'Male', ..., 'Sun', 'Dinner', 3],
       [21.01, 3.5, 'Male', ..., 'Sun', 'Dinner', 3],
       ..., 
       [22.67, 2.0, 'Male', ..., 'Sat', 'Dinner', 2],
       [17.82, 1.75, 'Male', ..., 'Sat', 'Dinner', 2],
       [18.78, 3.0, 'Female', ..., 'Thur', 'Dinner', 2]], dtype=object)

---
## 3.2 由.excel文件创建

#### pd.read_excel(io, sheetname=0, header=0, index_col=None, names=None) 
read_excel的参数很多，但这几个参数就够我们使用了：
- header：如果有列名，那么这一项不用改；
- names：如果没有列名，那么必须设置header = None， names为列名的列表，不设置默认生成数值索引；
- index_col：int型，选取这一列作为索引。