# pandas中的核心对象是Series和DataFrame

In [2]:
import numpy as np
import pandas as pd

---
## 1.Series
### Series是pandas中供我们使用的基本对象，它是由相同元素类型构成的一维数据结构，同时具有列表和字典的属性（字典的属性由索引赋予）。
    Series：有序，有索引
    list：有序，无索引
    dict：无序，有索引


### 1.1 基本属性查看

In [3]:
data = [1,2,3]
index = ['a','b','c']
s = pd.Series(data= data,index = index, name ="bkjk")
s

a    1
b    2
c    3
Name: bkjk, dtype: int64

In [4]:
# 四个属性：索引
s.index 

Index(['a', 'b', 'c'], dtype='object')

In [5]:
# 名字
s.name

'bkjk'

In [6]:
# 值
s.values

array([1, 2, 3], dtype=int64)

In [7]:
# 元素类型 
s.dtype

dtype('int64')

----
### 1.2 创建
####  `pd.Series(data= None,index=None,name=None)`
- data:数据
- index： 索引
- name：对 data 的说明，一般在和DataFrame、Index互相转换时才需要

# 1.2.1 data无索引
- 如果提供的data为ndarray(1D){Numpy库中的矩阵模块为ndarray对象}或者list（1D），那么其缺少Series需要的索引信息；
- 如果提供index，则必须要和data的长度相同；
- 如果不提供index，默认生成数值索引 range（0，data。shape[0]）。

In [9]:
data0 = np.array([1,2,3])
index0 = ['a','b','c']
s = pd.Series(data= data0,index = index0)
s

a    1
b    2
c    3
dtype: int32

#### 1.2.2 data有索引
- 如果data为Series或dict，那么其已经提供了Series需要的索引信息，因此index是不需要提供的；
- 如果额外提供了index项，那么其将对当前构建的Series进行重索引（增删），等同于reindex操作。

In [10]:
data1 = {'a':1,'b':2,'c':3}
index1 = ['a','b','d']
s = pd.Series(data = data1)
s1= pd.Series(data= data1,index= index1)

In [11]:
s

a    1
b    2
c    3
dtype: int64

In [12]:
s1

a    1.0
b    2.0
d    NaN
dtype: float64

##### 比较 s和s1，index用于从当前已有索引中匹配出相同的行。其中，如果当前索引缺失给定的索引，就填充NaN（pandas的缺失值标记，not a number）

----
## 2.DataFrame
DataFrame 由具有共同索引的Series按列排列构成，是使用非常多的对象

### 2.1 基本要素

In [13]:
data = [
    [1,2,3],
    [4,5,6]
]
index = ['a','b']
columns =['A','B','C']
df = pd.DataFrame(data= data,index = index,columns = columns)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [14]:
# 行索引
df.index

Index(['a', 'b'], dtype='object')

In [15]:
# 列索引
df.columns

Index(['A', 'B', 'C'], dtype='object')

In [16]:
#值
df.values

array([[1, 2, 3],
       [4, 5, 6]], dtype=int64)

In [19]:
# 查看每列元素的类型  dtypes 
df.dtypes

A    int64
B    int64
C    int64
dtype: object

In [23]:
df.shape

(2, 3)

### 2.2 创建 
#### `pd.DataFrame(data=None,index= None,columns =None)`
函数有多个参数，data index，coulumns是主要的

### 2.2.1  data无行索引，无列索引
- 如果data为ndarray（2D） 或list（2D），那么其缺少DataFrame需要的行、列索引信息；
- 如果提供index或columns项，则必须和data的行、列长度相同；
- 如果不提index或columns项，那么将默认生成数值索引range(0,data.shape[0])或range(0,data.shape[1])。

In [24]:
data1 =np.array([
    [1,2,3],[4,5,6]
])
index1 = ['a','b']
columns1 = ['A','B','C']
df = pd.DataFrame(data= data1,index= index1,columns= columns1)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [26]:
print(df.index)
print(df.columns)
print(df.dtypes)
print(df.values)

Index(['a', 'b'], dtype='object')
Index(['A', 'B', 'C'], dtype='object')
A    int32
B    int32
C    int32
dtype: object
[[1 2 3]
 [4 5 6]]


### 2.2.2 data 无 行索引，有 列索引
- 如果data为dict of ndarray（1D）或list（1D），所有ndarray或list的长度必须相同，dict的key为DataFrame提供了需要的columns信息，缺失index；
- 如果提供index项，必须和list的长度相同；
- 如果不提供index，那么将其默认生成数值索引 range(0, data.shape[0])；
- 如果额外提供了columns项，那么将对当前构建的DataFrame进行 列重索引。

In [30]:
data2 = {'A':[1,4],'B':[2,5],'C':[3,6]}
index2 =['a','b']
columns2= ['A','B','D']
df2 = pd.DataFrame(data= data2,index = index2,columns =columns2)
df22 = pd.DataFrame(data= data2,columns =columns2)
df23 = pd.DataFrame(data= data2)

In [28]:
df2

Unnamed: 0,A,B,D
a,1,2,
b,4,5,


In [29]:
df22

Unnamed: 0,A,B,D
0,1,2,
1,4,5,


In [31]:
df23

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


### 2.2.3 data 有行索引，有列索引
- 如果data为 dict of Series 或 dict，那么已经提供了DataFrame需要的所有信息；
- 如果多个Series 或 dict 间的索引不一致，那么取 并操作，因为pandas不会试图丢弃信息，缺失的数据用NaN填充；
- 如果提供了index项或columns项，那么其将对当前构建的DataFrame进行 重索引。

In [32]:
data3 = { 'A' : { 'a':1, 'b':4}, 'B': {'a':2,'b':5}, 'C':{'a':3, 'c':6} }
df = pd.DataFrame(data=data3)
df

Unnamed: 0,A,B,C
a,1.0,2.0,3.0
b,4.0,5.0,
c,,,6.0


In [33]:
pd.Series([1,4])

0    1
1    4
dtype: int64

In [34]:
data4 = { 'A' : pd.Series([1,4] ,index = ['a','b']), 'B' : pd.Series([2,5] ,index = ['a','b']), 'C' : pd.Series([3,6] ,index = ['a','c']) }
df4 = pd.DataFrame(data4)
df4

Unnamed: 0,A,B,C
a,1.0,2.0,3.0
b,4.0,5.0,
c,,,6.0


## 3.由文件创建
### 3.1 .csv文件创建
#### `pd.read_csv(filepath_or_buffer,  sep= ',', header = 'infer', names= None, index_col = None, encoding= None)`
#### read_csv 的参数很多：

1. filepath_or_buffer：路径和文件名；
2. sep:csv 文件的分隔符，默认是 ","；
3. header：如果有列名，该项不改；
4. names：如果没有列名，那么必须设置 header = None，names为列名的列表，默认生成数值索引；
5. index_col: int型，选取这一列作为索引；
6. encoding：文档编码类型

In [None]:
data = pd.read_csv("xxx.csv")
data.head()
data.index
data.columns
data.values

### 3.2 .excel文件创建
#### `pd.read_excel(io, sheetname= 0, header=0, index_col= None, name= None)`
#### read_excel的参数也很多，使用上主要是：
- 1.header：如果有列名，该项不改；
- 2.names：如果没有列名，那么必须设置 header = None，names为列名的列表，默认生成数值索引；
- 3.index_col: int型，选取这一列作为索引；