In [14]:
import pandas as pd
import numpy as np

有下标，有索引（相当于字典的key），有序。

In [2]:
data = [1, 2, 3]
index = ["a", "b", "c"]    # 指定索引
s = pd.Series(data=data, index=index, name="first_series")
s

a    1
b    2
c    3
Name: first_series, dtype: int64

In [3]:
s[1]

2

In [4]:
s["b"]

2

In [5]:
s2 = pd.Series(["100", "Python3", "C++", "3.1415"])  # 未指定索引，默认0，1，2...；一列最好是同类型的数据
s2

0        100
1    Python3
2        C++
3     3.1415
dtype: object

In [6]:
s.index    # 4个属性之一:索引（字典的key）

Index(['a', 'b', 'c'], dtype='object')

In [7]:
s.name    # 之二：名字

'first_series'

In [10]:
s.values   # 之三：值

array([1, 2, 3])

In [11]:
s.dtype    # 之四：元素类型  问题：s2.dtype

dtype('int64')

In [12]:
s2.dtype  #

dtype('O')

In [13]:
s2.index

RangeIndex(start=0, stop=4, step=1)

### 1.2 创建

#### 1.2.1 data无索引
    如果data为ndarray(1D)或者list(1D)，那么缺少Series需要的索引信息;
    如果提供index，必须和data长度相同；
    如果不提供index，默认生成索引range(0, data.shape[0])。

In [15]:
data1 = np.array([1, 2, 3])
index1 = ["a", "b", "c"]
s1 = pd.Series(data=data1, index=index1)
s1

a    1
b    2
c    3
dtype: int64

#### 1.2.2 data有索引
    如果data为Series或dict,那么已经提供了series需要的索引信息，所以index项是不需要提供的；
    如果额外又指定index，会覆盖。

In [19]:
data2 = {"a": 1, "b": 2, "c": 3}
index2 = ["a", "b", "g"]
s = pd.Series(data=data2, index=index2)
# s = pd.Series(data=data2)
s

a    1.0
b    2.0
g    NaN
dtype: float64

如上，index项会从当前已有的索引中匹配出相同的行，如果当前索引缺失，则填充NaN(not a number).

### 1.3 根据索引访问

In [21]:
data = {"a": 1, "b": 2, "c": 3}
s = pd.Series(data=data)
s["a"]

1

In [22]:
s[0]

1

### 1.4 运算

In [23]:
s = pd.Series(data=data, index=["a", "b", "c", "d"])
s

a    1.0
b    2.0
c    3.0
d    NaN
dtype: float64

In [24]:
pd.isnull(s)   # 判空

a    False
b    False
c    False
d     True
dtype: bool

In [25]:
pd.notnull(s)  # 判断非空

a     True
b     True
c     True
d    False
dtype: bool

In [26]:
s.isnull()    # Series对象也有同样的方法

a    False
b    False
c    False
d     True
dtype: bool

#### 1.4.2 比较运算

In [27]:
s5 = pd.Series(data=[1, 8, 3, 9], index=["a", "b", "c", "d"])
s5

a    1
b    8
c    3
d    9
dtype: int64

In [28]:
s5 > 5

a    False
b     True
c    False
d     True
dtype: bool

In [29]:
s5[s5 > 5]

b    8
d    9
dtype: int64

#### 1.4.2 四则运算

In [32]:
s5 * 5    # 广播的方式

a     5
b    40
c    15
d    45
dtype: int64

In [31]:
s5 + s5

a     2
b    16
c     6
d    18
dtype: int64

## DataFrame
    DataFrame由具有共同索引的Series按列排列构成（2D），是使用最多的对象。DataFrame是一种二维的数据结构，非常接近Excel电子表或者类似的MySQL数据库形式。它的竖行称之为columns, 横行称之为index。可以用过index和columns来确定一个数据的位置。

In [34]:
data = [
    [1, 2, 3],
    [4, 5, 6]
]
index = ["a", "b"]
columns = ["A", "B", "C"]
df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [35]:
df.index   # 行索引

Index(['a', 'b'], dtype='object')

In [36]:
df.columns  # 列索引

Index(['A', 'B', 'C'], dtype='object')

In [37]:
df.values

array([[1, 2, 3],
       [4, 5, 6]])

In [38]:
df.dtypes   # dtype带s, 查看每列元素类型

A    int64
B    int64
C    int64
dtype: object

In [47]:
df["A"]["b"]   # 先列后行

4

### 2.2 创建
    DataFrame 对象常用的方法，使用dict定义。字典的”键“（"name", "marks", "price"）就是DataFrame的columns的值（名称），字典中的每个键的值是一个列表，他们就是那一竖列中的具体填充数据。上面定义中没有确定的索引，所以，按照惯例，是从0开始的整数。
    上面可以看出这就是一个二维的数据结构，类似MySQL或者Excel。

In [41]:
data = {"name": ["yahoo", "google", "facebook"], "marks": [200, 400, 800], "price":[9, 3, 7]}
f1 = pd.DataFrame(data)
f1

Unnamed: 0,name,marks,price
0,yahoo,200,9
1,google,400,3
2,facebook,800,7


上面数据显示，columns的顺序没有规定，就如同字典中的键的顺序一样。但是在Dataframe中，columns跟字典的键相比，有一个明显的不同，就是其顺序可以被规定，像下面这样做：

In [42]:
f2 = pd.DataFrame(data, columns=['name', "price", "marks"])
f2

Unnamed: 0,name,price,marks
0,yahoo,9,200
1,google,3,400
2,facebook,7,800


### 2.3 访问与赋值

In [43]:
f2["name"]   # 以字典的方式,实际上就是一个Series

0       yahoo
1      google
2    facebook
Name: name, dtype: object

In [44]:
f2["debt"] = 99.0
f2

Unnamed: 0,name,price,marks,debt
0,yahoo,9,200,99.0
1,google,3,400,99.0
2,facebook,7,800,99.0


点对点赋值，可以先定义一个Series,放到DataFrame中。

In [46]:
sdbet = pd.Series([9.9, 1.8], index=[0, 2])   # 注意索引
f2["debt"] = sdbet
f2

Unnamed: 0,name,price,marks,debt
0,yahoo,9,200,9.9
1,google,3,400,
2,facebook,7,800,1.8


### 3 从文件中读取并创建DataFrame

In [49]:
spds = pd.read_csv("stroopdata.csv")
spds.head(3)   # 显示前3行

Unnamed: 0,Congruent,Incongruent,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Time/s,Quantity/a,Unnamed: 8,Time/s.1,Quantity/a.1
0,8.63,15.687,7.057,7.964792,0.907792,0.824086,6--10,4.0,,12--16,1.0
1,8.987,17.394,8.407,7.964792,-0.442208,0.195548,10--14,7.0,,16--20,7.0
2,9.401,17.425,8.024,7.964792,-0.059208,0.003506,14-18,9.0,,20--24,10.0


In [50]:
spds.index

RangeIndex(start=0, stop=32, step=1)

In [51]:
spds.columns

Index(['Congruent', 'Incongruent', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4',
       'Unnamed: 5', 'Time/s', 'Quantity/a', 'Unnamed: 8', 'Time/s.1',
       'Quantity/a.1'],
      dtype='object')

#### 3.2 从Excel

In [52]:
#pd.read_excel()