In [2]:
import pandas as pd
import numpy as np

## Pandas基本数据结构

### Pandas中有两种常用的数据结构：
  * Series
         一维数组，与Numpy中的一维array类似，二者与python基本的数据结构也很近似，Series能保存不同数据类型，字符串，boolen值，数字等都能保存在Series中
  * DataFrame
         二维的表格数据结构，很多功能与R的data.frame类型。可以将DataFrame理解为series容器

### Pandas库中的series类型
#### 一维series可以用一维列表初始化

In [3]:
s=pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

  #### 默认情况下，Series的下表都是数字（第一列），类型是统一的

In [4]:
a=pd.Series([1,3,5,np.nan,6,8],index=['a','b','c','d','e','f'])
a

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

In [5]:
b=pd.Series({'c':3},index=['a','b','c','d','e','f'])
b

a    NaN
b    NaN
c    3.0
d    NaN
e    NaN
f    NaN
dtype: float64

### 索引-数据行标签

In [6]:
s.index

RangeIndex(start=0, stop=6, step=1)

#### 查看值

In [7]:
s.values

array([ 1.,  3.,  5., nan,  6.,  8.])

In [8]:
s[1]

3.0

#### 切片操作

In [9]:
s[2:5]

2    5.0
3    NaN
4    6.0
dtype: float64

In [10]:
index=[1,3,5]
s[index]

1    3.0
3    NaN
5    8.0
dtype: float64

In [11]:
s[::2]

0    1.0
2    5.0
4    6.0
dtype: float64

####  索引赋值

In [12]:
s.index.name="index"
s

index
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [13]:
s.index=list('abcdef')
s

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

In [14]:
s['a':'c']

a    1.0
b    3.0
c    5.0
dtype: float64

  ## Pandas的DataFrame类型

### DataFrame则是一个二维结构，这里首先构造一组时间序列，作为我们第一维的下标

In [15]:
data=pd.date_range('20180101',periods=6)
data

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')

#### 创建DataFrame结构：

In [16]:
df=pd.DataFrame(np.random.randn(6,4),index=data,columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2018-01-01,1.581901,0.170244,-0.404741,-1.803008
2018-01-02,0.226108,-1.272616,-0.837525,-0.106847
2018-01-03,-0.868191,1.206575,-1.516224,-0.597381
2018-01-04,-0.172655,-0.002301,0.745458,0.614959
2018-01-05,2.25957,1.069412,-0.738168,-1.013251
2018-01-06,-0.592695,-0.709506,-0.824251,0.172142


### 使用字典来传入数据

In [17]:
df2=pd.DataFrame({'A':1,'B':pd.Timestamp(20190705),'C':pd.Series(1,index=list(range(4))),'D':np.array([3]*4,dtype=int),'E':pd.Categorical(["text","train","text","train"]),'F':'abc'})

In [18]:
df2

Unnamed: 0,A,B,C,D,E,F
0,1,1970-01-01 00:00:00.020190705,1,3,text,abc
1,1,1970-01-01 00:00:00.020190705,1,3,train,abc
2,1,1970-01-01 00:00:00.020190705,1,3,text,abc
3,1,1970-01-01 00:00:00.020190705,1,3,train,abc


In [19]:
df2.dtypes

A             int64
B    datetime64[ns]
C             int64
D             int32
E          category
F            object
dtype: object

In [20]:
df3=pd.DataFrame({'A':1,},index=list(range(4)))
df3

Unnamed: 0,A
0,1
1,1
2,1
3,1


####  !!!!!! 字典中每个key代表一列，其value可以是各种能够转化为Series的对象 

### 查看数据
### head和tail方法可以分别查看前面几行，一般是前5行

In [21]:
df.head()

Unnamed: 0,A,B,C,D
2018-01-01,1.581901,0.170244,-0.404741,-1.803008
2018-01-02,0.226108,-1.272616,-0.837525,-0.106847
2018-01-03,-0.868191,1.206575,-1.516224,-0.597381
2018-01-04,-0.172655,-0.002301,0.745458,0.614959
2018-01-05,2.25957,1.069412,-0.738168,-1.013251


In [22]:
df.head(3)

Unnamed: 0,A,B,C,D
2018-01-01,1.581901,0.170244,-0.404741,-1.803008
2018-01-02,0.226108,-1.272616,-0.837525,-0.106847
2018-01-03,-0.868191,1.206575,-1.516224,-0.597381


### 下标，列标，数据
#### 下标使用index属性查看

In [23]:
df.index

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')

#### 列标使用colums属性查看 

In [24]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

#### 数据值的查看 

In [25]:
df.values

array([[ 1.58190072,  0.17024407, -0.40474076, -1.80300821],
       [ 0.22610843, -1.27261618, -0.83752529, -0.10684736],
       [-0.86819097,  1.2065746 , -1.51622402, -0.59738059],
       [-0.17265473, -0.00230136,  0.74545818,  0.61495927],
       [ 2.25957014,  1.0694119 , -0.73816809, -1.01325072],
       [-0.59269464, -0.70950588, -0.82425132,  0.17214205]])

### Pandas读取数据以及数据操作

In [26]:
df=pd.read_excel(r'D:\Documents\豆瓣电影数据.xlsx')

In [27]:
df.head()

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


#### 行查看

In [28]:
df.iloc[0]

名字                   肖申克的救赎
投票人数                 692795
类型                    剧情/犯罪
产地                       美国
上映时间    1994-09-10 00:00:00
时长                      142
年代                     1994
评分                      9.6
首映地点                 多伦多电影节
Name: 0, dtype: object

In [29]:
df.iloc[0:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


 #### 可以使用iloc和loc查看 

In [30]:
df.loc[0:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆


#### 添加一行

In [31]:
dit={'名字':'复仇者联盟3','类型':'科幻/剧情','投票人数':123456,'产地':'美国','上映时间':'2018-05-04 00:00:00','时长':142,'年代':2018,'评分':9.6,'首映地点':'美国'}
dit

{'名字': '复仇者联盟3',
 '类型': '科幻/剧情',
 '投票人数': 123456,
 '产地': '美国',
 '上映时间': '2018-05-04 00:00:00',
 '时长': 142,
 '年代': 2018,
 '评分': 9.6,
 '首映地点': '美国'}

In [32]:
df.tail(1)

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38737,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国


In [33]:
s=pd.Series(dit)
s.name=38738
s

名字                   复仇者联盟3
类型                    科幻/剧情
投票人数                 123456
产地                       美国
上映时间    2018-05-04 00:00:00
时长                      142
年代                     2018
评分                      9.6
首映地点                     美国
Name: 38738, dtype: object

In [34]:
df = df.append(s)

In [35]:
df.tail(1)

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38738,复仇者联盟3,123456.0,科幻/剧情,美国,2018-05-04 00:00:00,142,2018,9.6,美国


#### 删除一行 

In [36]:
df=df.drop([38738])

In [37]:
df[-5:]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38733,神学院 S,46.0,Adult,法国,1905-06-05 00:00:00,58,1983,8.6,美国
38734,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国


### 列操作

In [38]:
df.columns

Index(['名字', '投票人数', '类型', '产地', '上映时间', '时长', '年代', '评分', '首映地点'], dtype='object')

In [39]:
df['名字'][:5]

0    肖申克的救赎
1      控方证人
2     美丽人生 
3      阿甘正传
4      霸王别姬
Name: 名字, dtype: object

In [40]:
df[['名字','类型']][:5]

Unnamed: 0,名字,类型
0,肖申克的救赎,剧情/犯罪
1,控方证人,剧情/悬疑/犯罪
2,美丽人生,剧情/喜剧/爱情
3,阿甘正传,剧情/爱情
4,霸王别姬,剧情/爱情/同性


In [41]:
len(df)

38738

In [42]:
df.index

Int64Index([    0,     1,     2,     3,     4,     5,     6,     7,     8,
                9,
            ...
            38728, 38729, 38730, 38731, 38732, 38733, 38734, 38735, 38736,
            38737],
           dtype='int64', length=38738)

#### 增加一列

In [43]:
df['序号']=range(1,len(df)+1)


In [44]:
b=range(1,len(df))
type(b)

range

In [45]:
df[:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点,序号
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节,1
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国,2
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利,3
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映,4
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港,5


#### 删除一列

In [47]:
df=df.drop('序号',axis=1)

In [None]:
df[:5]

#### 通过标签来选择数据
  df.loc[[index][column]]通过标签选择数据

In [None]:
df.loc[1,'名字']

In [None]:
df.loc[[1,3,5,7],['名字','评分']]

### 条件选择

In [None]:
df[df['产地']=='美国'][:5]

In [None]:
df['产地'][:5]=='美国'

In [None]:
 True| False

In [None]:
True & False


In [None]:
True and False

#### 选取产地为美国并且评分大于9的所有电影

In [None]:
df[(df.产地=='美国') & (df.评分>9.6)]

#### 选取产地为美国或者大陆，并且评分大于9

In [None]:
df[((df.产地=='美国')|(df.产地=='中国大陆')) & (df.评分 > 9)]

### 缺失值处理方法

In [None]:
data={'方法':['dropna','fillna','isnull','notnull'],'说明':['根据标签中的缺失值进行过滤，删除缺失值','对缺失值进行填充','返回一个布尔值判断哪些是布尔值','isnot的否定式']}

In [None]:
df2=pd.DataFrame(data)
df2

#### 判断缺失值

In [None]:
df[df['名字'].isnull()][0:10]


In [None]:
dt={'名字':'复仇者联盟3','类型':'科幻/剧情','投票人数':123456,'产地':'美国','上映时间':'2018-05-04 00:00:00','时长':142,'年代':2018,'评分':np.nan,'首映地点':'美国'}
dt

In [None]:
s=pd.Series(dt)
s.name=38738
s
df=df.append(s)
df.tail(2)

In [None]:
df['评分'].fillna(np.mean(df['评分']),inplace = True)

In [None]:
df.tail()

In [None]:
df1=df.fillna('hello')
df1[df1['名字'].isnull()][:10]

### 删除缺失值
df.dropna()参数：
#### how='all':删除全为空值的行或列
#### inplace = True 覆盖之前的数据
#### axis = 0（1）：选择行或者列
#### df.isnull()：是缺失值返回True，否则范围False
#### df.isnull().sum()：返回每列包含的缺失值的个数
#### df.dropna()：直接删除含有缺失值的行
#### df.dropna(axis = 1)：直接删除含有缺失值的列
#### df.dropna(how = 'all')：只删除全是缺失值的行
#### df.dropna(thresh = 4：保留至少有4个缺失
#### df.dropna(subset = ['C'])： 删除含有缺失值的特定的列

### 处理异常值

In [None]:
df=pd.read_excel(r'D:\Documents\豆瓣电影数据.xlsx')
df.head()

In [None]:
df=df[df.投票人数>0]
df=df[df['投票人数']>0]
df[0:5]

### 数据保存

In [None]:
df.to_excel(r'D:\Documents\movie_data.xlsx')