## pandas数据分析
基础是numpy，图像库是matplotlib，主要用于数据分析，提供了大量处理数据的函数

pandas官网：https://pandas.pydata.org/

In [1]:
import numpy as np
import pandas as pd
pd.__version__

'2.0.1'

### 文件操作

#### 读文件
pd.read_csv(filepath_or_buffer,sep=',',header,names,index_col,usecols,skiprows,encoding='utf-8')

- <b>选用csv文件是因为它在存储的时候保留的纯粹是数据，以“,”为分隔符，这点用记事本打开一个csv文件就可以验证，而excel文件保存时会保存一些配置文件。因此csv文件适合用来保存一些大文件</b>

参数：

filepath_or_buffer：文件路径，本地或网络，或者文件流

sep：分隔符，默认是,

headers：表示是否将某行作为列名，默认自动识别（第一行），之前的行都不再读取

names：设置此字段为列表，初始化列名

index_col：选择列为行索引，默认None

usecols：选择读取文件的某些列，设置为相应列的索引列表

skipsows：跳过某几行

converters：是字典，将特定列（键）的数据转换为字典中对应函数（值）转换的浮点型数据

pd.read_excel()

### Series

#### 定义
是一个一维的数组，但是它是一列，而且有索引。

类似于有序字典，有index和value

#### 创建
pd.Series(data,index=None,dtype,name=None,copy=False)

data：输入可以是列表、常量、ndarray、字典等

index：不必唯一，但必须为不可变类型

dtype：Series中所有元素必须有相同的数据类型

name：Series的名称

In [None]:
pd.Series(3)

In [None]:
pd.Series((3,2,5))

In [None]:
a=pd.Series({'key1':10,'key2':67},name='myseries')
a

In [None]:
a=np.arange(10)
b=pd.Series(a)
b

In [5]:
sites = {'k1': "Google", 'k2': "Runoob", 3: "Wiki", 'k4': "Runoob"}
myvar = pd.Series(sites, index = ['k1', 3, 2, 'j'])
myvar

k1    Google
3       Wiki
j        NaN
dtype: object

只需部分数据则取键名，字典中没有的index则为nan

In [3]:
a=np.arange(10)
b=pd.Series(a,index=['k1', 3, 2, 'j'])
b#报错，index与data不匹配

ValueError: Length of values (10) does not match length of index (4)

广播机制

In [6]:
b1=pd.Series(5,index = ['k1', 3, 2, 'j'])
b1

ValueError: Length of values (4) does not match length of index (1)

#### 数据访问

##### 标签索引
如果标签中有整数类型，则索引为先标签索引，后位置索引

没有整数类型的标签则使用位置索引

In [None]:
sites = {'k1': "Google", 'k2': "Runoob", 3: "Wiki", 'k4': "Runoob"}
myvar = pd.Series(sites, index = ['k1', 3, 'j'])
myvar

In [None]:
myvar[3]

In [None]:
myvar[0]#报错。如果标签中有整数类型，则索引为先标签，后位置索引

In [None]:
sites = {'k1': "Google", 'k2': "Runoob", 'z': "Wiki",'k4': "Runoob",2.3:8}
myvar = pd.Series(sites)
myvar

标签中有浮点型数据，无法使用标签索引

In [None]:
myvar[2.3]#报错

In [None]:
myvar[4]

##### 索引多个数据，使用列表

In [None]:
sites = {'k1': "Google", 'k2': "Runoob", 3: "Wiki", 'k4': "Runoob"}
myvar = pd.Series(sites)
myvar[['k1','k2']]

##### 布尔索引

In [None]:
a=np.arange(10)
b=pd.Series(a)
b

In [None]:
b[b>=5]

##### 普通切片
即使标签中有整数类型，切片也使用位置索引

In [None]:
a=np.arange(10)
b=pd.Series(a)
b

In [None]:
b[1:9:2]

In [None]:
b[::-1]

In [None]:
b[-5:-1]

In [None]:
b[[2,5,7]]

##### 标签切片
标签切片包含右端点。此时不能再使用位置索引，标签端点不能有数值

In [None]:
a=np.arange(10)
b=pd.Series(a,index=['c','j','k','d','s','l',3,'e','i','f'])
b

In [None]:
b['s':'f']

In [None]:
b['s':3]#报错

#### 属性
类比Series

index：索引值。可迭代

name：DataFrame中的每一列都是一个Series，这个列名就是name

values：可迭代

array：返回一个pandasarray

dtype

shape

size

hasnans：是否有nan，有则为True

is_monotonic：是否单调递增，是则为True

In [None]:
a=np.arange(10)
b=pd.Series(a)
b.index=np.ones(10)
b[1]

In [None]:
a=pd.Series({'key1':10,'key2':67},name='myseries')
a.index.name='index'
a

In [None]:
for i in a:
    print(i)
for i in a.index:
    print(i)
for i in a.values:
    print(i)

#### 操作

##### 查看前几个数据
head()

##### 查看后几个数据
tail()

##### 重新索引
reindex(indexs,fill_value)

传参indexs为索引

若传入的indexs长度大于原Series则用fill_value填充

In [None]:
s=pd.Series(np.random.rand(5),index=list('abcde'))
s

In [None]:
s1=s.reindex(list('cdefg'))
s1#和字典创建时的效果相同，有则取值，无则nan

##### 对齐运算
对应索引相同的值相加，没有对应值为nan

In [None]:
s1=pd.Series(np.random.rand(5),index=list('abcde'))
s2=pd.Series(np.random.rand(5),index=list('egdjk'))

In [None]:
s1

In [None]:
s2

In [None]:
s1+s2

##### 增删改

In [None]:
s=pd.Series(np.random.rand(5),index=list('abcde'))
s

###### 增/改
有则修改，无则增加

In [None]:
s['p']=90
s

###### 删
drop(label,inplace=False)删除标签label及其对应值，返回一个新Series。

若需要在原数据上修改，inplace=True

##### 缺失值处理
isnull()/isna()/notna()/notnull检测

backfill()/bfill()/ffill()用前面后面的值填充

fillna()指定填充方法

dropna()删除

interpolate()插值填充

replace()替换

##### s.apply(func,convert_dtype=True)
将s中每个元素依次作为参数调用func，将得到的结果生成一个新的Series并返回，标签保留

##### s.agg([statistics_funcs])
返回一个Series，各元素分别是原Series对统计函数的调用结果

##### s.map(func)
将s逐元素调用func，并返回

##### s.groupby(by=None,axis=0,level=None,sort=True,group_keys=True,dropna=True)
分组聚合

In [None]:
s=pd.Series(np.random.rand(5),index=list('aacdd'))
s

In [None]:
s.groupby(["m","n","m","n","m"]).mean()

In [None]:
s.groupby(level=0).mean()

In [None]:
s.groupby(s>0.5).mean()

##### s.describe()

In [None]:
s=pd.Series(np.random.randn(1000000))
s

In [None]:
s.describe()

##### s.value_counts()
统计元素出现次数

### DataFrame

#### 定义
二维数据，升级版二维数组，索引两个维度都可以更改

特点：

1、不同列可以是不同的类型

2、大小可变

3、标记轴（行和列）

4、针对行与列进行轴向统计

#### 创建
pd.DataFrame(data=None,index=None,columns=None,dtype=None,copy=False)

##### 列表创建

In [None]:
data= pd.DataFrame([[1,3,4,14,1],[5,2,25,32,0],[3,24,41,7,1],[4,34,7,98,0],[2,1,34,351,0],[8,5,791,56,1],[4,22,35,74,0]],columns=['A','B','C','D','y'])
data

##### 数组创建

In [None]:
c=np.arange(20).reshape((4,5))
c

In [None]:
data=pd.DataFrame(c,index=list('abcd'),columns=list('mnpqr'))
data

##### 字典创建

In [None]:
d={f'k{i}':[i+j**2+1 for j in range(6)] for i in range(4)}
d

In [None]:
data=pd.DataFrame(d)
data

In [None]:
data.columns=[f'kk{i}' for i in range(4)]

In [None]:
data

注意：如果字典的value只有一个数据，则需指定index

In [None]:
d={f'k{i}':i**2+1 for i in range(4)}

In [None]:
data=pd.DataFrame(d)#报错

解决1，利用列表自身带有的索引

In [None]:
d={f'k{i}':[i**2+1] for i in range(4)}
data=pd.DataFrame(d)
data

解决2，通过index指定

In [None]:
d={f'k{i}':i**2+1 for i in range(4)}
data=pd.DataFrame(d,index=[0])
data

##### 列表嵌套字典创建
注意不匹配的地方填入nan，然后有数值的地方自动类型转换为float

In [None]:
d1={f'k{i}':i**2+1 for i in range(4)}
d2={f'k{i}':i**2+2 for i in range(2,6)}
d=[d1,d2]
d

In [None]:
data=pd.DataFrame(d)
data

##### 字典嵌套Series创建

In [None]:
d={'k2':pd.Series([j**2+1 for j in range(6)],index=[f'k{i}' for i in range(3,9)]),'k1':pd.Series([j**2+1 for j in range(6)],index=[f'k{i}' for i in range(6)])}
d

In [None]:
data=pd.DataFrame(d)
data

#### 常用属性
T：转置的DataFrame

index：行标签，可迭代对象

columns：列标签，可迭代对象

dtypes：各列数据类型

values：使用ndarray表示DataFrame中的元素值

axes：一个由行标签、列标签组成的列表，相当于[D.index,D.columns]

shape：元组

size：元素数量

ndim

empty：判断是否为空，空则为True

In [None]:
d = pd.read_csv(r'E:\pythonprogect\2training\sci_train-master_later\Data\data_map_original\credit2_for_update.csv')
d

In [None]:
data.info()

In [None]:
d.values

In [None]:
if not d:#如果不为空则输出
    print(d)#报错

In [None]:
if not d.empty:#如果不为空则输出
    print(d)

#### 常用方法
head()

tail()

rename()：比如rename(columns=[])是修改列名，还有参数index、inplace

info():数据类型，n条数据，索引，按列给出列名、非空值数量、数据类型、占用内存等

sort_index(axis=0,ascending=True,inplace=False)：默认根据行标签对所有行排序，或者根据列标签对所有列排序，或根据指定的某几列对行排序，这都是对标签进行的操作，与数据没有关系。

sort_values(by,axis=0,ascending=True,inplace=False,kind='quicksort',na_position='last')：根据行数据行排序，或者根据列数据排序。由by指定排序标签列表，多列时ascending也是列表；由axis指定轴。

D.astype()将dtype转换为指定的dtype

D.convert_dtypes()将原数据中千奇百怪的数据转换为最佳类型以方便操作，比如将NaN转化为

D.info_objects()将object的数据转换为最佳数据类型

D.where(condition,other=nan,inplace=False,axis=0)将不满足condition的数值替换为other。mask()是将满足condition的数据转换

D.apply(func_name)传递给函数的对象是Series对象，其索引是DataFrame的索引(axis=0)或列( axis=1)。默认情况下(result_type=None),最终返回类型是从应用函数的返回类型推断出来的。否则，它取决于result_type参数。

D.applymap(func_name)整体映射，此方法应用一个函数，该函数接受并向 DataFrame的每个元素返回一个标量。

D.set_index([])传入列名key，或可作为列的数据，设置为索引

注意Series中有map，DataFrame中是applymap，二者都有apply，不要混淆，方法用错或报错

In [None]:
d={f'k{i+1}':[i**3+j**2+1 for j in range(7)] for i in range(8)}
ind=[f'r{i+1}' for i in range(7)]
data=pd.DataFrame(d,index=ind)
data

In [None]:
def func(i):
    if i>20:
        return i
    else:
        return 20

In [None]:
def func0(x):
    my_list=list(range(len(x)))
    return my_list

In [None]:
data.apply(func0)
#'The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().', 'occurred at index k1'

In [None]:
data['k3'].apply(func)

In [None]:
data['k3']**2

In [None]:
data.applymap(func)

#### 数据访问


In [None]:
d={f'k{i+1}':[i**3+j**2+1 for j in range(7)] for i in range(8)}
ind=[f'r{i+1}' for i in range(7)]
data=pd.DataFrame(d,index=ind)
data

##### D.at()/D.iat()
定位单个数据，输入行和列索引，at用标签索引，iat用位置索引

##### 列
不能使用列切片，列之间是为无序的，因此也不能使用位置索引。

但可以使用标签列表访问多列。

获取某一列得到一个Series

In [None]:
data.k1

In [None]:
type(data['k1'])

In [None]:
data[('k1','k2')]#报错

In [None]:
type(data[['k1','k2']])

注意属性index和columns的返回值为可迭代对象，因此可以把它作为索引

In [None]:
data.columns[0:3]#类似于列表[k1,k2,k3]

In [None]:
data[data.columns[0:3]]

##### 行
D['k']只能用于取列数据，取行可以切片操作，但是不能用data[1],data[[1,2]]等操作

访问方法：

函数

loc[r]/loc[r,c]：index取行

iloc[r]/iloc[r,c]：位置取行

这两个函数也都支持切片

In [None]:
data[0:3]

In [None]:
data['r1':'r4']

In [None]:
data[1:2]#取一行

In [None]:
data.loc[['r1','r4'],'k4':'k8']

In [None]:
data.iloc[1:3,7:9]

##### 增/改
修改就是直接提取数据（访问），使用赋值号修改

###### 追加列
类似字典，有则改之，无则添加

但是毕竟是追加，无法超越原有DataFrame结构，没有对应的行索引则补充NaN

In [None]:
data['k9']=1#广播机制
data

In [None]:
data['k10']=pd.Series([j**2+1 for j in range(6)],index=[f'k{i}' for i in range(3,9)])
data

###### 插入列
D.insert(position,columns,value,allow_duplicates=True)

同样无法超越原有DataFrame结构，没有对应的行索引则补充NaN

In [None]:
data

In [None]:
d=pd.Series([j**2+1 for j in range(6)],index=[f'k{i}' for i in range(3,9)])
data.insert(2,'k1.5',d)
data

###### 添加行
D.append(obj,ignore_index=False,verify_integrity=False,sort=False)

obj：添加内容，DataFrame、Series、list、dict等

ignore_index：True则标记轴为0,1,...n-1，仅当追加内容有index时，即参数为True或追加数据有name才能追加

verify_integrity：True则在创建具有重复索引时报错

sort

追加内容是一个列表时比较特殊，下面说明

In [None]:
d={f'k{i+1}':[i**3+j**2+1 for j in range(7)] for i in range(8)}
ind=[f'r{i+1}' for i in range(7)]
data=pd.DataFrame(d,index=ind)
data

列表添加时每个元素作为一行，即：

一维：添加为列

二维：添加为行

三维：元素为元组

由于列表是有序的，所以可以直接有索引，ignore_index为False时，这个索引就是列表元素的下标。ignore_index为True时根据data原索引推到行索引。

In [None]:
a=[1,2,3,4]
data.append(a)

In [None]:
a=[[1,2,3,4,5],[9,8,7,6,5]]
a=pd.DataFrame(a)
data.append(a)

In [None]:
d={i:[i**3+j**2+1 for j in range(7)] for i in range(8)}
ind=[f'r{i+1}' for i in range(7)]
data=pd.DataFrame(d,index=ind)
data

In [None]:
a=[[1,2,3,4,5],[9,8,7,6,5]]
data.append(a)

In [None]:
d={i:[i**3+j**2+1 for j in range(7)] for i in range(8)}
ind=[i for i in range(7)]
data=pd.DataFrame(d,index=ind)
data

In [None]:
a=[[1,2,3,4,5],[9,8,7,6,5]]
data.append(a)

In [None]:
a=[[1,2,3,4,5],[9,8,7,6,5]]
data.append(a,ignore_index=True)

In [None]:
c=[[[1,2,3,4,5],[9,8,7,6,5]],[[1,7,3,33,5],[9,8,7,99,5]]]
data.append(c)

##### 删
del(D[l_labels])输入D[]为想要删除的列，删除列

D.pop([l_label])输入想要删除的列索引，返回删除的列

D.drop([labels],axis,index=None,columns=None)根据axis选取删除的行（0，默认）或列（1），输入索引列表。或使用index和columns传参来删除行或列。

如有重复的行或列索引，则同时删除

In [None]:
data

In [None]:
data.drop('r5')

In [None]:
data

In [None]:
data= pd.DataFrame([[1,3,4,14,1],[5,2,25,32,0],[3,24,41,7,1],[4,34,7,98,0],[2,1,34,351,0],[8,5,791,56,1],[4,22,35,74,0]],columns=['A','B','C','y','y'])
data

In [None]:
data.pop('y')

#### 运算
前面看到，DataFrame会自动将行列标签对齐，对行列标签取并集，缺失值为NaN

在DataFrame和Series之间操作时默认是在DataFrame列上对齐Series索引，再广播

处理时间序列数据时，如果DataFrame索引包含日期则广播将按列进行

运算符+-*/%都要符合广播机制要求，然后进行广播。

与另一个DataFrame的运算：D.add(),D.sub(),D.mul(),D.div(),D.mod(),D.pow()

D.dot(B)矩阵运算

D.combine()与另一个DataFrame按列合并

In [None]:
data= pd.DataFrame([[1,3,4,14,1],[5,2,25,32,0],[3,24,41,7,1],[4,34,7,98,0],[2,1,34,351,0],[8,5,791,56,1],[4,22,35,74,0]],columns=['A','B','C','D','y'])
data

In [None]:
data*5+3

In [None]:
data=data.div(data)
data

#### 数据清洗
1、数据提取，选取需要的特征（列）

2、缺失值处理，包括np.nan,None,pd.NA。

np.nan特点是不和任何数相等，类型是float，pd.NA为了统一np.nan,None,NaT，所以pd.NA类型不定

In [None]:
np.nan==np.nan

In [None]:
type(np.nan)

In [None]:
type(pd.NA)

##### 查看数据情况
info()

count(target)

sum()

isnull()/isna()/notnull()/notna()缺失值检测

D.value_counts()

In [None]:
d={f'k{i+1}':[i**3+j**2+1 for j in range(7)] for i in range(8)}
ind=[f'r{i+1}' for i in range(7)]
data=pd.DataFrame(d,index=ind)
a=[[1,2,3,4,5],[9,8,7,6,5]]
data=data.append(a)
data.info()

In [None]:
data['k1'].isnull().value_counts()

In [None]:
data.isnull()['k1'].sum()
#sum non-NA cells for each column or row.

In [None]:
data.count()
#Count non-NA cells for each column or row.

##### 重复值检测
d.duplicated(subset=None,keep='first'/'last'/False)

若有重复，对重复值返回True。subset设置检测列，keep设置保留第几个值，其余的就是True

d.duplicated().sum()统计重复行数量

In [None]:
index=list('abcdefab')
data= pd.DataFrame([[1,3,4,14,1],
                    [5,2,25,32,0],
                    [3,24,41,7,1],
                    [4,34,7,98,0],
                    [2,1,34,351,0],
                    [8,5,791,56,1],
                    [4,22,35,74,0],
                    [1,3,4,14,1]],
                   columns=['A','B','C','D','y'])
data

In [None]:
data.duplicated()

In [None]:
data[[True,False,True,False,True,False,True,False]]

In [None]:
data[data.duplicated()]
#查询重复行

In [None]:
data.duplicated(subset=['A','y'])

##### 重复值处理
D.drop_duplicates(subset,keep,inplace)

##### 删除缺失值
d.dropna(axis=0,how='any'/'all',thresh=None,subset=None)

how：any表示只要有就确实就整个删除，all表示全是缺失值才删除

thesh：最少有thesh个非空数据才能保留

subset：搜索的列

In [None]:
d={f'k{i+1}':[i**3+j**2+1 for j in range(7)] for i in range(8)}
ind=[f'r{i+1}' for i in range(7)]
data=pd.DataFrame(d,index=ind)
a=[[1,2,3,4,5],[9,8,7,6,5]]
data=data.append(a)
data

In [None]:
data.dropna()

In [None]:
data.dropna(thresh=8)

##### 替换缺失值
指定值或插值处理缺失值

d.fillna(value=None,method=None/'bfill'/'ffill',axis=0,inplace=False,limit=None)

method：若未指定填充值value，则使用前一个值（ffill或pad）或后一个值（bfill）

limit：填充最多数量，表示只填充limit个缺失值

In [None]:
d={f'k{i+1}':[i**3+j**2+1 for j in range(7)] for i in range(8)}
ind=[f'r{i+1}' for i in range(7)]
data=pd.DataFrame(d,index=ind)
a=[[1,2,3,4,5],[9,8,7,6,5]]
data=data.append(a)
data

In [None]:
data.fillna(value={'k1':3,'k5':2})

In [None]:
a=[[1,2,3,4,5],[9,8,7,6,5]]
d=pd.DataFrame(a,columns=['k1','k2','k10','k7',2])
d

In [None]:
data.fillna(value=d)

##### 异常值检测
1、简单统计量分析

对变量作统计性分析，找出不合理的数据。常用最大值最小值的区间

2、3sigma原则

3、箱线图分析

处理可以参考缺失值处理，但是有的异常值也不一定“异常”，有时候也反映了数据的一些特点

#### 分组聚合
d.groupby(by,axis=0,level=0,as_index=True,sort=True,group_keys=True)

by：分类依据，是一个列



返回一个groupby对象，包含了一般方法，很多其他类的方法也都有，这些方法就是聚合函数

In [None]:
d={f'k{i+1}':[i+j**2+10 for j in range(15)] for i in range(14)}
ind=['r3' for i in range(3)]
ind+=['r4' for i in range(4)]
ind+=['r6' for i in range(6)]
ind+=['r2' for i in range(2)]
data=pd.DataFrame(d,index=ind)
data

##### 普通的方法

In [None]:
dg=data.groupby(data.index)

In [None]:
dg.max()

In [None]:
dg.min()

In [None]:
dg.agg(['max','min','mean'])

In [None]:
dg.get_group('r2')

In [None]:
dg.size()

In [None]:
df = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
        "C": np.random.randn(8),
        "D": np.random.randn(8),
    }
)
df

In [None]:
grouped = df.groupby(["A", "B"])
grouped.size()

In [None]:
def get_letter_type(letter):
    if letter.lower() in 'aeiou':
        return 'vowel'
    else:
        return 'consonant'


grouped = df.groupby(get_letter_type,axis=1)
grouped.size()

In [None]:
dg=data.groupby(data.index)

In [None]:
company=['A','B','C']
c=[company[x] for x in np.random.randint(0,len(company),10)]
s=np.random.randint(5,50,10)
a=np.random.randint(15,50,10)
d=pd.DataFrame({'company':c,'salary':s,'age':a})
d

In [None]:
dg=d.groupby('company')
list(dg)

In [None]:
dg=d.groupby('company')
dg.mean()

In [None]:
dg=d.groupby('company',as_index=False)
dg.mean()

##### 转换值transform()

In [None]:
dg.mean()['salary']

In [None]:
dgd=dg.mean()['salary'].to_dict()
dgd

In [None]:
dt=dg['salary'].transform(max)
dt

##### map()函数

In [None]:
dsm=d['company'].map(dgd)
d['avg_salary']=dsm
d

In [None]:
d['max']=dt
d

In [None]:
list(dg)

##### apply()函数
分组数据的每个组作为参数调用apply中的函数，返回一行

虽然灵活性高，但是速度慢，尽量使用内置函数

In [None]:
dg.apply(lambda x:x.iloc[-1])

##### agg()

In [None]:
dg.agg(['mean','max','median'])

#### 数据合并
为了方便维护，数据经常是分表存储的，所以在数据分析时会需要将两张表合并起来进行处理

拼接时需要按照用户信息对应拼接，所以两张表需要有一个共同的识别用户的键（key）,这些键可能叫法不同，比如一边叫id一边叫user_id，但值要能匹配

##### merge(data_left,data_right,how:str='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False)

拼接时以data_left为基准，将data_right拼接,拼接依据是on（left_on+right_on）。以inner方式则将不匹配的样本删去（交集），outer则是并集，没有的数据补NA

In [None]:
company=list('ABACAEA')
n=len(company)
c=[company[x] for x in np.random.randint(0,len(company),n)]
s=np.random.randint(5,50,n)
a=np.random.randint(15,50,n)
d1=pd.DataFrame({'company1':company,'salary':s})
d1

In [None]:
company=list('ACADA')
n=len(company)
c=[company[x] for x in np.random.randint(0,len(company),n)]
s=np.random.randint(5,50,n)
a=np.random.randint(15,50,n)
d2=pd.DataFrame({'company':company,'age':a})
d2

In [None]:
d1.merge(d2,left_on="company1",right_on="company")

In [None]:
pd.merge(d1,d2,on='company',how='outer')

##### d1.concat(d2,axis=0,join='inner'/'outer')
机械连接

#####  d1.append(d2)
追加，没有补空值

#### 数据透视表
功能十分强大

pivot_table(data,values=None,index=None,columns=None,aggfunc='mean',fill_value=None,margins=False,dropna=True,margins_name='All')

data：数据

values：需要计算的数据，如销售额、成绩等

index：数据横向维度，可选

columns：数据纵向维度，可选

aggfunc：显示的统计函数

margins：是否显示汇总

fill_value、dropna：简单的数据清洗

### pandas时间数据处理
python标准库在2、3

#### pandas 时间戳
pd.Timestamp()大多数情况下相当于python的datetime

#### pandas时间区间
pd.Timedelta()大多数情况下等价于python的timedelta

#### pandas时间转换
pd.to_datetime(arg=,dayfirst=True,yearfirst=False,utc=None,format=None,unit=None)
将文本数据转换为时间戳

### pandas字符串处理
pandas几乎继承了python中字符串的全部方法，因此可以将pandas对象中含有字符串数据看作字符串，可以批量简单处理。

调用：s.str.method()是字符串s调用str的method

strip('*')去除字符串两端的'*'，不指定参数去除空内容（空格、换行等）

split()以指定符分割

cat()以指定符拼接为字符串

replace(a,b)用b替换a

count(a)统计a出现次数

它们都适用于DataFrame对象，逐个元素操作，遇到缺失值直接忽略

### pandas简单绘图
pandas对象都内置了plot()方法，默认监控列数据，横坐标是索引

参数kind；

默认是折线图

bar/barh柱状图

hist直方图

kde核密度估计

scatter散点图

In [None]:
import matplotlib.pyplot as plt

In [None]:
c=3
r=10
d={f'k{i+1}':np.random.randn(r) for i in range(c)}
# ind=[f'r{i+1}' for i in range(r)]
data=pd.DataFrame(d)#,index=ind)
data

#### 折线图

In [None]:
data.plot()

#### 柱状图bar/barh

In [None]:
data.plot(kind='bar')

In [None]:
data1=data.T
data1

In [None]:
data1.plot(kind='bar')

In [None]:
plt.figure(figsize=(20,40))
data1.plot(kind='barh')

#### 直方图hist
bins区间个数

normed把频数转换为频率

In [None]:
data['k1'].plot(kind='hist',bins=20)

In [None]:
dn=pd.Series(np.random.randn(10000))
dn.plot(kind='hist',bins=50)

In [None]:
dn=pd.Series(np.random.randn(10000))
dn.plot(kind='hist',bins=50,density=True)

#### 核密度估计kde

In [None]:
dn=pd.Series(np.random.randn(10000))
dn.plot(kind='hist',bins=50,density=True)

In [None]:
dn.plot(kind='kde')

In [None]:
dn.plot(kind='hist',bins=50,density=True)
dn.plot(kind='kde')

#### 散点图

In [None]:
dn1=pd.Series(np.random.randn(1000))
dn2=pd.Series(np.random.randn(1000))
d=pd.DataFrame({'A':dn1,'B':dn2})
d

In [None]:
d.plot(kind='scatter',x='A',y='B')

In [None]:
c=3
r=1000
d={f'k{i+1}':np.random.randn(r) for i in range(c)}
# ind=[f'r{i+1}' for i in range(r)]
data=pd.DataFrame(d)#,index=ind)
data
pd.plotting.scatter_matrix(data)

## Python的time模块
不涉及时区问题，便于计算

转换示意：

timestamp<->struct_time<->format_time

In [None]:
import time

### 时间戳timestamp
表示从1970年1月1日00:00:00开始按秒计算的偏移量。

偏移量：如某日某时到次日此时经过24小时整，换算成秒的86400秒（int）就是偏移量

In [None]:
t_ts=time.time()#单位：秒
t_ts

应用：只要牵扯到时间计算就可以使用时间戳

In [None]:
t1=time.time()
k=0
for i in range(1000000):
    k+=i
time.sleep(5)#程序暂停5秒再继续运行
t2=time.time()
t=t2-t1
print('程序运行时间',t,'s，期间人为使程序暂停了 5 s')

### struct_time时间元组
包含九个元素组，tm_year,tm_mon,tm_mday...

#### 将时间戳转换为struct_time
time.localtime([secs])

In [None]:
t_tup=time.localtime(time.time())
t_tup

#### 将时间元组转换为时间戳
time.mktime(tupletime)

In [None]:
time.mktime(t_tup)

### format_time格式化时间
使时间戳转换为可读性更高的格式，包括自定义格式和固定格式

#### 将struct_time转换为format_time
time.strftime(fmt[,tupletime])

In [None]:
t_f=time.strftime('%Y-%m-%d %X',t_tup)
t_f

In [None]:
time.asctime(t_tup)

#### 根据格式将一个时间字符串解析为时间元组
time.strptime(str,fmt='%a %b %d %H:%M:%S %Y')

In [None]:
time.strptime(t_f,'%Y-%m-%d %X')

## Python的datetime模块
重新封装了time类

In [None]:
from datetime import date,datetime,timedelta

### date类
date.today()返回一个当前本地日期的date对象

date.fromtimestamp(timestamp)根据给定时间戳返回一个date对象

d=date(year,month,day)一个date对象

d.year,d.month,d.day

d.replace(y,m,d)生成一个新date对象

d.timetuple()返回时间元组

d.weekday()返回星期

d.isoweekday()星期几就返回几

d.isoformat()返回字符串

d.strftime(fmt)和time中的format相同

In [None]:
date.today()

In [None]:
date.fromtimestamp(time.time())

### datetime类
相当于date和time结合起来

dt.today()

dt.now([timezone])无参数返回datetime对象，有参数返回时间

dt.fromtimestamp(timestamp[,timezone])

dt.strptime(date_str,fmt)将字符串时间转换为datetime对象

### timedelta类
可以方便地在天、小时、分钟上做运算，月份则需要另外的办法

In [None]:
d=datetime.now()
d

In [None]:
d0=d+timedelta(days=1)
d0

In [None]:
s=d0-d#datetime自己的运算
s.days

In [None]:
s.total_seconds()

## seaborn
提供一些数据包，真实有效。可做练习。

In [None]:
import seaborn as sns

In [None]:
dsns.load_dataset('tips')
