#### pandas库

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

##### Serise()方法
1. 基本属性
    * s.values  # 获取值数组
    * s.index   # 获取索引
    * s.dtype   # 获取数据类型
    * s.name    # 获取Series名称
    * s.size    # 获取元素数量
    * s.empty   # 检查是否为空
2. 常用方法
    * s.head(n)     # 查看前n行
    * s.tail(n)     # 查看后n行
    * s.unique()    # 返回唯一值
    * s.nunique()   # 返回唯一值数量
    * s.value_counts()  # 统计值出现次数
    * s.isnull()    # 检查缺失值
    * s.notnull()   # 检查非缺失值
    * s.sort_values()  # 按值排序
    * s.sort_index()  # 按索引排序    


In [None]:
# Series() 方法用于创建Series对象，Series对象是pandas中最基本的数据结构，它可以包含不同的数据类型，包括数值、字符串、布尔值等。
s = pd.Series(np.random.randn(5),
              index=['a', 'b', 'c', 'd', 'e'],
              name='Random Series',
              dtype='float64')

s

In [None]:
s.values

In [None]:
s.shape, s.size, s.ndim, s.dtype, s.index

In [None]:
s[1:2] # 下标访问,左闭右开 

In [None]:
s['a':'c'] # 索引访问,左闭右闭

In [None]:
s[['a','c']] # 多索引访问

In [None]:
s[1]

In [None]:
# 从列表创建 Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)

In [None]:
# 从字典创建 Series
data = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(data)
print(s)

In [None]:
# 从标量创建 Series
s = pd.Series(5, index=['a', 'b', 'c'])
print(s)  # 所有值都是5

##### DataFrame()方法
1. 基本属性
    * df.shape     # 返回行列数 (行, 列)
    * df.index     # 获取行索引
    * df.columns   # 获取列名
    * df.dtypes    # 每列的数据类型
    * df.values    # 返回 NumPy 数组表示
    * df.info()    # 显示数据概览
2. 常用方法
    * df.head(2)      # 查看前2行
    * df.tail(2)      # 查看后2行
    * df.describe()   # 统计描述
    * df.sort_values('年龄')  # 按列排序
    * df.dropna()     # 删除缺失值
    * df.fillna(0)    # 填充缺失值
3. 数据访问
    * df['姓名']       # 获取单列
    * df[['姓名', '年龄']]  # 获取多列
    * df.loc[0]       # 按标签获取行,下标
    * df.iloc[0]      # 按位置获取行,索引

In [None]:
df = pd.DataFrame(
    {
        'col1':list('abcde'),
        'col2':range(5),
        'col3':[1, 2, 3, 4, 5]
    },
    index = list('一二三四五')
)

In [None]:
df

In [None]:
df.values

In [None]:
df.index

In [None]:
df.info()

In [None]:
df['col1'] # 取出列名为col1的列

In [None]:
df[:2] # 取前两行

In [None]:
type(df[:1]) 

In [None]:
type(df['col1']) 

In [None]:
df.index

In [None]:
df.columns

##### read()方法

In [None]:
data1 = pd.read_csv('data/交易数据_gbk.csv',engine='python',encoding='gbk')
data1[:5]

In [None]:
data2 = pd.read_excel('data/交易数据_gbk.xlsx')
data2[:5]

In [None]:
data3 = pd.read_table('data/交易数据_utf-8.txt',sep=',',engine='python',encoding='utf-8')
data3[:5]

In [None]:
data3.to_csv('out.csv',encoding='gbk')

In [None]:
data4 = pd.read_csv('data/out.csv',engine='python',encoding='gbk')
data4[:5]

##### 数据过滤(数据筛选)

In [None]:
df = pd.read_csv('data/交易数据_utf-8.csv')
df

In [None]:
boolindex = df.isin({'支付通道':['wxpay']})
boolindex[:8]

In [None]:
df[boolindex]

In [None]:
df[~boolindex]

##### 数据清洗

In [None]:
df = pd.read_csv('data/交易数据_na_utf-8.csv')
df

In [None]:
# dropna()函数用于删除含有缺失值的行或列。
df1 = df.dropna()
df1

In [None]:
# dropna()函数用于删除含有缺失值的行或列。
df2 = df.dropna(axis=1)
df2

In [None]:
# fillna()函数用于填充缺失值，fillna()函数的第一个参数是要填充的数值，第二个参数是要填充的列名。
df['金额'].fillna(900)

In [None]:
# dorp_duplicates()函数用于删除重复的行
df.drop_duplicates()

In [None]:
# dorp_duplicates()函数用于删除重复的行
df['商户号'].drop_duplicates()

In [None]:
# map()函数
df['支付通道'].map({'wxpay':'微信支付','alipay':'支付宝'})

In [None]:
# replace()函数替换数据
df['支付通道'].replace({'wxpay':'微信支付','alipay':'支付宝'})

In [None]:
df.index = df.index.map(lambda x: 'A' + str(x)) # 将索引转换为字符串
df[:7]

In [None]:
# cut()函数
pd.cut(df['金额'],[0,10,100,1000],labels=['低消费','中消费','高消费'])


#### one-hot编码
中  美  日
1   0   0
0   1   0
0   0   1

In [None]:
pd.get_dummies(df['支付通道'])

In [None]:
df.dtypes  # 检查各列数据类型

In [None]:
pd.get_dummies(df,dtype=int)

In [None]:
# sort()排序
df.sort_values(by='金额', ascending=False) # 按金额降序排序

In [None]:
# 排序,默认升序
df['金额'].sort_values()

In [None]:
# 查找最大值的索引
df['金额'].idxmax()

In [None]:
# 查找最小值的索引
df['金额'].idxmin()

#### 数据分析

In [None]:
# head(),tail()
df.head() # 默认显示前5行
df.tail() # 默认显示后5行

In [None]:
# describe()
df.describe()

In [None]:
# unique()函数可以查看数据集中唯一的元素。适用于series对象和dataframe对象的列。
df['支付通道'].unique()

In [None]:
# groupby()
df['金额'].groupby(df['支付通道']).sum()

In [None]:
df.groupby([df['支付方式']]).size()

In [None]:
# 选择所有数值列（自动排除非数值列）
numeric_cols = df.select_dtypes(include=['number']).columns

# 分组计算均值
result = df.groupby('支付方式')[numeric_cols].mean()['金额']
result

In [None]:
df.groupby([df['支付通道'],df['商户号']]).sum()['金额'].unstack().fillna(0)


In [None]:
def top(df, n = 5, column = '金额'):
    index = df.sort_values(by=column)[-n:]
    return index

df.groupby('支付方式').apply(top)

#### matplotlib库

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.rcParams['font.sans-serif'] = ['SimHei']

In [None]:
# 可视化案例
x2 = np.array(['2014', '2015', '2016', '2017', '2018'])
y2 = np.array([100, 120, 140, 180, 250])
y3 = [100, 130, 160, 190, 220]

In [None]:
plt.scatter(x2,y2) # 绘制散点图
plt.show() # 显示图

In [None]:
plt.scatter(x2,y2) # 绘制散点图
plt.scatter(x2,y3) # 绘制散点图
plt.plot(x2,y2,label='出境人数') # 绘制折线图
plt.plot(x2,y3,label='入境人数')
plt.xlabel('年度') # 设置x轴标签
plt.ylabel('出/入境人数/万人') # 设置y轴标签
plt.title('出/入境人数与年度的关系') # 设置标题
plt.legend() # 显示图例
plt.show() # 显示图形

In [None]:
# 数据准备
x2 = [2015, 2016, 2017, 2018, 2019]  # 年度
y2 = [120, 150, 180, 210, 240]       # 出境人数数据
y3 = [100, 130, 160, 190, 220]       # 入境人数数据

# 创建图形和坐标轴
plt.figure(figsize=(10, 6))  # 设置图形大小

# 绘制两条曲线（使用不同样式）
plt.plot(x2, y2, 
         color='#FF6B6B',    # 珊瑚色
         linestyle='-',      # 实线
         linewidth=2,        # 线宽
         marker='o',         # 圆形标记点
         markersize=8,       # 标记大小
         label='出境人数')

plt.plot(x2, y3, 
         color='#4E79A7',    # 深蓝色
         linestyle='--',     # 虚线
         linewidth=2,
         marker='s',         # 方形标记点
         markersize=8,
         label='入境人数')

# 添加图例（调整位置和样式）
plt.legend(loc='upper left',   # 图例位置
           fontsize=12,       # 字体大小
           frameon=True,      # 显示边框
           shadow=True)       # 添加阴影

# 设置标签和标题
plt.xlabel('年度', fontsize=14)
plt.ylabel('出/入境人数 (万人)', fontsize=14)
plt.title('2015-2019年出入境人数变化趋势', fontsize=16, pad=20)

# 调整坐标轴范围
plt.xlim(2014.5, 2019.5)  # x轴范围
plt.ylim(80, 260)         # y轴范围

# 网格线
plt.grid(True, linestyle='--', alpha=0.6)

# 显示图形
plt.tight_layout()  # 自动调整布局
plt.show()