# 一、数据分析包 (numpy)

In [None]:
import numpy as np

# 创建数组 ndarray

a = np.arange(15)
b = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])

print(a, type(a), sep='\n')
print(a.ndim)

print(b, type(b), sep='\n')
print(b.ndim)


# 创建多维数组 ndarray.reshape

a = a.reshape(3, 5)
b = b.reshape(3, 5)

print(a, type(a), sep='\n')
print(a.ndim)


# 查看数组维度 ndarray.ndim

print(a.ndim)


# 数组的切片

a[0]
a[0][0]
a[0:2]


# 数组聚合运算

print(a.sum())
print(a.mean())
print(a.std())


# 向量化运算

print(a)
print(a * 2)
print(a + 1)

# 二、数据分析包 (Pandas)

## 1. 导入数据分析相关包

In [None]:
import pandas as pd
import numpy as np

## 2. 导入数据

In [None]:
# 设置文件路径
file_name = r'./超级简历过去半年用户行为信息.xlsx'

# 读取文件，设置
df = pd.read_excel(file_name, sheet_name='Sheet1')

df

In [None]:
# # 数据导入的方式
# file_name = './file_name.xlsx'
# pd.DataFrame()
# pd.read_csv(file_name) # 从CSV⽂件导⼊数据
# pd.read_table(file_name) # 从限定分隔符的⽂本⽂件导⼊数据
# pd.read_excel(file_name) # 从Excel⽂件导⼊数据
# pd.read_sql(query, connection_object) # 从SQL表/库导⼊数据
# pd.read_json(json_string) # 从JSON格式的字符串导⼊数据
# pd.read_html(url) # 解析URL、字符串或者HTML⽂件，抽取其中的tables表格

## 3. 数据整体查看

In [None]:
df.head(5)

df.tail(5)

df.columns

# df.info()

df.describe()

df.shape


type(df)

df['姓名']
type(df['姓名'])

# df.head(5)

## 4. 多个sheet数据合并

In [None]:
# 把三个sheet数据合并起来

df_dict = pd.read_excel(file_name, sheet_name=None)

df_dict

type(df_dict)

In [None]:
df_all = pd.DataFrame() # 创建二维数组

for i in df_dict.keys():
    df = pd.read_excel(file_name, sheet_name=i)
    
    df_all = pd.concat([df, df_all], axis=0)
    
df_all

df_all.shape

df_all.info()

## 5. 数据清洗

In [None]:
# 数据填充

df_all['单次付费金额'] = df_all['单次付费金额'].fillna(value=0)
df_all['单次付费金额'].fillna(value=0, inplace=True)


# 数据替换
df_all['最高学历'] = df_all['最高学历'].str.replace('/', '')


# 数据筛选
df_all[df_all['意向城市'] == '北京']

# df_all.head(20)

## 6. 数据统计

In [None]:
# 创建计算字段
df_all['单人付费总额'] = df_all['单次付费金额'] * df_all['付款次数']
df_all.head(20)


# 分组统计
# 统计每个学历的人数
df_all.groupby(by='最高学历').count()
df_all.groupby(by='最高学历')[['姓名']].count()

# 描述性统计min(), max(), mean(), median(), std(), count()

## 7. 数据导出

In [None]:
df_final = df_all[df_all['意向城市'] == '北京']

df_final.to_excel('./超级简历过去半年用户行为信息_final.xlsx', sheet_name='final')

## 8. 作业

In [None]:
# 1. 筛选出毕业时间为2023年的同学

# 2. 自学索引 loc iloc相关知识，筛选出毕业时间为2020年 且 意向岗位为产品的学生

# 3. 重新生成一列姓名，把姓名中的同学两字去掉，查看新生成的姓名的类型，并将其转换为另一种类型

# 4. 将未付费学生的付费金额、付费次数，填充为0，并统计不同学历学生的付费总金额

# 二、数据可视化包 (matplotlib)

## 1. 基本设置

In [None]:
# 作图的代码
import matplotlib.pyplot as plt
from pylab import * # 支持中文

# 用来正常显示中文标签
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] 

# 用来正常显示负号
plt.rcParams['axes.unicode_minus'] = False

## 2. 最高学历人数统计

In [None]:
df_all.groupby(by='最高学历')[['姓名']].count()
df_for_draw = df_all.groupby(by='最高学历')[['姓名']].count().reset_index()
df_for_draw

## 3. 画出柱状图

In [None]:
# 设置画布
# 默认一张画布上有一个图
fig, ax = plt.subplots(figsize=(6, 3), dpi=100) # 数值代表整个画面大小为475*230

# 一张画布上可以设置6张图
# fig, ax = plt.subplots(nrows=2, ncols=3, figsize=(9.5, 4.6), dpi=100)

# 柱状图
# Axes.bar(x, height, width=0.8, bottom=None, *, align='center', data=None, **kwargs)

x = df_for_draw['最高学历'].to_list()
y = df_for_draw['姓名'].to_list()
ax.bar(x, y)

# https://matplotlib.org/stable/index.html