# 数据分析
## 1. 数据的导入与导出


In [1]:
import pandas as pd 

# csv的导入
df = pd.read_csv('./data/employees.csv')
print(type(df))
print(df.head(5))
print(df.salary.mean())

# csv的导出
df = df.tail()
df.to_csv('./data/new.csv')

<class 'pandas.core.frame.DataFrame'>
   employee_id first_name last_name     email  phone_number   job_id   salary  \
0          100     Steven      King     SKING  515.123.4567  AD_PRES  24000.0   
1          101      N_ann   Kochhar  NKOCHHAR  515.123.4568    AD_VP  17000.0   
2          102        Lex   De Haan   LDEHAAN  515.123.4569    AD_VP  17000.0   
3          103  Alexander    Hunold   AHUNOLD  590.423.4567  IT_PROG   9000.0   
4          104      Bruce     Ernst    BERNST  590.423.4568  IT_PROG   6000.0   

   commission_pct  manager_id  department_id  
0             NaN         NaN           90.0  
1             NaN       100.0           90.0  
2             NaN       100.0           90.0  
3             NaN       102.0           60.0  
4             NaN       103.0           60.0  
6461.682242990654


In [2]:
# json的导入（爬虫）
df = pd.read_json('./data/test.json')
print(type(df))
print(df) # 爬的数据有问题，要清洗

# pandas只能读取简单的json文件，所以读取能力更强的库
import json

with open('./data/test.json') as f:
    data = json.load(f) # 获得字典类型的数据
print(data)
print(data['users']) # 是一个列表(嵌套字典)，pd会自动将每个字典作为一条记录
print(type(data))
df = pd.DataFrame(data['users'],) # 字典里就一个useres键，所以直接读
print(df)

<class 'pandas.core.frame.DataFrame'>
                                               users
0  {'id': 1, 'name': '张三', 'age': 28, 'email': 'z...
1  {'id': 2, 'name': '李四', 'age': 35, 'email': 'l...
2  {'id': 3, 'name': '王五', 'age': 24, 'email': 'w...
{'users': [{'id': 1, 'name': '张三', 'age': 28, 'email': 'zhangsan@example.com', 'is_active': True, 'join_date': '2022-03-15'}, {'id': 2, 'name': '李四', 'age': 35, 'email': 'lisi@example.com', 'is_active': False, 'join_date': '2021-11-02'}, {'id': 3, 'name': '王五', 'age': 24, 'email': 'wangwu@example.com', 'is_active': True, 'join_date': '2023-01-20'}]}
[{'id': 1, 'name': '张三', 'age': 28, 'email': 'zhangsan@example.com', 'is_active': True, 'join_date': '2022-03-15'}, {'id': 2, 'name': '李四', 'age': 35, 'email': 'lisi@example.com', 'is_active': False, 'join_date': '2021-11-02'}, {'id': 3, 'name': '王五', 'age': 24, 'email': 'wangwu@example.com', 'is_active': True, 'join_date': '2023-01-20'}]
<class 'dict'>
   id name  age                 email  is_

# 2. 缺失值的处理

In [3]:
# 缺失值的处理
import numpy as np


s = pd.Series([1, 2, np.nan, None, pd.NA])
df = pd.DataFrame([[1, pd.NA], [2, 3, 4], [None, 4, 6]], columns=['第1列', '第2列', '第3列']) # 之前都是用字典创建，这里用列表创建
print(s)
print(df)
print('-' * 50)

# 查看是否是缺失值
print(s.isna())
print(s.isnull()) # 另一种方法

print(df.isna())
print(df.isnull())

# 查看缺失值的个数
print(s.isna().sum()) # 按行统计缺失值
print(df.isna().sum(axis=1)) # 按列统计缺失值
print('-' * 50)

# 剔除缺失值
print(df.dropna()) # 默认删除一行
print(df.dropna(axis=1)) # 删除一整列
print(df.dropna()) # 只要有缺失值，一整条记录就删掉
print(df.dropna(how='all')) # 所有值都是缺失值才删除
print(df.dropna(thresh=2)) # 至少有n个缺失值
print(df.dropna(subset=['第1列'])) # 指定列有缺失值的，删除哪一行

# 填充缺失值
# 1. 读入数据
df = pd.read_csv('./data/weather_withna.csv')
print(df.tail())
print(df.isna().sum(axis=0))

# 2. 填充
# 2.1 使用字典填充
print(df.fillna({'temp_max': 20, 'wind': 2.5}).tail())
# 2.2 使用统计值填充
print(df.fillna(df[['temp_max','wind']].mean()).tail())
# 2.3 使用周围数据填充（更合适）
print(df.ffill().tail()) # front fill
print(df.bfill().tail()) # back fill
# print(df[['temp_max', 'wind']])

0       1
1       2
2     NaN
3    None
4    <NA>
dtype: object
   第1列   第2列  第3列
0  1.0  <NA>  NaN
1  2.0     3  4.0
2  NaN     4  6.0
--------------------------------------------------
0    False
1    False
2     True
3     True
4     True
dtype: bool
0    False
1    False
2     True
3     True
4     True
dtype: bool
     第1列    第2列    第3列
0  False   True   True
1  False  False  False
2   True  False  False
     第1列    第2列    第3列
0  False   True   True
1  False  False  False
2   True  False  False
3
0    2
1    0
2    1
dtype: int64
--------------------------------------------------
   第1列 第2列  第3列
1  2.0   3  4.0
Empty DataFrame
Columns: []
Index: [0, 1, 2]
   第1列 第2列  第3列
1  2.0   3  4.0
   第1列   第2列  第3列
0  1.0  <NA>  NaN
1  2.0     3  4.0
2  NaN     4  6.0
   第1列 第2列  第3列
1  2.0   3  4.0
2  NaN   4  6.0
   第1列   第2列  第3列
0  1.0  <NA>  NaN
1  2.0     3  4.0
            date  precipitation  temp_max  temp_min  wind weather
1456  2015-12-27            NaN       NaN       NaN   NaN  

# 3. 去重

In [None]:
data = {
    'name': ['alice', 'alice', 'bob', 'alice', 'jack', 'bob'],
    'age': [26, 25, 30, 25, 35, 30],
    'city': ['NY', 'NY', 'LA', 'NY', 'SF', 'LA']
}
df = pd.DataFrame(data)
print(df)
print('-' * 50)

# 检测重复
print(df.duplicated()) # 检测某条记录是否与前面某一条完全相同，返回bool
print(df.drop_duplicates()) # 去重
print(df.drop_duplicates(subset=['name'])) # 根据指定列去重
print(df.drop_duplicates(subset=['name'], keep='last')) # 去重，但保留最后出现的

    name  age city
0  alice   26   NY
1  alice   25   NY
2    bob   30   LA
3  alice   25   NY
4   jack   35   SF
5    bob   30   LA
--------------------------------------------------
0    False
1    False
2    False
3     True
4    False
5     True
dtype: bool
    name  age city
0  alice   26   NY
1  alice   25   NY
2    bob   30   LA
4   jack   35   SF
    name  age city
0  alice   26   NY
2    bob   30   LA
4   jack   35   SF
    name  age city
3  alice   25   NY
4   jack   35   SF
5    bob   30   LA


# 4. 数据类型的转换

In [5]:
df = pd.read_csv('./data/sleep.csv')
# print(df.head())

# 1. age是64bit，太大了
print(df.dtypes)
print('-' * 50)
df['age'] = df['age'].astype('int16')
print(df.dtypes)
print('-' * 50)

# 2. gender是字符串类型，转换为category类型，处理会更快
df['gender'] = df['gender'].astype('category')
print(df.dtypes)
print('-' * 50)

# 3. gender是二分类，所以也可以变成bool类型
df['is_female'] = df['gender'].map({'Female': True, 'Male': False}) # 另外写一列
print(df.dtypes)
print(df.head(1))
print(df.is_female)

person_id                    int64
gender                      object
age                          int64
occupation                  object
sleep_duration             float64
sleep_quality              float64
physical_activity_level      int64
stress_level                 int64
bmi_category                object
blood_pressure              object
heart_rate                   int64
daily_steps                  int64
sleep_disorder              object
dtype: object
--------------------------------------------------
person_id                    int64
gender                      object
age                          int16
occupation                  object
sleep_duration             float64
sleep_quality              float64
physical_activity_level      int64
stress_level                 int64
bmi_category                object
blood_pressure              object
heart_rate                   int64
daily_steps                  int64
sleep_disorder              object
dtype: object
-----------

# 5. 数据变形

In [6]:
data = {
    'ID': [1, 2],
    'name': ['alice smith', 'bob smith'],
    'Math': [90, 85],
    'English': [88, 92],
    'Science': [95, 89]
}
df = pd.DataFrame(data)
print(df)
print(df.T) # 转置
print('-' * 50)

# 1. 宽表转长表，将表展开
df2 = pd.melt(df, id_vars=['ID', 'name'], var_name='科目', value_name='分数') # id_vars是不变的，其他的展开
print(df2)
print(df2.sort_values('name')) # 再按照名字排序

# 2. 长表转宽表
print(pd.pivot(df2, index=['ID', 'name'], columns='科目', values='分数'))

# 3. 分列(名字可以分开)

# 例1
df[['first', 'last']] = df['name'].str.split(' ', expand=True) # 先转成str，然后再分开
print(df)

# 例2
df = pd.read_csv('./data/sleep.csv')
# print(df.head())
# df = df[['person_id', 'blood_pressure']] # 拿出来方便看
df[['high', 'low']] = df['blood_pressure'].str.split('/', expand=True)
print(df)
print(df.info()) # 此时blood_pressure, high, low都是字符串类型，改成数字能否方便计算
df[['high', 'low']] = df[['high', 'low']].astype('int64') # 修改了别忘了赋值
print(df.info())


   ID         name  Math  English  Science
0   1  alice smith    90       88       95
1   2    bob smith    85       92       89
                   0          1
ID                 1          2
name     alice smith  bob smith
Math              90         85
English           88         92
Science           95         89
--------------------------------------------------
   ID         name       科目  分数
0   1  alice smith     Math  90
1   2    bob smith     Math  85
2   1  alice smith  English  88
3   2    bob smith  English  92
4   1  alice smith  Science  95
5   2    bob smith  Science  89
   ID         name       科目  分数
0   1  alice smith     Math  90
2   1  alice smith  English  88
4   1  alice smith  Science  95
1   2    bob smith     Math  85
3   2    bob smith  English  92
5   2    bob smith  Science  89
科目              English  Math  Science
ID name                               
1  alice smith       88    90       95
2  bob smith         92    85       89
   ID         name  Math

# 6. 数据分箱

In [7]:
# 1. pd.cut
# 1.1 将数据分割成几份
df = pd.read_csv('./data/employees.csv')
df2 = df.head(10)[['employee_id', 'salary']] # 先取10个看看
# print(df2)
print(pd.cut(df2['salary'], bins=3))
print(pd.cut(df2['salary'], bins=3).value_counts())

# 1.2 也可以手动划定值的界限
df2['收入范围'] = pd.cut(df2['salary'], bins=[0, 10000, 20000, 30000], labels=['低', '中', '高'])
print(df2)

# 2. pd.qcut将数据按照个数划分
print(pd.qcut(df2['salary'], 3).value_counts())


# 案例
df = pd.read_csv('./data/sleep.csv')
df2 = df.head(10)[['person_id', 'sleep_quality']]
df['睡眠质量'] = pd.cut(df['sleep_quality'], bins=3, labels=['差', '中', '优'])
print(df['睡眠质量'].value_counts())

# 数据分箱与前面数据分类是一样的
df['gender'] = df['gender'].astype('category')
print(df['gender'].value_counts())

# 字符串→类别→统计
# 数值→分箱→统计
# 殊途同归
print(df['gender'].dtype)
print(df['睡眠质量'].dtype)

0    (17400.0, 24000.0]
1    (10800.0, 17400.0]
2    (10800.0, 17400.0]
3     (4180.2, 10800.0]
4     (4180.2, 10800.0]
5     (4180.2, 10800.0]
6     (4180.2, 10800.0]
7     (4180.2, 10800.0]
8    (10800.0, 17400.0]
9     (4180.2, 10800.0]
Name: salary, dtype: category
Categories (3, interval[float64, right]): [(4180.2, 10800.0] < (10800.0, 17400.0] < (17400.0, 24000.0]]
salary
(4180.2, 10800.0]     6
(10800.0, 17400.0]    3
(17400.0, 24000.0]    1
Name: count, dtype: int64
   employee_id   salary 收入范围
0          100  24000.0    高
1          101  17000.0    中
2          102  17000.0    中
3          103   9000.0    低
4          104   6000.0    低
5          105   4800.0    低
6          106   4800.0    低
7          107   4200.0    低
8          108  12000.0    中
9          109   9000.0    低
salary
(12000.0, 24000.0]    4
(4199.999, 6000.0]    3
(6000.0, 12000.0]     3
Name: count, dtype: int64
睡眠质量
中    206
优    129
差     65
Name: count, dtype: int64
gender
Female    201
Male      199
Name

# 7. 其他转换函数

In [8]:
# df.rename() df.set_index() df.reset_index()
df = pd.DataFrame({
    'name': ['jack', 'alice', 'tom', 'bob'],
    'age': [20, 30, 40, 50],
    'gender': ['male', 'female', 'male', 'male']
})
print(df)
print(df.set_index('name', inplace=True)) # 把name设置为index, inplace原地修改
print(df.reset_index(inplace=True)) # 重置index，inplace原地修改
print(df.rename(columns={'age':'年龄'})) # 修改列名
print(df.rename(index={0: 4})) # 修改索引

# 直接设置属性也行
df.index = [1, 2, 3, 4]
df.columns = ['姓名', '年龄', '性别']
print(df)

    name  age  gender
0   jack   20    male
1  alice   30  female
2    tom   40    male
3    bob   50    male
None
None
    name  年龄  gender
0   jack  20    male
1  alice  30  female
2    tom  40    male
3    bob  50    male
    name  age  gender
4   jack   20    male
1  alice   30  female
2    tom   40    male
3    bob   50    male
      姓名  年龄      性别
1   jack  20    male
2  alice  30  female
3    tom  40    male
4    bob  50    male


# 8. 时间数据的处理

In [None]:
d = pd.Timestamp('2015-05-02 10:22')
print(d)
print(type(d))

# 是个对象，直接通过.访问属性
print(d.year, d.quarter, d.month, d.day, d.hour, d.minute, d.second)

# is_用于判断
print(d.is_year_start, d.is_year_end, d.is_month_start, d.is_month_end)

# 方法
print(d.day_name())
print(d.to_period('D'), d.to_period('Q'), d.to_period('Y'), d.to_period('M'), d.to_period('W')) # 时间戳转换为天，比如所有的记录都转换为2015-05-02，这样可以统一处理

# 字符串转换为日期类型
a = pd.to_datetime('2015-02-28 10:22')
print(a)
print(type(a))
print(a.day_name())

# dataframe转为日期类型
df = pd.DataFrame({
    'sales': [100, 200, 300],
    'date': ['20250601', '20250602', '20250603']
})
# 第1步. 转换为datetime类型
df['datetime'] = pd.to_datetime(df['date'])
print(df.info())
print(type(df['datetime']))
# 第2步. Series类型数据，没有.day_name方法，所以先转成时间
# 注意注意注意：.dt只能对datetimelike类型的使用，所以第1步不能省略
df['week'] = df['datetime'].dt.day_name() 
print(df)

# csv 日期转换
df = pd.read_csv('./data/weather.csv')
print(df.info())
# 第1步. 转换为datetime类型
df['datetime'] = pd.to_datetime(df['date'])
print(df)
# 第2步. Series类型数据，没有.day_name方法，所以先转成时间
df['week'] = df['datetime'].dt.day_name()
print(df)

# 上面太麻烦，可以导入时指定日期，传入parse_dates参数
df = pd.read_csv('./data/weather.csv', parse_dates=['date']) # date列转为日期

# 日期数据作为索引取数据
df.set_index('date', inplace=True) # 这一步操作前，要先将数据转换为datetime类型
print(df.loc['2013-01': '2013-02'])

# 时间间隔
d1 = pd.Timestamp('2013-01-15')
d2 = pd.Timestamp('2023-02-23')
delta_d = d2 - d1
print(delta_d, type(delta_d)) # Timedelta类型的数据

# 计算每一条数据与某一条数据的时间间隔
# 注意：必须先抓换为datetime类型
# 上面将date变成index了，所以没有这一列了
df = pd.read_csv('./data/weather.csv', parse_dates=['date'])
df['delta'] = df['date'] - df['date'][0]
print(df)
print('-' * 50)
# 同样可以将delta变为index
df.set_index(df['delta'], inplace=True)
# print(df)
print(df.loc['10 days': '20 days'])

# 创建时间序列
days = pd.date_range('2025-07-03', '2026-02-09', freq='W')
days = pd.date_range('2025-07-03', periods=10, freq='W')

# 时间重采样(比如一年的放一起)
df.set_index('date', inplace=True)
print(df)
print('-' * 50)
# 注意注意注意：只有将date作为index，resample参数才能是'YE'。
# 如果是timedeltaindex，则传递freq=
print(df[['temp_max', 'temp_min']].resample('YE').mean())
# 重采样比后面group_by做分组聚合方便多


2015-05-02 10:22:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2015 2 5 2 10 22 0
False False False False
Saturday
2015-05-02 2015Q2 2015 2015-05 2015-04-27/2015-05-03
2015-02-28 10:22:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>
Saturday
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   sales     3 non-null      int64         
 1   date      3 non-null      object        
 2   datetime  3 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 200.0+ bytes
None
<class 'pandas.core.series.Series'>
   sales      date   datetime     week
0    100  20250601 2025-06-01   Sunday
1    200  20250602 2025-06-02   Monday
2    300  20250603 2025-06-03  Tuesday
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1461 entries, 0 to 1460
Data columns (total 6 columns):
 #   Column         Non-Null Count  D

# 9. 分组聚合

In [None]:
# 分组聚合：先分组再统计
# df.groupby('分组的字段')['聚合的字段'].聚合函数()
# 例：B部门-薪资-均值

# 0. 数据预处理
df = pd.read_csv('./data/employees.csv')
print(df['department_id'].isna().sum()) # 有缺失值，就不能转成int64
df = df.dropna(subset=['department_id'])
df['department_id'] = df['department_id'].astype('int64')

# 1. 单条件分组
# 1.1 分组
df.groupby('department_id')
df.groupby('department_id').groups # 查看分组
df.groupby('department_id').get_group(20) # 查看某个组
# 1.2 聚合
df2 = df.groupby('department_id')['salary'].mean().round(2) # 返回series
df2 = df.groupby('department_id')[['salary']].mean().round(2) # 返回dataframe
print(df2)
# 回顾之前操作
df2 = df2.reset_index() # department_id变成了index，reset一下
print(df2.sort_values('salary', ascending=False)) # 排序

# 2. (进阶)多条件分组
df3 = df.groupby(['department_id', 'job_id'])[['salary']].mean().round(1) # 根据多个columns分组
df3.reset_index(inplace=True)
print(df3.sort_values('salary', ascending=False))



1
                 salary
department_id          
10              4400.00
20              9500.00
30              4150.00
40              6500.00
50              3475.56
60              5760.00
70             10000.00
80              8955.88
90             19333.33
100             8600.00
110            10150.00
    department_id    salary
8              90  19333.33
10            110  10150.00
6              70  10000.00
1              20   9500.00
7              80   8955.88
9             100   8600.00
3              40   6500.00
5              60   5760.00
0              10   4400.00
2              30   4150.00
4              50   3475.56
    department_id      job_id   salary
13             90     AD_PRES  24000.0
14             90       AD_VP  17000.0
1              20      MK_MAN  13000.0
11             80      SA_MAN  12200.0
18            110      AC_MGR  12000.0
16            100      FI_MGR  12000.0
4              30      PU_MAN  11000.0
10             70      PR_REP  10000.0