# 航空公司客户满意度分析  

## 数据说明  
该数据集包含来自 120,000 多名航空公司乘客的客户满意度评分信息，包括每位乘客、其航班和旅行类型的附加信息，以及对清洁度、舒适度、服务和整体体验等不同因素的评价。

## 1、第三方数据库导入及读取数据

In [1]:
#有任何需要的第三方库记得提前导入
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [2]:
#读取数据
df = pd.read_csv("/home/mw/input/data9691/airline_passenger_satisfaction.csv")

## 2、数据预览与预处理

In [3]:
#查看数据前几行
df.head()

Unnamed: 0,ID,Gender,Age,Customer Type,Type of Travel,Class,Flight Distance,Departure Delay,Arrival Delay,Departure and Arrival Time Convenience,...,On-board Service,Seat Comfort,Leg Room Service,Cleanliness,Food and Drink,In-flight Service,In-flight Wifi Service,In-flight Entertainment,Baggage Handling,Satisfaction
0,1,Male,48,First-time,Business,Business,821,2,5.0,3,...,3,5,2,5,5,5,3,5,5,Neutral or Dissatisfied
1,2,Female,35,Returning,Business,Business,821,26,39.0,2,...,5,4,5,5,3,5,2,5,5,Satisfied
2,3,Male,41,Returning,Business,Business,853,0,0.0,4,...,3,5,3,5,5,3,4,3,3,Satisfied
3,4,Male,50,Returning,Business,Business,1905,0,0.0,2,...,5,5,5,4,4,5,2,5,5,Satisfied
4,5,Female,49,Returning,Business,Business,3470,0,1.0,3,...,3,4,4,5,4,3,3,3,3,Satisfied


In [4]:
#查看数据维度
df.shape

(129880, 24)

In [5]:
#查看详细信息
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129880 entries, 0 to 129879
Data columns (total 24 columns):
ID                                        129880 non-null int64
Gender                                    129880 non-null object
Age                                       129880 non-null int64
Customer Type                             129880 non-null object
Type of Travel                            129880 non-null object
Class                                     129880 non-null object
Flight Distance                           129880 non-null int64
Departure Delay                           129880 non-null int64
Arrival Delay                             129487 non-null float64
Departure and Arrival Time Convenience    129880 non-null int64
Ease of Online Booking                    129880 non-null int64
Check-in Service                          129880 non-null int64
Online Boarding                           129880 non-null int64
Gate Location                             129880 no

In [6]:
# 删除缺失值
df.dropna(axis=0, inplace=True)
df.reset_index(drop=True, inplace=True)

In [7]:
#了解数据分布情况
df.describe()

Unnamed: 0,ID,Age,Flight Distance,Departure Delay,Arrival Delay,Departure and Arrival Time Convenience,Ease of Online Booking,Check-in Service,Online Boarding,Gate Location,On-board Service,Seat Comfort,Leg Room Service,Cleanliness,Food and Drink,In-flight Service,In-flight Wifi Service,In-flight Entertainment,Baggage Handling
count,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0,129487.0
mean,64958.335169,39.428761,1190.210662,14.643385,15.091129,3.057349,2.756786,3.306239,3.25272,2.976909,3.383204,3.441589,3.351078,3.286222,3.204685,3.642373,2.728544,3.358067,3.631886
std,37489.781165,15.117597,997.560954,37.932867,38.46565,1.526787,1.401662,1.266146,1.350651,1.278506,1.287032,1.319168,1.316132,1.313624,1.329905,1.176614,1.329235,1.334149,1.180082
min,1.0,7.0,31.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,32494.5,27.0,414.0,0.0,0.0,2.0,2.0,3.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,3.0,2.0,2.0,3.0
50%,64972.0,40.0,844.0,0.0,0.0,3.0,3.0,3.0,3.0,3.0,4.0,4.0,4.0,3.0,3.0,4.0,3.0,4.0,4.0
75%,97415.5,51.0,1744.0,12.0,13.0,4.0,4.0,4.0,4.0,4.0,4.0,5.0,4.0,4.0,4.0,5.0,4.0,4.0,5.0
max,129880.0,85.0,4983.0,1592.0,1584.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0


## 3、探索性数据分析

### 任务1：该航空公司的整体满意度水平如何？在 `对机上 WiFi 服务的满意度水平` 的评价中，有多少人给了5分？

In [8]:
# 你的代码
# 该航空公司的整体满意度水平如何?
print(df["Satisfaction"].value_counts())
satisfaction_rate = round(len(df[df['Satisfaction']=='Satisfied'])/len(df['Satisfaction']),2)
print(satisfaction_rate)

# 航司满意度反馈为‘满意’的占比为43%，其余全部认为‘中立’或‘不满意’。可见航司满意度水平在绝对值角度上来说较低。

# 在对机上 WiFi 服务的满意度水平 的评价中，有多少人给了5分？
five_stars = len(df[df['In-flight Wifi Service']==5])
print(five_stars)

# 在对机上 WiFi 服务的满意度水平 的评价中，有14304人给了5分。

Neutral or Dissatisfied    73225
Satisfied                  56262
Name: Satisfaction, dtype: int64
0.43
14304


### 任务2：该航空公司的14个分项目评分中，最差的是那个项目？  

> 可以使用平均值作为评估指标，也可以考虑其他更合适的指标，只要合理即可

In [9]:
# 你的代码
score = df.iloc[:,9:23].mean()
min_avg_score = score.min()
min_avg_score_column_name = score[score == min_avg_score].index[0]
print(score.sort_values())
print(f"评分最低的项目是：{min_avg_score_column_name}")

In-flight Wifi Service                    2.728544
Ease of Online Booking                    2.756786
Gate Location                             2.976909
Departure and Arrival Time Convenience    3.057349
Food and Drink                            3.204685
Online Boarding                           3.252720
Cleanliness                               3.286222
Check-in Service                          3.306239
Leg Room Service                          3.351078
In-flight Entertainment                   3.358067
On-board Service                          3.383204
Seat Comfort                              3.441589
Baggage Handling                          3.631886
In-flight Service                         3.642373
dtype: float64
评分最低的项目是：In-flight Wifi Service


### 任务3：该航空公司起飞延误、到达延误的情况如何？  

> 可以使用中位数作为评估指标，也可以考虑其他更合适的指标，只要合理即可

In [10]:
# 你的代码
# 起飞延误中位数、到达延误中位数
depart_median = df['Departure Delay'].median()
arr_median = df['Arrival Delay'].median()
print(depart_median)
print(arr_median)
print('从中位数来看，该航司的起飞延误和到达延误中位数均为0，可以视为延误较少')

# 平均起飞延误时间：所有起飞延误航班的延误时间总和除以起飞延误航班数量。反映了航班起飞延误的平均程度。例如，100 个起飞延误航班的延误时间总和为 500 分钟，那么平均起飞延误时间为 5 分钟。
# 平均到达延误时间：所有到达延误航班的延误时间总和除以到达延误航班数量。体现了航班到达延误的平均水平。
depart_avg = df['Departure Delay'].mean()
arr_avg = df['Arrival Delay'].mean()
print(depart_avg)
print(arr_avg)
print('从平均数来看，该航司的起飞延误和到达延误的平均值分别为14.64和15.09，基本相等，平均延误时长较低')

# 最长起飞延误时间：在一定时间段内，所有航班中起飞延误时间最长的值。可以反映出极端情况下的延误情况。
# 最长到达延误时间：同理，是一定时间段内到达延误时间最长的值。
depart_max = df['Departure Delay'].max()
arr_max = df['Arrival Delay'].max()
print(depart_max)
print(arr_max)
print('从最长延误时间来看，该航司的最长起飞延误和到达延误时间分别为1592和1584.0，基本相等，表明存在极端延误的情况')

# 起飞延误率：起飞延误航班数量占总航班数量的比例。计算公式为：起飞延误率 = 起飞延误航班数 ÷ 总航班数 ×100%。例如，一个月内共有 1000 个航班，其中有 200 个航班出现起飞延误，那么起飞延误率为 20%。
# 到达延误率：到达延误航班数量占总航班数量的比例。计算方法与起飞延误率类似。
depart_rate = len(df[df['Departure Delay']>0])/len(df['Departure Delay'])
arr_rate = len(df[df['Arrival Delay']>0])/len(df['Arrival Delay'])
print(depart_rate)
print(arr_rate)
print('延误率来看，该航司的起飞和到达延误率分别为43.46%和43.81%，基本相等，延误率都处于较高水平')

# 准点率：准点航班数量占总航班数量的比例。准点航班通常定义为起飞延误时间在一定范围内（如 15 分钟以内）的航班。准点率 = 准点航班数 ÷ 总航班数 ×100%。与延误率相反，准点率越高说明航班运行越正常。
punctuality_rate = len(df[(df['Departure Delay']>15)|(df['Arrival Delay']>15)])/len(df)
print(punctuality_rate)
print('从准点率来看，该航司的准点率为26.86%，准点率较低')

0.0
0.0
从中位数来看，该航司的起飞延误和到达延误中位数均为0，可以视为延误较少
14.643385050236704
15.09112883918849
从平均数来看，该航司的起飞延误和到达延误的平均值分别为14.64和15.09，基本相等，平均延误时长较低
1592
1584.0
从最长延误时间来看，该航司的最长起飞延误和到达延误时间分别为1592和1584.0，基本相等，表明存在极端延误的情况
0.4346227806652405
0.4381443697050669
延误率来看，该航司的起飞和到达延误率分别为43.46%和43.81%，基本相等，延误率都处于较高水平
0.26861383768254726
从准点率来看，该航司的准点率为26.86%，准点率较低


### 任务4：该航空公司最受那个年龄段人群的喜爱？

In [11]:
# 你的代码
age_counts = df[df['Satisfaction']=='Satisfied']['Age'].value_counts()
max_satisfaction_age = age_counts.idxmax()
print("满意度最高的人数的年龄是:", max_satisfaction_age)

#把表示满意的人的数据根据年龄聚合，并计算每个年龄群体中觉得满意的人数的占比
total_per_age = df.groupby('Age')['Satisfaction'].count()
age_counts = df[df['Satisfaction'] == 'Satisfied'].groupby('Age')['Satisfaction'].count()
age_percent = age_counts/total_per_age
plt.figure(figsize=(18,6))
sns.barplot(x=age_percent.index, y=age_percent.values)
plt.title('Age Group with the Highest Satisfaction')
plt.xlabel('Age')
plt.ylabel('Count')
plt.show()

# 满意度最高的年龄为39岁，满意度较高的人群集中在39-60岁，22-38岁的年轻群体满意度较低，建议调研年轻群体满意度低的原因

满意度最高的人数的年龄是: 39


### 任务5：分析 `航班目的（商务/个人）` 与 `乘客座位所在的飞机旅行舱级别` 之间的关系

In [12]:
# 你的代码
class_travel = df.groupby([ 'Type of Travel','Class'])['Class'].count().reset_index(name='amount')
print(class_travel)

plt.figure(figsize=(10,6))
ax = sns.barplot(x='Class', y='amount', hue='Type of Travel', data=class_travel)
plt.title('Relationship between Flight Purpose and Travel Class')
plt.xlabel('Class')
plt.ylabel('amount')
plt.show()

# 总结：乘坐商务舱的乘客大部分为商务出行，乘坐经济舱的乘客更多为个人出行，乘坐超级经济舱的乘客中商务和个人出行各占一半。可以把商务舱相关推荐给商务出行的个人或公司。

  Type of Travel         Class  amount
0       Business      Business   59325
1       Business       Economy   25231
2       Business  Economy Plus    4889
3       Personal      Business    2665
4       Personal       Economy   32886
5       Personal  Economy Plus    4491


## 分析小结  

1、在整体满意度方面，航司满意度反馈为‘满意’的占比为43%，其余全部认为‘中立’或‘不满意’。可见航司满意度水平在绝对值角度上来说较低。其中，在对机上 WiFi 服务的满意度水平 的评价中，有14304人给了5分。  
2、在起飞延误和到达延误方面，从中位数来看，该航司的起飞延误和到达延误中位数均为0，可以视为延误较少；从平均数来看，该航司的起飞延误和到达延误的平均值分别为14.64和15.09，基本相等，平均延误时长较低；从最长延误时间来看，该航司的最长起飞延误和到达延误时间分别为1592和1584.0，基本相等，表明存在极端延误的情况；延误率来看，该航司的起飞和到达延误率分别为43.46%和43.81%，基本相等，延误率都处于较高水平；从准点率来看，该航司的准点率为26.86%，准点率较低。  
3、在满意度分布方面，满意度最高的年龄为39岁，满意度较高的人群集中在39-60岁，22-38岁的年轻群体满意度较低，建议调研年轻群体满意度低的原因。  
4、在航班目的和乘客座位所在的飞机旅行舱级别之间的关系方面，乘坐乘坐商务舱的乘客大部分为商务出行，乘坐经济舱的乘客更多为个人出行，乘坐超级经济舱的乘客中商务和个人出行各占一半。可以把商务舱相关推荐给商务出行的个人或公司。  
