In [560]:
# basic setting
import pandas as pd
table = pd.read_csv('./cleaned_data_by_team.csv')

In [561]:
table.head()

Unnamed: 0,date,time,line,start,stop,count_station,time.1,crowdedness,E,N,...,cellphone,thinking,sleep,earphone,talking,calling,reading,makeup,eating,writing
0,2019. 7. 31.,19:10:00,5,공덕,여의도,3,6,N,0,1,...,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
1,2019. 7. 31.,19:21:00,9,여의도,신논현,10,20,F,0,0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2019. 7. 31.,19:28:00,9,여의도,신논현,10,20,F,0,0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2019. 7. 31.,19:32:00,9,여의도,신논현,10,20,F,0,0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,2019. 7. 31.,22:38:00,10,선정릉,야탑,12,24,F,0,0,...,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0


In [562]:
len(table)

833

In [563]:
table.columns

Index(['date', 'time', 'line', 'start', 'stop', 'count_station', 'time.1',
       'crowdedness', 'E', 'N', 'F', 'old_age_seat', 'is_empty', 'empty_count',
       'female', 'male', 'age', 'child', 'teenage', 'youth', 'middle_age',
       'old_age', 'badge', 'pregnant', 'heavy', 'behavior1', 'behavior2',
       'behavior3', 'cellphone', 'thinking', 'sleep', 'earphone', 'talking',
       'calling', 'reading', 'makeup', 'eating', 'writing'],
      dtype='object')

In [564]:
table.dtypes

date              object
time              object
line               int64
start             object
stop              object
count_station      int64
time.1             int64
crowdedness       object
E                  int64
N                  int64
F                  int64
old_age_seat       int64
is_empty           int64
empty_count      float64
female           float64
male             float64
age               object
child            float64
teenage          float64
youth            float64
middle_age       float64
old_age          float64
badge            float64
pregnant         float64
heavy            float64
behavior1         object
behavior2         object
behavior3         object
cellphone        float64
thinking         float64
sleep            float64
earphone         float64
talking          float64
calling          float64
reading          float64
makeup           float64
eating           float64
writing          float64
dtype: object

---
# 데이터 분석 목표

## 기본 데이터 확인
1. 전체 데이터 중 착석자가 관찰된 데이터의 비율은 어떻게 되는가?
2. 전체 착석자 중 임산부의 비율은 어떻게 되는가?
3. 전체 임산부 중 임산부 엠블럼이 있는 경우의 비율은 어떻게 되는가?

4. 전체 착석자의 성별 비율은 어떻게 분포하는가?
5. 비임산부 착석자의 연령대 분포는 어떻게 되는가?
6. 비임산부 착석자의 연령대별 행동 분포는 어떻게 되는가?

## 심화 데이터 확인
7. 노약자석 빈자리 여부가 노년인구의 착석 비율에 영향을 미치는가?
8. 무거운 짐을 가지고 있는 사람이 임산부석에 많이 앉는가?
9. 붐빔정도에 따라 임산부석에 사람이 앉을 비율은 얼마나 되는가?

## 호선별 데이터 확인
10. 호선별 붐빔 정도에 따른 착석률

---
### 1. 전체 데이터 중 착석자가 관찰된 데이터의 비율은 어떻게 되는가?

In [565]:
table['is_empty'].unique()

array([0, 1])

In [566]:
not_empty = table[table['is_empty']==0]

In [567]:
round(not_empty['date'].count()/len(table['is_empty'])*100, 2)

69.15

In [568]:
('전체 데이터 중 착석자의 수는 {}명 이고,').format(not_empty['date'].count())

'전체 데이터 중 착석자의 수는 576명 이고,'

In [569]:
('전체 데이터 중 착석자의 비율은 {}% 입니다.').format(round(not_empty['date'].count()/len(table['is_empty'])*100, 2))

'전체 데이터 중 착석자의 비율은 69.15% 입니다.'

---
### 2. 전체 착석자 중 임산부의 비율은 어떻게 되는가?

In [570]:
pregnant = not_empty[not_empty['pregnant'] == 1]

In [571]:
('전체 착석자 중 임산부의 수는 {}명 이고,').format(pregnant['date'].count())

'전체 착석자 중 임산부의 수는 26명 이고,'

In [572]:
('전체 착석자 중 임산부의 비율은 {}% 입니다.').format(round(pregnant['date'].count()/not_empty['date'].count()*100, 2))

'전체 착석자 중 임산부의 비율은 4.51% 입니다.'

---
### 3. 전체 임산부 중 임산부 엠블럼이 있는 경우의 비율은 어떻게 되는가?

In [573]:
have_badge = pregnant[pregnant['badge'] == 1]

In [574]:
('전체 임산부 중 임산부 엠블럼이 있는 경우는 {}명 이고,').format(have_badge['date'].count())

'전체 임산부 중 임산부 엠블럼이 있는 경우는 16명 이고,'

In [575]:
('전체 임산부 중 임산부 엠블럼이 있는 경우의 비율은 {}% 입니다.').format(round(have_badge['date'].count()/pregnant['date'].count()*100, 2))

'전체 임산부 중 임산부 엠블럼이 있는 경우의 비율은 61.54% 입니다.'

In [576]:
('전체 임산부 중 임산부 엠블럼이 없는 경우의 비율은 {}% 입니다.').format(round((pregnant['date'].count()-have_badge['date'].count())/pregnant['date'].count()*100, 2))

'전체 임산부 중 임산부 엠블럼이 없는 경우의 비율은 38.46% 입니다.'

---
### 4. 전체 착석자의 성별 비율은 어떻게 분포하는가?

In [577]:
female_num = table['female'].sum()
male_num = table['male'].sum()

In [578]:
('전체 착석자 중 여성의 수는 {}명 이고,').format(female_num)

'전체 착석자 중 여성의 수는 448.0명 이고,'

In [579]:
('전체 착석자 중 여성의 비율은 {}% 입니다.').format(round(female_num/(female_num+male_num)*100, 2))

'전체 착석자 중 여성의 비율은 77.78% 입니다.'

In [580]:
('전체 착석자 중 남성의 수는 {}명 이고,').format(male_num)

'전체 착석자 중 남성의 수는 128.0명 이고,'

In [581]:
('전체 착석자 중 남성의 비율은 {}% 입니다.').format(round(male_num/(female_num+male_num)*100, 2))

'전체 착석자 중 남성의 비율은 22.22% 입니다.'

---
### 5. 비임산부 착석자의 연령대 분포는 어떻게 되는가?

In [582]:
not_pregnant = not_empty[not_empty['pregnant'] == 0]

In [583]:
pd.DataFrame(not_pregnant.groupby('age')['date'].count()).rename(columns = {'date': 'count'})

Unnamed: 0_level_0,count
age,Unnamed: 1_level_1
노년,100
어린이,11
중년,231
청년,202
청소년,6


---
### 6. 비임산부 착석자의 연령대별 행동 분포는 어떻게 되는가?

In [584]:
table.groupby(['age'])['cellphone', 'thinking', 'sleep', 'earphone', 'talking',
       'calling', 'reading', 'makeup', 'eating', 'writing'].sum()

Unnamed: 0_level_0,cellphone,thinking,sleep,earphone,talking,calling,reading,makeup,eating,writing
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
노년,24.0,43.0,19.0,4.0,5.0,1.0,3.0,0.0,0.0,1.0
어린이,4.0,2.0,0.0,1.0,5.0,0.0,0.0,0.0,0.0,0.0
중년,123.0,41.0,37.0,20.0,14.0,3.0,3.0,0.0,2.0,1.0
청년,160.0,12.0,33.0,35.0,7.0,4.0,1.0,3.0,2.0,1.0
청소년,5.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0


#### 6-1) 노년층

In [585]:
old_age_behaviour = pd.DataFrame(table[table['age'] == '노년'][['cellphone', 'thinking', 'sleep', 'earphone', 'talking',
       'calling', 'reading', 'makeup', 'eating', 'writing']].sum().astype(int)).rename(columns={0: 'count'}).sort_values(by='count', ascending=False)
old_age_behaviour = old_age_behaviour.rename({'cellphone': '핸드폰', 'thinking': '멍때리기', 'sleep': '잠', 'earphone': '이어폰', 'talking': '대화',
       'calling': '통화', 'reading': '읽기', 'makeup': '화장', 'eating': '먹기', 'writing': '쓰기'})
old_age_behaviour

Unnamed: 0,count
멍때리기,43
핸드폰,24
잠,19
대화,5
이어폰,4
읽기,3
통화,1
쓰기,1
화장,0
먹기,0


In [586]:
old_age_behaviour['percentage'] = round(old_age_behaviour['count'] / old_age_behaviour['count'].sum()*100, 2)
old_age_behaviour

Unnamed: 0,count,percentage
멍때리기,43,43.0
핸드폰,24,24.0
잠,19,19.0
대화,5,5.0
이어폰,4,4.0
읽기,3,3.0
통화,1,1.0
쓰기,1,1.0
화장,0,0.0
먹기,0,0.0


#### 6-2) 중년층

In [587]:
middle_age_behaviour = pd.DataFrame(table[table['age'] == '중년'][['cellphone', 'thinking', 'sleep', 'earphone', 'talking',
       'calling', 'reading', 'makeup', 'eating', 'writing']].sum().astype(int)).rename(columns={0: 'count'}).sort_values(by='count', ascending=False)
middle_age_behaviour = middle_age_behaviour.rename({'cellphone': '핸드폰', 'thinking': '멍때리기', 'sleep': '잠', 'earphone': '이어폰', 'talking': '대화',
       'calling': '통화', 'reading': '읽기', 'makeup': '화장', 'eating': '먹기', 'writing': '쓰기'})
middle_age_behaviour

Unnamed: 0,count
핸드폰,123
멍때리기,41
잠,37
이어폰,20
대화,14
통화,3
읽기,3
먹기,2
쓰기,1
화장,0


In [588]:
middle_age_behaviour['percentage'] = round(middle_age_behaviour['count'] / middle_age_behaviour['count'].sum()*100, 2)
middle_age_behaviour

Unnamed: 0,count,percentage
핸드폰,123,50.41
멍때리기,41,16.8
잠,37,15.16
이어폰,20,8.2
대화,14,5.74
통화,3,1.23
읽기,3,1.23
먹기,2,0.82
쓰기,1,0.41
화장,0,0.0


#### 6-3) 청년층

In [589]:
youth_behaviour = pd.DataFrame(table[table['age'] == '청년'][['cellphone', 'thinking', 'sleep', 'earphone', 'talking',
       'calling', 'reading', 'makeup', 'eating', 'writing']].sum().astype(int)).rename(columns={0: 'count'}).sort_values(by='count', ascending=False)
youth_behaviour = youth_behaviour.rename({'cellphone': '핸드폰', 'thinking': '멍때리기', 'sleep': '잠', 'earphone': '이어폰', 'talking': '대화',
       'calling': '통화', 'reading': '읽기', 'makeup': '화장', 'eating': '먹기', 'writing': '쓰기'})
youth_behaviour

Unnamed: 0,count
핸드폰,160
이어폰,35
잠,33
멍때리기,12
대화,7
통화,4
화장,3
먹기,2
읽기,1
쓰기,1


In [590]:
youth_behaviour['percentage'] = round(youth_behaviour['count'] / youth_behaviour['count'].sum()*100, 2)
youth_behaviour

Unnamed: 0,count,percentage
핸드폰,160,62.02
이어폰,35,13.57
잠,33,12.79
멍때리기,12,4.65
대화,7,2.71
통화,4,1.55
화장,3,1.16
먹기,2,0.78
읽기,1,0.39
쓰기,1,0.39


#### 6-4) 청소년

In [591]:
teenage_behaviour = pd.DataFrame(table[table['age'] == '청소년'][['cellphone', 'thinking', 'sleep', 'earphone', 'talking',
       'calling', 'reading', 'makeup', 'eating', 'writing']].sum().astype(int)).rename(columns={0: 'count'}).sort_values(by='count', ascending=False)
teenage_behaviour = teenage_behaviour.rename({'cellphone': '핸드폰', 'thinking': '멍때리기', 'sleep': '잠', 'earphone': '이어폰', 'talking': '대화',
       'calling': '통화', 'reading': '읽기', 'makeup': '화장', 'eating': '먹기', 'writing': '쓰기'})
teenage_behaviour

Unnamed: 0,count
핸드폰,5
대화,1
멍때리기,0
잠,0
이어폰,0
통화,0
읽기,0
화장,0
먹기,0
쓰기,0


In [592]:
teenage_behaviour['percentage'] = round(teenage_behaviour['count'] / teenage_behaviour['count'].sum()*100, 2)
teenage_behaviour

Unnamed: 0,count,percentage
핸드폰,5,83.33
대화,1,16.67
멍때리기,0,0.0
잠,0,0.0
이어폰,0,0.0
통화,0,0.0
읽기,0,0.0
화장,0,0.0
먹기,0,0.0
쓰기,0,0.0


#### 6-5) 어린이

In [593]:
child_behaviour = pd.DataFrame(table[table['age'] == '어린이'][['cellphone', 'thinking', 'sleep', 'earphone', 'talking',
       'calling', 'reading', 'makeup', 'eating', 'writing']].sum().astype(int)).rename(columns={0: 'count'}).sort_values(by='count', ascending=False)
child_behaviour = child_behaviour.rename({'cellphone': '핸드폰', 'thinking': '멍때리기', 'sleep': '잠', 'earphone': '이어폰', 'talking': '대화',
       'calling': '통화', 'reading': '읽기', 'makeup': '화장', 'eating': '먹기', 'writing': '쓰기'})
child_behaviour

Unnamed: 0,count
대화,5
핸드폰,4
멍때리기,2
이어폰,1
잠,0
통화,0
읽기,0
화장,0
먹기,0
쓰기,0


In [594]:
child_behaviour['percentage'] = round(child_behaviour['count'] / child_behaviour['count'].sum()*100, 2)
child_behaviour

Unnamed: 0,count,percentage
대화,5,41.67
핸드폰,4,33.33
멍때리기,2,16.67
이어폰,1,8.33
잠,0,0.0
통화,0,0.0
읽기,0,0.0
화장,0,0.0
먹기,0,0.0
쓰기,0,0.0


---
### 7. 노약자석 빈자리 여부가 노년인구의 착석 비율에 영향을 미치는가?

#### 7-0) 임산부석에 착석한 노년인구의 비율을 보자

In [595]:
old_seat_relation = pd.DataFrame(table[table['old_age'] == 1].groupby(['old_age_seat'])['age'].count()).rename({0: '노약자석이 비었을 때 노인이 착석', 1: '노약자석이 꽉찼을 때 노인이 착석'}, columns = {'age': 'count'})
old_seat_relation

Unnamed: 0_level_0,count
old_age_seat,Unnamed: 1_level_1
노약자석이 비었을 때 노인이 착석,54
노약자석이 꽉찼을 때 노인이 착석,46


In [596]:
old_seat_relation['percentage'] = round(old_seat_relation['count']/old_seat_relation['count'].sum()*100, 2)
old_seat_relation

Unnamed: 0_level_0,count,percentage
old_age_seat,Unnamed: 1_level_1,Unnamed: 2_level_1
노약자석이 비었을 때 노인이 착석,54,54.0
노약자석이 꽉찼을 때 노인이 착석,46,46.0


#### 7-1) 노년 인구가 착석하지 않았을 때의 상황까지 함께 보는 것이 유의미 할까? 노년인구가 착석하지 않았던 경우까지 합쳐서 비율을 내보자.

In [597]:
old_seat_relation2 = pd.DataFrame(table.groupby(['old_age_seat','old_age'])['old_age'].count()).rename(columns={'old_age': 'count'})
old_seat_relation2

Unnamed: 0_level_0,Unnamed: 1_level_0,count
old_age_seat,old_age,Unnamed: 2_level_1
0,0.0,276
0,1.0,54
1,0.0,200
1,1.0,46


In [598]:
# 멀티 인덱스를 사용할 때는 rename 할 때 도 level을 붙여줘야 한다.
# 특히 이 경우에는 0.0과 0의 값 차이가 없어서 0이라는 값으로 조건 없이 바꿀 경우 0, 0.0이 모두 바뀐다.

old_seat_relation2 = old_seat_relation2.rename(index = {0: '노약자석 빔', 1: '노약자석 꽉참'}, level=0)
old_seat_relation2 = old_seat_relation2.rename(index = {0: '기타 착석자', 1: '노년 착석자'}, level=1)
old_seat_relation2

Unnamed: 0_level_0,Unnamed: 1_level_0,count
old_age_seat,old_age,Unnamed: 2_level_1
노약자석 빔,기타 착석자,276
노약자석 빔,노년 착석자,54
노약자석 꽉참,기타 착석자,200
노약자석 꽉참,노년 착석자,46


In [599]:
# loc을 사용하면 멀티 인덱스의 라벨을 참조하여 데이터 값을 가져올 수 있다.
# 아래와 같이 코드를 실행할 경우 empty_seat_percentag, full_seat_percentage의 값은 데이터 프레임 형식으로 반환된다. 하나의 값이 나오는 게 아니니까 참고.

empty_seat_percentage = round(old_seat_relation2.loc[[('노약자석 빔', '기타 착석자'), ('노약자석 빔', '노년 착석자')]] / old_seat_relation2.loc['노약자석 빔'].sum()*100, 2)
full_seat_percentage = round(old_seat_relation2.loc[[('노약자석 꽉참', '기타 착석자'), ('노약자석 꽉참', '노년 착석자')]] / old_seat_relation2.loc['노약자석 꽉참'].sum()*100, 2)
old_seat_relation2['percentage'] = empty_seat_percentage.append(full_seat_percentage)

In [600]:
pd.DataFrame(empty_seat_percentage)

Unnamed: 0_level_0,Unnamed: 1_level_0,count
old_age_seat,old_age,Unnamed: 2_level_1
노약자석 빔,기타 착석자,83.64
노약자석 빔,노년 착석자,16.36


In [601]:
old_seat_relation2

Unnamed: 0_level_0,Unnamed: 1_level_0,count,percentage
old_age_seat,old_age,Unnamed: 2_level_1,Unnamed: 3_level_1
노약자석 빔,기타 착석자,276,83.64
노약자석 빔,노년 착석자,54,16.36
노약자석 꽉참,기타 착석자,200,81.3
노약자석 꽉참,노년 착석자,46,18.7


---
### 8. 무거운 짐을 가지고 있는 사람이 임산부석에 많이 앉는가?

---
### 9. 붐빔정도에 따라 임산부석에 사람이 앉을 비율은 얼마나 되는가?

---
### 10. 호선별 붐빔 정도에 따른 착석률