{{<video https://youtu.be/playlist?list=PLQqh36zP38-zkL-LnnWMykmEsdLnIskjD&si=IdQLtjoFrhAheYom>}}

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 1. Pandas: 할당

In [4]:
np.random.seed(43052)
att = np.random.choice(np.arange(10,21)*5,20)
rep = np.random.choice(np.arange(5,21)*5,20)
mid = np.random.choice(np.arange(0,21)*5,20)
fin = np.random.choice(np.arange(0,21)*5,20)
df = pd.DataFrame({'att':att,'rep':rep,'mid':mid,'fin':fin})
df

Unnamed: 0,att,rep,mid,fin
0,65,55,50,40
1,95,100,50,80
2,65,90,60,30
3,55,80,75,80
4,80,30,30,100
5,75,40,100,15
6,65,45,45,90
7,60,60,25,0
8,95,65,20,10
9,90,80,80,20


### A. `df.assign()`

`-` 예시: `total = att*0.1 + rep*0.2 + mid*0.35 + fin*0.35` 를 계산하여 할당

In [5]:
df.assign(total = df.att*0.1 + df.rep*0.2 + df.mid*0.35 + df.fin*0.35)

Unnamed: 0,att,rep,mid,fin,total
0,65,55,50,40,49.0
1,95,100,50,80,75.0
2,65,90,60,30,56.0
3,55,80,75,80,75.75
4,80,30,30,100,59.5
5,75,40,100,15,55.75
6,65,45,45,90,62.75
7,60,60,25,0,26.75
8,95,65,20,10,33.0
9,90,80,80,20,60.0


> Note: 이 방법은 df원본을 손상시키지 않음

### B. `df.eval()`

`-` 예시: `total = att*0.1 + rep*0.2 + mid*0.35 + fin*0.35` 를 계산하여 할당

In [6]:
df.eval("total = att*0.1 + rep*0.2 + mid*0.35 + fin*0.35")

Unnamed: 0,att,rep,mid,fin,total
0,65,55,50,40,49.0
1,95,100,50,80,75.0
2,65,90,60,30,56.0
3,55,80,75,80,75.75
4,80,30,30,100,59.5
5,75,40,100,15,55.75
6,65,45,45,90,62.75
7,60,60,25,0,26.75
8,95,65,20,10,33.0
9,90,80,80,20,60.0


> Note: 이 방법은 df원본을 손상시키지 않음

### C. `df[colname] = xxx`

`-` 예시: `total = att*0.1 + rep*0.2 + mid*0.35 + fin*0.35` 를 계산하여 할당.

In [7]:
df['total'] = df.att*0.1 + df.rep*0.2 + df.mid*0.35 + df.fin*0.35
df

Unnamed: 0,att,rep,mid,fin,total
0,65,55,50,40,49.0
1,95,100,50,80,75.0
2,65,90,60,30,56.0
3,55,80,75,80,75.75
4,80,30,30,100,59.5
5,75,40,100,15,55.75
6,65,45,45,90,62.75
7,60,60,25,0,26.75
8,95,65,20,10,33.0
9,90,80,80,20,60.0


> Note: 이 방법은 df를 영구적으로 변화시킴

# 2. AIRLINE 자료로 연습

In [9]:
df = pd.read_csv('flights.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58492 entries, 0 to 58491
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   MONTH      58492 non-null  int64  
 1   DAY        58492 non-null  int64  
 2   WEEKDAY    58492 non-null  int64  
 3   AIRLINE    58492 non-null  object 
 4   ORG_AIR    58492 non-null  object 
 5   DEST_AIR   58492 non-null  object 
 6   SCHED_DEP  58492 non-null  int64  
 7   DEP_DELAY  57659 non-null  float64
 8   AIR_TIME   57474 non-null  float64
 9   DIST       58492 non-null  int64  
 10  SCHED_ARR  58492 non-null  int64  
 11  ARR_DELAY  57474 non-null  float64
 12  DIVERTED   58492 non-null  int64  
 13  CANCELLED  58492 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 6.2+ MB


`-` 각 변수들에 대한 설명은 아래와 같다. (ChatGPT의 도움을 받아 정리함)

1.  `MONTH`: 비행이 이루어진 월을 나타냄. 1에서 12 사이의 값을 갖음.
2.  `DAY`: 비행이 이루어진 일자를 나타냄. 월에 따라 1~28/29/30/31 사이의
    값을 가질 수 있음.
3.  `WEEKDAY`: 비행이 이루어진 요일을 나타냄. 일반적으로 1(일요일)부터
    7(토요일)까지의 값을 갖음.
4.  `AIRLINE`: 해당 항공편을 운영하는 항공사의 약어나 코드를 나타냄.
5.  `ORG_AIR`: 비행기가 출발하는 공항의 약어나 코드를 나타냄.
6.  `DEST_AIR`: 비행기가 도착하는 공항의 약어나 코드를 나타냄.
7.  `SCHED_DEP`: 원래의 예정된 출발 시간을 나타냄. 시간은 일반적으로
    HHMM 형식으로 표시될 수 있음.
8.  `DEP_DELAY`: 출발 지연 시간을 나타냄. 음수 값은 조기 출발, 양수 값은
    지연을 의미함.
9.  `AIR_TIME`: 실제 공중에서 비행한 시간을 분 단위로 나타냄.
10. `DIST`: 비행 거리를 나타냄. 일반적으로 마일 또는 킬로미터로 표시됨.
11. `SCHED_ARR`: 원래의 예정된 도착 시간을 나타냄. `SCHED_DEP`와 같은
    형식으로 표시될 수 있음.
12. `ARR_DELAY`: 도착 지연 시간을 나타냄. 음수는 조기 도착, 양수는
    지연을 의미함.
13. `DIVERTED`: 항공편이 다른 곳으로 우회되었는지를 나타냄. 1은 우회,
    0은 정상 경로를 의미함.
14. `CANCELLED`: 항공편이 취소되었는지 여부를 나타냄. 1은 취소, 0은
    취소되지 않음을 의미함.

`# 예제1`: 항공사별로 도착지연시간의 평균을 구하라.

(풀이)

In [10]:
df.groupby(by="AIRLINE").aggregate({'ARR_DELAY':np.mean})

  df.groupby(by="AIRLINE").aggregate({'ARR_DELAY':np.mean})


Unnamed: 0_level_0,ARR_DELAY
AIRLINE,Unnamed: 1_level_1
AA,5.542661
AS,-0.833333
B6,8.692593
DL,0.339691
EV,7.03458
F9,13.630651
HA,4.972973
MQ,6.860591
NK,18.43607
OO,7.593463


`#`

`# 예제2`: 항공사별로 비행취소건수의 합계를 구하라. 취소건수가 높은
항공사순으로 정렬하라.

(풀이) 

`# 예제3`: 항공사별로 비행취소율을 구하라. 비행취소율이 가장 높은 항공사
순으로 정렬하라.

(풀이) 

`# 예제4` (항공사,요일)별 비행취소건수와 비행취소율을 조사하라.

(풀이) 

`# 예제4`: (항공사,요일)별로 `CANCELLED`는 평균과 합계를 구하고 (즉
비행취소건수와 취소율을 구하고), `AIR_TIME`은 평균과 표준편차를
구하여라.

(풀이) 

`#`

`# 예제5`: 운행구간을 그룹화하고, 운행구간별 비행취소건수와 취소율을
구하여라.

(풀이) 

`#`