## **[부록: 메서드(함수) 및 문법]**

#### **NumPy**
+ np.nan: NaN(Not a Number) 값 또는 결측치 표현
+ np.array(): NumPy 배열 생성
    + 예: np.array([1, 2, 3])
+ np.log(): 밑이 e(자연 상수)인 로그 함수
+ np.log2(): 밑이 2인 로그 함수
+ np.log10(): 밑이 10인 로그 함수(상용 로그)

#### **Pandas**
+ pd.Series(*object*, *index*): Series 객체 생성
    + 예: pd.Series([0, 1, 2], index='abc')
+ pd.DataFrame(*object*, *index*): DataFrame 객체 생성
+ index: 인덱스 얻기
+ isin(*values*): 각 인덱스 값이 인자 값 집합에 있는지 여부의 부울 배열을 계산
    + 예: ser_one.index.isin(ser_two.index)
+ loc: 레이블 기반 인덱서
    + 예: df.loc[(df > 0.1) & (df < 0.5)]
    + 예: df.loc['a':'z']
+ iloc: 정수 기반 인덱서
    + 예: df.iloc[1]
+ pd.concat(): 객체를 연결
    + 매개변수, verify_integrity=True : 인덱스 중복될 경우 에러를 발생
    + 매개변수, ignore_index=True : 기존 인덱스를 무시하고 객체를 연결한 후 다시 인덱스를 재생성
+ copy(): 객체 복사본 생성
+ pd.DatetimeIndex(): 시간(Timestamp)으로 이루어진 배열을 생성
+ pd.date_range(*start*, *end*, *freq*): Timestamp로 이루어진 정규 시퀀스 생성
+ dropna(*axis*, *how*, *thres*): 결측치를 제거
    + 매개변수, *axis*=0: 행 단위로 삭제
    + 매개변수, *axis*=1: 열 단위로 삭제
    + 매개변수, *how*='any': 결측치가 1개라도 존재할 경우 행 또는 열 삭제
    + 매개변수, *how*='all': 모든 데이터가 결측된 행 또는 열 삭제
    + 매개변수, *thresh*: 정상 측정된 데이터의 개수가 임계치(thresh)보다 작은 행 또는 열 삭제
+ max(): 최대값
    + 예: ser.max()
+ min(): 최소값
+ pd.period_range(*start*, *end*, *freq*): Period로 이루어진 정규 시퀀스 생성
+ interpolate(*inplace*=True): 선형 보간 처리 후 원본 파일 덮어쓰기
+ quantile(*p*): 백분위수 구하기
    + 예: ser.quantile(0.1): 하위 10%의 데이터 

### **시험에 필요한 주요 라이브러리 불러오기**

In [60]:
import numpy as np
import pandas as pd
from datetime import datetime
from matplotlib import pyplot as plt
import seaborn as sns

### **문제 1: NumPy 배열 기본 연산**
---
다음의 지시문에 따라 시험 점수를 처리하는 코드를 완성하세요.

#### **[+] 다섯 명에 대한 세 번의 시험 점수를 NumPy 배열로 선언**
+ ```test_1```: [92, 94, 88, 91, 87]
+ ```test_2```: [79, 100, 86, 93, 91]
+ ```test_3```: [87, 85, 72, 90, 92]

In [61]:
test_1 = np.array([92,94,88,91,87])
test_2 = np.array([79,100,86,93,91])
test_3 = np.array([87,85,72,90,92])

#### **[+] 모든 첫 번째 시험 점수에 1점씩 더하기**
변경 후의 `test_1`: [93, 95, 89, 92, 88]

In [62]:
test_1_fixed = test_1 + 1
test_1_fixed

array([93, 95, 89, 92, 88])

#### **[+] 학생 별 전체 시험 점수 총합 계산**
총합 계산에 수정된 첫 번째 시험 점수(```test_1_fixed```)를 사용

In [63]:
total_grade = test_1_fixed.sum()
total_grade

457

#### **[+] 학생 별 평균 시험 점수 계산**

In [64]:
final_grade = test_1_fixed.mean()
final_grade

91.4

### **문제 2: 결측 데이터 처리**
---
**설명:**
당신은 대도시의 교통 부서에서 일하고 있으며, 도시의 주요 도로들에 대한 교통량과 사고 발생 빈도에 대한 데이터를 분석하고 있습니다. 데이터셋에는 여러 도로의 이름, 해당 도로에서의 일일 교통량, 그리고 최근 한 달 동안의 사고 발생 횟수가 포함되어 있습니다. 그러나, 일부 데이터가 누락되어 있어서 분석하기 전에 이를 정리할 필요가 있습니다.

다음의 지시문에 따라 결측 데이터를 처리하는 코드를 완성하세요.

#### **데이터셋 생성**

In [65]:
data = {
    '도로명': ['A길', 'B대로', 'C거리', 'D도로', 'E길', 'F대로', 'G길'],
    '일일 교통량': [10000, 7500, 'N/A', 12000, np.nan, 7500, np.nan],
    '사고 발생 횟수': [2, 3, np.nan, 0, np.nan, np.nan, np.nan],
}

df = pd.DataFrame(data)
df

Unnamed: 0,도로명,일일 교통량,사고 발생 횟수
0,A길,10000.0,2.0
1,B대로,7500.0,3.0
2,C거리,,
3,D도로,12000.0,0.0
4,E길,,
5,F대로,7500.0,
6,G길,,


#### **[+] DataFrame 내의 'N/A' 값을 np.nan으로 대체**
+ 'N/A'는 문자열이며 결측치로 인식되지 않으므로 해당 값을 np.nan으로 대체

In [72]:
df.dropna()
df

Unnamed: 0,도로명,일일 교통량,사고 발생 횟수
0,A길,10000.0,2.0
1,B대로,7500.0,3.0
2,C거리,,
3,D도로,12000.0,0.0
4,E길,,
5,F대로,7500.0,
6,G길,,


#### **[+] 어떤 행에서든 하나 이상의 값이 누락된 경우 그 행을 제거**

In [67]:
df_cleaned_1 = df.dropna(axis = 0, how = 'any')
df_cleaned_1

Unnamed: 0,도로명,일일 교통량,사고 발생 횟수
0,A길,10000,2.0
1,B대로,7500,3.0
3,D도로,12000,0.0


#### **[+] 정상으로 측정된 값의 개수가 임계치 4개보다 작은 열을 삭제**

In [68]:
df_cleaned_2 = df.dropna(axis = 1, thresh = 4 , how = 'all')
df_cleaned_2

Unnamed: 0,도로명,일일 교통량
0,A길,10000.0
1,B대로,7500.0
2,C거리,
3,D도로,12000.0
4,E길,
5,F대로,7500.0
6,G길,


### **문제 3: 2차원 데이터 연결**
---
다음의 지시문을 읽고 두 개의 데이터프레임 객체를 연결하는 코드를 완성하세요.

#### **DataFrame 생성**

In [69]:
# DataFrame 생성 함수
def make_df(cols, ind):
    data = {c: [str(c) + str(i) for i in ind]
           for c in cols}

    return pd.DataFrame(data, ind)

df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])

#### **[+] df1, df2를 행 방향으로 연결하고 인덱스를 초기화**
예상 결과:
```
        A	B
0	A1	B1
1	A2	B2
2	A3	43
4
3		B4

```

In [70]:
df1 = df.hstack()

AttributeError: 'DataFrame' object has no attribute 'hstack'

### **문제 4: 시계열 생성 및 기본 연산**
---
다음의 지시문을 읽고 시계열을 생성 및 인덱싱, 그리고 정규 시퀀스를 생성하는 코드를 완성하세요.

#### **DateTimeIndex 객체 생성**

In [38]:
ind = pd.DatetimeIndex(['2023-11-28', '2023-11-29', '2023-11-30', '2023-12-01',
                        '2023-12-02', '2023-12-03', '2023-12-04'])
ind

DatetimeIndex(['2023-11-28', '2023-11-29', '2023-11-30', '2023-12-01',
               '2023-12-02', '2023-12-03', '2023-12-04'],
              dtype='datetime64[ns]', freq=None)

#### **[+] ind를 이용한 시계열 데이터 생성**
예상 결과:
```
    2023-11-28    0
    2023-11-29    1
    2023-11-30    2
    2023-12-01    3  
    2023-12-02    4
    2023-12-03    5
    2023-12-04    6
    dtype: int64
```

In [58]:
ser = pd.series(2023-11-28 : 2023-12-04 :, index = ['0,1,2,3,4,5,6'])
ser

SyntaxError: invalid syntax (Temp/ipykernel_20932/1024488730.py, line 1)

#### **[+] 12월 데이터 선택**

In [73]:
dec = 

SyntaxError: invalid syntax (Temp/ipykernel_20932/278791913.py, line 1)

#### **[+] 정규 시퀀스 함수를 사용하여 2023년 12월 영업일로 이루어진 일간 시계열 생성하기**
+ 첫 타임스탬프: 2023-12-01
+ 마지막 타임스탬프: 2023-12-31
+ 빈도: 영업일

예상 결과:
```
DatetimeIndex(['2023-12-01', '2023-12-04', '2023-12-05', '2023-12-06',
               '2023-12-07', '2023-12-08', '2023-12-11', '2023-12-12',
               '2023-12-13', '2023-12-14', '2023-12-15', '2023-12-18',
               '2023-12-19', '2023-12-20', '2023-12-21', '2023-12-22',
               '2023-12-25', '2023-12-26', '2023-12-27', '2023-12-28',
               '2023-12-29'],
              dtype='datetime64[ns]', freq='B')
```

| Code   | Description         | Code   | Description          |
|--------|---------------------|--------|----------------------|
| ``D``  | Calendar day        | ``B``  | Business day         |
| ``W``  | Weekly              |   -    |                      |
| ``M``  | Month end           | ``BM`` | Business month end   |
| ``Q``  | Quarter end         | ``BQ`` | Business quarter end |
| ``A``  | Year end            | ``BA`` | Business year end    |
| ``H``  | Hours               | ``BH`` | Business hours       |
| ``T``  | Minutes             |   -    |                      |
| ``S``  | Seconds             |   -    |                      |
| ``L``  | Milliseonds         |   -    |                      |
| ``U``  | Microseconds        |   -    |                      |
| ``N``  | nanoseconds         |   -    |                      |

In [None]:
...

### **문제 5: 사분위수 범위 기반 이상치 탐지**
---
다음의 지시문을 읽고 공기질 데이터(Air Quality)의 이산화탄소 변수에 대해 사분위수 범위 기반으로 이상치를 탐지 및 제거하는 코드를 완성하세요.

#### **데이터셋 불러오기**

In [43]:
def parser(x):
    return datetime.strptime(x, '%Y-%m-%d %H:%M:%S')

path = './data/'
file = 'AirQualityUCI_refined.csv'

df = pd.read_csv(
    path + file,
    index_col=[0],
    parse_dates=[0],
    date_parser=parser
)

df.head()

Unnamed: 0_level_0,CO(GT),PT08.S1(CO),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),RH,AH,C6H6(GT)
Datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2004-03-10 18:00:00,2.6,1360.0,1046.0,166.0,1056.0,113.0,1692.0,1268.0,48.9,0.7578,11.9
2004-03-10 19:00:00,2.0,1292.0,955.0,103.0,1174.0,92.0,1559.0,972.0,47.7,0.7255,9.4
2004-03-10 20:00:00,2.2,1402.0,939.0,131.0,1140.0,114.0,1555.0,1074.0,54.0,0.7502,9.0
2004-03-10 21:00:00,2.2,1376.0,948.0,172.0,1092.0,122.0,1584.0,1203.0,60.0,0.7867,9.2
2004-03-10 22:00:00,1.6,1272.0,836.0,131.0,1205.0,116.0,1490.0,1110.0,59.6,0.7888,6.5


#### **[+] 일산화탄소 변수 복사본 생성**
+ 변수 명: CO(GT)

In [45]:
co = pd.read([CO(GT)]).copy()

AttributeError: module 'pandas' has no attribute 'read'

#### **[+] 결측 데이터 처리: 선형 보간**

In [None]:
interpolate(inplace=True)

#### **[+] Q1, Q3 구하기**

In [46]:
q1 = q1 - 1.5iqr
q3 = q3 + 1.5iqr
print(q1, q3)

SyntaxError: invalid syntax (Temp/ipykernel_20932/2309827497.py, line 1)

#### **[+] IQR, 상한(upper fence), 하한(lower fence) 구하기**
사분위수 범위와 이상치의 경계를 결정하는 상한과 하한은 다음과 같다.
+ 사분위수(Interquartile Range, IQR):

    $IQR=Q3-Q1$

+ 상한(Upper Fence, UF):

    $UF=Q3+1.5IQR$

+ 하한(Lower Fence, LF):

    $LF=Q1-1.5IQR$

In [47]:
iqr = q3 - q1
upper_fence = q3 + 1.5iqr
lower_fence = q1 - 1.5iqr
print(iqr, upper_fence, lower_fence)

SyntaxError: invalid syntax (Temp/ipykernel_20932/3615905454.py, line 2)

#### **[+] 이상치 선택하기**

In [None]:
outliers = ...
outliers

#### **[+] 이상치 여부 마스킹**

In [None]:
mask = ...
mask[:50]

#### **정상 데이터 / 이상치 시각화**

In [None]:
plt.plot(co[~mask], label='normal', color='blue',
    marker='o', markersize=3, linestyle='None')
plt.plot(outliers, label='outliers', color='red',
    marker='x', markersize=3, linestyle='None')
plt.legend(loc='best')

#### **[+] 이상치 제거**
모든 이상치들을 ```np.nan``` 으로 대체

In [None]:
co_refined = ...
co_refined[mask] = ...
co_refined[mask]

#### **[+] 제거된 이상치에 대한 대치: 선형보간**
```np.nan``` 들을 선형보간을 통해 생성된 값으로 대체하기

In [None]:
...
co_refined.plot()

### **문제 6: 로그 변환**
---
다음의 지시문을 읽고 공기질 데이터(Air Quality)의 질소산화물 변수(```'NOx(GT)'```)를 정규 분포에 가깝도록 로그 스케일로 변환하는 코드를 완성하세요.

#### **데이터셋 불러오기**

In [48]:
def parser(x):
    return datetime.strptime(x, '%Y-%m-%d %H:%M:%S')

path = './data/'
file = 'AirQualityUCI_refined.csv'

df = pd.read_csv(
    path + file,
    index_col=[0],
    parse_dates=[0],
    date_parser=parser
)

df.head()

Unnamed: 0_level_0,CO(GT),PT08.S1(CO),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),RH,AH,C6H6(GT)
Datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2004-03-10 18:00:00,2.6,1360.0,1046.0,166.0,1056.0,113.0,1692.0,1268.0,48.9,0.7578,11.9
2004-03-10 19:00:00,2.0,1292.0,955.0,103.0,1174.0,92.0,1559.0,972.0,47.7,0.7255,9.4
2004-03-10 20:00:00,2.2,1402.0,939.0,131.0,1140.0,114.0,1555.0,1074.0,54.0,0.7502,9.0
2004-03-10 21:00:00,2.2,1376.0,948.0,172.0,1092.0,122.0,1584.0,1203.0,60.0,0.7867,9.2
2004-03-10 22:00:00,1.6,1272.0,836.0,131.0,1205.0,116.0,1490.0,1110.0,59.6,0.7888,6.5


#### **[+] 질소산화물 변수 복사본 생성**
+ 변수 명: NOx(GT) 

In [27]:
nox = 

NameError: name 'nox' is not defined

#### **질소 산화물 변수 분포 시각화**

In [49]:
sns.displot(nox, kde=True)

NameError: name 'nox' is not defined

#### **[+] 상용 로그 스케일로 변환**

In [None]:
nox_scaled = ...
nox_scaled

#### **변환된 변수 분포 시각화**

In [None]:
sns.displot(nox_scaled, kde=True)
plt.xlabel('log(NOx)')
plt.show()

### **문제 7: 최소-최대 정규화**
---
다음의 지시문에 따라 공기질 데이터셋의 두 변수에 대해 최소-최대 정규화를 수행하는 코드를 완성하세요.
+ 변수 1: 일산화탄소(```CO(GT)```)
+ 변수 2: 비메탄 탄화수소(```PT08.S2(NMHC)```)

#### **데이터셋 불러오기**

In [None]:
def parser(x):
    return datetime.strptime(x, '%Y-%m-%d %H:%M:%S')

path = './data/'
file = 'AirQualityUCI_refined.csv'

df = pd.read_csv(
    path + file,
    index_col=[0],
    parse_dates=[0],
    date_parser=parser
)

df.head()

#### **[+] 일산화탄소 변수 복사본 생성**

In [None]:
co = ...

#### **[+] 일산화탄소 변수 결측치 처리: 선형 보간**

In [None]:
...

#### **[+] 비메탄 탄화수소 변수 복사본 생성**

In [None]:
nmhc = ...

#### **[+] 비메탄 탄화수소 변수 결측치 처리: 선형 보간**

In [None]:
...

#### **스케일이 서로 다른 두 변수 시각화**

In [None]:
plt.plot(co, label='Carbon monooxide')
plt.plot(nmhc, label='Non-methane hydrocarbon')
plt.ylabel('Concentration')
plt.legend(loc='best')

#### **최소-최대 정규화(min-max normalization) 수식**

$x_{norm} = \frac{x-x_{min}}{x_{max}-x_{min}}$

#### **[+] 일산화탄소 변수 정규화**
정규화 결과 저장: df['CO_Norm']

In [None]:
...
df['CO_Norm']

#### **[+] 비메탄탄화수소 변수 정규화**
정규화 결과 저장: df['NMHC_Norm']

In [None]:
...
df['NMHC_Norm']

#### **정규화된 두 변수 시각화**

In [None]:
plt.plot(df['CO_Norm'], label='Carbon monooxide')
plt.plot(df['NMHC_Norm'], label='Non-methane hydrocarbon')
plt.ylabel('Concentration')
plt.legend(loc='best')