<a href="https://colab.research.google.com/github/KooMosu/Data-Analysis-with-Python/blob/main/practice1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


#  서울시설공단 남산 혼잡통행료 데이터 분석 실습

이 노트북은 `서울시설공단_일별 남산 혼잡통행료 차종별 통행 데이터`를 기반으로  
실제 데이터를 분석하는 과정을 단계별로 실습하기 위한 자료입니다.

우리는 아래 5단계로 분석을 진행합니다:

---

##  분석 단계

1. **데이터 살펴보기** – 데이터 구조 및 기본 통계 파악  
2. **데이터 추출** – 조건에 따라 원하는 데이터를 뽑아보기  
3. **데이터 변환** – 새로운 컬럼 만들기, 날짜 처리 등  
4. **데이터 정제** – 결측치, 중복 제거 등  
5. **데이터 병합** – 외부 데이터프레임과 결합하여 확장 분석

---

##  데이터 설명

이 데이터는 서울시설공단이 제공한 **남산 1·3호터널의 혼잡통행료 관련 차량 통행량 데이터**입니다.

- **기간**: 2023년 1월 1일 ~ 11월 31일
- **주요 컬럼 설명**:
  - `구분`: 날짜
  - `합계`: 전체 통행 차량 수
  - `승용차`, `승합차`, `화물차`, `특수차`: 차종별 통행량
  - `택시`, `버스`, `기타`: 기타 주요 차종

데이터는 **일자별로 집계**되어 있으며, 혼잡통행료 정책 분석, 차량 통행 패턴 분석 등에 활용할 수 있습니다.


## 1. 데이터 살펴보기
### 라이브러리 불러오기
데이터 분석에 자주 쓰이는 pandas와 numpy를 불러옵니다.
pandas는 데이터프레임을 다루는 데 필수이며, numpy는 수치 계산에 유용합니다.

In [None]:
import pandas as pd
import numpy as np

### 데이터 불러오기: read_csv()
CSV 파일을 불러와 df라는 이름의 데이터프레임으로 저장합니다.


In [None]:
df = pd.read_csv('/content/drive/MyDrive/모수/파이썬 교육/Day1/서울시설공단_차종별_교통량_데이터.csv')

### 데이터 앞부분 확인: head()
데이터의 처음 5행을 출력해보세요.

In [None]:
df.head()

Unnamed: 0,구분,합계,승용차,승합차,화물차,특수차,택시,버스,기타
0,2023-01-02,66623,43647,2930,6497,125,8603,4553,268.0
1,2023-01-03,71443,46368,2731,7167,127,9989,4781,280.0
2,2023-01-04,71223,47309,3168,6984,118,9080,4268,296.0
3,2023-01-05,72536,47559,2928,6895,147,10094,4622,
4,2023-01-06,71983,47752,2842,6787,115,9562,4639,286.0


특정 개수만 보고 싶다면 head(n)처럼 사용하세요.



In [None]:
df.head(3)

Unnamed: 0,구분,합계,승용차,승합차,화물차,특수차,택시,버스,기타
0,2023-01-02,66623,43647,2930,6497,125,8603,4553,268
1,2023-01-03,71443,46368,2731,7167,127,9989,4781,280
2,2023-01-04,71223,47309,3168,6984,118,9080,4268,296


### 데이터 뒷부분 확인: tail()
데이터의 마지막 5행을 출력해보세요.

뒤쪽 데이터가 어떻게 구성되어 있는지 확인할 수 있습니다.

In [None]:
df.tail()

Unnamed: 0,구분,합계,승용차,승합차,화물차,특수차,택시,버스,기타
201,2023-11-24,72634,47522,2900,6582,117,10035,4680,798
202,2023-11-27,72942,48679,3047,6555,132,9422,4744,363
203,2023-11-28,76151,49362,2957,7208,142,11075,5027,380
204,2023-11-29,75949,50594,3485,7047,147,9849,4455,372
205,2023-11-30,75907,50091,3176,7030,126,10407,4688,389


마찬가지로, 원하는 행 수만 보고 싶다면 tail(n)을 사용하세요.

In [None]:
df.tail(9)

Unnamed: 0,구분,합계,승용차,승합차,화물차,특수차,택시,버스,기타
197,2023-11-20,73086,48087,3007,7011,138,9389,5045,409
198,2023-11-21,75933,48945,2895,7126,158,11236,5089,484
199,2023-11-22,75248,48737,2770,6926,135,11048,5230,402
200,2023-11-23,75860,49602,3121,7006,143,10809,4812,367
201,2023-11-24,72634,47522,2900,6582,117,10035,4680,798
202,2023-11-27,72942,48679,3047,6555,132,9422,4744,363
203,2023-11-28,76151,49362,2957,7208,142,11075,5027,380
204,2023-11-29,75949,50594,3485,7047,147,9849,4455,372
205,2023-11-30,75907,50091,3176,7030,126,10407,4688,389


### 데이터 구조 확인: info()
데이터프레임의 전체적인 정보, 즉 컬럼명, 데이터 타입, 결측치 존재 여부 등을 확인할 수 있습니다.

데이터 정제 전에 꼭 확인하는 기본 작업입니다.

데이터 구조를 확인해보세요.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   구분      206 non-null    object
 1   합계      206 non-null    object
 2   승용차     206 non-null    object
 3   승합차     206 non-null    object
 4   화물차     206 non-null    object
 5   특수차     206 non-null    int64 
 6   택시      205 non-null    object
 7   버스      205 non-null    object
 8   기타      204 non-null    object
dtypes: int64(1), object(8)
memory usage: 14.6+ KB


### 특정 컬럼 추출하기
특정한 컬럼만 보고 싶을 때는 대괄호 []를 사용해 추출합니다.

'승용차' 컬럼만 추출하세요.

In [None]:
df["승용차"]

Unnamed: 0,승용차
0,43647
1,46368
2,47309
3,47559
4,47752
...,...
201,47522
202,48679
203,49362
204,50594


여러 컬럼을 함께 보고 싶다면 리스트 형태로 묶어줍니다.

 '승용차'와 '택시' 컬럼을 함께 출력합니다.

In [None]:
df[["승용차", "택시"]]

Unnamed: 0,승용차,택시
0,43647,8603
1,46368,9989
2,47309,9080
3,47559,10094
4,47752,9562
...,...,...
201,47522,10035
202,48679,9422
203,49362,11075
204,50594,9849


### 값 개수 세기: value_counts()
value_counts()는 각 값이 몇 번 등장했는지 확인할 수 있는 함수입니다.

주로 범주형 데이터에서 사용되며, 빈도 분석에 매우 유용합니다.

'구분' 컬럼에 대해 value_counts()를 적용합니다.


In [None]:
df["구분"].value_counts()

Unnamed: 0_level_0,count
구분,Unnamed: 1_level_1
2023-01-02,1
2023-01-03,1
2023-01-04,1
2023-01-05,1
2023-01-06,1
...,...
2023-11-24,1
2023-11-27,1
2023-11-28,1
2023-11-29,1


## 2. 데이터 변환

데이터 변환은 데이터의 형태나 내용을 가공하여 분석에 적합한 형태로 만드는 작업입니다.  
문자형을 숫자형으로 바꾸거나, 날짜 형식을 변환하거나, 조건에 따라 새로운 컬럼을 생성할 수 있습니다.



In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   구분      206 non-null    object
 1   합계      206 non-null    object
 2   승용차     206 non-null    object
 3   승합차     206 non-null    object
 4   화물차     206 non-null    object
 5   특수차     206 non-null    int64 
 6   택시      205 non-null    object
 7   버스      205 non-null    object
 8   기타      204 non-null    object
dtypes: int64(1), object(8)
memory usage: 14.6+ KB


In [None]:
df.head()

Unnamed: 0,구분,합계,승용차,승합차,화물차,특수차,택시,버스,기타
0,2023-01-02,66623,43647,2930,6497,125,8603,4553,268.0
1,2023-01-03,71443,46368,2731,7167,127,9989,4781,280.0
2,2023-01-04,71223,47309,3168,6984,118,9080,4268,296.0
3,2023-01-05,72536,47559,2928,6895,147,10094,4622,
4,2023-01-06,71983,47752,2842,6787,115,9562,4639,286.0


info()를 사용해 데이터의 타입을 확인해보면 모든 데이터가 수가 아닌 텍스트(Object) 타입으로 저장되어 있습니다. 이는 즉 데이터에 있는 4,153는 숫자 3359가 아닌 텍스트 “4,153”가 저장되어있는 상태입니다. 이 상태로는 숫자의 연산, 나아가 평균값과 같은 통계량을 측정할 수 없습니다. 따라서 우리는 이 텍스트(Object)들을 모두 정수형(int) 으로 바꾸어야 합니다.

정수형으로 바꾸기 위해선 텍스트에서 숫자만을 남기고 모두 제거해야 합니다. 이를 위해 숫자로 바꾸어야 하는 컬럼들에서 str.replace()를 활용하여 콤마를 제거합니다.

In [None]:
columns=['합계', '승용차', '승합차', '화물차', '택시', '버스', '기타']
for i in columns:
    df[i]=df[i].str.replace(',','')

### astype()으로 데이터 타입 변환

`astype()`은 특정 열의 데이터 타입을 명시적으로 변환할 때 사용하세요.  
`"합계"` 컬럼을 정수형(`int`)으로 변환하세요.

In [None]:
df["합계"] = df["합계"].astype(int)

In [None]:
df.info

반드시 원본 데이터프레임에 적용이 될 수 있도록 덮어씌워 주는 작업이 필요합니다.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   구분      206 non-null    object
 1   합계      206 non-null    int64 
 2   승용차     206 non-null    object
 3   승합차     206 non-null    object
 4   화물차     206 non-null    object
 5   특수차     206 non-null    int64 
 6   택시      205 non-null    object
 7   버스      205 non-null    object
 8   기타      204 non-null    object
dtypes: int64(2), object(7)
memory usage: 14.6+ KB


### to_numeric()으로 숫자형으로 안전하게 변환
pd.to_numeric()은 숫자로 변환 가능한 값은 변환하고,

`"승용차"` 컬럼을 숫자로 변환하하세요.

In [None]:
df["승용차"] = pd.to_numeric(df["승용차"])

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   구분      206 non-null    object
 1   합계      206 non-null    int64 
 2   승용차     206 non-null    int64 
 3   승합차     206 non-null    object
 4   화물차     206 non-null    object
 5   특수차     206 non-null    int64 
 6   택시      205 non-null    object
 7   버스      205 non-null    object
 8   기타      204 non-null    object
dtypes: int64(3), object(6)
memory usage: 14.6+ KB


### pd.to_numeric()으로 여러 컬럼을 숫자형으로 한 번에 변환하기

`pd.to_numeric()`은 문자열로 저장된 숫자 데이터를 **정수 또는 실수형**으로 안전하게 변환해줍니다.  


In [None]:
cols = ["합계","승용차","승합차","화물차","택시","버스","기타"]
for col in cols:
    df[col] = pd.to_numeric(df[col])

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   구분      206 non-null    object 
 1   합계      206 non-null    int64  
 2   승용차     206 non-null    int64  
 3   승합차     206 non-null    int64  
 4   화물차     206 non-null    int64  
 5   특수차     206 non-null    int64  
 6   택시      205 non-null    float64
 7   버스      205 non-null    float64
 8   기타      204 non-null    float64
dtypes: float64(3), int64(5), object(1)
memory usage: 14.6+ KB


### to_datetime()으로 날짜 형식 변환
문자열로 저장된 날짜 데이터를 판다스의 날짜 타입으로 변환하세요.

"구분" 컬럼을 날짜형으로 변환하세요.

In [None]:
df["구분"].head()

Unnamed: 0,구분
0,2023-01-02
1,2023-01-03
2,2023-01-04
3,2023-01-05
4,2023-01-06


In [None]:
df["구분"] = pd.to_datetime(df["구분"])

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   구분      206 non-null    datetime64[ns]
 1   합계      206 non-null    int64         
 2   승용차     206 non-null    int64         
 3   승합차     206 non-null    int64         
 4   화물차     206 non-null    int64         
 5   특수차     206 non-null    int64         
 6   택시      205 non-null    float64       
 7   버스      205 non-null    float64       
 8   기타      204 non-null    float64       
 9   년       206 non-null    int32         
 10  월       206 non-null    int32         
 11  일       206 non-null    int32         
dtypes: datetime64[ns](1), float64(3), int32(3), int64(5)
memory usage: 17.0 KB


###  to_datetime()으로 날짜 형식 변환 및 날짜 정보 추출

문자열로 저장된 `"구분"` 컬럼을 `datetime` 형식으로 변환하세요.

변환한 날짜에서 다음과 같은 정보를 각각 새로운 컬럼으로 생성하세요:
- `"년"`: 연도
- `"월"`: 월
- `"일"`: 일
- `"요일"`: 요일 (예: Monday, Tuseday, Wednesday…)

요일은 `.dt.day_name()`을 이용해 영문 요일명을 가져올 수 있습니다.

In [None]:
# 구분 컬럼을 날짜형(datetime)으로 변환
df["구분"] = pd.to_datetime(df["구분"], errors="coerce")

# 날짜에서 연, 월, 일 추출
df["년"] = df["구분"].dt.year
df["월"] = df["구분"].dt.month
df["일"] = df["구분"].dt.day

In [None]:
df["요일"] = df["구분"].dt.day_name()

In [None]:
df.head()

Unnamed: 0,구분,합계,승용차,승합차,화물차,특수차,택시,버스,기타,년,월,일,요일
0,2023-01-02,66623,43647,2930,6497,125,8603.0,4553.0,268.0,2023,1,2,Monday
1,2023-01-03,71443,46368,2731,7167,127,9989.0,4781.0,280.0,2023,1,3,Tuesday
2,2023-01-04,71223,47309,3168,6984,118,9080.0,4268.0,296.0,2023,1,4,Wednesday
3,2023-01-05,72536,47559,2928,6895,147,10094.0,4622.0,,2023,1,5,Thursday
4,2023-01-06,71983,47752,2842,6787,115,9562.0,4639.0,286.0,2023,1,6,Friday


### apply() 함수로 조건에 따라 새로운 컬럼 생성

`apply()`는 각 행 또는 열에 함수를 적용할 수 있는 강력한 함수입니다.  
`"합계"` 값에 따라 교통량 등급을 부여하는 `"혼잡도"` 컬럼을 새로 생성하세요.

분류 기준:
- 합계가 **70,000 이상** → `"혼잡"`
- 합계가 **60,000 이상 70,000 미만** → `"보통"`
- 합계가 **60,000 미만** → `"원활"`

In [None]:
def classify_traffic(total):
    if total >= 70000:
        return "혼잡"
    elif total >= 60000:
        return "보통"
    else:
        return "원활"

In [None]:
df["혼잡도"] = df["합계"].apply(classify_traffic)

In [None]:
df[["합계","혼잡도"]]

Unnamed: 0,합계,혼잡도
0,66623,보통
1,71443,혼잡
2,71223,혼잡
3,72536,혼잡
4,71983,혼잡
...,...,...
201,72634,혼잡
202,72942,혼잡
203,76151,혼잡
204,75949,혼잡


## 3. 데이터 추출
데이터 추출은 조건을 통해 필요한 행(row) 또는 열(column)을 선별해내는 작업입니다.

다양한 조건을 활용해 데이터를 필터링할 수 있으며, loc[], iloc[] 같은 접근자도 유용하게 사용됩니다.



### 조건을 이용한 데이터 추출 (논리 연산자)

조건식을 사용해 특정 행만 선택할 수 있습니다.

승용차 통행량이 45,000 이상인 날만 추출하세요.

In [None]:
df[df["승용차"]>45000]

Unnamed: 0,구분,합계,승용차,승합차,화물차,특수차,택시,버스,기타,년,월,일,요일,혼잡도
1,2023-01-03,71443,46368,2731,7167,127,9989.0,4781.0,280.0,2023,1,3,Tuesday,혼잡
2,2023-01-04,71223,47309,3168,6984,118,9080.0,4268.0,296.0,2023,1,4,Wednesday,혼잡
3,2023-01-05,72536,47559,2928,6895,147,10094.0,4622.0,,2023,1,5,Thursday,혼잡
4,2023-01-06,71983,47752,2842,6787,115,9562.0,4639.0,286.0,2023,1,6,Friday,혼잡
5,2023-01-09,71374,47223,3125,7038,122,9187.0,,298.0,2023,1,9,Monday,혼잡
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
201,2023-11-24,72634,47522,2900,6582,117,10035.0,4680.0,798.0,2023,11,24,Friday,혼잡
202,2023-11-27,72942,48679,3047,6555,132,9422.0,4744.0,363.0,2023,11,27,Monday,혼잡
203,2023-11-28,76151,49362,2957,7208,142,11075.0,5027.0,380.0,2023,11,28,Tuesday,혼잡
204,2023-11-29,75949,50594,3485,7047,147,9849.0,4455.0,372.0,2023,11,29,Wednesday,혼잡


두 개 이상의 조건을 결합할 수도 있습니다.

승용차가 45,000 이상이고 택시가 9,000 이상인 경우를 추출하세요.

In [None]:
# 각 조건은 반드시 괄호 ()로 감싸야
df[(df["승용차"]>=45000)&(df["택시"]>=9000)]

Unnamed: 0,구분,합계,승용차,승합차,화물차,특수차,택시,버스,기타,년,월,일,요일,혼잡도
1,2023-01-03,71443,46368,2731,7167,127,9989.0,4781.0,280.0,2023,1,3,Tuesday,혼잡
2,2023-01-04,71223,47309,3168,6984,118,9080.0,4268.0,296.0,2023,1,4,Wednesday,혼잡
3,2023-01-05,72536,47559,2928,6895,147,10094.0,4622.0,,2023,1,5,Thursday,혼잡
4,2023-01-06,71983,47752,2842,6787,115,9562.0,4639.0,286.0,2023,1,6,Friday,혼잡
5,2023-01-09,71374,47223,3125,7038,122,9187.0,,298.0,2023,1,9,Monday,혼잡
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
201,2023-11-24,72634,47522,2900,6582,117,10035.0,4680.0,798.0,2023,11,24,Friday,혼잡
202,2023-11-27,72942,48679,3047,6555,132,9422.0,4744.0,363.0,2023,11,27,Monday,혼잡
203,2023-11-28,76151,49362,2957,7208,142,11075.0,5027.0,380.0,2023,11,28,Tuesday,혼잡
204,2023-11-29,75949,50594,3485,7047,147,9849.0,4455.0,372.0,2023,11,29,Wednesday,혼잡


###  loc[]를 사용한 행/열 추출
loc[]는 레이블(label) 기반으로 행과 열을 선택하세요.

0~4번째 행에서 '구분'과 '승용차' 열만 선택하세요.

In [None]:
df.loc[0:4,["구분","승용차"]]

Unnamed: 0,구분,승용차
0,2023-01-02,43647
1,2023-01-03,46368
2,2023-01-04,47309
3,2023-01-05,47559
4,2023-01-06,47752


조건과 함께 사용하는 것도 가능합니다.

택시 통행량이 9500 이상인 행에서 '구분'과 '택시' 열만 선택하세요.

In [None]:
df.loc[df["택시"]>9500, ["구분", "택시"]]

Unnamed: 0,구분,택시
1,2023-01-03,9989.0
3,2023-01-05,10094.0
4,2023-01-06,9562.0
6,2023-01-10,10004.0
8,2023-01-12,11038.0
...,...,...
200,2023-11-23,10809.0
201,2023-11-24,10035.0
203,2023-11-28,11075.0
204,2023-11-29,9849.0


### iloc[]로 하나의 원소 추출
iloc[행번호, 열번호]를 사용하여 특정 위치의 값 하나를 추출하세요.

첫 번째 행의 두 번째 열의 값을 출력하세요.

In [None]:
df.iloc[0,1]


np.int64(66623)

## iloc[]를 사용한 행/열 추출

`iloc[]`는 **정수 인덱스**를 기반으로 데이터를 선택하는 방법입니다.  
즉, 행과 열의 **위치 번호**를 숫자로 지정하여 데이터를 추출합니다.

0:5 → 0번째부터 4번째까지 행을 선택합니다.

0:3 → 0번째부터 2번째까지 열을 선택합니다.


In [None]:
df.iloc[0:5, 0:3]

Unnamed: 0,구분,합계,승용차
0,2023-01-02,66623,43647
1,2023-01-03,71443,46368
2,2023-01-04,71223,47309
3,2023-01-05,72536,47559
4,2023-01-06,71983,47752


## 4. 데이터 정제하기

### sort_values()로 정렬하기
데이터를 특정 컬럼 기준으로 오름차순 또는 내림차순 정렬하세요.

`"합계"` 기준으로 내림차순 정렬

In [None]:
df.sort_values(["합계"], ascending=False)

Unnamed: 0,구분,합계,승용차,승합차,화물차,특수차,택시,버스,기타,년,월,일,요일,혼잡도
160,2023-09-21,77866,50106,3049,7437,131,11374.0,5258.0,511.0,2023,9,21,Thursday,혼잡
99,2023-06-27,77280,50879,3456,7224,132,10604.0,4632.0,353.0,2023,6,27,Tuesday,혼잡
50,2023-03-16,77269,51118,3387,6848,142,10843.0,4653.0,278.0,2023,3,16,Thursday,혼잡
35,2023-02-22,76615,50458,2839,6970,138,10987.0,4860.0,363.0,2023,2,22,Wednesday,혼잡
78,2023-05-25,76572,49575,3252,6890,174,10920.0,5198.0,563.0,2023,5,25,Thursday,혼잡
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
62,2023-04-03,37111,24818,1673,3510,62,4529.0,2373.0,146.0,2023,4,3,Monday,원활
67,2023-04-10,37111,24767,1678,3441,68,4658.0,2347.0,152.0,2023,4,10,Monday,원활
57,2023-03-27,36968,24802,1388,3384,80,4665.0,2523.0,126.0,2023,3,27,Monday,원활
52,2023-03-20,36930,24823,1545,3489,65,4559.0,2306.0,143.0,2023,3,20,Monday,원활


## drop()으로 불필요한 컬럼 제거
필요하지 않은 컬럼을 삭제하세요.
`"기타"` 컬럼 삭제

In [None]:
df = df.drop(columns=["기타"], errors="ignore")

### rename()으로 컬럼명 변경
컬럼명을 더 명확하게 바꾸세요.

"구분" → "날짜"로 변경

In [None]:
df=df.rename(columns={"구분": "날짜"})

### isnull()로 결측치 확인하기
데이터에 결측치가 존재하는지 확인하는 것은 정제의 첫걸음입니다.

`isnull()`은 각 셀에 결측치가 있는지 확인하고,
`sum()`과 함께 사용하면 컬럼별 결측치 개수를 확인할 수 있습니다.

In [None]:
df.isnull()

Unnamed: 0,날짜,합계,승용차,승합차,화물차,특수차,택시,버스,년,월,일,요일,혼잡도
0,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
201,False,False,False,False,False,False,False,False,False,False,False,False,False
202,False,False,False,False,False,False,False,False,False,False,False,False,False
203,False,False,False,False,False,False,False,False,False,False,False,False,False
204,False,False,False,False,False,False,False,False,False,False,False,False,False


각 컬럼의 결측치 개수를 확인하세요.

In [None]:
# 각 컬럼의 결측치 개수를 확인하세요.
df.isnull().sum()

Unnamed: 0,0
날짜,0
합계,0
승용차,0
승합차,0
화물차,0
특수차,0
택시,1
버스,1
년,0
월,0


### fillna()로 결측치 대체하기
결측치가 있을 경우, 삭제하거나 다른 값으로 채워야 분석이 가능합니다.
`fillna()`를 사용하면 결측치를 원하는 값으로 채울 수 있습니다.

`"택시"` 컬럼의 결측치를 0으로 채우는 것은 누락된 데이터를 최소 통행량으로 간주할 수 있습니다.

`"택시"` 컬럼의 결측치를 0으로 채우세요.

In [None]:
# "합계" 컬럼의 결측치를 0으로 채우세요.
df["택시"].fillna(0)

Unnamed: 0,택시
0,8603.0
1,9989.0
2,9080.0
3,10094.0
4,9562.0
...,...
201,10035.0
202,9422.0
203,11075.0
204,9849.0


### dropna()로 결측치 제거하기
결측치가 포함된 행은 분석에서 제외해야 하는 경우도 많습니다.
`dropna()`를 사용하면 결측치가 포함된 행 전체를 제거할 수 있습니다.
이는 정확한 통계 분석을 위해 필수적인 과정입니다.

`'택시'`,`'버스'` 컬럼의 결측치 행을 삭제하세요.

In [None]:
df=df.dropna(subset=["택시","버스"])

IQR(사분위 범위)를 활용한 이상치 제거
이상치는 데이터의 흐름을 왜곡시킬 수 있으므로 정제 단계에서 제거하는 것이 좋습니다.
IQR(Interquartile Range, 사분위 범위)은 데이터의 중간 50% 범위를 의미하며,
이 범위를 벗어난 값은 일반적으로 이상치로 간주됩니다.

- Q1: 하위 25% 지점

- Q3: 상위 75% 지점

- IQR = Q3 - Q1

- 이상치 기준:
  *   하한선 = Q1 - 1.5 × IQR
  *   상한선 = Q3 + 1.5 × IQR


df에서 이상치를 제거한 데이터만 남겨주세요.


In [None]:
Q1 = df["합계"].quantile(0.25)
Q3 = df["합계"].quantile(0.75)
IQR = Q3 - Q1
lower_boundary = Q1 - 1.5 * IQR
upper_boundary = Q3 + 1.5 * IQR

df = None

## 5. 데이터 병합하기 (기상청 날씨 데이터와 통합)



### concat()으로 병합

12월 데이터를 불러오고 기존 데이터와 concat으로 병합하세요.

두 개의 데이터프레임이 동일한 컬럼 구조를 가지고 있을 때,
행 방향(아래로)을 기준으로 이어 붙이기 위해 pd.concat()을 사용합니다.
이는 단순히 데이터를 연속된 기간으로 합치거나, 지역별 데이터를 연결할 때 많이 사용됩니다.

In [None]:
december_df = pd.read_csv('/content/drive/MyDrive/모수/파이썬 교육/Day1/서울시설공단_차종별_교통량_데이터_202312.csv')

### 두 데이터를 concat으로 병합하세요.

In [None]:
df_concat = pd.concat([df,december_df], join="inner", axis=0)

In [None]:
df_concat.tail()

Unnamed: 0,날짜,합계,승용차,승합차,화물차,특수차,택시,버스
15,2023-12-22,71879,47518,2710,6829,141,9334,4559
16,2023-12-26,70521,45630,2838,6989,177,9637,4895
17,2023-12-27,72217,46560,3030,7037,151,10560,4594
18,2023-12-28,72080,46635,2969,7018,149,10390,4686
19,2023-12-29,69890,46026,3091,6647,121,9222,4519


### merge()
기상청 날씨 데이터를 불러옵니다.

외부 데이터를 병합하려면 먼저 해당 데이터를 DataFrame으로 불러와야 합니다.
이번에는 기상청의 2023년도 날씨 데이터를 활용하여, 날짜별 혼잡통행 정보와 날씨를 함께 분석해보겠습니다.

In [None]:
weather_df = pd.read_csv('/content/drive/MyDrive/모수/파이썬 교육/Day1/기상청_날씨_2023.csv', encoding="cp949")

In [None]:
weather_df.head()

Unnamed: 0,지점,일시,평균기온(°C),최저기온(°C),최저기온 시각(hhmi),최고기온(°C),최고기온 시각(hhmi),강수 계속시간(hr),10분 최다 강수량(mm),10분 최다강수량 시각(hhmi),...,평균 30cm 지중온도(°C),0.5m 지중온도(°C),1.0m 지중온도(°C),1.5m 지중온도(°C),3.0m 지중온도(°C),5.0m 지중온도(°C),합계 대형증발량(mm),합계 소형증발량(mm),9-9강수(mm),안개 계속시간(hr)
0,108,2023-01-01,-0.2,-4.3,2350,3.8,1343,,,,...,0.6,2.8,6.3,10.1,15.9,18.0,1.6,2.3,,
1,108,2023-01-02,-4.5,-7.4,804,-0.4,1525,,,,...,0.6,2.7,6.2,9.9,15.8,17.9,1.3,1.9,,
2,108,2023-01-03,-5.0,-9.0,551,0.6,1555,,,,...,0.5,2.6,6.1,9.8,15.7,17.9,1.3,1.9,,
3,108,2023-01-04,-1.8,-5.7,229,3.3,1510,,,,...,0.3,2.5,6.0,9.7,15.6,17.9,1.5,2.1,,
4,108,2023-01-05,-1.6,-5.6,749,3.6,1536,,,,...,0.2,2.4,5.9,9.5,15.5,17.8,0.9,1.2,,


### 날짜 형식을 통일하세요.

병합을 위해 기준이 되는 컬럼(키)의 데이터 형식이 동일해야 합니다.
혼잡통행료 데이터의 날짜 컬럼 `"날짜"`와 기상청 데이터의 `"일시"` 컬럼을 모두 datetime 형식으로 변환해야 병합이 정상적으로 수행됩니다.


In [None]:
weather_df["일시"] = pd.to_datetime(weather_df["일시"])  # 날씨 데이터

### merge()로 두 데이터를 병합하세요.

두 개의 데이터프레임을 병합하려면 pd.merge()를 사용합니다.
기준 컬럼은 혼잡통행료의 `"날짜"`와 날씨 데이터의 `"일시"`입니다.

left_on=`"날짜"`: 기준이 되는 혼잡통행료의 날짜

right_on=`"일시"`: 결합할 날씨 데이터의 날짜

how=`"left"`: 혼잡통행료 데이터를 기준으로 병합하며, 날씨 정보가 없는 경우는 NaN으로 남깁니다.



In [None]:
merged_df = pd.merge(df, weather_df, left_on="날짜", right_on="일시", how="left")

In [None]:
merged_df

Unnamed: 0,날짜,합계,승용차,승합차,화물차,특수차,택시,버스,년,월,...,평균 30cm 지중온도(°C),0.5m 지중온도(°C),1.0m 지중온도(°C),1.5m 지중온도(°C),3.0m 지중온도(°C),5.0m 지중온도(°C),합계 대형증발량(mm),합계 소형증발량(mm),9-9강수(mm),안개 계속시간(hr)
0,2023-01-02,66623,43647,2930,6497,125,8603.0,4553.0,2023,1,...,0.6,2.7,6.2,9.9,15.8,17.9,1.3,1.9,,
1,2023-01-03,71443,46368,2731,7167,127,9989.0,4781.0,2023,1,...,0.5,2.6,6.1,9.8,15.7,17.9,1.3,1.9,,
2,2023-01-04,71223,47309,3168,6984,118,9080.0,4268.0,2023,1,...,0.3,2.5,6.0,9.7,15.6,17.9,1.5,2.1,,
3,2023-01-05,72536,47559,2928,6895,147,10094.0,4622.0,2023,1,...,0.2,2.4,5.9,9.5,15.5,17.8,0.9,1.2,,
4,2023-01-06,71983,47752,2842,6787,115,9562.0,4639.0,2023,1,...,0.2,2.3,5.7,9.4,15.4,17.8,1.0,1.4,4.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199,2023-11-24,72634,47522,2900,6582,117,10035.0,4680.0,2023,11,...,8.6,10.3,12.7,15.9,19.3,19.1,1.7,2.4,,
200,2023-11-27,72942,48679,3047,6555,132,9422.0,4744.0,2023,11,...,6.8,8.6,12.1,15.4,19.0,19.0,0.8,1.1,1.5,
201,2023-11-28,76151,49362,2957,7208,142,11075.0,5027.0,2023,11,...,6.9,8.8,11.9,15.2,19.0,19.0,1.5,2.1,0.0,
202,2023-11-29,75949,50594,3485,7047,147,9849.0,4455.0,2023,11,...,5.9,8.3,11.8,15.1,18.9,19.0,1.0,1.4,0.0,
