# 데이터 탐색과 전처리

In [None]:
# 모듈 불러오기
import numpy as np
import pandas as pd

## 데이터 탐색하기

서울 마포구 코로나 확진자 현황 보기  
- nan : 빈값

In [None]:
data = pd.read_csv('0917\서울특별시 마포구_법정동별_월별_코로나19 확진자 현황.csv',
                 encoding='euc-kr')
data

### 필요한 컬럼만 선택하기

In [None]:
# 컬럼 하나 선택
data['확진자수']
type(data['확진자수'])
# 필요한 컬럼만 저장
# 여러 컬럼 선택 (바깥대괄호: 인덱스 / 안쪽대괄호: 리스트)
df = data[['기준연도','기준월','법정동','확진자수']]
type(df)
# 열하나는 Series, 열 여러개는 dataframe

### 시리즈 탐색하기
- head : 데이터 앞부분만 확인
- count : 데이터 개수
- unique : 고유한 값만 확인
- value_count : 데이터별 개수 확인

In [None]:
# 데이터 앞 부분만 확인(5개)
df.head()
# 데이터 개수 확인. 빈값 포함 안됨
df.count()
# 중복 제거한 고유값 확인
# 확진자수 에는 nan 빈값이 포함되어 있어, 결과가 이상해짐
df['확진자수'].unique()
df['확진자수'].value_counts()

In [None]:
# 주민등록인구 현황 데이터 탐색하기

In [None]:
data = pd.read_csv('0917/주민등록인구및세대현황.csv',
                  encoding='euc-kr')
data
# 필요한 컬럼만선택
df = data[['행정구역','2025년08월_총인구수','2025년08월_남자 인구수','2025년08월_여자 인구수','2025년08월_남여 비율']]
df

In [None]:
df['행정구역'].head()

In [None]:
df['행정구역'].count()

In [None]:
print(df['2025년08월_남여 비율'].unique())
print(df['2025년08월_남여 비율'].value_counts())

In [None]:
data = pd.read_csv('0917/서울시설공단_서울도시고속도로 노선별 시간대별 교통량.csv',
                   encoding='euc-kr')
df = data['노선']
df.head()

In [None]:
df.count()

In [None]:
df.unique()

In [None]:
df.value_counts()

In [None]:
data = pd.read_csv('0917/서울시 버스노선별 정류장별 승하차 인원 정보.csv',
                   encoding='euc-kr')
df = data[['노선번호', '노선명', '표준버스정류장ID', '역명', '승차총승객수',
           '하차총승객수']]
df

In [None]:
df['표준버스정류장ID'].head()

In [None]:
df['표준버스정류장ID'].count()

In [None]:
df['표준버스정류장ID'].unique()

In [None]:
df['표준버스정류장ID'].value_counts()

## NAN 처리하기
- nan : csv에서 빈셀을 의미. 값이 없다

### 빈값이 있는지 확인하기
- isnull : 빈값이 있는지 확인
- isnull.sum : 빈값의 개수

In [None]:
# 서울 마포구 코로나 현황
data = pd.read_csv('0917\서울특별시 마포구_법정동별_월별_코로나19 확진자 현황.csv',
                 encoding='euc-kr')
df = data[['기준연도', '기준월', '법정동', '확진자수']]

In [None]:
# 서울 마포구 코로나 현황
data = pd.read_csv('0917\서울특별시 마포구_법정동별_월별_코로나19 확진자 현황.csv',
                 encoding='euc-kr')
df = data[['기준연도', '기준월', '법정동', '확진자수']]
# 확진자수에 빈값이 있는지 확인
df['확진자수'].isnull()
# 빈값 개수 세기
# bool -> int
# false : 0 / true : 1
df['확진자수'].isnull().sum()

## 빈값 삭제하기
- dropna : 빈값이 있는 행을 삭제
- dropna ( subset = ['컬럼'] ) : 빈값이 있는지 특정 컬럼만 검사한 뒤 삭제

In [None]:
# 빈값이 있는 행을 모두 제외하고 보여주기
# 원본데이터는 영향 없다
df.dropna()
df.dropna(subset=['확진자수'])
df

## 빈값을 다른값으로 대체하기
- fillna(새로운값) : 컬럼 하나만 처리
- fillna ( { 컬럼1 : 새로운값, 컬럼2 : 새로운값 } ) : 여러컬럼을 한번에 처리

In [None]:
df
# 법정동에 빈값이 있으면 '모름'으로 표시
df['법정동'].fillna('모름')
# 확진자수에 빈값이 있으면 0으로 표시
df['확진자수'].fillna(0)
#  원본 영향 없음

# 여러 컬럼 한번에 교체
# 법정동과 확진자수의 빈값을 한번에 처리
df.fillna({'법정동' : '모름', '확진자수' : 0})
df

In [None]:
# 원본데이터를 변경하기
df['법정동'] = df['법정동'].fillna('모름')
df

In [None]:
df

In [None]:
data = pd.read_csv('0917/주민등록인구및세대현황.csv',
                   encoding='euc-kr')
data
print(data.index)
print(data.columns)

In [None]:
df = data[['행정구역','총인구수','남자 인구수','여자 인구수', '남여 비율']]
df
# 남자 인구수가 없는 행 개수 확인
df['남자 인구수'].isnull().sum()

In [None]:
data

In [None]:
# 세대당 인구가 없는 행을 제거
# 특정 컬럼만 검사
data.dropna(subset=['세대당 인구'])
data

In [None]:
# 남자인구수가 없으면 999로 교체
df['남자 인구수'].fillna(999)

In [None]:
data.fillna({'세대당 인구':0,'남자 인구수':999})
data

In [None]:
data = pd.read_csv('0917/서울시설공단_서울도시고속도로 노선별 시간대별 교통량.csv',
                   encoding='euc-kr')
df = data
df

In [None]:
df['교통량'].isnull().sum()

In [None]:
df.dropna(subset = ['방향'])

In [None]:
df['교통량'].fillna(100)

In [None]:
data = pd.read_csv('0917/서울시설공단_서울도시고속도로 노선별 시간대별 교통량.csv',
                   encoding='euc-kr')
df = data
df

In [None]:
df[df['노선'] == '강변북로']

In [None]:
df[df['시간대'] == 1]

In [None]:
df[df['방향'] == '동향']

In [None]:
data = pd.read_csv('0917/서울시 버스노선별 정류장별 승하차 인원 정보.csv',
                   encoding='euc-kr')
df = data

In [None]:
df[df['노선명'] == '201번(구리~서울역)']

In [None]:
df[df['승차총승객수'] >= 2000]

In [None]:
# 전처리 : 데이터에 빈값 있을 경우 먼저 처리
df = df.fillna({'역명':'모름'})
df[df['역명'].str.contains('병원')]

## 집계 및 변형
- groupby : 특정 컬럼을 기준으로 행 묶기  
  데이터를 그룹화 한 후에 합계, 평균을 구할 수 있다

In [138]:
# 코로나 데이터 가져오기
data = pd.read_csv('0917\서울특별시 마포구_법정동별_월별_코로나19 확진자 현황.csv',
                 encoding='euc-kr')
df = data[['기준연도', '법정동', '확진자수']]
df

Unnamed: 0,기준연도,법정동,확진자수
0,2020,공덕동,0.0
1,2020,공덕동,0.0
2,2020,,2.0
3,2020,공덕동,
4,2020,공덕동,
...,...,...,...
679,2022,염리동,1053.0
680,2022,염리동,423.0
681,2022,염리동,289.0
682,2022,염리동,502.0


In [143]:
# 동별 총 확진자수 구하기
# 그룹핑을 하면 기준컬럼이 인덱스가 된다
result = df.groupby('법정동').sum()
print(result['확진자수'])
# 여기서 공덕동의 값만 확인
type(result['확진자수'])
result['확진자수']['공덕동']

법정동
공덕동     20999.0
구수동       407.0
노고산동     3587.0
당인동       516.0
대흥동      9352.0
도화동     12354.0
동교동      2397.0
마포동      1593.0
망원동     20679.0
상수동      4366.0
상암동     17682.0
서교동     11013.0
성산동     26589.0
신공덕동     7067.0
신수동      9049.0
신정동       909.0
아현동     13779.0
연남동      7867.0
염리동     10381.0
Name: 확진자수, dtype: float64


np.float64(20999.0)

## 컬럼의 자료형 확인하기
- type : 컬럼의 객체 타입 확인  
- .dtype : 원소의 타입 확인  
- info : 데이터프레임의 모든 컬럼 정보 확인  

In [145]:
# 데이터프레임에서 열 하나 꺼내기
df['확진자수']
# 1. 자료구조 타입 2. 원소 타입 확인해보기
# 열의 자료구조
print(type(df['확진자수']))
# 원소의 자료형
print(df['확진자수'].dtype)

<class 'pandas.core.series.Series'>
float64


In [146]:
# 데이터프레임의 모든 컬럼 정보
df.info()
# 법정동 -> str(문자열) -> object 로 표시됨

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 684 entries, 0 to 683
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   기준연도    684 non-null    int64  
 1   법정동     683 non-null    object 
 2   확진자수    682 non-null    float64
dtypes: float64(1), int64(1), object(1)
memory usage: 16.2+ KB


## 컬럼의 타입 변경하기
- astype({ 컬럼: 새타입})  

In [153]:
# 코로나 확진자수는 사람 수인데, float 으로 표시됨
# float -> int 형변환
df['확진자수']
# 빈값 삭제 dropna : 원본 데이터 영향x
# 옵션 x = > 전체 / 옵션 o => 특정 컬럼만
df = df.dropna()
df = df.astype({'확진자수':'int64'})
df

Unnamed: 0,기준연도,법정동,확진자수
0,2020,공덕동,0
1,2020,공덕동,0
5,2020,공덕동,3
6,2020,공덕동,2
7,2020,공덕동,7
...,...,...,...
679,2022,염리동,1053
680,2022,염리동,423
681,2022,염리동,289
682,2022,염리동,502


#### 연습문제

In [156]:
data = pd.read_csv('0917/서울시설공단_서울도시고속도로 노선별 시간대별 교통량.csv',
                   encoding='euc-kr')
df = data
df

Unnamed: 0,노선,방향,시간대,교통량
0,내부순환로,동향,0.0,1508.0
1,내부순환로,동향,1.0,1075.0
2,내부순환로,동향,2.0,852.0
3,내부순환로,동향,3.0,
4,내부순환로,,,1138.0
...,...,...,...,...
379,강남순환로,서향,19.0,5503.0
380,강남순환로,서향,20.0,4087.0
381,강남순환로,서향,21.0,3193.0
382,강남순환로,서향,22.0,2849.0


In [176]:
result = df.groupby('노선').sum()
print(result['교통량'])
print(result['교통량'].mean())

result2 = df.groupby('방향').sum()
print(result2['교통량'])

result3 = df.groupby('시간대').sum()
print(result3['교통량'].mean())




노선
강남순환로     155980.0
강변북로      217199.0
경부고속도로    188838.0
내부순환로     132672.0
동부간선도로    135370.0
북부간선도로    109329.0
분당수서로     133729.0
올림픽대로     243177.0
Name: 교통량, dtype: float64
164536.75
방향
남향    225601.0
동향    414409.0
북향    232336.0
서향    442810.0
Name: 교통량, dtype: float64
54798.166666666664


In [180]:
data = pd.read_csv('0917/서울시 버스노선별 정류장별 승하차 인원 정보.csv',
                   encoding='euc-kr')
df = data
df

Unnamed: 0,사용일자,노선번호,노선명,표준버스정류장ID,버스정류장ARS번호,역명,승차총승객수,하차총승객수
0,20250913,741,741번(진관차고지~헌인릉입구),100000001,1001,종로2가사거리(00073),107,310
1,20250913,N37,N37번(송파공영차고지~진관공영차고지),100000001,1001,종로2가사거리(00032),23,23
2,20250913,470,470번(상암차고지~안골마을),100000001,1001,,210,327
3,20250913,N37,N37번(진관공영차고지~송파공영차고지),100000001,1001,종로2가사거리(00089),26,9
4,20250913,100,100번(하계동~용산구청),100000002,1002,창경궁.서울대학교병원(00031),118,74
...,...,...,...,...,...,...,...,...
40408,20250913,654,654번(방화동~노들역),999800002,~,김포교통(종점가상)(00105),0,1
40409,20250913,6629,6629번(방화동~영등포),999800002,~,김포교통(종점가상)(00097),0,1
40410,20250913,9404,9404번(분당구미~신사역),999800004,~,구미동차고지(종점가상)(00062),0,2
40411,20250913,9707,9707번(고양 가좌동~영등포역),999800005,~,가좌동종점(종점가상)(00078),0,2


In [None]:
#1 #2
result1 = df.groupby('노선번호').sum()
print(result1['승차총승객수'])
print(result1['하차총승객수'])

In [None]:
#3
result2 = df.groupby('역명').sum()['승차총승객수']
print(result2)

In [211]:
#4
df['노선번호'] == '741'    # 데이터타입 object(str)
df[df['노선번호'] == '741'].groupby('표준버스정류장ID').sum()

Unnamed: 0_level_0,사용일자,노선번호,노선명,버스정류장ARS번호,역명,승차총승객수,하차총승객수,총이용객수
표준버스정류장ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
100000001,20250913,741,741번(진관차고지~헌인릉입구),1001,종로2가사거리(00073),107,310,417
100000004,20250913,741,741번(진관차고지~헌인릉입구),1004,종로2가.삼일교(00025),290,214,504
100000028,20250913,741,741번(진관차고지~헌인릉입구),1123,서울역사박물관.강북삼성병원(00077),134,219,353
100000362,20250913,741,741번(진관차고지~헌인릉입구),13037,영천시장(00079),152,301,453
100000363,20250913,741,741번(진관차고지~헌인릉입구),13036,영천시장(00019),235,80,315
...,...,...,...,...,...,...,...,...
122000673,20250913,741,741번(진관차고지~헌인릉입구),23439,세곡푸르지오.은곡삼거리(00046),0,67,67
122000674,20250913,741,741번(진관차고지~헌인릉입구),23437,세곡푸르지오.은곡삼거리(00052),75,4,79
122000675,20250913,741,741번(진관차고지~헌인릉입구),23537,은곡마을.강남신동아파밀리에(00048),3,116,119
122000699,20250913,741,741번(진관차고지~헌인릉입구),23454,대왕초등학교(00049),79,12,91


In [None]:
#5
df['승차총승객수'] >= 100

In [None]:

df['총이용객수'] = df['승차총승객수'] + df['하차총승객수']
df

In [213]:
data = pd.read_csv('0917\서울특별시 마포구_법정동별_월별_코로나19 확진자 현황.csv',
                 encoding='euc-kr')
df = data
df

Unnamed: 0,기준연도,기준월,시도명,시군구명,법정동,확진자수
0,2020,1,서울특별시,마포구,공덕동,0.0
1,2020,2,서울특별시,마포구,공덕동,0.0
2,2020,3,,,,2.0
3,2020,4,서울특별시,마포구,공덕동,
4,2020,5,서울특별시,마포구,공덕동,
...,...,...,...,...,...,...
679,2022,8,서울특별시,마포구,염리동,1053.0
680,2022,9,서울특별시,마포구,염리동,423.0
681,2022,10,서울특별시,마포구,염리동,289.0
682,2022,11,서울특별시,마포구,염리동,502.0


In [None]:
df.groupby('기준연도').sum()['확진자수']

In [None]:
df.groupby('법정동').sum()['확진자수'].mean()

In [None]:
df['기준연도'].dtype
result = df[df['기준연도'] == 2021]
result.groupby('기준월').sum()['확진자수']

In [None]:
df['확진자수'].dtype
r1 = df['확진자수'].isnull().sum()
r2 = df[df['확진자수'] == 0].shape[0]
result = r1 + r2
result

In [None]:
df.groupby('법정동').sum()['확진자수'].head()

In [None]:
df[df['기준연도'] == 2022].groupby('법정동').sum()['확진자수'].max()
df[df['기준연도'] == 2022].groupby('법정동').sum()['확진자수'].idxmax()
df[df['기준연도'] == 2022].groupby('법정동').sum()['확진자수']['성산동']
