### 6. 데이터 탐색과 전처리

In [None]:
import numpy as np
import pandas as pd

#### 6.1 데이터 탐색하기

서울 마포구 코로나 확진자 현황 CSV 파일 가지고 오기

In [None]:
# csv 파일을 읽어서 데이터 프레임으로 변환
data = pd.read_csv('sample/서울특별시 마포구_법정동별_월별_코로나19 확진자 현황.csv', encoding='euc-kr')
data

필요한 컬럼만 선택하기

In [None]:
# 컬럼 하나만 선택
data['확진자수']

# 컬럼 여러개 선택
# 시도명과 시군구명은 모두 똑같아서 의미가 없음
# 필요한 컬럼만 선택하기 (기준연도, 기준월, 법정동, 확진자수)
df = data[ [ '기준연도', '기준월', '법정동', '확진자수' ] ]
df

시리즈 탐색하기
- head: 데이터 앞부분만 확인 (5행)
- count: 데이터 개수 (누락된 값 제외)
- unique: 중복을 제거한 고유한 값 확인
- value_counts: 데이터 개수 확인

In [None]:
# 확진자수 컬럼 꺼내기
# 데이터 프레임의 열은 시리즈
s = df['확진자수']
# 데이터가 너무 많으면 보기 불편함. 앞부부만 확인
s.head()
# 데이터 전체 개수
s.count()
# 중복을 제거한 고유값 확인
s.unique()
# 데이터별 개수
s.value_counts()

#### 6.2 없는 데이터 nan 처리

nan: csv에서 빈셀을 의미. 빈값.

In [None]:
# 3번 4번 행을 보면, 확진자수가 없음
# 빈셀은 nan로 처리됨
df

빈값이 있는지 확인하기
- isnull() : 빈값이 있는지 확인  
- isnull().sum() : 빈값이 있는 행의 개수 확인

In [None]:
# 확진자가 없는 행 개수 확인
df['확진자수'].isnull()
df['확진자수'].isnull().sum() # 2명

빈값 삭제하기
- dropna: 빈값이 있는 행을 모두 삭제
- df.dropna(subset=['컬럼']): 특정 컬럼에 빈값이 있는 행을 모두 삭제

In [None]:
# 법정동, 확진자수가 없는 행이 모두 삭제됨
df.dropna()
# 확진자수가 없는 행만 삭제됨
df.dropna(subset=['확진자수'])
# dropna는 원본은 안바꿈
df

빈값을 다른값으로 변경하기

In [None]:
df['법정동'].fillna('모름')
df['확진자수'].fillna(0)
# 한번에 처리
df = df.fillna({ '법정동':'모름', '확진자수':0 })
df

#### 6.3 조건 검색

특정 조건에 맞는 행 검색하기

In [None]:
# 확진자수가 3000명 이상인 행 찾기
df['확진자수'] >= 3000
df[df['확진자수'] >= 3000]

In [None]:
# 확진자수가 제일 많은 행 찾기
# 확진자수를 기준으로 내림차순 정렬 후 앞부분만 출력
df.sort_values('확진자수', ascending=False).head()

시리즈의 문자열 함수

In [None]:
# na가 있으면 에러남
df = df.fillna({ '법정동':'모름', '확진자수':0 })

# 특정 문자열이 포함된 행만 찾기
df[df['법정동'].str.contains('덕')]
# 특정 문자열로 시작하는 값만 찾기
df[df['법정동'].str.startswith('염')]
# 특정 문자열로 끝나는 값만 찾기
df[df['법정동'].str.endswith('리동')]

#### 6.4 집계 및 변형
- groupby(컬럼) : 특정 컬럼을 기준으로 데이터 합치기

In [None]:
# 월 상관없이 동으로 묶은다음에 총 확진자수 구하기
# 법정동 컬럼을 기준으로 그룹핑을 하고 합계 구하기
# 다른 컬럼들도 합산이 되는데, 안쓸꺼니까 무시
result = df.groupby('법정동').sum()
result['확진자수']

df[df['법정동'] == '공덕동']

컬럼의 타입 확인하기
- type(): 컬럼의 객체 타입을 보여줌
- .dtypes: 컬럼의 원소 타입을 보여줌
- info(): 데이터 프레임의 전체 컬럼 정보를 보여줌

In [None]:
# 객체타입은 Series
type(df['확진자수'])
# 각 원소의 타입은 float
df['확진자수'].dtypes
# 전체 컬럼 정보 확인
# int(정수) object(문자열) float(실수)
df.info()

컬럼의 타입 변경하기
- astype({컬럼명: 타입})

In [None]:
# 확진자수는 정수인데 실수로 표시됨
# 확진자수 컬럼의 타입을 int로 변경
df.astype({'확진자수':'int64'})