### 6. 데이터 탐색과 전처리

In [44]:
# 모듈 불러오기
import numpy as np
import pandas as pd

#### 6.1 데이터 탐색하기

서울 마포구 코로나 확진자 현황 보기  
- NaN: 빈값

In [4]:
data = pd.read_csv('0917/서울특별시 마포구_법정동별_월별_코로나19 확진자 현황.csv',encoding='euc-kr')
data

Unnamed: 0,기준연도,기준월,시도명,시군구명,법정동,확진자수
0,2020,1,서울특별시,마포구,공덕동,0.0
1,2020,2,서울특별시,마포구,공덕동,0.0
2,2020,3,,,,2.0
3,2020,4,서울특별시,마포구,공덕동,
4,2020,5,서울특별시,마포구,공덕동,
...,...,...,...,...,...,...
679,2022,8,서울특별시,마포구,염리동,1053.0
680,2022,9,서울특별시,마포구,염리동,423.0
681,2022,10,서울특별시,마포구,염리동,289.0
682,2022,11,서울특별시,마포구,염리동,502.0


필요한 컬럼만 선택하기

In [10]:
# 컬럼 하나 선택
data['확진자수']
type(data['확진자수'])
# 열하나는 Series, 열 여러개는 Dataframe
# 여러 컬럼 선택
df = data[ ['기준연도','기준월','법정동','확진자수'] ]
df

Unnamed: 0,기준연도,기준월,법정동,확진자수
0,2020,1,공덕동,0.0
1,2020,2,공덕동,0.0
2,2020,3,,2.0
3,2020,4,공덕동,
4,2020,5,공덕동,
...,...,...,...,...
679,2022,8,염리동,1053.0
680,2022,9,염리동,423.0
681,2022,10,염리동,289.0
682,2022,11,염리동,502.0


시리즈 탐색하기
- head: 데이터 앞부분만 확인
- count: 데이터 개수
- unique: 고유한 값만 확인
- value_count: 데이터별 개수 확인

In [16]:
# 데이터 앞부분만 확인(5개)
df.head()
# 데이터 개수 확인
df.count()
# 중복은 제거한 고유값 확인
# 확진자수에는 nan이라는 빈값이 포함되어 있어, 이상한 값이 나옴
df['확진자수'].unique()
# 확진자수별 개수 세기
df['확진자수'].value_counts()

확진자수
0.0       160
1.0        41
2.0        28
3.0        22
4.0        15
         ... 
1053.0      1
423.0       1
289.0       1
502.0       1
669.0       1
Name: count, Length: 244, dtype: int64

### 6.2 없는 데이터 nan 처리하기
- nan : cvs에서 빈셀을 의미. 값이 없다

빈값이 있는지 확인하기
- isnull: 빈값이 있는지 확인
- isnull.sum: 빈값의 개수

In [41]:
# 확진자수에 빈값이 있는지 확인
# 각행에대해서 검시 -> bool 시리즈 반환
df['확진자수'].isnull()
# 빈값 개수 세기
# bool -> int
# false: 0
# true: 1
df['확진자수'].isnull().sum()


np.int64(0)

빈값 삭제하기
- dropna: 빈값이 있는 행을 삭제
- dropna(subser=['컬럼']): 빈값이 있는 특정 컬럼만 검사하여 삭제

In [29]:
# 빈값이 있는 행을 모두 삭제
df.dropna()
# 확진자수가 없는 행만 삭제
df.dropna(subset=['확진자수'])
# 원본
df

Unnamed: 0,기준연도,기준월,법정동,확진자수
0,2020,1,공덕동,0.0
1,2020,2,공덕동,0.0
2,2020,3,,2.0
3,2020,4,공덕동,
4,2020,5,공덕동,
...,...,...,...,...
679,2022,8,염리동,1053.0
680,2022,9,염리동,423.0
681,2022,10,염리동,289.0
682,2022,11,염리동,502.0


빈값을 다른값으로 대체하기
- fillna(새로운값) : 컬럼 하나만 처리할 때
- fillna({ 컬럼1:새로운값, 컬럼2:새로운값 }) : 여러컬럼을 한번에 처리할 때

In [43]:
# 법정동에 빈값이 있으면 '모름'으로 표시
# df['법정동'] = df['법정동'].fillna('모름')
# df
# 확진자수에 빈값이 있으면 '0'으로 표시
# df['확진자수'] = df['확진자수'].fillna(0)
# df

# 여러 컬럼을 한번에 교체
# 법정동과 확진자수의 빈값을 한번에 처리
df = df.fillna( { '법정동':'모름', '확진자수':0 } )
df

Unnamed: 0,기준연도,기준월,법정동,확진자수
0,2020,1,공덕동,0.0
1,2020,2,공덕동,0.0
2,2020,3,모름,2.0
3,2020,4,공덕동,0.0
4,2020,5,공덕동,0.0
...,...,...,...,...
679,2022,8,염리동,1053.0
680,2022,9,염리동,423.0
681,2022,10,염리동,289.0
682,2022,11,염리동,502.0


#### 6.3 조건 검색

특정 조건에 맞는 데이터 찾기

In [46]:
data = pd.read_csv('0917/서울특별시 마포구_법정동별_월별_코로나19 확진자 현황.csv',encoding='euc-kr')
df = data[ ['기준연도','기준월','법정동','확진자수'] ]
df

Unnamed: 0,기준연도,기준월,법정동,확진자수
0,2020,1,공덕동,0.0
1,2020,2,공덕동,0.0
2,2020,3,,2.0
3,2020,4,공덕동,
4,2020,5,공덕동,
...,...,...,...,...
679,2022,8,염리동,1053.0
680,2022,9,염리동,423.0
681,2022,10,염리동,289.0
682,2022,11,염리동,502.0


In [53]:
# 확진자 수가 3000명 이상인 행 찾기
df['확진자수'] >= 3000
df[df['확진자수'] >= 3000]

Unnamed: 0,기준연도,기준월,법정동,확진자수
26,2022,3,공덕동,7186.0
170,2022,3,대흥동,3370.0
206,2022,3,도화동,4269.0
314,2022,3,망원동,7390.0
386,2022,3,상암동,5852.0
422,2022,3,서교동,3554.0
458,2022,3,성산동,9334.0
459,2022,4,성산동,3086.0
530,2022,3,신수동,3117.0
602,2022,3,아현동,4862.0


In [59]:
# 확진자수가 제일 많은 행 찾기
# 내림차순으로 정렬
df.sort_values('확진자수', ascending=False).head()

Unnamed: 0,기준연도,기준월,법정동,확진자수
458,2022,3,성산동,9334.0
314,2022,3,망원동,7390.0
26,2022,3,공덕동,7186.0
386,2022,3,상암동,5852.0
602,2022,3,아현동,4862.0


조건검색을 위한 시리즈의 문자열 함수

In [71]:
# 해당 컬럼에 빈값이 있으면 잘못된 결과가 나올 수 있음
# 먼저 빈값을 처리하고 계산
# 삭제 또는 교체
df['법정동'] = df['법정동'].fillna('모름')
# 법정동이 '공덕'으로 시작하는 행 찾기
# df['법정동'].dtype #('O')=object
df['법정동'].str.startswith('공덕')
df[df['법정동'].str.startswith('공덕')]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['법정동'] = df['법정동'].fillna('모름')


Unnamed: 0,기준연도,기준월,법정동,확진자수
0,2020,1,공덕동,0.0
1,2020,2,공덕동,0.0
3,2020,4,공덕동,
4,2020,5,공덕동,
5,2020,6,공덕동,3.0
6,2020,7,공덕동,2.0
7,2020,8,공덕동,7.0
8,2020,9,공덕동,9.0
9,2020,10,공덕동,1.0
10,2020,11,공덕동,7.0


In [74]:
# 법정동에 '고산'을 포함하고 있는 행 찾기
df['법정동'].str.contains('고산')
df[df['법정동'].str.contains('고산')]

Unnamed: 0,기준연도,기준월,법정동,확진자수
72,2020,1,노고산동,0.0
73,2020,2,노고산동,0.0
74,2020,3,노고산동,0.0
75,2020,4,노고산동,0.0
76,2020,5,노고산동,0.0
77,2020,6,노고산동,0.0
78,2020,7,노고산동,0.0
79,2020,8,노고산동,1.0
80,2020,9,노고산동,2.0
81,2020,10,노고산동,1.0


In [77]:
# 법정동에 '흥동'으로 끝나는 행 찾기
df['법정동'].str.endswith('흥동')
df[df['법정동'].str.endswith('흥동')]

Unnamed: 0,기준연도,기준월,법정동,확진자수
144,2020,1,대흥동,0.0
145,2020,2,대흥동,0.0
146,2020,3,대흥동,0.0
147,2020,4,대흥동,0.0
148,2020,5,대흥동,0.0
149,2020,6,대흥동,0.0
150,2020,7,대흥동,0.0
151,2020,8,대흥동,1.0
152,2020,9,대흥동,2.0
153,2020,10,대흥동,3.0


#### 6.4 집계 및 변형
- groupby : 특정 컬럼을 기준으로 행 묶기  
  데이터를 그룹화 한 후에 합계, 평균을 구할 수 있다

In [79]:
data = pd.read_csv('0917/서울특별시 마포구_법정동별_월별_코로나19 확진자 현황.csv',encoding='euc-kr')
data
df = data[ ['기준연도','기준월','법정동','확진자수'] ]
df

Unnamed: 0,기준연도,기준월,법정동,확진자수
0,2020,1,공덕동,0.0
1,2020,2,공덕동,0.0
2,2020,3,,2.0
3,2020,4,공덕동,
4,2020,5,공덕동,
...,...,...,...,...
679,2022,8,염리동,1053.0
680,2022,9,염리동,423.0
681,2022,10,염리동,289.0
682,2022,11,염리동,502.0


In [99]:
# 동으로 그룹화
df.groupby('법정동')

# 동별 총 확진자수 구하기
# 그룹핑을 하면 기준컬럼이 인덱스가 됨
result = df.groupby('법정동').sum()
result['확진자수']
# 여기서 공덕동의 값만 확인
result['확진자수']['공덕동']

np.int64(20999)

컬럼의 자료형 확인하기
- type:컬럼의 객체 타입 확인
- .dtype: 원소의 타입 확인
- info: 데이터프레임의 모든 컬럼 정보를 확인

In [88]:
# 데이터프레임에서 열 하나 꺼내기
df['확진자수']
# 열의 자료 구조
print(type(df['확진자수']))
# 원소의 자료형
print(df['확진자수'].dtype)

<class 'pandas.core.series.Series'>
float64


In [89]:
# 데이터프레임의 모든 컬럼 정보
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 684 entries, 0 to 683
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   기준연도    684 non-null    int64  
 1   기준월     684 non-null    int64  
 2   법정동     683 non-null    object 
 3   확진자수    682 non-null    float64
dtypes: float64(1), int64(2), object(1)
memory usage: 21.5+ KB


컬럼의 타입 변경하기
- astype({ 컬럼:새타입 })

In [98]:
# 사람수가 float으로 표시됨
# float -> int 형변환
df['확진자수']
# nan 처리 => 빈값 삭제
# 옵션 x => 전체
# 옵션 o => 특정 컬럼만
df = df.dropna()
df
df = df.astype( { '확진자수':'int64' } )
df

Unnamed: 0,기준연도,기준월,법정동,확진자수
0,2020,1,공덕동,0
1,2020,2,공덕동,0
5,2020,6,공덕동,3
6,2020,7,공덕동,2
7,2020,8,공덕동,7
...,...,...,...,...
679,2022,8,염리동,1053
680,2022,9,염리동,423
681,2022,10,염리동,289
682,2022,11,염리동,502
