In [None]:
"""
<수집 데이터 전처리>
 1. 결측 데이터처리(결측치)
  - 특정 컬럼의 데이터들 중에 비어 있는 데이터를 찾아서 처리
  - 읽어들인 데이터를 info() 함수를 통해서 최초 확인 가능 
    (확인이 불가능한 경우도 있음)
  
 2. 중복 데이터처리(중복치)
  - 행단위로 중복된 데이터가 있는지 찾아서 처리
 
 3. 이상 데이터처리(이상치)
  - 컬럼의 성격에 맞지 않는 데이터를 찾아서 처리
  - describe() 함수의 min, max 데이터를 이용하여 상식선에서 숫자 컬럼의 이상치 확인가능
  - 연속된 데이터의 경우 특정 범위를 벗어나는 데이터 찾아서 처리하는 것이 일반적임
    (계산 공식에 의해서 확인 후 처리 진행됨)
"""

### 결측 데이터처리

In [None]:
"""
 - 결측치라고 칭합니다.
 - 결측데이터 : 특정 컬럼의 값이 비어있는 경우
              : null 또는 Nan 이라고 표기 됩니다.
              : 스페이스 한칸은? -> 문자로 인식
"""

In [1]:
### 데이터처리 라이브러리
import pandas as pd

In [8]:
### 파일 읽어들이기
# 파일명 : bicycle.csv
# 변수명 : df
file_path = "./data/bicycle.csv"
### encoding : 문자 해석기라고 생각하시면 편합니다.
# - 한국어 관련 문자 해석기 : euc-kr
# - 국제 표준화 해서 사용하는 문자 해석기 : utf-8
# - 이외 : ansi, 8859-1
df = pd.read_csv(file_path, encoding="euc-kr")
# df = pd.read_csv(file_path, encoding="ansi")
# df = pd.read_csv(file_path, encoding="8859-1")
df.head(1)

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0


In [9]:
### 데이터프레임 정보확인하기
# - 결측치 확인 가능
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420 entries, 0 to 419
Data columns (total 11 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   자전거번호    420 non-null    object 
 1   대여일시     420 non-null    object 
 2   대여소번호    420 non-null    int64  
 3   대여소명     420 non-null    object 
 4   대여거치대    396 non-null    float64
 5   반납일시     420 non-null    object 
 6   반납대여소번호  420 non-null    int64  
 7   반납대여소명   420 non-null    object 
 8   반납거치대    409 non-null    float64
 9   이용시간     405 non-null    float64
 10  이용거리     404 non-null    float64
dtypes: float64(4), int64(2), object(5)
memory usage: 36.2+ KB


### 결측 데이터 확인하기

In [10]:
### isnull() : 행렬 데이터에서 결측치가 있는 특정 값들 찾기
# - 결측치가 있으면 : True 
#           없으면 : False
df.isnull()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True
3,False,False,False,False,False,False,False,False,True,False,False
4,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
415,False,False,False,False,False,False,False,False,False,False,False
416,False,False,False,False,False,False,False,False,True,False,True
417,False,False,False,False,False,False,False,False,False,False,False
418,False,False,False,False,False,False,False,False,False,False,False


In [11]:
### notnull() : 행렬 데이터에서 결측치가 없는 값들 찾기
# - 결측치가 없으면 : True 
#           있으면 : False
df.notnull()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리
0,True,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,False
3,True,True,True,True,True,True,True,True,False,True,True
4,True,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...
415,True,True,True,True,True,True,True,True,True,True,True
416,True,True,True,True,True,True,True,True,False,True,False
417,True,True,True,True,True,True,True,True,True,True,True
418,True,True,True,True,True,True,True,True,True,True,True


In [None]:
"""
<결측치 처리 방법>
 1. 결측치가 있는 부분의 데이터를 사용할지 or 말지 결정
     - 데이터 제공 기관에 사전 문의
 2. 사용하지 않는다면
     - 컬럼과 행 중에 어느 부분을 제거(삭제)할지 결정(삭제하지 않고 그냥 사용, 가급적 이건 안되요)
     - 제거 방법 : 해당 결측치가 있는 -> 행 또는 열 자체를 삭제
       -- 일반적으로 행을 삭제함(다만, 시간단위 추이 분석의 경우 행 삭제는 조심)
     - 삭제할 경우 데이터에 대한 손실이 발생할 수 있기에 잘 결정해야 합니다.
 3. 사용하는 경우
     - 어떻게 사용할지 결정 (정답은 없음)
     - 숫자 컬럼의 경우 : 평균값 또는 0으로 대체
       -- 결측치가 속해 있는 컬럼의 전체 값에 대한 평균 사용
       -- 결측치가 있는 데이터의 전/후 데이터의 평균 사용
     - 범주형 컬럼의 경우 : 비율 대비 대체 
                         : 또는 해당 범주의 주변 데이터 탐색 후 유사값으로 대체

 ** 결측치 처리 결정 후 필수 확인 사항 : 분석을 의뢰한 고객에게 확인 후 처리 진행
"""

In [17]:
### df 데이터프레임의 모든 컬럼들의 결측 빈도 확인하기
# - 각 컬럼의 모든 [행] 값을 sum한 값
df.isnull().sum(axis=0)
# - 각 행의 모든 [컬럼]의 값을 sum한 값
# df.isnull().sum(axis=1)

자전거번호       0
대여일시        0
대여소번호       0
대여소명        0
대여거치대      24
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대      11
이용시간       15
이용거리       16
dtype: int64

In [21]:
### 결측치가 있는 [행] 삭제하기
# - axis=0 : 행삭제, 1은 열삭제
# - 사용함수 : dropna(axis=0)

### 결측치가 있는 모든 행 삭제하기
df.isnull()
df_drop = df.dropna(axis=0)
df_drop.info()

<class 'pandas.core.frame.DataFrame'>
Index: 358 entries, 0 to 419
Data columns (total 11 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   자전거번호    358 non-null    object 
 1   대여일시     358 non-null    object 
 2   대여소번호    358 non-null    int64  
 3   대여소명     358 non-null    object 
 4   대여거치대    358 non-null    float64
 5   반납일시     358 non-null    object 
 6   반납대여소번호  358 non-null    int64  
 7   반납대여소명   358 non-null    object 
 8   반납거치대    358 non-null    float64
 9   이용시간     358 non-null    float64
 10  이용거리     358 non-null    float64
dtypes: float64(4), int64(2), object(5)
memory usage: 33.6+ KB


In [23]:
### 결측치가 있는 컬럼 자체 삭제
df_drop = df.dropna(axis=1)
df_drop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420 entries, 0 to 419
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   자전거번호    420 non-null    object
 1   대여일시     420 non-null    object
 2   대여소번호    420 non-null    int64 
 3   대여소명     420 non-null    object
 4   반납일시     420 non-null    object
 5   반납대여소번호  420 non-null    int64 
 6   반납대여소명   420 non-null    object
dtypes: int64(2), object(5)
memory usage: 23.1+ KB


In [26]:
### 특정 한개 컬럼의 데이터 중에 결측 데이터 삭제하기
# -> 이용거리 컬럼을 조회
# -> 조회된 이용거리 컬럼 데이터 중에 결측값이 있으면 해당 행 삭제하기..
df["이용거리"].dropna(axis=0)

0      1100.0
1      1420.0
3      1380.0
4      1650.0
5      1350.0
        ...  
414    1620.0
415    2200.0
417    2280.0
418    1180.0
419    8100.0
Name: 이용거리, Length: 404, dtype: float64

### 결측데이터를 다른 값으로 대체하기

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420 entries, 0 to 419
Data columns (total 11 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   자전거번호    420 non-null    object 
 1   대여일시     420 non-null    object 
 2   대여소번호    420 non-null    int64  
 3   대여소명     420 non-null    object 
 4   대여거치대    396 non-null    float64
 5   반납일시     420 non-null    object 
 6   반납대여소번호  420 non-null    int64  
 7   반납대여소명   420 non-null    object 
 8   반납거치대    409 non-null    float64
 9   이용시간     405 non-null    float64
 10  이용거리     404 non-null    float64
dtypes: float64(4), int64(2), object(5)
memory usage: 36.2+ KB


In [30]:
### 이용거리 컬럼의 값 중에 결측치가 있는 경우 0으로 대체해 주세요..
# df["이용거리"] = df["이용거리"].fillna(0)
df["이용거리"].fillna(0)

0      1100.0
1      1420.0
2         0.0
3      1380.0
4      1650.0
        ...  
415    2200.0
416       0.0
417    2280.0
418    1180.0
419    8100.0
Name: 이용거리, Length: 420, dtype: float64

In [32]:
### 이용거리 데이터에서 결측데이터 부분을 
#   - 이용거리의 전체평균값으로 모든 결측데이터 대체하기
avg_all = df["이용거리"].mean()
df["이용거리"].fillna(avg_all)

0      1100.000000
1      1420.000000
2      2679.678218
3      1380.000000
4      1650.000000
          ...     
415    2200.000000
416    2679.678218
417    2280.000000
418    1180.000000
419    8100.000000
Name: 이용거리, Length: 420, dtype: float64

In [None]:
### 결측치가 있는 컬럼들은 모두 대체하기
# - 각 컬럼의 [전체 평균값]으로 대체하기
# - 결측치가 있는 컬럼 : 대여거치대, 반납거치대, 이용시간, 이용거리

### 각각 처리
# df["대여거치대"] = df["대여거치대"].fillna(df["대여거치대"].mean())
df["대여거치대"].fillna(df["대여거치대"].mean())
df["반납거치대"].fillna(df["반납거치대"].mean())
df["이용시간"].fillna(df["이용시간"].mean())
df["이용거리"].fillna(df["이용거리"].mean())

### 응용처리
cols = ["대여거치대", "반납거치대", "이용시간", "이용거리"]
for col in cols :
    # df[col] = df[col].fillna(df[col].mean())
    df[col].fillna(df[col].mean())

### 간단처리
df = df.fillna(df[["대여거치대", "반납거치대", "이용시간", "이용거리"]].mean())
df.info()