<a href="https://colab.research.google.com/github/yoon0416/python/blob/main/1031%EC%8B%A4%EC%8A%B5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **결측치**
- 데이터 수집과정에서 값이 기록되지 않은 것.
- **넘파이 배열**에서는 결측치를 **np.nan**으로 표현(Not a Number)
- **판다스 데이터프레임**에서는 결측치를 **NaN**으로 표현

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({ 'A': [1,2,np.nan,4,5],
                    'B': [6,7,8,np.nan,10],
                    'C': [11,12,13,np.nan,np.nan]

})
df

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0
2,,8.0,13.0
3,4.0,,
4,5.0,10.0,


isna() 함수로 데이터프레임에서 결측치가 어디에 있는지 빠르게 확인할 수 있음

In [None]:
pd.isna(df)

Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False
2,True,False,False
3,False,True,True
4,False,False,True


sum() 함수를 이용하여 열별 결측치 개수 확인

In [None]:
pd.isna(df).sum()

Unnamed: 0,0
A,1
B,1
C,2




---



# 결측치 제거
- 결측치는 제거할 대는 제거해도 전체 데이터에 이상이 없는지 점검하여 결측치 중 어떤 것을 제거할지 결정해야함
- dropna()함수: 결측치가 하나라도 있는 행을 모두 제거

In [None]:
df_drop_nan = df.dropna()
df_drop_nan

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0


특정열의 결측치만 제거

In [None]:
df_drop_B_C = df.dropna(subset=['B','C'])
df_drop_B_C

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0
2,,8.0,13.0




---



# 결측치 대체
- 데이터 양이 많지 않을 경우 결측치를 제거하기보다 다른 값으로 대체

결측치가 fillna()함수에 입력한 인자로 대체

In [None]:
df_0 = df['C'].fillna(0)
print(df_0)

0    11.0
1    12.0
2    13.0
3     0.0
4     0.0
Name: C, dtype: float64


A열에 있는 결측치를 문자열 'missing'으로 대체

In [None]:
df_missing = df['A'].fillna('missing')
print(df_missing)

0        1.0
1        2.0
2    missing
3        4.0
4        5.0
Name: A, dtype: object


평균을 구하여 대체하면 데이터분포에 영향을적게 주면서 결측을 해결할 수 있음

In [None]:
df_mean = df.fillna(df.mean()) #mean() = 평균 구하는 함수
print(df, '\n')
print(df_mean)

     A     B     C
0  1.0   6.0  11.0
1  2.0   7.0  12.0
2  NaN   8.0  13.0
3  4.0   NaN   NaN
4  5.0  10.0   NaN 

     A      B     C
0  1.0   6.00  11.0
1  2.0   7.00  12.0
2  3.0   8.00  13.0
3  4.0   7.75  12.0
4  5.0  10.00  12.0


결측치 바로 위나 아래 행의 값으로 대체할 수 있음

In [None]:
print(df, '\n')

df_ffill = df.fillna(method='ffill') #ffill = 바로 이전 값으로 대체
print(df_ffill, '\n')

df_bfill = df.fillna(method='bfill') #bfill = 바로 다음 값으로 대체
print(df_bfill)

     A     B     C
0  1.0   6.0  11.0
1  2.0   7.0  12.0
2  NaN   8.0  13.0
3  4.0   NaN   NaN
4  5.0  10.0   NaN 

     A     B     C
0  1.0   6.0  11.0
1  2.0   7.0  12.0
2  2.0   8.0  13.0
3  4.0   8.0  13.0
4  5.0  10.0  13.0 

     A     B     C
0  1.0   6.0  11.0
1  2.0   7.0  12.0
2  4.0   8.0  13.0
3  4.0  10.0   NaN
4  5.0  10.0   NaN


  df_ffill = df.fillna(method='ffill') #ffill = 바로 이전 값으로 대체
  df_bfill = df.fillna(method='bfill') #bfill = 바로 다음 값으로 대체


In [None]:
fill_dict = {'A':df['A'].mean(), 'B': '12/25', 'C': 'missing'}
df_filled = df.fillna(value = fill_dict)
print(df_filled)

     A      B        C
0  1.0    6.0     11.0
1  2.0    7.0     12.0
2  3.0    8.0     13.0
3  4.0  12/25  missing
4  5.0   10.0  missing




---



# **이상치**
- 데이터셋에서 대부분의 데이터가 모인 범위를 크게 벗어난 값
- 이상치가 있는 데이터셋은 이상치가 없는 데이터셋과 비교하여 평균과 표준편차가 유의하게 다름

# **이상치의 원인**
- 데이터 입력 오류: 데이터 수집과 기록 과정
- 측정 오류: 이상치의 가장 일반적인 원인
- 자연 이상치: 이상치의 원인이 인위적이지 않다면 자연 이상치

# **이상치 제거**
- 이상치를 식별할 때 일반적으로 데이터 분포를 시각화
- 이상치를 식별한 후에는 이를 제거하는 방법을 선택
- 이상치가 몇개 없을 때는 이상치를 수동으로 삭제하거나 수정
- 이상치가 많다면 데이터 분석 결과에 영향을 주지 않는 정도의 이상치를 자동으로 제거
- **이상치를 너무 많이 제거하면 유용한 데이터까지 잃을 수 있음**

# **IQR**:  제 1사분위수에서 제 3사분위수까지의 거리

IQR의 1.5배보다 멀리 떨어진 데이터를 이상치로 간주하여 제거
- Q1은 데이터의 첫번째 사분위수(25번째 백분위수)
- Q2는 데이터의 2번째 사분위수(중앙값, 50번째 백분위수)
- Q3는 데이터의 세번째 사분위수(75번째 백분위수)
- Q1 - 1.5 X IQR을 데이터 집합의 최솟값으로 정하며 Q3_1.5 XIQR을 데이터 집합의 최댓값으로 정함
- 정한 최솟값보다 작거나 최댓값보다 큰 값은 모두 이상치이므로 제거

In [None]:
import pandas as pd
#예시 데이터프레임 생성
data = {'value': [10, 12, 14, 15, 16, 7, 18, 20, 22, 100]}
df = pd.DataFrame(data)
print("이상값 제거전: ")
print(df)
print()

#Q1과 Q3계산
Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1
print("Q1: ",Q1)
print("Q3: ",Q3)
print("IQR: ",IQR)
print()

#이상값 경계설정
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

#이상값 제거
df_filtered = df[(df['value'] >= lower_bound) & (df['value'] <= upper_bound)]

print("이상값 제거후: ")
print(df_filtered)

이상값 제거전: 
   value
0     10
1     12
2     14
3     15
4     16
5      7
6     18
7     20
8     22
9    100

Q1:  12.5
Q3:  19.5
IQR:  7.0

이상값 제거후: 
   value
0     10
1     12
2     14
3     15
4     16
5      7
6     18
7     20
8     22




---



# **표준화 정규화**
- 데이터에서 특성 또는 턱징이란 분석 대상에 영향을 주는 속성을 말함
- 데이터를 분석할 때는 특성 중 어느 것이 분석 대상에 더 크게 영향을 미치는지 비교하여 선택하게 됨
- 단위가 다르면 비교가 어려움 키가 170인 사람과 몸무게가 70kg 사람 중 누가 더 큰지 말할 수 없는 것과 마찬가지

# **표준화**
- Z 점수(Z-score)는 어떤 값이 평균에서 얼마나 떨어져 있는지를 나타내는 수치
- 평균이 0이고 표준편차가 1인 값을 나타내기 위해 정규분포로 변환
- Z 점수는 표준편차의 배수로 계산됨
- 표준편차는 데이터의 분포를 나타낸 값이기 때문에, Z점수를 알면 서로 다른분포로부터 나온 데이터를 비교할 수 있음

# **정규화**
- 최대 최소 정규화
- 전처리 후 데이터 0~1

In [None]:
import numpy as np

sorted_science_scores = np.array([65,70,75,75,80,80,85,85,90,95])
sorted_social_scores = np.array([55,60,60,65,70,75,80,85,85,90])

science_mean = np.mean(sorted_science_scores)
science_std = np.std(sorted_science_scores)

social_mean = np.mean(sorted_social_scores)
social_std = np.std(sorted_social_scores)

standardized_science = (sorted_science_scores - science_mean) / science_std
standardized_social = (sorted_social_scores - social_mean) / social_std

print("정렬된 과학점수",sorted_science_scores)
print("표준화된 과학 점수:", standardized_science)
print("정렬된 사회점수",sorted_social_scores)
print("표준화된 사회 점수:", standardized_social)

정렬된 과학점수 [65 70 75 75 80 80 85 85 90 95]
표준화된 과학 점수: [-1.73205081 -1.15470054 -0.57735027 -0.57735027  0.          0.
  0.57735027  0.57735027  1.15470054  1.73205081]
정렬된 사회점수 [55 60 60 65 70 75 80 85 85 90]
표준화된 사회 점수: [-1.49923528 -1.07088234 -1.07088234 -0.64252941 -0.21417647  0.21417647
  0.64252941  1.07088234  1.07088234  1.49923528]


In [None]:
import numpy as np

science_scores = np.array([65,70,75,75,80,80,85,85,90,95])
social_scores = np.array([55,60,60.65,70,75,80,85,85,90])

science_min = np.min(science_scores)
science_max = np.max(science_scores)

social_min = np.min(social_scores)
social_max = np.max(social_scores)

#정규화
normalized_science = (science_scores - science_min) / (science_max - science_min)
normalized_social = (social_scores - social_min) / (social_max - social_min)

#출력
print(science_scores)
print(normalized_science)
print(social_scores)
print(normalized_social)

[65 70 75 75 80 80 85 85 90 95]
[0.         0.16666667 0.33333333 0.33333333 0.5        0.5
 0.66666667 0.66666667 0.83333333 1.        ]
[55.   60.   60.65 70.   75.   80.   85.   85.   90.  ]
[0.         0.14285714 0.16142857 0.42857143 0.57142857 0.71428571
 0.85714286 0.85714286 1.        ]
