# EDA 교육 자료 예습

## 0. 데이터 분석 프로세스

- 데이터 수집
- **데이터 탐색(EDA)** : 수집한 데이터를 여러 가지 방식으로 파악. 전처리 수행 전후, 분석 과정에서 계속 이루어짐.
- **데이터 전처리** : 모델링을 위해 데이터를 적절히 손보는 과정. 결측치, 이상치 등을 처리해 왜곡을 최소화 하고자 함.
- 데이터 모델링 : 데이터로부터 정보를 추출하기 위해 모델을 구축. 예측, 분류, 군집 등의 목적에 따라 모델을 선택하고 학습시킴.

## 1. EDA의 개념

- **EDA**(Exploratory Data Analysis) : 데이터 분석(모델링)을 위해 *데이터를 여러 가지 방식으로 파악하는 모든 과정*. 탐색적 데이터 분석 과정.
    - 시각화를 통한 패턴 발견, 데이터의 특이성 확인, 통계 및 그래프 등을 통한 가설 검정 등 *주어진 데이터에 대해 알아보는 것*을 말함.
    - 데이터 분석 및 결과 도출 과정에 있어서 지속적으로 데이터에 대한 탐색 및 이해를 기본으로 가져야 함을 의미.

### (1) EDA 대상 (일변량/다변량)

- univariate(일변량) : 한 번에 파악하려는 변수가 한 개. 데이터를 설명하고 그 안에 존재하는 패턴 찾기가 주 목적.
- multi-variate(다변량) : 여러 변수들 간의 관계 파악이 주 목적. 개별 데이터를 먼저 파악한 후 변수를 동시에 확인하는 것이 오류 대처에 용이.

### (2) EDA 종류 (시각화/비시각화)

- graphic(시각화) : 차트, 그림 등을 이용해 데이터를 확인.
- non-graphic(비시각화) : 그래픽적 요소 사용 x. 주로 Summary Statistics를 통해 데이터를 확인.

-> 데이터를 한 눈에 파악하길 원하면 graphic EDA, 정확한 값을 원한다면 non-graphic EDA를 통해 파악.

### (3) EDA 유형

다음 요인에 따라 유형이 구분됨.

1. 데이터 변수 개수가 몇 개인가?
2. 결과를 어떻게 파악할 것인가?
3. 데이터의 유형은 무엇인가?

| | 일변량 | 다변량 |
|---|:--|:--|
|비시각화|**Uni-Non Graphic** : 주어진 데이터의 분포를 확인하는 것이 주목적.<br>- 빈도표<br>- 기술 통계량|**Multi-Non Graphic** : 주어진 둘 이상의 변수 간 관계 확인이 주목적.<br>- 교차표<br>- 상관계수|
|시각화|**Uni-Graphic** : 주어진 데이터를 전체적으로 살펴보는 것이 주목적.<br>- 파이차트<br>- 막대그래프<br>- 히스토그램<br>- 박스플롯 | **Multi-Graphic** : 주어진 둘 이상의 변수 간 관계를 전체적으로 살펴보는 것이 주목적.<br>- 모자이크플롯<br>- 박스플롯<br>- 평행좌표<br>- 산점도|

----

## 2. 데이터 확인

### 데이터 읽기/쓰기

- 작업공간에 데이터를 불러오는 것이 읽기, 새로운 데이터를 만드는 것이 쓰기.

#### (1) 절대경로와 상대경로

- 절대경로 : root 폴더부터 시작해서 목적지까지의 전체적인 경로(URL)
- 상대경로 : 현재 디렉터리 기준으로 상대적으로 표현되는 경로
    - `./` : 현재 디렉터리
    - `../` : 상위 디렉터리
    - `/` : 루트 디렉터리
    - `이름` : 하위 디렉터리

#### (2) 데이터 입출력

데이터 파일 형식(CSV, JSON, HTML, ...)에 따라 Reader, Writer 함수가 다름.

- `read_형식`, `to_형식`

#### (3) CSV와 EXCEL

- CSV(comma separated value) 파일 : 데이터를 쉼표로 구분하고 있는 텍스트 파일.
    - 데이터 크기가 작고 압축이 용이하므로 가장 널리 사용되는 데이터 형식.
    - `pd.read_csv("파일경로(이름).csv")
- EXCEL 파일 : 행, 열이 데이터프레임의 행, 열로 일대일 대응.
    - 여러 개의 시트로 구성된 데이터를 읽을 때 불러올 특정 시트 설정 가능.
        - `sheet_name = 'Sheet 2'
    - 여러 시트를 불러올 때는 리스트로 받으면 됨.
    - `pd.read_excel('파일경로(이름).xlsx', sheet_name='불러올 시트')
    
> 두 형식 모두 판다스를 통해 DataFrame 형식으로 읽어올 수 있음.

### 데이터셋 파악하기

#### (1) 데이터 프레임 보기

- `head(n)`

#### (2) 데이터 변수 확인

> 변수 = 데이터 프레임의 column = feature

확인할 것들:

- 변수 정의 : 어떤 정보를 가지는 변수인지
- 변수 유형 : Categorical Data와 Numerical Data로 구분, Numerical 중 트렌드가 보이면 연속형, 없으면 이산형으로 구분.
- 변수 데이터 형식 : 날짜, 수치, 텍스트, 이미지 등

데이터의 종류:

|범주형(Categorical) : 몇 개의 범주로 나누어진 데이터.<br>명목형, 순서형 |수치형(Numerical) : 숫자로 표현되는 데이터.<br>이산형, 연속형|
|:--|:--|
|명목형(Nominal) : 순서 없이 단순히 분류된 자료.<br>ex) 성별, 성공여부, 혈액형|이산형(Discrete) : 이산적인 값. 정수 단위로 떨어져 셀 수 있는 데이터.|
|순서형(Ordinal) : 순서 관계가 존재하는 자료.<br>ex) 승객 등급|연속형(Continuous) : 연속적인 값을 갖는 데이터.<br>ex) 신장, 체중|

판다스의 자료형 종류: 

|판다스 자료형|파이썬 자료형|설명|
|:--|:--|:--|
|int64|int|정수형 데이터|
|float64|float|실수형 데이터|
|object|string|문자열 데이터|
|datime64, timedelta64|없음(datetime 라이브러리 활용)|시간 데이터|

#### (3) 데이터 분포 확인

단변수 분석은 원시 데이터(raw data)의 평균값, 중간값 등 변수들의 분포를 산포도, 박스플롯, 히스토그램 등 그래프를 통해 하나의 데이터 분포를 확인, 분석하는 방법. 이를 통해 전처리 아이디어를 얻을 수 있음. (시각화 참고)

## 3. 전처리

- 데이터 전처리 : 모델링을 위해 데이터를 적절한 방식으로 손질하는 과정.
    - 머신러닝 등 데이터 분석의 정확도는 데이터의 품질에 의해 좌우됨.
    - 품질 향상을 위해 누락 데이터, 중복 데이터 등 오류 수정, 분석 목적에 맞게 변형하는 것이 중요.

### 결측값 처리

- **결측값** : 데이터 수집 과정에서 측정되지 않거나 누락된 데이터.
    - 데이터프레임 상에서 NaN, ?, 0 등의 값으로 나타나 있음
    - 결측값이 있는 상테로 모델링을 하면 변수 간 관계 왜곡으로 인해 모델의 정확성 하락 가능성 있음.
    
#### (1) 결측값 확인

관련 판다스 함수들 :

- `info()` : 데이터프레임의 요약 정보 출력. (각 열의 유효값(non-null, 즉 NaN이 아닌) 개수 보여줌)
- `value_counts(dropna=False)` : 각 열의 결측값을 포함한 전체 데이터 확인
- `isnull()` : 누락 데이터면 True, 유효 데이터면 False 반환
    - `df.isnull().sum()`으로 자주 사용
- `notnull()` : 유효 데이터면 True, 누락 데이터면 False 반환
- `replace()` : 결측값이 `0`, `?` 등으로 입력되었을 경우 이를 사용해 NaN으로 변환


#### (2) 결측값 처리

- 삭제 : 데이터가 있는 행 또는 열 삭제.
    - `dropna()` : 데이터프레임 내 결측값 포함 레이블 제거 메소드.
        - `DataFrame.dropna(axis=0/1, how='any'/'all', subset=[col1, col2, ...], inplace=True/False)`
    - 행 삭제와 열 삭제
        - 행 삭제 : 분석 대상의 관측값(레코드) 제거
        - 열 삭제 : 분석 대상의 특성(변수) 삭제
    - 전체 삭제와 부분 삭제
        - 전체 삭제 : 결측값 발생한 모든 관측치 삭제. 간편하나 모델의 유효성 감소 가능성 있음.
        - 부분 삭제 : 데이터 중 모델에 포함시킬 변수들 중 결측값이 발생한 모든 관측치 삭제. 모델에 따라 변수가 다르므로 관리 비용이 증가.
    - 삭제 시 주의사항 : 결측값이 무작위로 발생한 경우에만 사용해야 함.
    
- 대체 : 결측값을 평균값, 최빈값 등으로 대체
    - 일괄 대체 : 모든 변수들 일괄적으로 같은 값으로 대체
    - 유사 유형 대체 : 범주형 변수들을 활용, 유사한 범주에 따라 다른 값으로 대체
    - `fillna()` 사용.
    
일괄 대체:
```python
a = df["열1"].mean(axis=0)
df["열1"].fillna(a, inplace=True) # 원본객체 변경 시 inplace=True
```

유사 유형 대체:
```python
# 범주별로 그룹화하여 평균값 계산
category_means = df.groupby('Category')['Value'].mean()
df['Value'] = df.groupby('Category')['Value'].apply(lambda x: x.fillna(x.mean()))
```

참고) 서로 이웃하고 있는 값으로 치환:
```python
# NaN이 바로 직전 행에 있는 값
df["열2"].fillna(method="ffill", inplace=True)

# NaN이 바로 다음 행에 있는 값
df["열3"].fillna(method="bfill", inplace=True).
```

### 이상치 처리

- **이상치(outlier)** : 관측된 데이터의 범위에서 극단적으로 벗어난 값.
    - 처리하지 않으면 분석에 큰 영향을 끼치므로 적절한 처리 필요.
    
#### (1) 이상치 확인

- 통계를 통해 확인 - `describe()`
- 시각화를 통해 확인 - 박스플롯
- Z-score 통해 확인 : 해당 데이터가 평균으로부터 얼마의 표준 편차만큼 벗어나 있는지
    - Z값이 음수면 평균 이하, 양수면 평균 이상.
    - 데이터가 정규 분포를 따른다면 이상치 판단 기준이 될 수 있음.
- Tukey Fences를 통해 확인 : IQR을 기반으로, Q1-(1.5\*IQR) 미만이거나 Q3+(1.5\*IQR) 초과이면 이상치로 판단.

#### (2) 이상치 제거

- 전체 삭제
    - 이상치가 human error에 의해 발생한 경우 해당 관측치를 삭제.
    - 단순 오타, 주관식 설문 등의 비현실적 응답, 처리 과정에서의 오류 등 경우
- 다른 값으로 대체
    - 절대적인 관측치 숫자가 작은 경우, 단순 삭제 시 신뢰성 문제 발생.
    - 이런 경우 이상치가 human error에 의한 것이라도 평균 등으로 대체하거나 예측 모델을 만들고 그 값으로 대체할 수도.
- 변수화
    - 이상치가 자연발생한 경우, 단순 삭제 및 대체는 현상 설명 못하는 모델 만들 수도.
    - 이 경우 바로 삭제 x, 천천히 이상값에 대해 파악.
- 리샘플링
    - 자연발생 이상치 처리하는 다른 방법. 이상값을 분리해서 모델을 만드는 것.
    - 이상값 포함 모델, 제외 모델 모두 만들고 설명하는 것 등도 가능.
    - 즉 자연발생 이상값에 별 특이점이 없다면 단순 제외 보다는 케이스 분리 후 분석을 추천.

### 피처 엔지니어링 (변수 가공)

- **피처 엔지니어링**(=변수 가공) : 해결하려는 문제를 컴퓨터가 잘 이해할 수 있도록 피처(feature, 변수)들의 형태를 변형하거나 적절히 처리하는 과정.
    - 도메인 지식, 기존 변수를 사용해 기존 데이터에 정보 추가하는 일련의 과정.
    - 전처리 마지막 단계. 새 데이터나 변수 추가 없이 기존의 데이터를 보다 유용하게 만드는 방법.
    - 도메인 지식 여부의 영향을 받음.

> 피처(feature) = 입력 변수 = 컬럼

방식:

1. 레이블인코딩, 원핫인코딩 : 텍스트로 주어지는 값을 숫자로 바꾸는 작업
2. 구간화(binning) : 연속적인 값을 일정한 구간으로 구분
3. 변환 : 기존의 피처를 변환해 새로운 피처 생성.
4. 스케일링 : 서로 다른 변수의 값 범위를 일정 수준으로 맞추는 작업.

#### (1) 레이블인코딩(Label Encoding) vs. 원핫인코딩(One-hot Encoding)

- Label Encoding : 범주형 변수를 0부터 N-1까지의 숫자로 변환
- One-hot Encoding : 범주형 변수를 이진 벡터로 변환

`pd.get_dummies(데이터프레임, column=[컬럼리스트])`

#### (2) 구간화(binning)

- 연속 데이터를 그대로 사용하지 않고 일정한 구간으로 나눠 분석하는 것이 효율적인 경우 있음.
    - 이산적인 값으로 나타내 구간별 차이 드러냄.
    - 도메인 지식 최대한 활용해 수행하기.
    
`pd.cut(df['col'], bins=[나누는기준리스트], labels=[지정할라벨])`

#### (3) 변환

- 기존 피처를 다른 피처로 변환해 변수 추가
- 기존 데이터의 특성 / 다른 정보 이용해 다른 데이터로 변환 및 분석 위함.
- ex) 검수일자 -> 검수요일

#### (4) 스케일링

- 숫자의 상대적인 크기 차로 인한 결과 왜곡 방지를 위함.
- 정규화(Normalization) 수행 - 각 변수(컬럼)에 속하는 데이터 값을 동일 크기 기준으로 나눈 비율로 나타냄

1. StandardScaler(표준화) : 각 피처의 평균을 0, 분산을 1로 변경해 변수들이 모두 같은 스케일을 갖게 함. 
    - 정규분포 따른다는 가정 있는 경우 적합.
    - `StandardScaler()`
2. MinMaxScaler : 모든 피처가 0과 1 사이에 위치하게 만듦. 
    - 데이터가 서로 다른 비율의 속성으로 구성되어 있는 경우 같은 비율로 속성 맞춤. 
    - 연산 속도 향상, 알고리즘 최적화에 효과적.
    - `MinMaxScaler()`

## 4. 시각화

- **시각화(Visualization)** : 데이터, 정보를 시각적인 형태로 표현하는 과정 / 결과물.
    - 데이터 패턴, 관계, 추세 등 쉽게 파악 가능.
    - 주로 Matplotlib, Seaborn 사용.
    - Matplotlib - 파이썬 언어 및 넘파이 라이브러리 활용한 플로팅(그래프 그리기 위한) 라이브러리
    - Seaborn - matplotlib 기반의 통계 데이터 시각화 라이브러리

시각화 전 데이터 유형과 결측값, 이상치 여부 확인해야 함.

### 파라미터

- **매개변수(parameter)** : 프로그래밍된 함수의 입력값.
    - `키워드=인자` 형식으로 전달
    - `hue` 파라미터 : 성별 등 범주형 변수를 넣어 원하는 변수 기준으로 데이터 구분해 그래프에 표시 가능.

### 다양한 그래프 톺아보기

#### (1) boxplot(상자 수염 그림)

- 사분위수, 이상치를 보여줌

#### (2) countplot, histplot

- countplot : 범주형 변수의 빈도수 확인 그래프.
- histplot : 도수분포표를 그래프로 나타낸 것. 수치형 변수의 구간별 빈도수 보여줌.

#### (3) displot, kdeplot(커널밀도추정 그래프)

- 히스토그램을 연속적으로 곡선으로 연결한 그래프.
- `kde` 파라미터에 True값 넣어 곡선 표현.

#### (4) barplot, pointplot

- barplot : 범주형 데이터값 x에 따른 수치형 데이터값 y의 평균 값 제공.
- pointplot : 막대 그래프와 모양만 다르고 동일한 정보 제공.

#### (5) scatterplot(산점도 그래프), regplot(회귀선 추가된 산점도 그래프)

- scatterplot : 두 변수 간의 관계 시각화 위해 사용되는 그래프 유형
    - 각 데이터 포인트는 두 변수 값을 나타내며, x축, y축에 데이터 포인트를 분산하여 그림.
    - 이를 통해 변수 간 패터, 상관관계, 분포 등을 파악 가능.
- regplot : 두 연속 변수 사이 산점도 그리고 회귀선 함께 나타냄.

#### (6) catplot 

- categoryplot의 준말. 수치형 데이터와 범주형 데이터의 관계 확인에 사용.

#### (7) pieplot

- 데이터 부분 - 전체 비율 표현하는 그래프. 
- 비율 강조 위해 사용.
- 모든 데이터 합쳐 전체 이루는 경우 효과적.

#### (8) heatmap

- 변수간 상관계수 직관적으로 확인 가능.
- `corr()` 메서드로 변수 간 상관계수 구하고 히트맵에 표현.
    - **상관계수** : 두 수치형 변수 간 상관 관계의 정도를 수치적으로 나타낸 계수. 두 변수 간 영향을 주는 정도를 나타냄. 
        - -1과 1 사이의 값을 가짐.
        - 절댓값이 1에 가까울수록 큰 상관관계를 가짐.

#### (9) violinplot

- 박스플롯과 커널밀도추정함수 그래프를 합친 그래프.

#### (10) pairplot - 여러 그래프 한번에 찍기

- 여러 변수 간 산점도를 한번에 보여주는 그래프.