# 0.데이터 분석 프로세스

## 데이터 수집
다양한 형식의 **데이터를 수집**합니다.

## 데이터 탐색(EDA)
수집한 **데이터를 여러 가지 방식으로 파악**합니다. 요리로 비유하자면, 앞 단계에서 모은 재료(데이터)들의 맛이나 특성을 파악하는 단계라고 할 수 있습니다. 사실 이 단계는 딱 하나의 단계라고 말하기에는 조금 애매합니다. 데이터 전처리를 수행하기 전후에, 또 데이터 분석을 수행하면서 계속 데이터에 대한 탐색이 이루어지기 때문입니다.

## 데이터 전처리
데이터 분석(모델링)을 위해 **데이터를 적절한 방식으로 손질**하는 과정을 데이터 전처리라고 합니다. 데이터에 결측치(값 없음)가 있거나 이상치(너무 튀는 값)가 있으면 이를 적절히 처리해주어야 데이터의 왜곡을 피할 수 있습니다.

## 데이터 모델링
데이터로부터 **유용한 정보를 추출하기 위해 모델을 구축**하는 단계: 예측, 분류, 군집 등의 목적에 따라 모델을 선택하고 학습시키는 과정을 의미합니다. 비유하자면, 완성된 요리를 만드는 과정입니다.

- **EDA**: 데이터를 여러 가지 방식으로 파악하는 과정
- **전처리**: 데이터를 적절한 방식으로 손질하는 과정

---

# 1. EDA의 개념
데이터 분석(모델링)을 위해 데이터를 **여러 가지 방식으로 파악하는 모든 과정**을 EDA라고 합니다.

### EDA
- 시각화 같은 도구를 통해서 패턴을 발견하거나
- 데이터의 특이성을 확인하거나
- 통계와 그래프(혹은 시각적 표현)으로 가설을 검정하는 과정 등을 통해

**주어진 데이터에 대해 알아보는 것**을 EDA라고 한다.

EDA는 Exploratory Data Analysis의 약자로, **탐색적 데이터 분석 과정**을 일컫는 말. 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 ‘탐색과 이해’를 기본으로 가져야 한다는 것을 의미합니다. EDA 과정에서 데이터를 잘못 해석하고, 문제를 올바르게 정의하지 못한다면 향후 분석 과정에서 큰 난항을 겪게 되므로, EDA는 매우 중요한 단계입니다.

## (1) EDA 대상 (일변량/다변량)

### **Univariate(일변량)**
EDA를 통해 한 번에 파악하려는 **변수가 한 개**.
**데이터를 설명**하고 그 안에 **존재하는 패턴을 찾는 것**이 주요 목적.

### **Multi-variate(다변량)**
EDA를 통해 한 번에 파악하려는 **변수가 여러 개**.
**여러 변수들 간의 관계**를 보는 것이 주요 목적.


## (2) EDA 종류 (시각화/비시각화)

### **Graphic(시각화)**
차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법. 아래에서 더 자세히 다룰 예정.

### **Non-Graphic(비시각화)**
그래픽적인 요소를 사용하지 않고 주로 Summary Statistics를 통해 데이터를 확인하는 방법.

→ 데이터를 그래프로 표현하게 되면 한눈에 데이터를 파악할 수 있으므로 graphic한 EDA를 통해 대략적인 형태를 파악할 수 있다. 반면에 정확한 값이 필요하다면 non-graphic한 EDA를 통해 파악할 수 있을 것이다.

## (3) EDA 유형

EDA 대상과 종류에 따라 EDA 유형이 구분됩니다.

- **Uni-Non Graphic(일변량 비시각화) :** 주어진 데이터의 Distribution을 확인하는 것이 주목적.
- **Uni-Graphic(일변량 시각화)** : 주어진 데이터를 전체적으로 살펴보는 것이 주목적.
- **Multi-Non Graphic(다변량 비시각화)** : 주어진 둘 이상의 변수 간 관계를 확인하는 것이 주목적.
- **Multi-Graphic(다변량 시각화)** : 주어진 둘 이상의 변수 간 관계를 전체적으로 살펴보는 것이 주목적.

# 2. 데이터 확인

## 데이터 읽기/쓰기

### 절대경로와 상대경로
- **절대 경로**: 처음(root 파일)부터 시작하여 목적지까지 전체 경로를 표시
  - 예) `C:\Users\사용자 이름\OneDrive\Desktop`
  - 코드 예시:
    ```python
    pd.read_csv('/Users/ldbzoey/경로/titanic.csv')
    ```
- **상대 경로**: 현재 작업 중인 디렉터리를 기준으로 상대적으로 경로를 표현
  - 예) `./` : 현재 디렉터리, `../` : 상위 디렉터리
  - 코드 예시:
    ```python
    pd.read_csv('./titanic.csv')
    ```

### 데이터 입출력
| File Format | Reader | Writer |
| --- | --- | --- |
| CSV | `read_csv` | `to_csv` |
| JSON | `read_json` | `to_json` |
| HTML | `read_html` | `to_html` |
| MS EXCEL | `read_excel` | `to_excel` |
| SQL | `read_sql` | `to_sql` |

**주로 다루는 형식**: CSV, EXCEL

### CSV와 EXCEL
- **CSV 파일**: 쉼표로 구분된 텍스트 파일
  - 코드 예시:
    ```python
    pd.read_csv("파일경로/파일이름.csv")
    ```
- **EXCEL 파일**: 여러 시트를 불러올 수 있는 엑셀 파일
  - 코드 예시:
    ```python
    pd.read_excel('파일경로/파일이름.xlsx', sheet_name='시트명')
    ```
## 데이터셋 파악하기

### 데이터 프레임 보기
- `head(n)` : 상위 n개 데이터 보여주기

### 데이터 변수 확인
- **변수 = 데이터 프레임의 column**
- **변수 유형**: 질적·범주형(Categorical), 양적·수치형(Numerical)

### 타이타닉 데이터셋 변수 정의
- `survived`: 생존 여부
- `pclass`: 승객 등급
- `name`: 승객 이름
- `sex`: 승객 성별
- `age`: 승객 나이
- `sibsp`: 동승한 형제 또는 배우자 수
- `parch`: 동승한 부모 또는 자녀 수
- `ticket`: 티켓 번호
- `fare`: 승객 지불 요금
- `cabin`: 선실 이름
- `embarked`: 승선항 (C, Q, S)

### 타이타닉 데이터셋 변수 유형
| 범주형(Categorical) | 수치형(Numerical) |
| --- | --- |
| **명목형(Nominal)**: 성별, 생존여부 등 | **이산형(Discrete)**: sibsp, parch |
| **순서형(Ordinal)**: 승객 등급(Pclass) | **연속형(Continuous)**: fare, age |

### 타이타닉 데이터셋 변수 데이터 형식
- **int64**: 정수형
- **float64**: 실수형
- **object**: 문자열
- **datetime64**: 시간형 데이터

### 데이터 분포 확인
- 단변수 분석: 평균, 최빈값, 중간값 등의 분포를 히스토그램, 박스 플롯, 산포도를 통해 확인


# 3. 데이터 전처리

데이터 분석(모델링)을 위해 데이터를 적절한 방식으로 손질하는 과정을 데이터 전처리라고 합니다. 데이터 분석의 정확도는 데이터의 품질에 의해 좌우되므로, 결측값, 이상치, 중복 데이터 등을 처리하고 데이터를 분석 목적에 맞게 변형하는 과정이 중요합니다.

## 결측값 처리

결측값이란 데이터 수집 과정에서 측정되지 않거나 누락된 데이터를 의미합니다. 결측값이 존재하는 상태에서 분석을 진행하면 변수 간의 관계가 왜곡될 수 있으며, 모델의 정확성에도 영향을 미칠 수 있습니다.

### 3-1. 결측값 확인

- `info()` : 데이터프레임의 각 열에 속하는 유효한 값(Non-null)의 개수를 보여줌
- `isnull()` : 결측값이 있는지 확인
- `notnull()` : 결측값이 아닌지 확인
- `value_counts(dropna=False)` : 결측값 포함 전체 데이터 확인

### 3-2. 결측값 처리 방법

#### 1) 삭제

`dropna()` : 결측값이 있는 행 또는 열을 삭제

예시:

```python
df.dropna(axis=0, how='any', subset=['A', 'B'], inplace=True)

### 2) 대체

`fillna()` : 결측값을 다른 값으로 대체

- **일괄 대체**: 평균값, 최빈값 등을 이용하여 대체
- **유사 유형 대체**: 범주형 변수의 평균값으로 대체

예시:

```python
df["열1"].fillna(df["열1"].mean(), inplace=True)

## 이상치 처리

이상치는 관측된 데이터의 범위를 많이 벗어난 값으로, 모델의 성능에 큰 영향을 줄 수 있습니다.

### 3-1. 이상치 확인

- **describe()** : 통계적 요약을 통해 이상치를 발견
- **BoxPlot** : 시각화를 통해 이상치를 확인
- **Z-score** : 평균(0)과 표준편차(1)로 정규화하여 이상치를 확인
- **Tukey Fences** : IQR을 기반으로 이상치 판단

```python
for i in df.describe().columns:
    df[[i]].boxplot()
    plt.show()

### 3-2. 이상치 제거

### 1) 전체 삭제
- 이상값이 **Human error**로 발생한 경우 삭제
- 예: 오타, 비현실적인 응답, 데이터 처리 오류 등

### 2) 다른 값으로 대체
- 이상값을 삭제하면 신뢰성 문제 발생 시 **평균값 등으로 대체**
- 예측 모델을 통해 이상값을 **예측**하고 대체 가능

### 3) 변수화
- 이상값이 **자연 발생**한 경우 삭제하지 않고 모델에 포함
- 예시: **경력과 연봉**의 관계에서, 5년차 연봉이 이상치일 수 있지만 전문직인 경우 모델에 포함

### 4) 리샘플링
- 자연발생한 이상값을 **분리**하여 모델 생성
- 예시: **15년 경력 이상자**의 연봉이 비례하지 않음
  - 경력과 연봉 모두에서 이상치로 분리하여 분석

# 피처 엔지니어링 (변수 가공)
 **피처 엔지니어링**은 데이터를 컴퓨터가 잘 이해할 수 있도록 변수의 형태를 변형하거나 적절히 처리하는 과정입니다. 도메인 지식과 기존의 변수를 사용하여 데이터에 정보를 추가하는 작업으로, **데이터 전처리의 마지막 단계**입니다.

## 피처 엔지니어링 방식

1. **레이블인코딩(Label Encoding) & 원핫인코딩(One-Hot Encoding)**
   - **Label Encoding**: 범주형 변수를 0부터 N-1까지의 숫자로 변환
   - **One-Hot Encoding**: 범주형 변수를 이진 벡터(0과 1)로 변환

    `pd.get_dummies(데이터프레임, columns=[컬럼 리스트])` 

2. **구간화 (Binning)**
   - 연속 데이터를 일정한 구간으로 나누어 이산적인 값으로 나타내어 분석

    `pd.cut(데이터프레임['컬럼명'], bins=[나누는 기준 리스트], labels=[지정할 label])`

3. **변환**
   - 기존의 피처를 다른 피처로 변환하여 데이터를 추가하는 작업
   - 예시: 날짜 데이터를 '검수요일'로 변환

4. **스케일링**
   - 서로 다른 변수의 값 범위를 일정 수준으로 맞추는 작업
   - **StandardScaler**: 평균을 0, 분산을 1로 변환
   - **MinMaxScaler**: 모든 feature가 0과 1 사이에 위치하도록 변환

    `StandardScaler()`, `MinMaxScaler()`

### 스케일러 종류
1. **StandardScaler**
   - 각 feature의 평균을 0, 분산을 1로 변경하여, 피처들이 같은 스케일을 갖게 만듦

2. **MinMaxScaler**
   - 모든 feature가 0과 1 사이에 위치하도록 변환

### 참고
- **변수 변환**: 변수의 단위를 변경하거나 분포가 편향된 경우 변환 작업 필요
- **자주 사용하는 변환 방법**: Log 함수, 제곱근(Square Root) 변환


# 4.데이터 시각화

**시각화(Visualization)**는 데이터를 시각적 형태로 표현하여 패턴, 관계, 추세 등을 쉽게 파악할 수 있게 도와줍니다. 이를 위해 **Matplotlib**과 **Seaborn** 라이브러리를 주로 사용합니다. 

- **Matplotlib**: 그래프를 그리기 위한 파이썬 라이브러리
- **Seaborn**: Matplotlib을 기반으로 한 고급 통계 시각화 라이브러리

## 시각화 전 준비사항

1. 데이터가 **범주형**인지 **수치형**인지 파악하기
2. 결측값 및 이상치 확인
3. 데이터 특성에 맞는 적절한 그래프 선택

## 주요 그래프 유형

### 1. **Boxplot (상자 수염 그림)**

Boxplot은 **사분위수**와 **이상치**를 보여주는 그래프입니다. 분포를 간단히 표현하고 이상치를 확인하는 데 유용합니다.

```python
sns.boxplot(x="category", y="value", data=data)


## 2. Countplot
Countplot은 범주형 변수의 빈도를 시각화합니다. 범주형 변수의 분포를 확인하는 데 사용됩니다.

```python
sns.countplot(x="category", data=data)

## 3. Histplot (히스토그램)
Histplot은 수치형 변수의 구간별 빈도수를 나타내는 그래프입니다.

```python
sns.histplot(data, bins=20)

## 4. Displot, KDEplot (커널 밀도 추정 그래프)
Displot과 KDEplot은 히스토그램을 연속적인 곡선으로 표현합니다.

```python
sns.displot(data, kde=True)
sns.kdeplot(data)

## 5. Barplot
Barplot은 범주형 데이터 값 x에 따른 수치형 데이터 값 y의 평균을 보여주는 그래프입니다.

```python
sns.barplot(x="category", y="value", data=data)

## 6. Pointplot
Pointplot은 Barplot과 모양만 다르고 동일한 정보를 제공합니다.

```python
sns.pointplot(x="category", y="value", data=data)

## 7. Scatterplot
Scatterplot은 두 변수 간의 관계를 시각화합니다. 각 데이터 포인트는 두 변수의 값을 나타냅니다.

```python
sns.scatterplot(x="var1", y="var2", data=data)

## 8. Regplot (회귀선이 추가된 산점도)
Regplot은 산점도 위에 회귀선을 추가한 그래프입니다.
    
```python
sns.regplot(x="var1", y="var2", data=data)

## 9. Catplot
Catplot은 수치형 데이터와 범주형 데이터의 관계를 보여주는 그래프입니다. 다양한 형태로 결과를 시각화할 수 있습니다.
    
```python
sns.catplot(x="category", y="value", kind="box", data=data)

## 10. Pieplot (파이 차트)
Pieplot은 데이터의 부분과 전체 간의 비율을 표현합니다. 각 부분의 비율을 강조할 때 유용합니다.

```python
sns.pie(data, labels=["A", "B", "C"], autopct='%1.1f%%')

## 11. Heatmap
Heatmap은 변수 간의 상관 관계를 시각적으로 나타낸 그래프입니다. 변수 간의 관계를 직관적으로 볼 수 있습니다.

```python
sns.heatmap(df.corr(), annot=True)

## 12. Violinplot (바이올린 플롯)
Violinplot은 박스 플롯과 커널 밀도 추정 그래프를 결합하여 데이터의 분포를 더 정확하게 시각화합니다.
    
```python
sns.violinplot(x="category", y="value", data=data)

## 13. Pairplot
Pairplot은 여러 변수 간의 산점도를 한번에 보여주는 그래프입니다. 변수 간 관계를 종합적으로 파악할 수 있습니다.
    
```python
sns.pairplot(data)