# 0. 데이터 분석 프로세스

### 데이터 수집
:다양한 형식의 데이터를 수집

### 데이터 탐색(EDA)
: 전처리를 수행하기 전, 수집한 데이터를 여러가지 방식으로 파악

### 데이터 전처리
: 분석(모델링)을 위해 데이터를 적절하게 손질. 결측치 or 이상치를 처리 등을 수행.

### 데이터 모델
: 유용한 정보를 추출하기 위해 모델을 구축

# 1. EDA의 개념

### 1.1 EDA 대상 (일변량/다변량)
- **Univariate (일변량)**
  - 하나의 변수를 살펴봄
- **Multi-variate (다변량)**
  - 여러 변수간의 관계 파악
  - 변수 동시에 확인하기 전에, 개별 데이터 먼저 파악하는 것이 오류 대처에 용이

### 1.2 EDA 종류 (시각화/비시각화)
- **Graphic (시각화)**
  - 차트 혹은 그림 등을 통해 데이터 확인
  - 한눈에 대략적인 형태 파악 가능
- **Non-Graphic (비시각화)**
  - Summary Statistics를 통해 데이터 확인
  - 정학한 값을 파악할 때 주로 사용

### 1.3 EDA 유형
- **Uni-Non Graphic (일변량 비시각화)**
  - 빈도표/기술 통계량
  - Distribution 확인이 주목적
- **Uni-Graphic (일변량 시각화)**
  - 파이차트/막대그래프/히스토그램/박스플롯
  - 전체적인 데이터 파악이 주목적
- **Multi-Non Graphic (다변량 비시각화)**
  - 교차표/상관계수
  - 변수 간 관계 확인이 주목적
- **Multi-Graphic (다변량 시각화)**
  - 모자이크플롯/박스플롯/평행좌표/산점도
  - 전체적으로 변수 간 관계 파악이 주목적


# 2. 데이터 확인

### 2.1 데이터 읽기/쓰기
- 읽기: 데이터 불러오기
- 쓰기: 데이터 만들기

#### 2.1.1 절대경로와 상대경로
- 절대경로
  - 처음(root 파일)부터 목적지까지 전체적인 경로(URL) 표현
  - `pd.read_csv('C:/Users/문선아/OneDrive/Desktop)`
- 상대경로
  - 현재 작업하고 있는 디렉터리를 기준으로 표현
  - `./`: 현재 디렉터리
  - `../`: 상위 디렉터리
  - `/`: 최상위(루트) 디렉터리
  - `pd.read_csv('./titanic.csv')`
  
#### 2.1.2 데이터 입출력

File Format|Reader|Writer
---|---|---
**CSV**|`read_csv`|`to_csv`
JSON|`read_json`|`to_json`
HTML|`read_html`|`to_html`
**MS EXCEL**|`read_excel`|`to_excel`
SQL|`read_sql`|`to_sql`

#### 2.1.3 CSV와 EXCEL
- CSV 파일
  - 쉼표로 구분되는 텍스트 파일로, 가장 널리 사용됨
  - `pd.read_csv('파일경로/파일이름.csv')`
- EXCEL 파일
  - 행과 열이 데이터프레임의 행, 열로 일대일 대응
  - `pd.read_excel('파일경로/파일이름.xlsx', sheet_name='불러올 시트')`
  - `pd.read_excel('파일경로/파일이름.xlsx', sheet_name=['불러올 시트1', '불러올 시트2'])`

--> 두 형식 모두 pandas를 통해 DataFrame 형식으로 읽어올 수 있음

### 2.2 데이터셋 파악하기
#### 2.2.1 데이터 프레임 보기
`head(n)`: 상위 n개의 데이터 확인
#### 2.2.2 데이터 변수 확인
- 범주형: 범주로 나뉘어진 데이터
  - 명목형: 순서 없이 단순히 분류되는 데이터/성별, 혈액형 등
  - 순서형: 순서 관계가 존재하는 데이터/학점, 등
- 수치형: 숫자로 표현되는 데이터
  - 이산형: 이산적인 값, 정수 단위로 떨어짐/ 뉴스레터 발행건수, 구독자 수 등
  - 연속형: 연속적인 값을 갖는 데이터/체중, 신장 등
#### 2.2.3 데이터 분포 확인
원시 데이터(raw data) 분포 확인을 통해 전처리 아이디어를 얻을 수 있음

# 3. 전처리

### 3.1 결측값 처리
결측값: 측정되지 않거나, 누락된 데이터
#### 3.1.1 결측값 확인
- `NaN`, `?`, `0` 등으로 표현된 결측값을 확인
- `info()`: 각 열의 유효값 개수 확인 가능
- `value_counts(dropna=Fasle)`: 결측값을 포함한 각 열의 전체 데이터 확인 가능
- `isnull()`: 누락 데이터->True / 유효한 데이터->False

  -> `df.isnull().sum()`의 형식으로 자주 사용
- `notnull()`: 유효 데이터->True / 누락 데이터->False
- `replace()`: `0`이나 `?`의 결측값을 `NaN`으로 변환 가능

#### 3.1.2 결측값 처리
**삭제**

`dropna`: DataFrame내의 결측값 포함된 레이블 제거하는 매서드
```python
DataFrame.dropna(axis=0/1, how='any'/'all', subset=[col1, col2, ...], inplace=True/False)
```
- 삭제 기준
  - `axis = 0`: 결측값 있는 **행** 삭제
  - `axis = 1`: 결측값 있는 **열** 삭제
- 삭제 조건
  - `how = 'any'`: 결측값 하나라도 있으면 삭제 << default 값
  - `how = ''all`: 모든 값이 결측값일 때만 삭제
- 특정 열 기준으로 삭제: `subset = ['column']`
  - `axis=0`(행삭제)일 때만 가능
- 원본 데이터 변경 여부
  - `inplace = False`: 수정 내용을 새로운 DataFrame으로 반환 << default 
  - `inplace = True`: 원본 DataFrame 자체를 변경해서 반영

**대체**

`fillna()`: 결측값 대체

평균값, 최빈값 등을 활용

- 일괄 대체
  - 모든 결측값을 같은 값으로 대체
    ```
    # 평균값으로 일괄 대체
    a = df['col1'].mean(axis = 0)
    df['col1'].fillna(a, inplace = True)

    
    ```
- 유사유형 대체
  - 유사한 범주에 따라 다른 값으로 대체
    ```
    category_means = df.groupby('Category')['Value'].mean()
    df['Value'] = df.groupby('Category')['Value'].apply(lambda x: x.fillna(x.mean()))
    ```

### 3.2 이상치 처리
이상치: 데이터 범위에서 많이 벗어난 값

#### 3.2.1 이상치 확인
- **통계**를 통해 확인: `describe()`
- 시각화를 통해 확인: Boxplot
  ```
  for i in df.describe().columns:
      df[[i]].boxplot()
      plt.show()
  ```
- **Z-score**을 통해 확인
  - 데이터를 평균->0, 표준편차->1로 정규화하여 평균으로부터 얼마나 떨어져 있는지 확인
  - z-score가 특정 기준값(보통 2~3)을 넘어가는 데이터 -> 이상치로 간주
- **Tukey Fences**을 통해 확인: 사분위 범위(IQR)기반
  - `Q1 - (1.5 * IQR) 미만` or `Q3 + (1.5 * IQR) 초과` 일때 이상치로 간주
  - IQR: 데이터의 상위 25%와 하위 25%를 제외한 중간 범위/`Q3-Q1`
  
#### 3.2.2 이상치 제거
- 전체삭제
  - Human error에 의해 발생한 이상치일 때 사용
- 다른 값으로 대체
  - 관측치의 절대량이 작은 경우, 이상치 단순 삭제를 하면 신뢰성 문제가 발생
    -> 관측치를 다른 값(평균 등)으로 대체하거나, 이상값을 예측한 후 해당 값으로 대체 가능
- 변수화
  - 이상치가 자연발생한 경우 사용
  - 이상값에 대해 파악한 후, 변수화 과정을 거쳐 이상값을 삭제하는 것이 아니라 모델에 포함
- 리샘플링
  - 이상치가 자연발생한 경우 사용
  - 이상값에 별다른 특이점이 없다면, 이상값을 포함한 모델과 제외한 모델을 따로 생성


### 3.3 피처 엔지니어링 (변수 가공)
: 피쳐들의 형태를 변형하거나 적절하게 처리하는 과정/기존의 데이터에 정보를 추가

*피쳐(feature) = 입력 변수 = column

#### 3.3.1 레이블인코딩(Label Encoding) vs 원핫인코딩(One-hot Encoding)
- 텍스트로 주어진 값 -> 숫자로 변경
- Label Encoding
  - 범주형 변수를 0 ~ N-1까지 숫자로 변환
- One-Hot Encoding
  - 범주형 변수를 이진벡터(0과 1)로 변환
  - `pd.get_dummies(데이터프레임, columns = [컬럼 리스트])`

#### 3.3.2 구간화 (binning)
- 연속적인 값을 일정한 구간으로 구분
- EX) 편성번호(1001, 2003, 3005 등) --> 호선(1호선, 2호선, 3호선 등)
- `pd.cut(데이터프레임['컬럼명'], bins = [나누는 기준 리스트], labels = [지정할 label])`

#### 3.3.3 변환
- 기본의 피처를 변환해 새로운 피처 생성
- EX) 검수일자 피처 --> 검수요일 피처

#### 3.3.4 스케일
- 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 과정
- StandScaler(표준화)
  - 각 피처의 평균을 0, 분선을 1로 변경 --> 정규분포 따른다고 가정하는 기술에 적합
    
    ```python
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    df['스케일링된 새로운 컬럼'] = scaler.fit_transform(df[['기존의 컬럼']])

    
    ```
- MinMaxScaler
    - 모든 피처가 0과 1에 위치
      --> 모든 데이터를 같은 비율로 속성을 맞춤
      
      ```python
        from sklearn.preprocessing import MinMaxScaler
        scaler = MinMaxScaler()
        df['스케일링된 새로운 컬럼'] = scaler.fit_transform(df[['기존의 컬럼']])

        
      ```

# 4. 시각화
- **시각화**를 통해 데이터를 **시각적 요소(그래프, 차트, 그림 등)**로 변환하고,
이를 통해 **패턴, 관계, 추세 등**을 쉽게 파악 가능
- 주로 `Matplotlib`과 `Seaborn` 사용
- 시각화 전, 데이터의 특성 파악하는 것이 중요!

### 4.1 파라미터
- 파라미터(parameter, 매개변수): 함수의 입력값

- EX)
    ```python
    sns.countplot(data = dt,x = 'Survived')
    ```
    - `data`, `x`: countplot의 파라미터
    - `dt`, `'Survived'`: 인자(argument) 

### 4.2 다양한 그래프 톺아보기
- **boxplot (상자 수염 그림)**
  :사분위수(IQR)와 이상치를 보여주는 그래프
- **countplot, histplot**
  - countplot: **범주형 변수**의 빈도수 확인
  - hisplot: 수치형 변수의 **구간별 빈도수** 확인
- **displot, kdeplot (커널밀도추정 그래프)**
  :히스토그램을 연속적으로 곡선으로 연결
- **barplot, pointplot**
  : 범주형 데이터 값 x에 따른 수치형 데이터 값 y의 평균값 제공
- **scatterplot, regplot**
  - scatterplot: 두 변수간의 관계를 시각화하는 **산점도 그래프**
  - regplot: 두 연속변수 사이 **산점도와 회귀선**을 그리는 그래프
- **catplot**
  : 수치형 데이터와 범주형 데이터 간의 관계를 확인할 때 사용
- **pieplot**
  : 원 그래프
- **heatmap**
  : 변수간 상관관계 확인할 때 사용
- **violinplot**
  : 박스 플롯 + 커널밀도추정 함수 그래
- **여러 그래프 한번에 찍기, pairplot**
  ```python
  f, ax = plt.subplots(1, 2, figsize = (12, 4)) # 1행 2열의 서브플롯 생성
  sns.countplot(x = 'Pclass', data=data, ax=ax[0])
  sns.barplot(data=data, x='Sex', y='Age', hue='Survived', ax=ax[1])

  
  ```

  - `sns.pairplot(data = data, hue = 'Survived')`: `pairplot`을 통해 여러 변수간의 산점도 한번에 확인 가능