# EDA
1. 데이터 불러오기
    - `pd.read_csv('경로')` : csv 파일을 Pandas의 데이터프레임 객체로 불러옴

2. 데이터 정보 관측하기
    -  `데이터프레임.info()` : 데이터의 피쳐수와 컬럼명, 결측치(Missing Value) 여부, Dtype에 관한 정보를 알 수 있음

3. 데이터 크기 파악하기
    - `데이터프레임.shape` : 데이터의 행 & 열 개수를 출력해 데이터 크기를 파악할 수 있음

4. 데이터 피쳐 알아보기
    - `데이터프레임.head()` : 데이터의 상위 5개 행을 확인함으로써, 대략적인 정보 파악 가능

5. 결측치(Missing Value) 유무 확인하기
    - `데이터프레임.isnull().sum()` : 컬럼마다 보유한 결측치 총 개수 확인
    
6. 데이터의 기초 통계량 확인하기
    - `데이터프레임.describe()`
     :
        - 각 컬럼에 관한 기초 통계량 확인 가능
        - 기초 통계량 : count(행의 총 개수), mean(평균), std(표준편차), min(최소값), 25%(1 분위수), 50%(2 분위수), 75%(3 분위수), max(최대값)
        - 결측치는 제외하고, 수치형 데이터만 적용됨

7. 변수 분포 시각화
    - 시각화 라이브러리
        - 그래프 출력에 용이한 라이브러리 : matplotlib, seaborn 등
        - 라이브러리 임포트하기
            ``` 
            import matplotlib  
            import matplotlib.pyplot as plt
            import seaborn as sns  
            ```
    - `데이터프레임.copy()` : 시각화를 진행할 때는 보통 복사본을 생성한 후 진행
    - Histogram(히스토그램) 그리기
        - 히스토그램
            - 수치형 데이터의 분포를 표현해주고, 하나의 숫자변수만 입력해주어야 함
            - 도수분포표를 그래프로 나타낸 것 입니다. 변수들의 분포정도를 볼 때 유용함
            - 변수는 여러 개의 구간(bin)으로 자르고, 구간(bin) 당 보유 행 수는 막대의 높이로 표시됨
        - 코드 예시 : matplotlib.pyplot
        ```
        from matplotlib.pyplot as plt
        plt.hist(x, y)
        plt.show()
        ```
        - 코드 예시 : Seaborn 이용
        ``` 
        sns.distplot(df['피쳐명'], kde=True, bins=None)  
        df['피쳐명']: 출력하고자 하는 컬럼  
        kde: '그래프에 선을 출력할지 여부'  
        bins: '출력할 막대그래프 갯수'  
        ```
    - 그래프 상세 설정
        - `plt.axis(['x 축 최솟값, x 축 최댓값, y 축 최솟값, y 축 최댓값'])` : 그래프 축에 보이는 최솟값, 최댓값을 지정
        - `plt.title('제목')` : 그래프의 제목 지정
        - `plt.show()` : 그래프 인라인 출력
    - line chart(선 그래프, 라인 차트) 그리기
        - `plt.plot(x,y)` : 선 그래프 그리기

8. 이상치(Outlier) 탐지
    - 이상치
        - 이상(문제)이 있는 데이터, 즉 일반적인 데이터 패턴과 매우 다른 패턴을 갖는 데이터
        - 이상치 데이터를 통해 모델을 학습하거나 훈련하면, 모델 성능이 매우 ⬇️
    - 이상치 탐지 방법
        - IQR (Inter Qunatile Range)
            - 사분위 값의 편차를 이용하고, boxplot 그래프로 확인 가능
            - 전체 데이터들을 오름차순으로 정렬하고, 정확히 4등분(25%, 50%, 75%, 100%)으로 나누는 원리
            - IQR : 3분위 수 - 1분위 수
            - 이상치 : 
                - 1분위수 - 1.5 * IQR > 이상치
                - 이상치 > 3분위 수 + 1.5 * IQR 
    - 코드 예시 : seaborn
        -
        ```
        import seaborn as sns
        sns.boxplot(data=train['fixed acidity'])

        ```
9. 수치형 데이터 정규화
- '트리 기반의 모델'에 비해서 '평활 함수 모델'들은 숫자의 크기와 단위에 영향을 많이 받음
    - 트리 기반의 모델 : 의사결정 나무, 랜덤포레스트 등의 모델로, 대소 비교를 통해 구분하기 때문에 숫자 단위에 영향을 적게 받음
    - 평활 함수 모델 : Logistic Regression, Lasso 등의 모델로, 숫자의 크기와 단위에 영향 ⬆️
- 모든 모델에 잘 어울리는 데이터를 만들어주기 위해 수치형 데이터 정규화 진행
- 수치형 데이터 정규화 방법
    - Min Max Scailing
        - 가장 작은 값은 0으로, 가장 큰 값은 1로 만들어주는 방법 -> 0 ~ 1 사이의 값
        - 장점 : 모든 feature들에 대해 동일한 척도로 Scaling.
        - 단점 : 이상치에 상당히 민감
        - 코드 예제  
            ```
            scaler = MinMaxScaler() #스케일러 선언
            scaler.fit(train[['fixed acidity']]) #스케일러 학습
            train['Scaled fixed acidity'] = scaler.transform(train[['fixed acidity']]) # 스케일러를 통해 train의 "fixed acidity"를 바꾸어 "Scaled fixed acidity"라는 column에 저장
            sns.distplot(train['Scaled fixed acidity']) #displot을 통해 분포 확인
    ```

10. One-Hot Encoding (원핫인코딩)
- 컴퓨터가 문자로된 데이터를 학습할 수 있게 하도록 인코딩 해주는 방법 중 하나
- 자신에게 맞는 단어는 1, 나머지는 0으로 만들어줌
- 코드 예제
    ```
    encoder = OneHotEncoder() #인코더 선언
    encoder.fit(train[['type']]) # 인코더를 사용해 train의 "type" 피쳐를 학습
    onehot = encoder.transform(train[['type']]) # 인코더를 사용해 train의 "type"피쳐를 변환해 "onehot"이라는 변수에 저장
    onehot = onehot.toarray() # "onehot"이라는 변수를 array 형태로 변환해 보세요
    onehot = pd.DataFrame(onehot) # "onehot"이라는 변수를 DataFrame 형태로 변환해 보세요
    onehot.columns = encoder.get_feature_names() # 인코더를 "get_feature_names()"를 사용해 컬럼이름 변경
    onehot = pd.concat([train, onehot], axis = 1) # onehot을 원본데이터인 train에 병합
    train = train.drop(columns = ['type']) # train의 "type" 변수를 제거
    ```        




