- 탐색적 데이터 분석 (Exploratory Data Analysis)
    - 탐색적 데이터 분석은 데이터를 시각적으로 탐구하고 통계적으로 요약하여 데이터의 구조, 특징, 패턴, 이상값 등을 파악하는 과정
    - EDA는 머신러닝 모델링 및 데이터 분석의 첫 단계로, 데이터를 더 잘 이해하고 분석의 방향을 설정하는데 중요한 역할

    - EDA의 주요 목표
        - 데이터의 기본 통계랭을 확인하여 데이터의 전반적인 분포와 특성을 이해
        - 변수 간 관계를 분석하여 데이터에서 유용한 패턴을 발견
        - 이상값(Outliers) 및 결측값(Missiing Values)을 탐지하여 데이터 품질을 확인
        - 시각화를 통해 데이터의 인사이트를 도출하고 의사결정을 지원
    - 왜 EDA를 해야 할까?
        - 모델 성능 향상: 데이터를 더 잘 이해하면 적하한 모델과 적절한 변수 선택 및 파생을 할 수 있음
        - 문제 해결 지원: 데이터를 통해 문제의 본질을 명확히 하고 해결 방안을 제시할 수 있음
        - 의사결정 기반 제공: 데이터에 기반한 객관적인 내릴 수 있습니다.

- 기초통계량 분석
    - 기초통계량 분석이란?
        - 기초통계량 분석은 데이터를 요약하여 전체적인 분포와 중심 경향(평균, 중앙값 등), 변동성(표준편차, 분산 등)을 파악하는 과정
        - EDA의 첫 단계로, 데이터의 특성과 문제를 빠르게 이해하기 위한 기초 작업
    - 기초통계량 분석에서 사용하는 주요 통계값
        - 평균(Mean): 데이터 값들의 합을 개수로 나눈 값으로 데이터의 중심 경향을 나타냄
        - 중앙값(Median): 데이터를 정렬했을 때 중앙에 위치한 값으로, 이상치(outlier)에 영향을 덜 받음
        - 최빈값(Mode): 가장 많이 나타나는 값으로 범주형 데이터에서 유용
        - 최대값(Max)과 최소값(Min): 데이터의 범위를 나타냄
        - 표준편차(Standard Deviation, std): 데이터가 평균에서 얼마나 퍼져 이는 지 측정, 값이 클수록 데이터가 분산되어 있음을 의미
        - 분산(Variance): 표준편차의 제곱으로, 데이터의 변동성을 나타냄

- 평균(Mean)
    - 정의: 데이터 값들의 합을 데이터 개수로 나눈 값, 데이터를 재표하는 하나의 중심값으로 사용
    - 특징: 데이터를 압축해서 전체적인 경향을 알 수 있음, 이상치(outlier)에 영향을 많이 받음
    - 수식: 평균(Mean) = Σ데이터값 / 데이터 개수

In [1]:
# Pandas를 사용한 평균 계산
import pandas as pd

data = {"Score": [80, 90, 100, 70, 85]} # 예제 데이터
df = pd.DataFrame(data)

# 평균 계산
mean_value = df["Score"].mean()
print("평균(Mean): ", mean_value)

평균(Mean):  85.0


- mean() 함수는 Pandas의 데이터프레임에서 평균값을 계산하는 함수, df["Score"]는 Score 컬럼을 선택하는 구문, 평균 계산에 활용

- 중앙값(Median)
    - 정의: 데이터를 오름차순으로 정렬했을 때, 가장 중앙에 위치한 값
    - 특징: 데이터에 극단적인 이상치(outlier)가 있을 때 평균보다 대표값으로 적합
    - 수식
        - 데이터 개수가 홀수일 때: 중앙의 값
        - 데이터 개수가 짝수일 때: 중앙 두 값의 평균

In [2]:
# 중앙값 계산
median_value = df["Score"].median()
print("중앙값(Median): ", median_value)

중앙값(Median):  85.0


- median() 함수는 데이터를 정렬한 후 중앙값을 계산, 데이터가 [70, 80, 85, 90, 100]으로 정렬되므로 중앙값은 85

- 최빈값(Mode)
    - 정의: 데이터에서 가장 자주 나타나는 값
    - 특징: 범주형 데이터에서 유용, 데이터에 중복이 없을 경우 여러 갸의 최빈값이 나올 수 있음

In [4]:
# 최빈값 계산
mode_value = df["Score"].mode()
print("최빈값(Mode):\n", mode_value)

최빈값(Mode):
 0     70
1     80
2     85
3     90
4    100
Name: Score, dtype: int64


- mode() 함수는 최빈값을 반환, 모든 값이 한 번씩만 나타난 경우, 모든 값이 최빈값으로 반환

- 최대값(Max)과 최소값(Min)
    - 정의: 데이터에서 가장 큰 값과 가장 작은 값
    - 특징: 데이터의 범위를 확인할 때 유용, 데이터의 분포를 이해하는 데 도움