<a href="https://colab.research.google.com/github/Taeichang/DataAnalysis/blob/main/%EC%98%A4%ED%94%88%EC%86%8C%EC%8A%A4_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EB%B6%84%EC%84%9D_8%EA%B0%95.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 오픈소스 기반 데이터 분석 8강

## 5.2 데이터 분석 방법론의 발전

p.223

### 5.2.1 선험적 지식을 활용한 규칙 기반 분석



*   특정 조건과 규칙을 명시적으로 프로그래밍, 도메인 지식이 직접적으로 분석 과정에 반영, 'if-then'
*   한계 -> 패턴을 자동으로 학습할 수 있는 통계적 방법론 등장
    * 복잡하고 비선형적 패턴을 포착하기 어려움
    * 새로운 상황이나 예외적인 경우에 대한 일반화 능력 부족
    * 규칙의 유지 관리가 어려움



### 5.2.2 통계적 모형을 활용한 분석 (statsmodels)



*   데이터에 내재된 불확실성을 명시적으로 다룰 수 있음
*   한계 -> 유연하고 패턴 인식 능력을 간춘 기계학습 방법론 등장
    * 데이터가 특정 분포를 따른다는 가정
    * 변수 간의 선형성, 관측치의 독립성 등의 가정에 기반



*   기술통계(descriptive statistics)
    * 데이터의 주요 특성을 요약하고 설명
*   추론통계(inferential statistics)
    * 표본 데이터를 바탕으로 모집단에 대한 일반화된 결론 도출
    * 우연인지, 의미 있는 관계 반영한 것인지 판단
* 회귀분석(regression analysis)
    * 여러 데이터 간의 관계를 파악, 한 값이 변할때 다른 값의 변화 예측



In [None]:
import pandas as pd
import random
import statsmodels.formula.api as smf

# 난수 시드 설정
random.seed(1)

# 데이터 생성
X = list(range(1, 11))
y = [2*x + 1 + random.gauss(0, 1) for x in X]
data = pd.DataFrame({'X': X, 'y': y})

# OLS(최소 제곱법) 회귀 모델 생성 및 학습
# 'y'를 종속 변수로 하고 다른 특성(X)을 독립 변수로 사용
model = smf.ols(formula = 'y ~ X', data = data).fit()
# 모델 요약 결과 출력
print(model.summary())

### 5.2.3 기계학습을 활용한 고도화된 분석 (scikit-learn)

* 규칙을 반영한 프로그래밍 없이 데이터로부터 자동으로 패턴을 학습하고 예측, 자동화, 정교화
* 특성 추출(feature extraction)을 위해 전문가 개입 필요
* 지도학습(supervised learning)
    * 입력값과 대응하는 정답(레이블)이 함께 제공
    * 분류(classification), 회귀(regression)

* 비지도학습(unsupervised learning)
    * 정답(레이블) 없이 패턴과 구조 발견
    * 군집화(clustering), 차원축소(dimensionality reeduction), 연관규칙학습(association rule learning)
* 강화학습(reinforcement learning)
    * 환경과 상호작용하는 에이전트가 보상을 최대화하는 행동 정책을 학습

* 한계
    * 블랙박스 문제: 모델의 복잡성으로 인해 의사결정 과정을 이해하고 설명하기 어려움
    * 충분한 데이터 양 필요, 편향된 경우 모델의 성능성 저하
    * 과적합(overfitting) 문제 발생: 우연한 노이즈까지 학습, 일반화 성능이 떨어짐

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_breast_cancer

# 데이터 로드 및 분할
cancer = load_breast_cancer()
X, y = cancer.data, cancer.target

# 학습/테스트 데이터셋 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 랜덤 포레스트 모델 생성 및 학습
rf_model = RandomForestClassifier(n_estimators = 100, random_state = 42)
rf_model.fit(X_train, y_train)

# 예측 및 정확도 평가
y_pred = rf_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'모델 정확도: {accuracy:.4f}')

### 5.2.4 딥러닝과 인공지능을 모형의 활용 (tensorflow)

* 다층 인공 신경망을 기반으로 하는 고급 기계학습 방법론, 복잡한 비선형 패턱 학습 탁월, 비정형 데이터 분석 탁월
* 계층적 표현 학습(Hierarchical Representation Learning, HRL)을 통해 복잡한 패턴도 효과적으로 학습
* 대규모 언어모델(Large Language Models, LLMs): 방대한 텍스트 데이터로 사전 학습되어, 다양한 자연어 처리 작업에 활용
* 요구사항 및 제약
    * 대규모 레이블된 테이터 필요
    * 학습 데이터가 없는 경우, 전이학습(transfer learning)이나 준지도학습(semi-supervised learning) 활용
    * 컴퓨팅 자원 필요 (CPU나 TCP 같은 특수 하드웨어), 비용과 접근성 제약
    * 해석하기 어렵고, 블랙박스 특성 존재
* 분류 보고서의 불균형은 특정 클래스의 특성이 더 쉽게 학습되거나, 클래스 간 혼동이 발생할 수 있음을 시사

In [None]:
import tensorflow as tf
from sklearn.metrics import classification_report

# CIFAR-10 데이터셋 로드 및 전처리
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.cifar10.load_data()
x_train, x_test = x_train/255.0, x_test/255.0

# MobileNetV2 기반 모델 구축
base_model = tf.keras.applications.MobileNetV2(weights='imagenet', include_top=False, input_shape=(160, 160, 3))
base_model.trainable = False
model = tf.keras.Sequential([
    tf.keras.layers.Resizing(160, 160),
    base_model,
    tf.keras.layers.GlobalAveragePooling2D(),
    tf.keras.layers.Dense(10)
])

# 모델 컴파일
model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.001),
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])

# 모델 학습
model.fit(x_train, y_train, epochs=3, validation_split=0.2)

# 예측 및 성능 평가
y_pred = tf.argmax(model.predict(x_test), axis=1)
print("\nTest Accuracy:", model.evaluate(x_test, y_test, verbose=0)[1])
print("\nClassification Report:\n", classification_report(y_test, y_pred))

## 5.3 탐색적 데이터 분석(EDA)

### 5.3.1 EDA의 개념과 중요성

* 귀납적 접근법
* 탐험적 성격이 강함, 시각화 중심적, 반복적이고 상호작용적
* 데이터 품질 평가 및 문제 조기 발견, 변수 간 관계와 패턴 파악, 분석 방향과 가설 수립, 모델 선택과 설계 가이드 제공, 도메인 지식과 데이터의 연결

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_diabetes

# 당뇨병 데이터셋 로드 및 데이터프레임 생성
diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target

# dataframe의 describe를 이용하여 기본 통계량 출력
print("=== 기본 통계량 ===")
print(df.describe())

# 상관 행렬 시각화
plt.figure(figsize=(12,8))
# dataframe의 각 열(변수)들 간의 상관 계수(correlation coefficient)를 계산하고 corr_matrix로 저장
corr_matrix = df.corr()
# seaborn으로 corr_matrix를 heatmap으로 시각화
sns.heatmap(corr_matrix, annot=True)
plt.title('Diabetes Dataset Correlation Matrix')
plt.show()

### 5.3.1 EDA 수행

In [None]:
import pandas as pd
import seaborn as sns

# 아이리스 데이터셋 로드
df = sns.load_dataset('iris')

# 기술 통계량
print("=== 기본 통계량 ===")
print(df.describe())

# 데이터 미리보기
print("\n=== 데이터 미리보기 ===")
print(df.head())

# 그룹별 통계정보
print("\n=== 품종별 평균값 ===")
print(df.groupby('species').mean())

#### Marplotlib와 Seaborn을 사용한 데이터 시각화의 예

In [None]:
# 한글 처리를 위한 matplotlib 설정 (1)

!sudo apt-get install -y fonts-nanum
!sudo fc-cache –fv
!rm ~/.cache/matplotlib -rf

- 리소스 재시작

In [None]:
# 한글 처리를 위한 matplotlib 설정 (2)

import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 아이리스 데이터셋 로드
df = sns.load_dataset('iris')

# 서브플롯 설정
plt.figure(figsize=(9, 12))
plt.suptitle('Iris 데이터셋 시각화', y=1.02, fontsize=14)

# 첫 번째 서브플롯: 꽃잎 길이 분포 (히스토그램)
plt.subplot(4, 1, 1)
sns.histplot(df['petal_length'], bins = 10, kde = True)
# seaborn을 이용하여 petal_length를 10개 구간으로 나누어 히스토그램 표시
plt.title('꽃잎 길이 분포')
plt.xlabel('꽃잎 길이 (cm)')

# 두 번째 서브플롯: 꽃잎 길이 vs 너비 (산점도)
plt.subplot(4, 1, 2)
species_list = df['species'].unique()
colors = {'setosa':'red', 'versicolor':'green', 'virginica':'blue'}

for species in species_list:
    species_data = df[df['species'] == species]
    # matplotlib를 이용하여 길이, 넓이를 산점도로 표시
    plt.scatter(
        species_data['petal_length'],
        species_data['petal_width'],
        c = colors[species],
        label = species,
        alpha = 0.7
        )
plt.title('꽃잎 길이 vs 너비')
plt.xlabel('꽃잎 길이 (cm)')
plt.ylabel('꽃잎 너비 (cm)')
plt.legend()

# 세 번째 서브플롯: 품종별 꽃받침 길이 (박스플롯)
plt.subplot(4, 1, 3)
# seaborn을 이용하여 품종 별 꽃받침 길이를 박스플롯으로 표시
sns.boxplot(x = 'species', y = 'sepal_length', data = df, palette = colors)
plt.title('품종별 꽃받침 길이 비교')
plt.xlabel('품종')
plt.ylabel('꽃받침 길이 (cm)')

# 네 번째 서브플롯: 숫자형 특성 간 상관관계 (히트맵)
plt.subplot(4, 1, 4)
numeric_df = df.select_dtypes(include='number')
corr = numeric_df.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('숫자형 특성 간 상관관계')

# 레이아웃 조정 및 그래프 표시
plt.tight_layout()
plt.show()

### 5.3.3 자동화된 EDA 도구

* 데이터셋에 대한 종합적 보고서를 생성
* 전문가의 분석을 보완하는 역할

In [None]:
!pip install ydata_profiling

In [None]:
import seaborn as sns
from ydata_profiling import ProfileReport

# 아이리스 데이터셋 로드
df = sns.load_dataset('iris')

# 데이터 프로파일링 보고서 생성
profile = ProfileReport(df, title = '붓꽃 데이터셋 분석 보고서')
# HTML 파일로 보고서 저장
profile.to_file('iris_profile.html')
# 보고서 표시 (Jupyter Notebook 환경에서 보고서가 바로 표시됨)
profile