### Numpy 라이브러리를 활용한 공개 데이터 분석

In [1]:
""" 
Numpy 활용 공개 데이터 분석 - UCI Wine Quality
"""
import numpy as np

# 데이터 로드 (UCI 저장소에서 직접 다운로드)
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
data = np.genfromtxt(url, delimiter=';', skip_header=1)

print(f"데이터 모양: {data.shape}")  # (1599, 12) -> 1599개 샘플, 11개 특징, 1개 목표

# 품질 점수 (마지막 열) 추출 및 통계 계산
quality = data[:, -1]  # 마지막 열이 품질 점수
print(f"품질 점수 평균: {np.mean(quality):.2f}")
print(f"품질 점수 표준편차: {np.std(quality):.2f}")
print(f"최저 품질 점수: {np.min(quality)}")
print(f"최고 품질 점수: {np.max(quality)}")

# 알코올 함량(열 index 10)과 품질 간의 상관관계 조사
alcohol = data[:, 10]
correlation = np.corrcoef(alcohol, quality)[0, 1] # C_alchohol_quality 수치만 획득
print(f"알코올 함량과 품질 간의 상관계수: {correlation:.2f}")


데이터 모양: (1599, 12)
품질 점수 평균: 5.64
품질 점수 표준편차: 0.81
최저 품질 점수: 3.0
최고 품질 점수: 8.0
알코올 함량과 품질 간의 상관계수: 0.48


In [8]:
""" 
Numpy 활용 공개 데이터 분석 - Kaggle House Prices
"""

import numpy as np
import pandas as pd

# 1. 데이터 불러오기
data = pd.read_csv("house_prices.csv")
print("원본 데이터 형상: ", data.shape)  # (1460, 81)

# 2. 필요한 열 추출 및 NumPy 배열로 변환 (집의 품질, 거실 면적, 차고 개수, 지하실 면적, 집값)
np_data = data[['OverallQual', 'GrLivArea', 'GarageCars', 'TotalBsmtSF', 'SalePrice']].to_numpy()
print("추출한 데이터 형상:", np_data.shape)  # (1460, 5)

# 3. 결측치(missing data) 처리: 결측값이 있는 행 제거
np_data = np_data[~np.isnan(np_data).any(axis=1)]   # nan: not a number, axis=1: 행 기준(열방향)

# 4. 통계 분석: 각 특성의 평균값 계산
means = np.mean(np_data, axis=0)    # axis=0: 열 기준(행방향)
print(f"특성별 평균값 (OverallQual, GrLivArea, GarageCars, TotalBsmtSF, SalePrice): {means}")

# 5. 집의 품질(1 ~ 9)별 평균 집값 계산
unique_qualities = np.unique(np_data[:, 0])
for quality in unique_qualities:
    quality_data = np_data[np_data[:, 0] == quality]
    avg_price = np.mean(quality_data[:, -1])
    print(f"품질 {int(quality)}의 평균 집값: {avg_price:.2f}")

# 6. 집의 면적(거실+지하실)과 집값 간 상관관계 계산
total_area = np_data[:, 1] + np_data[:, 3]  # 거실 면적 + 지하실 면적
sale_price = np_data[:, -1]  # 집값

correlation = np.corrcoef(total_area, sale_price)[0, 1]
print(f"거실+지하실 면적과 집값 간 상관계수: {correlation:.2f}")

원본 데이터 형상:  (1460, 81)
추출한 데이터 형상: (1460, 5)
특성별 평균값 (OverallQual, GrLivArea, GarageCars, TotalBsmtSF, SalePrice): [6.09931507e+00 1.51546370e+03 1.76712329e+00 1.05742945e+03
 1.80921196e+05]
품질 1의 평균 집값: 50150.00
품질 2의 평균 집값: 51770.33
품질 3의 평균 집값: 87473.75
품질 4의 평균 집값: 108420.66
품질 5의 평균 집값: 133523.35
품질 6의 평균 집값: 161603.03
품질 7의 평균 집값: 207716.42
품질 8의 평균 집값: 274735.54
품질 9의 평균 집값: 367513.02
품질 10의 평균 집값: 438588.39
거실+지하실 면적과 집값 간 상관계수: 0.78
