### 느낀점
상관관계와 상관계수를 통해 두 변수 간의 관계를 이해하고 예측하는 것이 중요하다는 것을 알게 되었습니다. 상관계수를 통해 변수들 간의 연관성을 쉽게 파악할 수 있고, 이를 통해 데이터를 더 잘 이해하고 분석할 수 있을 것이라고 생각합니다. 또한, 히트맵과 스케일러와 같은 다양한 기법을 사용하여 데이터를 시각화하고 전처리하는 방법을 알게 되어 매우 유용하다고 생각됩니다. 이러한 기법들을 효과적으로 활용하여 데이터를 보완하고 분석하는 데에 사용해 보겠습니다.

In [None]:
import platform
from matplotlib import font_manager, rc 
import matplotlib
import matplotlib.pyplot as plt  # 맷플롯립의 pyplot 모듈을 임포트합니다
import pandas as pd  # 판다스를 임포트합니다
import numpy as np  # 넘파이를 임포트합니다
import csv  # CSV 파일을 처리하기 위한 모듈을 임포트합니다

In [None]:
# '-' 부호가 제대로 표시되게 하는 설정 
matplotlib.rcParams['axes.unicode_minus'] = False

# 운영 체제마다 한글이 보이게 하는 설정 # 윈도우
if platform.system() == 'Windows':
    path = "c:\\Windows\\Fonts\\malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name() 
    rc('font', family=font_name) 
elif platform.system() == 'Darwin':  #맥
    rc('font', family='AppleGothic')
elif platform.system() == 'Linux': # 리눅스
    rc('font', family='NanumBarunGothic')
from matplotlib import pyplot as plt

%matplotlib inline

!pip install xlrd

In [None]:
power_data = pd.read_excel('reference files/xlsx/시도별_용도별.xls')
print(power_data.shape)

In [None]:
power_data.head(3)

In [None]:
power_data.columns

In [None]:
power = power_data.set_index('구분')
power.head(5)

In [None]:
power_data.values

In [None]:
power_data2 = pd.read_excel('reference files/xlsx/시도별_용도별.xls',header = 2)
print(power_data2)
power_data2.head(5)

In [None]:
power = power.drop(['개성','합계'], errors = 'ignore')  # errors 에러 무시
power

In [None]:
power.info()

In [None]:
power.describe()

In [None]:
power.count() #행 개수

### ★ 상관관계와 상관계수 
.corr() : 
상관관계는 두 변수 간의 관계를 파악하는데 사용되는 중요한 개념입니다. 상관관계는 두 변수 간의 선형적인 관계의 강도를 측정하는 지표로, -1부터 1까지의 값을 가집니다.

- 상관계수가 1에 가까울수록 두 변수 간에 강한 양의 선형 관계가 있음을 나타냅니다.
- 상관계수가 -1에 가까울수록 두 변수 간에 강한 음의 선형 관계가 있음을 나타냅니다.
- 상관계수가 0에 가까울수록 두 변수 간에 선형 관계가 거의 없거나 약한 관계가 있음을 나타냅니다.

따라서, 상관계수를 통해 두 변수 간의 관계를 이해하고 예측하는데 유용한 정보를 얻을  있습니다.


In [None]:
power.corr()

In [None]:
power = power[['서비스업','제조업']]
power.head(3)

In [None]:
plt.figure(figsize = (8,8))
plt.scatter(power['서비스업'],power['제조업'],c='k',marker = 'o')
plt.xlabel('서비스업')
plt.ylabel('제조업')

for n in range(power.shape[0]):
    plt.text(power['서비스업'].iloc[n]*1.03, power['제조업'].iloc[n]*0.98, power.index[n])

pip install seaborn

pip install scipy

pip install scikit-learn

In [None]:
import os
os.environ['SKLEARN_ALLOW_DEPRECATED_SKLEARN_PACKAGE_INSTALL'] = 'True'

In [None]:
import seaborn as sns
from scipy.stats import norm
from sklearn.preprocessing import *
from scipy import stats
import warnings

warnings.filterwarnings('ignore')
%matplotlib inline

In [None]:
df_train = pd.read_csv('reference files/csv/train.csv')
df_train.columns[:10]
df_train.shape

In [None]:
df_train['SalePrice'].describe()

In [None]:
sns.distplot(df_train['SalePrice'])

In [None]:
var = 'GrLivArea'
#var = input('알고싶은데이터?')
data = pd.concat([df_train['SalePrice'],df_train[var]],axis = 1) #연결
data

In [None]:
data.plot.scatter(x=var,y='SalePrice',ylim=(0,1000000))

### ★ 특성 선택
- 특성 선택을 임의로 주관적으로 수행하는 것은 한계가 있다.
- 객관적인 특성 선택 방법이 필요하다.
- 이를 위해 히트맵 방식의 상관관계 매트릭스나 산포도를 사용하면 유용하다.

#### ❖ 1. 히트맵(Heatmap)
- X축과 Y축에 2개의 범주형 자료의 계급(class)별로 연속형 자료를 집계한 자료를 사용
- 집계한 값에 비례하여 색깔을 다르게 해서 2차원으로 자료를 시각화하는 것
- https://seaborn.pydata.org/generated/seaborn.heatmap.html

#### ❖ 2. 상관관계 매트릭스
df_heatmap = sns.heatmap(corr, cbar = True, annot = True, annot_kws={'size' : 20}, fmt = '.2f', square = True, cmap = 'Blues')

> - cbar :  오른쪽에 있는 막대(범주)를 표시하는 것
> - annot : 상관계수를 표시
> - annot_kws :  상관계수의 글자 크기를 지정합니다.
> - fmt : 상관계수의 소수점 자리수를 지정합니다.
> - square : 정사각형으로 지정하는 것이며, False로 설정 시 직사각형이 됨.
> - cmap : 색상을 지정

In [None]:
# 문자열을 포함한 열을 제거합니다.
# SalePrice 열을 제외한 모든 열을 선택합니다.
df_numeric = df_train.select_dtypes(include=['number']).drop(columns=['SalePrice'])

# 상관 행렬을 계산합니다.
corrmat = df_numeric.corr()


# 상관 행렬을 계산합니다.
corrmat = df_numeric.corr()

In [None]:
f, ax = plt.subplots(figsize=(20, 9))
sns.heatmap(corrmat, annot =True,annot_kws = {'size':6},fmt = '.2f',vmax=0.8, square=False, cmap = 'Blues')
plt.show()

In [None]:
import pandas as pd

# 결측값의 총합을 계산하여 내림차순으로 정렬
total = df_train.isnull().sum().sort_values(ascending=False)

# 결측값의 비율을 계산하여 내림차순으로 정렬
percent = (df_train.isnull().sum() / len(df_train)).sort_values(ascending=False)

# 결측값의 총합과 비율을 데이터 프레임으로 결합
missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])

# 상위 20개의 결과 출력
missing_data.head(20)


In [None]:
# 결측값이 1개 이상인 열을 삭제
df_train = df_train.drop((missing_data[missing_data['Total'] > 1]).index, axis=1)

# 'Electrical' 열의 결측값이 있는 행을 삭제
df_train = df_train.drop(df_train[df_train['Electrical'].isnull()].index)

# 데이터 프레임 내의 결측값의 최대값을 출력
print(df_train.isnull().sum().max())

# 결과 출력
df_train.head()

### ★ 스케일러 종류

1. StandardScaler
   - 각 feature의 평균을 0, 분산을 1로 변환하여 데이터의 스케일을 조정합니다.

2. RobustScaler
   - 평균과 분산 대신 중앙값(median)과 사분위수(25%, 50%, 75%)를 사용하여 이상치에 강건한 스케일링을 수행합니다.

3. MinMaxScaler
   - 모든 데이터를 0과 1 사이에 위치하도록 스케일을 조정합니다. 데이터의 범위를 유지하면서 스케일을 조정하는 데 사용됩니다.

4. Normalizer
   - 각 행(row)의 유클리드 거리(norm)가 1이 되도록 데이터를 스케일링합니다. 주로 벡터 데이터의 크기를 조절할 때 사용됩니다.


In [None]:
import numpy as np
from sklearn.preprocessing import StandardScaler

# SalePrice 열을 NumPy 배열로 변환합니다
saleprice_array = df_train['SalePrice'].values.reshape(-1, 1)

# 변환된 배열을 표준화합니다
scaler = StandardScaler()
saleprice_scaled = scaler.fit_transform(saleprice_array)

# 표준화된 값들을 정렬하여 하위 10개와 상위 10개 값을 추출합니다
low_range = saleprice_scaled[saleprice_scaled[:, 0].argsort()][:10]
high_range = saleprice_scaled[saleprice_scaled[:, 0].argsort()][-10:]

print('outer range (low) of the distribution:')
print(low_range)

print('\nouter range (high) of the distribution:')
print(high_range)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 데이터 프레임 생성
df = pd.DataFrame({
    'x1': np.random.chisquare(8,1000),
    'x2': np.random.beta(8, 2, 1000)*40,
    'x3': np.random.normal(50, 3, 1000)
})

In [None]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 적용
scaler_standard = StandardScaler()
df_standard_scaled = scaler_standard.fit_transform(df)

# 데이터 프레임으로 변환
df_standard_scaled = pd.DataFrame(df_standard_scaled, columns=['x1', 'x2', 'x3'])

# KDE 그래프 그리기
df_standard_scaled.plot.kde()
plt.title('StandardScaler KDE')
plt.show()

In [None]:
from sklearn.preprocessing import RobustScaler

# RobustScaler 적용
scaler_robust = RobustScaler()
df_robust_scaled = scaler_robust.fit_transform(df)

# 데이터 프레임으로 변환
df_robust_scaled = pd.DataFrame(df_robust_scaled, columns=['x1', 'x2', 'x3'])

# KDE 그래프 그리기
df_robust_scaled.plot.kde()
plt.title('RobustScaler KDE')
plt.show()

In [None]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 적용
scaler_minmax = MinMaxScaler()
df_minmax_scaled = scaler_minmax.fit_transform(df)

# 데이터 프레임으로 변환
df_minmax_scaled = pd.DataFrame(df_minmax_scaled, columns=['x1', 'x2', 'x3'])

# KDE 그래프 그리기
df_minmax_scaled.plot.kde()
plt.title('MinMaxScaler KDE')
plt.show()

In [None]:
from sklearn.preprocessing import Normalizer

# Normalizer 적용
scaler_normalizer = Normalizer()
df_normalized = scaler_normalizer.fit_transform(df)

# 데이터 프레임으로 변환
df_normalized = pd.DataFrame(df_normalized, columns=['x1', 'x2', 'x3'])

# KDE 그래프 그리기
df_normalized.plot.kde()
plt.title('Normalizer KDE')
plt.show()

In [None]:
def print_ranges(scaled_data, scaler_name):
    sorted_scaled = np.sort(scaled_data, axis=0)
    low_range = sorted_scaled[:10]
    high_range = sorted_scaled[-10:]

    print(f'outer range (low) of the distribution for {scaler_name}:')
    print(low_range)
    print(f'\nouter range (high) of the distribution for {scaler_name}:')
    print(high_range)
    print('\n')

# StandardScaler
print_ranges(df_standard_scaled.values, 'StandardScaler')

# RobustScaler
print_ranges(df_robust_scaled.values, 'RobustScaler')

# MinMaxScaler
print_ranges(df_minmax_scaled.values, 'MinMaxScaler')

# Normalizer
print_ranges(df_normalized.values, 'Normalizer')

### **탐색적 데이터 분석(Exploratory Data Analysis, EDA)** 
은 데이터의 전체적인 특성을 이해하고 파악하는 과정입니다. 데이터를 시각화하여 그래프를 그리고 통계적 방법을 사용하여 데이터의 구조를 탐색합니다. 주요 내용은 다음과 같습니다:

- 데이터 탐색: 데이터의 전반적인 특성을 파악합니다.
- 시각화: 데이터를 시각화하여 그래프를 그립니다. 히스토그램, 박스 플롯 등의 그래프를 사용합니다.
- 범주형 데이터: 문자를 숫자로 대체하여 데이터를 변환합니다. 예를 들어, 요일을 월화수 -> 1, 2, 3과 같이 변환할 수 있습니다.
- 순서형 데이터: 여성의 옷 사이즈와 같은 순서가 있는 데이터를 다룹니다. 이러한 데이터는 숫자로 표현되지만 순서를 가지고 있습니다.
- 정형과 비정형 데이터: 정형화된 데이터로 바꾸어야 하는 비정형 데이터를 처리합니다. 이는 데이터를 일관된 형식으로 변환하여 분석을 용이하수 있습니다.
