#### EDA(Exploratory Data Analysis) 탐색적 데이터 분석

- 데이터의 기술 통계량과 분포 등을 통해 데이터의 형태를 파악하고, 데이터가 가지고 있는 본연의 특징과 의미있는 관계를 찾아내는 과정
- 데이터를 분석하기 전에 통계적인 방법이나 시각화 도구를 활용하여 데이터를 직관적으로 통찰, 파악하는 과정
- 다양한 각도, 관점에서 다양한 방법을 통해 데이터를 관찰하고 이해하는 과정

##### 탐색적 데이터 분석(EDA) 목적
- 데이터 내의 패턴을 더 잘 이해하고 변수들 간의 잠재적인 관계 파악
- 결측치, 이상치 등 비정상적인 오류를 발견하고 제거
- 통계 방법을 사용하여 검증할 수 있는 가설 수립을 위한 질문 도출 => 추론통계학과 기술통계학의 가교 역할

##### 탐색적 데이터 분석의 4가지 주제(4R) : 저항성(Resistance), 잔차 해석(Residual), 자료변수의 재표현(Re-expression), 현시성(Representation)
- 저항성(Resistance)
  - 자료의 일부가 파손되었을 때나 결측값, 이상값이 있을 때도 영향을 적게 받는 성질
  - 평균값보다 중앙값 선호
- 잔차 해석(Residual)
  - 잔차를 구하여 특정 데이터가 보통과 다른 경향을 가지고 있는지 탐색
  - 잔차 : 관찰값들이 주경향으로부터 얼마나 벗어났는지 알 수 있는 척도
- 자료변수의 재표현(Re-expression)
  - 원래의 변수를 적당한 척도로 변환하여 데이터의 분석과 해석을 단순화하는 것
  - 로그변환, 제곱근 변환
- 현시성(Representation)
  - 데이터를 그래프로 시각화 함으로써 데이터 분석결과를 쉽게 이해하고 구조를 효율적으로 파악하는 것

#### EDA 탐색 방법
- 개별 변수 탐색 방법 : 변수 하나에 적용하는 탐색 방법
- 다차원 데이터 탐색 방법 : 여러 개의 변수 관계를 탐색하는 방법

#### 기술통계량을 통한 탐색적 데이터 분석 - 와인 품질데이터 EDA 분석
- 관측값 : 총6,497건(레드와인 : 1,599건, 화이트와인 : 4,898건)
- 입력변수(설명변수, 독립변수), feature matrix : 12개
- 출력변수(반응변수, 종속변수), target vector : 1개
- 입력변수 12 개 : 고정산, 휘발산, 구연산, 잔여당, 염화물, 무수아황산, 총이산화황, 밀도, 산성도, 황산염, 알콜도수, 와인타입
- 출력변수 1개 : 와인 품질 평가점수 , 가장 낮은 품질 1점 ~ 가장 높은 품질 10점
- UCI Machine Learning Repository 사이트에서 다운 ( winequality-red.csv, winequality-white.csv )

In [130]:
# 넘파이, 판다스, 맷플롯립, 시본 등 라이브러리 임포트
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
#from matplotlib import font_manager as fm
import matplotlib.font_manager as fm

font_path = 'C:/Users/kj/Desktop/myGit/PYTHON101/pandas/study/data/malgun.ttf'
font_prop = fm.FontProperties(fname=font_path)

plt.rcParams['font.family'] = font_prop.get_name()
plt.rcParams['figure.figsize'] = (4, 4)
plt.rcParams['axes.unicode_minus'] = False

In [None]:
# 레드와인 데이터 불러오기

In [18]:
red_data = pd.read_csv('data/winequality-red.csv', sep=';')
white_data = pd.read_csv('data/winequality-white.csv', sep=';')

red_data.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [16]:
white_data.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


In [48]:
# 레드와인 타입을 'red'로 지정
red_data['type'] = 'red'
white_data['type'] = 'white'

In [46]:
# 레드와인과 화이트 와인 합치기
df = pd.concat([red_data, white_data], axis=0)

In [40]:
df.sample(5)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,type
2240,7.2,0.29,0.18,8.2,0.042,41.0,180.0,0.99644,3.16,0.49,9.1,5,white
375,5.1,0.33,0.22,1.6,0.027,18.0,89.0,0.9893,3.51,0.38,12.5,7,white
1093,9.2,0.31,0.36,2.2,0.079,11.0,31.0,0.99615,3.33,0.86,12.0,7,red
3008,5.0,0.3,0.33,3.7,0.03,54.0,173.0,0.9887,3.36,0.3,13.0,7,white
605,6.3,0.26,0.49,1.5,0.052,34.0,134.0,0.9924,2.99,0.61,9.8,6,white


In [44]:
df.shape

(6497, 13)

In [132]:
# 컬럼명에 공백을 언더바로 변환
#df.columns = df.columns.str.replace(" ", "_")

In [52]:
new_col = [x.replace(" ", "_") for x in df.columns] 
new_col

['fixed_acidity',
 'volatile_acidity',
 'citric_acid',
 'residual_sugar',
 'chlorides',
 'free_sulfur_dioxide',
 'total_sulfur_dioxide',
 'density',
 'pH',
 'sulphates',
 'alcohol',
 'quality',
 'type']

In [54]:
df.columns = new_col

In [56]:
df.columns

Index(['fixed_acidity', 'volatile_acidity', 'citric_acid', 'residual_sugar',
       'chlorides', 'free_sulfur_dioxide', 'total_sulfur_dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality', 'type'],
      dtype='object')

In [58]:
len(df.columns)

13

In [62]:
# 전체 기술통계값 확인
df.describe()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality
count,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0
mean,7.215307,0.339666,0.318633,5.443235,0.056034,30.525319,115.744574,0.994697,3.218501,0.531268,10.491801,5.818378
std,1.296434,0.164636,0.145318,4.757804,0.035034,17.7494,56.521855,0.002999,0.160787,0.148806,1.192712,0.873255
min,3.8,0.08,0.0,0.6,0.009,1.0,6.0,0.98711,2.72,0.22,8.0,3.0
25%,6.4,0.23,0.25,1.8,0.038,17.0,77.0,0.99234,3.11,0.43,9.5,5.0
50%,7.0,0.29,0.31,3.0,0.047,29.0,118.0,0.99489,3.21,0.51,10.3,6.0
75%,7.7,0.4,0.39,8.1,0.065,41.0,156.0,0.99699,3.32,0.6,11.3,6.0
max,15.9,1.58,1.66,65.8,0.611,289.0,440.0,1.03898,4.01,2.0,14.9,9.0


In [66]:
# 개별 변수에 대한 기술통계값 확인

df['quality'].describe()

count    6497.000000
mean        5.818378
std         0.873255
min         3.000000
25%         5.000000
50%         6.000000
75%         6.000000
max         9.000000
Name: quality, dtype: float64

In [92]:
# quality 변수의 유일값을 오름차순으로 확인
quality_list = df['quality'].unique()
print(type(quality_list))
quality_list.sort()
print(quality_list)

<class 'numpy.ndarray'>
[3 4 5 6 7 8 9]


In [126]:
sorted(df['quality'].unique())

[3, 4, 5, 6, 7, 8, 9]

In [110]:
# quality 변수의 개별 값들의 분포 확인

df['quality'].value_counts()

quality
6    2836
5    2138
7    1079
4     216
8     193
3      30
9       5
Name: count, dtype: int64

In [118]:
# wine 타입별 품질의 기술통계량 확인
static = df.groupby('type')['quality'].describe()
static

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
red,1599.0,5.636023,0.807569,3.0,5.0,6.0,6.0,8.0
white,4898.0,5.877909,0.885639,3.0,5.0,6.0,6.0,9.0


#### EDA 자동화 도구 : pandas profiling
!pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

- colab에서 실습

import pandas_profiling as pp

pp.ProfileReport(wine)

#### 상관분석(Correlation analysis)
- 연속형 변수로 측정된 두 변수 간에 어떤 선형적 관계를 갖고 있는지를 분석하는 방법
- 두 변수는 서로 독립적인 관계이거나 상관된 관계
- 두 개 이상의 변수 사이에 존재하는 상호 연관성 여부 및 강도를 측정
- 일반적으로 선형적으로 관련된 정도를 나타내며, 상관계수 '0'은 선형적 관계가 없음을 의미
- 상관관계가 있다고 인과관계가 있는 것은 아님(인과관계는 선후관계가 명확)
- 양의 상관관계 : 한 변수의 값이 증가할 때 다른 변수의 값도 증가하는 경향을 보이는 상관관계
- 음의 상관관계 : 한 변수의 값이 증가할 때 다른 변수의 값은 감소하는 경향을 보이는 상관관계

- 상관계수(Correlation coefficient) : 두 변수 간의 관계의 강도

#### 상관 분석의 종류
- 변수 개수에 따른 분류 : 단순 상관 분석, 다중/다변량 상관 분석
  - 단순 상관 분석 : 두 개 변수 사이의 상관 분석
  - 다중/다변량 상관 분석 : 세 개 이상의 변수 사이의 상관 분석

#### 상관계수 종류
- 피어슨 상관계수
  - 두 변수 x, y간의 선형 상관관계를 계량화한 수치
  - 피어슨 상관계수는 공분산 Cov를 이용하여 -1~1의 상관 정도를 나타내는 척도
  - 두 변수간의 선형적인 크기만 측정 가능
  - x, y의 공분산을 x, y의 표준편차의 곱으로 나눈 값
- 스피어만 상관계수
  - 두 변수의 순위 사이의 통계적 의존성을 측정하는 비모수적인 척도
  - 두 변수 간의 비선형적인 관계를 나타낼 수 있음
  - 스피어만 상관게수는 두 데이터의 실제 값 대신 두 값의 순위(rank)를 기반으로 함

##### 공분산(Covariance)
- 2개의 확률변수의 선형관계를 나타내는 값(선형관계의 강도를 나타내지는 못함)

In [138]:
engListening = [31, 32, 69, 92, 99]
engScore = [70, 71, 85, 90, 92]

dict_data = {'engListening': engListening, 'engScore': engScore}
df = pd.DataFrame(dict_data)





Unnamed: 0,engListening,engScore
0,31,70
1,32,71
2,69,85
3,92,90
4,99,92
