In [2]:
# 패키지 불러오기

import pandas             as pd    # 데이터 읽어오기/저장하기, 데이터 핸들링
import numpy              as np
import seaborn            as sns   # 데이터 시각화(고수준)
import matplotlib.pyplot  as plt   # 데이터 시각화(저수준)
import scipy.stats        as stats # 통계, 수학

In [12]:
diamonds = sns.load_dataset("diamonds")

In [13]:
# HDD에 있는 pickle 데이터를 메모리(RAM)에 올리는 기능
data = pd.read_pickle("d:/novelis/ds2023/diamonds_230830.pickle")

In [14]:
# (2) 다름(퍼짐, 산포) : 데이터 분석의 핵심
# 범위, 사분위 범위, 표준편차, 중위수절대편차

In [15]:
# i. 범위(Range) : 최대값(Max) - 최소값(Min)
# data.수치형 데이터.max() - data.수치형데이터.min() 
diamonds.carat.max() - diamonds.carat.min()

4.81

In [16]:
# ii. 사분위범위(IQR: Inter Quartile Range) : Q3 - Q1 
# scipy.stats.iqr(data.수치형데이터)
stats.iqr(data.carat)

0.64

In [17]:
# iii. 표준편차(SD: Standard Deviation)
# 중심(대표값)과 얼마나 다를까? 
# 평균과 얼마나 다를까? 
# 참고로 표준편차는 이상치의 영향을 많이 받기 떄문에 위험한 값

# data.수치형데이터.std()
diamonds.carat.std()

0.47401124440538067

In [18]:
# iv. 중위수절대편차(MAD: Median Absolute Deviation)
# 중심(대표값)과 얼마나 다를까?
# 중위수와 얼마나 다를까?

#scipy.stats.median_abs_deviation(data.수치형데이터)
stats.median_abs_deviation(diamonds.carat)

0.32000000000000006

In [19]:
# (3) 분포의 모양: 왜도, 첨도 
# i.왜도(Skewness): 기울어진 정도, 대칭 여부 파악
# scipy.stats.skew(data.수치데이터)
stats.skew(diamonds.carat)

1.1166148681277797

In [21]:
# ii.첨도(Kurtosis): 중심이 얼마나 뾰족한가? 중심에 얼마나 몰려 있는가? 
# scipy.stats.kurtosis(data.수치형데이터)
stats.kurtosis(diamonds.carat)

1.2564076184374766

In [22]:
# data.수치형데이터.describe()
diamonds.carat.describe()

count    53940.000000
mean         0.797940
std          0.474011
min          0.200000
25%          0.400000
50%          0.700000
75%          1.040000
max          5.010000
Name: carat, dtype: float64

In [23]:
# count : 데이터의 개수 : n

# 참고 : 데이터의 개수 
# N : 모집단(Population)의 데이터의 개수
# n : 표본(sample)의 데이터의 개수

# 모집단 : 관심 있는 대상의 전체

# 25% : Q1 : first Quartile : 제 1 사분위수
# 50% : Median : Q2
# 75% : Q3 : third Quartile : 제 3 사분위수

In [24]:
# scipy.stats.descrieb(data.수치형데이터)
stats.describe(diamonds.carat)

DescribeResult(nobs=53940, minmax=(0.2, 5.01), mean=0.7979397478680014, variance=0.22468665982277336, skewness=1.1166148681277797, kurtosis=1.2564076184374766)

In [25]:
# variance : 분산, 표준 편차의 제곱 
# 평균과 얼마나 다를까를 알려줌, 단위 문제가 있음

### 3. 범주형 데이터의 분석: 2개의 열
- 표 = 교차표
- 데이터 시각화 : 누적막대그래프

In [26]:
# 범주형 데이터 : 1개 : X : 독립변수, Feature 
# 범주형 데이터 : 1개 : Y : 종속변수, Label or Target

In [27]:
# 범주형 데이터 : cut   : X
# 범주형 데이터 : color : Y 

In [28]:
# 3.1 표 = 교차표(Cross Table)
# 빈도, 전체 백분율, 행 백분율, 열 백분율

In [29]:
# (1) 빈도(Frequency)
# pd.crosstab(index = data.범주형데이터(X), 
#           columns = data.범주형데이터(Y/),
#           margins = True)

In [31]:
pd.crosstab(index = diamonds.cut,
           columns = diamonds.color,
           margins = True)

color,D,E,F,G,H,I,J,All
cut,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Ideal,2834,3903,3826,4884,3115,2093,896,21551
Premium,1603,2337,2331,2924,2360,1428,808,13791
Very Good,1513,2400,2164,2299,1824,1204,678,12082
Good,662,933,909,871,702,522,307,4906
Fair,163,224,312,314,303,175,119,1610
All,6775,9797,9542,11292,8304,5422,2808,53940


In [32]:
# (2) 전체 백분율 : (빈도/전체 합계(53940)) * 100
# pd.crosstab(index = data.범주형데이터(X), 
#           columns = data.범주형데이터(Y/),
#           margins = True, 
#           normalize = True)*100

In [33]:
pd.crosstab(index    = diamonds.cut,
           columns   = diamonds.color,
           margins   = True,
           normalize = True)*100

color,D,E,F,G,H,I,J,All
cut,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Ideal,5.253986,7.235818,7.093066,9.054505,5.774935,3.880237,1.661105,39.953652
Premium,2.971821,4.332592,4.321468,5.420838,4.375232,2.647386,1.497961,25.567297
Very Good,2.804968,4.449388,4.011865,4.262143,3.381535,2.23211,1.256952,22.398962
Good,1.22729,1.7297,1.685206,1.614757,1.301446,0.967742,0.569151,9.095291
Fair,0.302188,0.415276,0.57842,0.582128,0.561735,0.324435,0.220615,2.984798
All,12.560252,18.162773,17.690026,20.934372,15.394883,10.05191,5.205784,100.0


In [None]:
# Ideal & G : 9.1% 
# Ideal & F : 7.1%

# 질문 : 두 백분율의 차이는 얼마인가요?
# 2%p 차이가 나요
# %p: Percent Point : 백분율과 백분율의 차이 