#  EDA(탐색적 데이터 분석)
수집한 자료에 대해 모델링을 하기전 다양한 각도에서 관찰하고
이를 이해하는 과정

---
# Abalone Dataset


*   전복의 나이(Age)는 고리(Ring)의 수를 세는 것으로 결정
*   다른 요소로 나이를 예측
*   결측치는 제거된 상태   결측치는 제거된 상태













In [34]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [35]:
# load data set
abalone = pd.read_csv('./data/abalone.csv')

In [None]:
# 현재 데이터 셋에 대한 정보
abalone.info()

In [None]:
# 데이터 셋을 이루는 행/열 크기
abalone.shape

In [None]:
# 데이터 셋의 열 정보
abalone.columns

In [None]:
# 상위 5개의 정보
abalone.head()

In [None]:
# 전복의 수명(Age)는 고리(Rings)의 갯수에 따라 결정되므로, 이를 수정한다.
abalone['Age'] = abalone['Rings']
abalone = abalone.drop('Rings',axis=1)
abalone.head()

In [None]:
# 데이터 셋의 요약 정보
abalone.describe()

In [None]:
# 데이터 셋의 변수간의 상관 관계(Default : 피어슨 상관 계수)
abalone.corr()

In [None]:
# Seaborn을 활용해 위의 상관 계수를 시각화 Seaborn을 활용해 위의 상관 계수를 시각화
sns.heatmap(abalone.corr(),cmap='BrBG', annot=True)

In [None]:
# 각 변수간 분포 각 변수간 분포
abalone.boxplot(figsize=(20,10))
plt.show()
abalone.boxplot(figsize=(20,10))
plt.show()

In [None]:
# 각 변수와 수명과의 관계
fig, axes = plt.subplots(4,2, figsize=(15,15))
axes = axes.flatten()

for i in range(1,len(abalone.columns)-1):
    sns.scatterplot(x=abalone.iloc[:,i], y=abalone['Age'], ax=axes[i])

plt.show()

In [None]:
fig = plt.figure()
axes1 = fig.add_subplot(1,1,1)

In [None]:
# 전복의 나이 분포
axes1.hist(abalone['Age'],bins = 30)
axes1.set_title('Total Age')
axes1.set_xlabel('Age')
axes1.set_ylabel('Count')
fig

In [None]:
# 성별에 따른 평균 수명, 최대 수명, 최소 수명
groupby_sex = abalone.groupby(['Sex'])[['Age']]
print(groupby_sex.mean())
print(groupby_sex.max())
print(groupby_sex.min())
print(groupby_sex.describe())

In [None]:
# 성별에 따른 평균 수명에 관한 그래프
bar1 = plt.subplot()
bar1 = sns.barplot(x = 'Sex', y = 'Age' , data = abalone)
bar1.set_title('Abalone\'s Sex and average Age')
bar1.set_xlabel('Sex')
bar1.set_ylabel('Age')
plt.show()

In [None]:
# 성별에 따른 평균 수명에 관한 Boxplot
sns.boxplot(x = 'Sex', y = 'Age',data = abalone)
plt.show()

In [None]:
# 각 성별에 따른 길이, 높이 확인을 위한 그래프
# 첫 그래프는 matplotlib을 활용
fig, axes2 = plt.subplots(nrows=2,figsize = (10,10))

subdata = abalone["Sex"].unique()

for s in subdata:
  axes2[0].scatter(abalone["Length"].loc[abalone["Sex"]==s],
                abalone["Height"].loc[abalone["Sex"]==s],
                label = s, alpha=0.3)
  
axes2[0].legend(subdata,title = 'Sex')
axes2[0].set_xlabel('Length')
axes2[0].set_ylabel('Height')

# 위와 동일한 정보를 Seaborn을 활용해 확인 + 각 점의 크기를 수명에 의해 결정
sns.scatterplot("Length",'Height',hue="Sex", size = "Age",data = abalone, alpha= 0.3, ax = axes2[1])
axes2[1].set_xlabel('Length')
axes2[1].set_ylabel('Height')


In [None]:
# 데이터셋을 이루는 각 변수간의 상관관계를 성별에 의해 시각화 + 사이즈는 수명에 의해 결정
pair_grid = sns.PairGrid(abalone, hue='Sex',corner=True)

pair_grid.map_diag(sns.histplot)
pair_grid.map_offdiag(sns.scatterplot,size = abalone["Age"])

# 범례 표기를 위한 조정
handles = pair_grid._legend_data.values()
labels = pair_grid._legend_data.keys()

pair_grid.axes[3][2].legend(handles=handles, labels = labels,
                            bbox_to_anchor = (3.45 , 1),
                            fontsize = "x-large"
                            )

# 전체 타이틀
pair_grid.fig.suptitle("About Abalone Dataset", y = 1.00, weight = "bold", size = 20)
#배경
pair_grid.fig.set_facecolor("whitesmoke")