# 앤스콤 데이터 집합 불러오기

- 앤스콤 데이터 집합은 seaborn 라이브러리에 포함되어있다.
- seaborn 라이브러리의 load_dataset 메서드에 문자열 anscombe을 전달하면 앤스콤 데이터 집합을 불러올 수 있다.
- 데이터 프레임의 열 이름중 dataset 열이 데이터 그룹을 구분한다는 것을 알 수 있다.

In [1]:
import seaborn as sns
anscombe = sns.load_dataset('anscombe')
print(anscombe)
print(type(anscombe))

   dataset     x      y
0        I  10.0   8.04
1        I   8.0   6.95
2        I  13.0   7.58
3        I   9.0   8.81
4        I  11.0   8.33
5        I  14.0   9.96
6        I   6.0   7.24
7        I   4.0   4.26
8        I  12.0  10.84
9        I   7.0   4.82
10       I   5.0   5.68
11      II  10.0   9.14
12      II   8.0   8.14
13      II  13.0   8.74
14      II   9.0   8.77
15      II  11.0   9.26
16      II  14.0   8.10
17      II   6.0   6.13
18      II   4.0   3.10
19      II  12.0   9.13
20      II   7.0   7.26
21      II   5.0   4.74
22     III  10.0   7.46
23     III   8.0   6.77
24     III  13.0  12.74
25     III   9.0   7.11
26     III  11.0   7.81
27     III  14.0   8.84
28     III   6.0   6.08
29     III   4.0   5.39
30     III  12.0   8.15
31     III   7.0   6.42
32     III   5.0   5.73
33      IV   8.0   6.58
34      IV   8.0   5.76
35      IV   8.0   7.71
36      IV   8.0   8.84
37      IV   8.0   8.47
38      IV   8.0   7.04
39      IV   8.0   5.25
40      IV  19.0

# matplotlib 라이브러리로 간단한 그래프 그리기

In [2]:
%matplotlib notebook
import matplotlib.pyplot as plt
dataset_1 = anscombe[anscombe['dataset'] == 'I']
plt.plot(dataset_1['x'], dataset_1['y'])

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1ba31a8fd60>]

### plt.plot의 세번째 인자에 'o'값을 넣어주면 그래프에 점을 찍을 수 있다.

In [3]:
plt.plot(dataset_1['x'], dataset_1['y'], 'o')

[<matplotlib.lines.Line2D at 0x1ba2c89c910>]

In [4]:
print(dataset_1.shape)
print(dataset_1.columns)
print(dataset_1.index)
print(dataset_1)

(11, 3)
Index(['dataset', 'x', 'y'], dtype='object')
Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], dtype='int64')
   dataset     x      y
0        I  10.0   8.04
1        I   8.0   6.95
2        I  13.0   7.58
3        I   9.0   8.81
4        I  11.0   8.33
5        I  14.0   9.96
6        I   6.0   7.24
7        I   4.0   4.26
8        I  12.0  10.84
9        I   7.0   4.82
10       I   5.0   5.68


# 한 번에 4개의 그래프 그리기

### 1. 전체 그래프가 위치할 기본 틀을 만든다. ex) fig = plt.figure()
### 2. 그래프를 그려넣을 그래프 격자를 만든다. ex) axes1 = add_subplot(2,2,1)
### 3. 격자에 그래프를 하나씩 추가한다. 격자에 그래프가 추가되는 순서를 왼쪽에서 오른쪽 방향이다.
### 4. 만약 격자의 첫 번째 행이 꽉 차면 두 번째 행에 그래프를 그려 넣는다.

In [5]:
dataset_2 = anscombe[anscombe['dataset'] == 'II']
dataset_3 = anscombe[anscombe['dataset'] == 'III']
dataset_4 = anscombe[anscombe['dataset'] == 'IV']

# 먼저 그래프 격자가 위치할 기본 틀을 생성해준다.
fig = plt.figure()

# add_subplot 메서드를 이용하여 그래프 격자를 그린다.
# 기본 틀(fig)에 격자를 추가한다는 기분으로 add_subplot 메서드를 사용하면 된다.
# add_subplot의 첫 번째 인자에는 그래프 기본 틀의 행 크기를, 두 번째 인자에는 그래프 기본 틀의 열 크기를 지정한다.
# 세번째 인자는 인덱스? 차례? 번호를 넣어준다.
axes1 = fig.add_subplot(2, 2, 1)
axes2 = fig.add_subplot(2, 2, 2)
axes3 = fig.add_subplot(2, 2, 3)
axes4 = fig.add_subplot(2, 2, 4)

<IPython.core.display.Javascript object>

In [6]:
axes1.plot(dataset_1['x'], dataset_1['y'], 'o')
axes2.plot(dataset_2['x'], dataset_2['y'], 'o')
axes3.plot(dataset_3['x'], dataset_3['y'], 'o')
axes4.plot(dataset_4['x'], dataset_4['y'], 'o')
# 위에서 그래프를 만들었었다면 여기서가 아닌 위에서 표출한 곳에서 그래프가 나온다.
# 각 그래프에 제목도 추가해 줄 수 있다.
axes1.set_title('dataset_1')
axes2.set_title('dataset_2')
axes3.set_title('dataset_3')
axes4.set_title('dataset_4')

# 기본틀 (fig)에도 제목을 지정해줄 수 있다. 그것은 set_title이 아닌 suptitle메서드를 사용해야한다.
fig.suptitle('Anscombe Data')

# 그래프의 이름과 숫자가 겹쳐보이는걸 해결하기 위한 방법은 tight_layout 메서드를 호출하여 조절할 수 있다.
fig.tight_layout()

# fig를 실행하면 아래에 그래프가 하나 더 생성이 된다. 앞서 적용했던 것들이 합쳐져서 나온다.
fig

<IPython.core.display.Javascript object>

# 기초 그래프 그리기 - 히스토그램, 산점도, 박스 그래프

In [7]:
tips = sns.load_dataset('tips')
print(tips.head())
print(tips.shape)
print(tips.columns)
print(type(tips))



   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
(244, 7)
Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')
<class 'pandas.core.frame.DataFrame'>


In [8]:
### 히스토그램은 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 사용한다.
### 데이터프레임의 total_bill, tip 등의 열을 변수라고 부른다.
### 변수를 하나만 사용해서 그린 그래프를 "일변량 그래프"라고 부른다.

In [9]:
fig = plt.figure()
axes1 = fig.add_subplot(1,1,1)

<IPython.core.display.Javascript object>

In [10]:
fig.suptitle('History of Total Bill')
axes1.set_title('title of axes1')
axes1.set_xlabel('Frequency')
axes1.set_ylabel('Total Bill')
axes1.hist(tips['total_bill'], bins = 10)
# hist 메서드에 total_bill 열을 전달하면 히스토그램이 만들어진다.
# x축의 간격은 bins 인잣값으로 조정할 수 있다. (bin = 10은 x축의 간격은 10)
fig


<IPython.core.display.Javascript object>

# 단변량 그래프 그리기 - 히스토그램

In [11]:
scatter_plot = plt.figure()
axes1 = scatter_plot.add_subplot(1,1,1)
axes1.set_xlabel('Total Bill')
axes1.set_ylabel('Tip')
axes1.set_title('scatter graph')
axes1.scatter(tips['total_bill'], tips['tip'])
print(tips.columns)


<IPython.core.display.Javascript object>

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')


### 박스 그래프
- 박스 그래프는 이산형 변수와 연속형 변수를 함께 사용하는 그래프이다.
- 이산형 변수란 Female, Male과 같이 명확하게 구분되는 값을 의미하고, 연속형 변수란 TIP과 같이 명확하게 셀 수 없는 범위의 값이다.

In [12]:
print(tips)
tips_graph = plt.figure()
axes1 = tips_graph.add_subplot(1,1,1)
axes1.set_xlabel('Sex')
axes1.set_ylabel('Tip')
axes1.set_title('Boxplot of Tips by sex')
axes1.boxplot([tips[tips['sex']=='Female']['tip'],
              tips[tips['sex']=='Male']['tip']],
              labels = ['Female', 'Male'])
tips_graph.suptitle('boxPlot')

     total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]


<IPython.core.display.Javascript object>

Text(0.5, 0.98, 'boxPlot')

In [13]:
tips_graph

<IPython.core.display.Javascript object>

# 다변량 그래프 그리기

In [14]:
def record_sex(sex):
    if sex == 'Female':
        return 0
    else:
        return 1
# 산점도 그래프는 문자열로 생상 구분이 되지 않기 때문에 함수를 생성하여 정수를 반환할 수 있도록 해준다.

tips['sex_color'] = tips['sex'].apply(record_sex)
# 정수를 반환하는 함수를 적용하여 tips['sex']에 브로드캐스팅을 할 수 있도록 해준다. 
# 브로드캐스팅을 위하여 apply 메서드를 사용한다.

In [15]:
scatter_plot = plt.figure()
axes1 = scatter_plot.add_subplot(1,1,1)
axes1.set_xlabel('Total Bill')
axes1.set_ylabel('Tip')
axes1.scatter(
    x=tips['total_bill'],
    y=tips['tip'],
    c=tips['sex_color'],
    alpha=0.5)
# c는 인잣값으로 정수로 받아 점의 색상을 의미한다.
# alpha 인잣값을 0.5로 지정하여 점의 투명도 보기 좋게 조절한다.

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x1ba3356e2e0>

In [16]:
# seaborn 라이브러리로 히스토그램을 그리려면 subplots, distplot 메서드를 사용하면 된다.
# subplots 메서드를 기본 틀을 만들고 displot 메서드에 total_bill열 데이터를 전달하면 히스토그램을 그릴 수 있다.
ax = plt.subplots() # plot.add_subplot와 헷갈리면 안된다. 끝에 s가 있다.
# fig.add_subplot(111) = 111의 의미는, 1행째의 1열의 첫 번째라는 의미로, subplot(1, 1, 1)로 작성해도 동일 그리고 subplots와 같은 말이다.
# 기본적인 distplot()메소드를 이용한 히스토그램은 히스토 그램과 함께 밀집도 그래프(선부분)을 같이 표현한다. 
ax = sns.distplot(tips['total_bill'])
ax.set_title('Total Bill Histogram with Dendity Plot')

<IPython.core.display.Javascript object>



Text(0.5, 1.0, 'Total Bill Histogram with Dendity Plot')

In [17]:
ax = plt.subplots()
# 밀집도 그래프가 보기 싫다면 kde를 false를 주면 된다.
ax = sns.distplot(tips['total_bill'], kde=False)
ax.set_title('total_bill')

<IPython.core.display.Javascript object>



Text(0.5, 1.0, 'total_bill')

In [18]:
ax = plt.subplots()
# 히스토 그래프가 보기 싫다면 hist에 인잣값에 false를 주면된다.
ax = sns.distplot(tips['total_bill'], hist= False)
ax.set_title('total_bill')

<IPython.core.display.Javascript object>



Text(0.5, 1.0, 'total_bill')

In [19]:
print(tips['total_bill'])

0      16.99
1      10.34
2      21.01
3      23.68
4      24.59
       ...  
239    29.03
240    27.18
241    22.67
242    17.82
243    18.78
Name: total_bill, Length: 244, dtype: float64


In [22]:
ax = plt.subplots()
ax = sns.countplot('day', data = tips)
ax.set_title('Count of dats')
ax.set_xlabel('Day of the week')
ax.set_ylabel('Frequency')

<IPython.core.display.Javascript object>



Text(0, 0.5, 'Frequency')

# 산점도와 회귀선을 함께 그린 그래프

In [25]:
ax = plt.subplots()
ax = sns.regplot(x='total_bill', y='tip', data=tips)

<IPython.core.display.Javascript object>

In [27]:
ax = plt.subplots()
ax = sns.regplot(x='total_bill', y='tip', data=tips, fit_reg=False)

<IPython.core.display.Javascript object>

# 데이터프레임과 시리즈로 그래프 그리기

In [29]:
ax = plt.subplots()
ax = tips['total_bill'].plot.hist()

<IPython.core.display.Javascript object>

In [36]:
fig, ax = plt.subplots()
ax = tips[['total_bill', 'tip']].plot.hist(alpha=0.5, bins=20, ax=ax)

<IPython.core.display.Javascript object>

In [38]:
ax = plt.subplots()
ax = tips['tip'].plot.kde()

<IPython.core.display.Javascript object>

In [39]:
fig, ax = plt.subplots()
ax = sns.violinplot(x='time', y='total_bill', hue='sex', data=tips, split=True)

<IPython.core.display.Javascript object>

# 알아두면 좋아요