# Seaborn 내장 데이터 셋

Seaborn은 Matplotlib을 기반으로 다양한 테마, 통계용 차트 등 기능을 추가한 시각화 패키지

# 1. 시리즈의 산술연산

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

In [2]:
# Seaborn 데이터셋 목록
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [3]:
# 데이터셋 불러오기
sns.load_dataset('car_crashes') # 자동차사고 데이터

Unnamed: 0,total,speeding,alcohol,not_distracted,no_previous,ins_premium,ins_losses,abbrev
0,18.8,7.332,5.64,18.048,15.04,784.55,145.08,AL
1,18.1,7.421,4.525,16.29,17.014,1053.48,133.93,AK
2,18.6,6.51,5.208,15.624,17.856,899.47,110.35,AZ
3,22.4,4.032,5.824,21.056,21.28,827.34,142.39,AR
4,12.0,4.2,3.36,10.92,10.68,878.41,165.63,CA
5,13.6,5.032,3.808,10.744,12.92,835.5,139.91,CO
6,10.8,4.968,3.888,9.396,8.856,1068.73,167.02,CT
7,16.2,6.156,4.86,14.094,16.038,1137.87,151.48,DE
8,5.9,2.006,1.593,5.9,5.9,1273.89,136.05,DC
9,17.9,3.759,5.191,16.468,16.826,1160.13,144.18,FL


# 1-1 시리즈 vs  숫자

In [5]:
student1 = pd.Series({'국어' : 100, '영어' : 80, '수학' : 90})
student1

print(student1 / 200)

국어    0.50
영어    0.40
수학    0.45
dtype: float64


# 1-2. 시리즈 vs 시리즈

시리즈 간의 연산은 같은 인덱스를 가진 요소끼리 연산을 해서 새로운 시리즈로 반환

같은 인덱스를 가지지만 순서가 다른 시리즈를 생성

In [6]:
student1 = pd.Series({'국어' : 100, '영어' : 80, '수학' : 90})
student2 = pd.Series({'수학' : 80, '국어' : 90, '영어' : 80})

print(student1)
print()
print(student2)

국어    100
영어     80
수학     90
dtype: int64

수학    80
국어    90
영어    80
dtype: int64


In [9]:
# 사칙연산...!
add_data = student1 + student2
sub_data = student1 - student2
mul_data = student1 * student2
div_data = student1 / student2

print(add_data)
print()
print(sub_data)
print()
print(mul_data)
print()
print(div_data)
print()

국어    190
수학    170
영어    160
dtype: int64

국어    10
수학    10
영어     0
dtype: int64

국어    9000
수학    7200
영어    6400
dtype: int64

국어    1.111111
수학    1.125000
영어    1.000000
dtype: float64



In [11]:
# 그 결과를 데이터프레임으로 합치기 (시리즈 => 데이터프레임)
result = pd.DataFrame([add_data, sub_data, mul_data, div_data],
                      index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,190.0,170.0,160.0
뺄셈,10.0,10.0,0.0
곱셈,9000.0,7200.0,6400.0
나눗셈,1.111111,1.125,1.0


# 1-3. NaN값이 있는 시리즈 연산

NaN : 결측값, 결측치(in Python = None)

In [13]:
student1 = pd.Series({'국어' : np.nan, '영어' : 80, '수학' : 90})
student2 = pd.Series({'수학' : 80, '국어' : 90})

print(student1)
print()
print(student2)
print()

# 이 둘을 더한 결과는 어떻게...?
print(student1 + student2)
# NaN과의 연산결과는 NaN이고, 인덱스가 없는 경우에도 NaN으로 반환

국어     NaN
영어    80.0
수학    90.0
dtype: float64

수학    80
국어    90
dtype: int64

국어      NaN
수학    170.0
영어      NaN
dtype: float64


# 1-4. 연산함수 (add(), sub(), mul(), div())와 fill_value()

위에서 사칙연산 + - * / 로 직접 해봤는데... 연산함수도 존재 !

위에서 연산결과가 NaN이 되는 2가지 경우에 대해서 fill_value() 옵션으로 값을 대체

In [15]:
add_data = student1.add(student2, fill_value=0)
sub_data = student1.sub(student2, fill_value=0)
mul_data = student1.mul(student2, fill_value=0)
div_data = student1.div(student2, fill_value=0)

result = pd.DataFrame([add_data, sub_data, mul_data, div_data],
                      index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

# inf는 무한대(infinite)의 의미
# '영어' 인덱스를 연산할 때 NaN을 0으로 대체해서 계산
#   => 80 / 0 => inf

  sqr = _ensure_numeric((avg - values) ** 2)


Unnamed: 0,국어,수학,영어
덧셈,90.0,170.0,80.0
뺄셈,-90.0,10.0,80.0
곱셈,0.0,7200.0,0.0
나눗셈,0.0,1.125,inf


# 2-1. 데이터프레임 vs 숫자

데이터프레임은 결국 시리즈의 확장이기 때문에 시리즈의 연산과 별다른 차이가 없다

In [16]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [17]:
# age, fare 열의 데이터 출력
df = titanic[['age', 'fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [18]:
addition = df + 10
addition.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


# 2-2. 데이터프레임 vs 데이터프레임

In [19]:
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [20]:
addition = df + 10
addition.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


In [21]:
substraction = addition - df
substraction.tail()

Unnamed: 0,age,fare
886,10.0,10.0
887,10.0,10.0
888,,10.0
889,10.0,10.0
890,10.0,10.0
