### 1. Series

In [71]:
import numpy as np
import pandas as pd

- Series 생성
    - numpy 1차원 array에 index가 가미된 꼴

In [72]:
s = pd.Series([9904312, 3448737, 2990451, 2455052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2990451
대구    2455052
dtype: int64

In [73]:
type(s)

pandas.core.series.Series

In [74]:
# 인덱스를 별도로 설정하지 않으면, 인덱스는 0, 1, 2, --- 이 된다.
pd.Series(np.arange(10, 15))

0    10
1    11
2    12
3    13
4    14
dtype: int32

In [75]:
s.index, type(s.index)

(Index(['서울', '부산', '인천', '대구'], dtype='object'),
 pandas.core.indexes.base.Index)

In [76]:
s.values, type(s.values)

(array([9904312, 3448737, 2990451, 2455052], dtype=int64), numpy.ndarray)

In [77]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2990451
대구    2455052
Name: 인구, dtype: int64

- 연산(operation)

In [78]:
s / 10000000

도시
서울    0.990431
부산    0.344874
인천    0.299045
대구    0.245505
Name: 인구, dtype: float64

- Indexing

In [79]:
s['부산'], s[1], s.부산         # 결과는 scalar

(3448737, 3448737, 3448737)

In [80]:
s['대구'], s[3], s[-1], s.대구

(2455052, 2455052, 2455052, 2455052)

In [81]:
s[[0, 1]]               # 결과는 Series

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [82]:
s[['서울', '부산']]

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [83]:
s[(s > 2500000) & (s < 5000000)]        # 250만 초과 500만 미만

도시
부산    3448737
인천    2990451
Name: 인구, dtype: int64

In [84]:
s[s > 5000000]

도시
서울    9904312
Name: 인구, dtype: int64

- 슬라이싱(Slicing)

In [85]:
# 숫자 인덱스로 하는 슬라이싱은 넘파이와 동일, 콜론 뒤 인덱스 미포함
s[:2]

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [86]:
# 인덱스 문자열로 하는 경우에는 콜론 뒤 인덱스를 포함
s['서울':'인천']

도시
서울    9904312
부산    3448737
인천    2990451
Name: 인구, dtype: int64

- 시리즈와 딕셔너리

In [87]:
'서울' in s

True

In [88]:
for k, v in s.items():
    print(k, v)

서울 9904312
부산 3448737
인천 2990451
대구 2455052


In [89]:
d = {'서울':9321311, '부산':2323231, '인천':2632035, '대전':149158}
s2 = pd.Series(d)
s2

서울    9321311
부산    2323231
인천    2632035
대전     149158
dtype: int64

In [90]:
# 순서를 정하고 싶으면, 인덱스를 별도로 설정해야함
s2 = pd.Series(d, index=['서울','부산', '인천', '대전'])
s2

서울    9321311
부산    2323231
인천    2632035
대전     149158
dtype: int64

- 인덱스 기반 연산

In [91]:
ds = s - s2
ds

대구          NaN
대전          NaN
부산    1125506.0
서울     583001.0
인천     358416.0
dtype: float64

In [92]:
ds.notnull()
rs = (s - s2) / s2*100
rs = rs[rs.notnull()]
rs

부산    48.445721
서울     6.254496
인천    13.617448
dtype: float64

- 데이터의 갱신, 추가, 삭제

In [93]:
rs['부산'] = 1.64
rs[1] = 2.83
rs.인천 = 9.82
rs

부산    1.64
서울    2.83
인천    9.82
dtype: float64

In [94]:
del rs['인천']      # rs.인천, rs[2]는 사용할 수 없음
rs

부산    1.64
서울    2.83
dtype: float64

In [95]:
rs['광주'] = 1.51       # 
rs

부산    1.64
서울    2.83
광주    1.51
dtype: float64

In [96]:
a = pd.Series([450, 400, 1300, 1050, 1100], index=['도란의검', '도란의반지', 'B.F 대검', '열정의검', '야만의 몽둥이'])
b = pd.Series([400, 2300, 2800, 2700, 3000], index=['도란의검', '도란의반지', 'B.F 대검', '열정의검', '요우무의 유령검'])

a + b, a - b, a * b, a /b


(B.F 대검      4100.0
 도란의검         850.0
 도란의반지       2700.0
 야만의 몽둥이        NaN
 열정의검        3750.0
 요우무의 유령검       NaN
 dtype: float64,
 B.F 대검     -1500.0
 도란의검          50.0
 도란의반지      -1900.0
 야만의 몽둥이        NaN
 열정의검       -1650.0
 요우무의 유령검       NaN
 dtype: float64,
 B.F 대검      3640000.0
 도란의검         180000.0
 도란의반지        920000.0
 야만의 몽둥이           NaN
 열정의검        2835000.0
 요우무의 유령검          NaN
 dtype: float64,
 B.F 대검      0.464286
 도란의검        1.125000
 도란의반지       0.173913
 야만의 몽둥이          NaN
 열정의검        0.388889
 요우무의 유령검         NaN
 dtype: float64)

- 중요한 메서드

In [97]:
dice = pd.Series(np.random.randint(1, 7, 10))
dice

0    3
1    1
2    4
3    1
4    2
5    5
6    1
7    3
8    4
9    6
dtype: int32

In [98]:
# element의 갯수
dice.count(), len(dice)

(10, 10)

In [99]:
# 고유한 element 값
dice.unique()

array([3, 1, 4, 2, 5, 6])

In [100]:
# 고유한 값의 갯수
dice.nunique()

6

In [101]:
# 고유한 값 별로 갯수
dice.value_counts()

1    3
3    2
4    2
2    1
5    1
6    1
Name: count, dtype: int64

In [102]:
np.unique(dice.values, return_counts=True)

(array([1, 2, 3, 4, 5, 6]), array([3, 1, 2, 2, 1, 1], dtype=int64))

In [103]:
dice.min(), dice.max(), dice.sum(), dice.mean()

(1, 6, 30, 3.0)

In [104]:
# 요약 기술통계
dice.describe()

count    10.000000
mean      3.000000
std       1.763834
min       1.000000
25%       1.250000
50%       3.000000
75%       4.000000
max       6.000000
dtype: float64

In [105]:
# sort
dice.sort_values()

1    1
3    1
6    1
4    2
0    3
7    3
2    4
8    4
5    5
9    6
dtype: int32

In [106]:
# 데이터 기준 오름차순
s.sort_values()

도시
대구    2455052
인천    2990451
부산    3448737
서울    9904312
Name: 인구, dtype: int64

In [107]:
# 데이터 기준 내림차순
s.sort_values(ascending=False)

도시
서울    9904312
부산    3448737
인천    2990451
대구    2455052
Name: 인구, dtype: int64

In [108]:
# 인덱스 기준 오름차순
s.sort_index()

도시
대구    2455052
부산    3448737
서울    9904312
인천    2990451
Name: 인구, dtype: int64

In [109]:
# 인덱스 기준 내림차순
s.sort_index(ascending=False)

도시
인천    2990451
서울    9904312
부산    3448737
대구    2455052
Name: 인구, dtype: int64

In [110]:
s

도시
서울    9904312
부산    3448737
인천    2990451
대구    2455052
Name: 인구, dtype: int64

In [111]:
# inplace = True : 자기파괴적 메소드
s.sort_index(inplace=True)
s

도시
대구    2455052
부산    3448737
서울    9904312
인천    2990451
Name: 인구, dtype: int64

- 결측치(Na, Nan, Null) 처리

In [112]:
ds

대구          NaN
대전          NaN
부산    1125506.0
서울     583001.0
인천     358416.0
dtype: float64

In [113]:
ds.isna()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [114]:
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [115]:
ds.isna().sum()     # 2개의 결측치 존재

2

In [116]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [117]:
survived = titanic['survived']
age = titanic['age']

In [123]:
survived.isna().sum()       # 결측치 X

0

In [124]:
age.isna().sum()            # 결측치 177개

177

In [126]:
survived.count()            # 결측치를 제외한 데이터 갯수

891

- 결측치 데이터 해결법 :
    1) 결측치만 제거 : dropna()
    2) 결측치를 대체(평균, 중앙값, 최빈값 등으로) : fillna()

In [131]:
# 결측치 제거
ds.dropna(inplace=True)
ds

부산    1125506.0
서울     583001.0
인천     358416.0
dtype: float64

In [138]:
ds = s - s2
ds

대구          NaN
대전          NaN
부산    1125506.0
서울     583001.0
인천     358416.0
dtype: float64

In [139]:
# 결측치를 중앙값으로 대체
ds.fillna(ds.median())

대구     583001.0
대전     583001.0
부산    1125506.0
서울     583001.0
인천     358416.0
dtype: float64

In [135]:
# 결측치를 평균값으로 대체하고 ds를 변경
ds.fillna(ds.mean(), inplace=True)

In [141]:
# 결측치를 0으로 대체, 데이터 타입을 정수형으로 변경
ds = s - s2
ds.fillna(0).astype(int)

대구          0
대전          0
부산    1125506
서울     583001
인천     358416
dtype: int32