### 1. Series

- 인덱스를 공유하는(한 행은 동일한 dtype으로 이루어짐) 여러개의 시리즈

In [44]:
import pandas as pd
import numpy as np

- series 생성
    - numpy 1차원 array + index

In [45]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울","부산","인천","대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [46]:
type(s)

pandas.core.series.Series

In [47]:
# index를 지정하지 않으면 0,1,2,3...으로 자동지정됨
pd.Series(np.arange(10,15))

0    10
1    11
2    12
3    13
4    14
dtype: int32

In [48]:
s.index, type(s.index)

(Index(['서울', '부산', '인천', '대구'], dtype='object'),
 pandas.core.indexes.base.Index)

In [49]:
s.values, type(s.values)

(array([9904312, 3448737, 2890451, 2466052], dtype=int64), numpy.ndarray)

In [50]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

- 인덱싱

In [51]:
# 결과가 scalar 값으로 나옴
s['부산'], s[1], s.부산

(3448737, 3448737, 3448737)

In [52]:
s['대구'], s[3], s[-1], s.대구

(2466052, 2466052, 2466052, 2466052)

In [53]:
# 결과가 Series로 나옴
s[[0,1]]

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [54]:
s[['서울','부산']]

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [55]:
# 리스트 안에 리스트를 꼭 넣어야 함
# 안그럼 에러
s['서울','부산']

KeyError: 'key of type tuple not found and not a MultiIndex'

In [None]:
# True or False인 값만 꺼내올 수 있음
# 250만 초과, 500만 미만인 값을 출력
s[(s > 2500000) & (s < 5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

- 슬라이싱

In [None]:
# 숫자 인덱스로 하는 슬라이싱은 넘파이와 동일
s[:2]

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [None]:
# 인덱스 문자열로 하는 경우에는 : 뒤 인덱스를 포함
# a:b 일 때 b를 포함한다는 의미
s['서울':'인천']

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

- 시리즈와 딕셔너리

In [None]:
'서울' in s

True

In [None]:
for k, v in s.items():
    print(f'{k}, {v}')

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


In [None]:
# 딕셔너리를 넣고 시리즈를 만들어도 된다
d = {"서울":9904312, "부산":3448737, "인천":2890451, "대구":2466052}
s2 = pd.Series(d)
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [None]:
# 순서를 정하고 싶으면 인덱스를 별도로 지정해야 함
s2 = pd.Series(d, index=['서울','부산','인천','대전'])
s2

서울    9904312.0
부산    3448737.0
인천    2890451.0
대전          NaN
dtype: float64

- 인덱스 기반 연산

In [None]:
ds = s - s2
ds

대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64

In [None]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [None]:
ds[ds.notnull()]

부산    0.0
서울    0.0
인천    0.0
dtype: float64

In [None]:
rs = (s-s2)/s2*100
rs = rs[rs.notnull()]
rs

부산    0.0
서울    0.0
인천    0.0
dtype: float64

- 데이터의 갱신, 추가, 삭제

In [None]:
# 갱신
rs['부산'] = 1.64
rs[1] = 2.83
rs.인천 = 9.82
rs

부산    1.64
서울    2.83
광주    1.51
dtype: float64

In [None]:
# 추가
rs['광주'] = 1.51
rs

부산    1.64
서울    2.83
광주    1.51
dtype: float64

In [None]:
# 삭제
# rs.인천, rs[2]는 사용할 수 없다
del rs['인천']
rs

KeyError: '인천'

- 연습문제

-(1) 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.

In [57]:
series1 = pd.Series(np.random.randint(1,100,4),index =['a','b','c','d'])
series2 = pd.Series(np.random.randint(1,100,4),index =['a','b','c','d'])
print(series1, series2, sep='\n')

a    40
b    30
c    90
d    13
dtype: int32
a    94
b     8
c    93
d    14
dtype: int32


-(2) 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

In [58]:
series1 + series2

a    134
b     38
c    183
d     27
dtype: int32

- 중요한 메소드

In [59]:
dice = pd.Series(np.random.randint(1,7,10))
dice

0    5
1    2
2    2
3    5
4    6
5    1
6    1
7    3
8    6
9    1
dtype: int32

In [60]:
# 원소의 갯수
dice.count()

10

In [61]:
# 고유한 값
dice.unique()

array([5, 2, 6, 1, 3])

In [62]:
# 고유한 값 별 갯수
# 방법1
dice.value_counts()

1    3
5    2
2    2
6    2
3    1
Name: count, dtype: int64

In [63]:
# 방법2
np.unique(dice.values, return_counts=True)

(array([1, 2, 3, 5, 6]), array([3, 2, 1, 2, 2], dtype=int64))

In [64]:
dice.min(), dice.max(), dice.sum(), dice.mean()

(1, 6, 32, 3.2)

In [65]:
# 요약 기술통계
# 갯수, 평균, 사분위, 최대, 최소값 등
dice.describe()

count    10.000000
mean      3.200000
std       2.097618
min       1.000000
25%       1.250000
50%       2.500000
75%       5.000000
max       6.000000
dtype: float64

In [66]:
# sort
# value가 같으면 index가 작은 순서대로 정렬
dice.sort_values()

5    1
6    1
9    1
1    2
2    2
7    3
0    5
3    5
4    6
8    6
dtype: int32

In [67]:
# 데이터 기준 오름차순
s.sort_values()

도시
대구    2466052
인천    2890451
부산    3448737
서울    9904312
Name: 인구, dtype: int64

In [68]:
# 데이터 기준 내림차순
s.sort_values(ascending=False)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [69]:
# 인덱스 기준 오름차순
s.sort_index()

도시
대구    2466052
부산    3448737
서울    9904312
인천    2890451
Name: 인구, dtype: int64

In [70]:
# 인덱스 기준 내림차순
s.sort_index(ascending=False)

도시
인천    2890451
서울    9904312
부산    3448737
대구    2466052
Name: 인구, dtype: int64

In [71]:
# inplace 옵션을 True로 하면 자기파괴적 메소드가 됨
s.sort_index(inplace=True)
s

도시
대구    2466052
부산    3448737
서울    9904312
인천    2890451
Name: 인구, dtype: int64

- 결측치(Na, NaN, Null) 처리

In [72]:
ds

대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64

In [73]:
# 결측치인지 확인
ds.isna()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [74]:
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [75]:
# 데이터의 양이 많을 때 결측치가 있는지 쉽게 보는 법
# isna를 해서 결측치가 있으면 0이 아니게 되니까 sum으로 확인
ds.isna().sum()

2

In [76]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [77]:
survived = titanic['survived']
age = titanic['age']

In [80]:
# 결측치 제외한 값
age.count()

714

In [78]:
age.isna().sum()

177

In [81]:
survived.count()

891

In [79]:
survived.isna().sum()

0

- 결측치가 발생했을 때
    - 결측치만 제거 : dropna()
    - 결측치를 대체 : fillna()

In [82]:
# 결측치 제거 (파괴적)
ds.dropna(inplace=True)
ds

부산    0.0
서울    0.0
인천    0.0
dtype: float64

In [83]:
ds = s-s2
ds

대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64

In [84]:
# 결측치 대체 (비파괴적)
# 중앙값으로 대체
ds.fillna(ds.median())

대구    0.0
대전    0.0
부산    0.0
서울    0.0
인천    0.0
dtype: float64

In [85]:
# 결측치를 평균값으로 대체하고 ds를 변경
ds.fillna(ds.mean(), inplace=True)
ds

대구    0.0
대전    0.0
부산    0.0
서울    0.0
인천    0.0
dtype: float64

In [87]:
# 결측치를 0으로 설정하고 데이터 타입을 정수형으로 변경
ds = ds.fillna(0).astype(int)
ds

대구    0
대전    0
부산    0
서울    0
인천    0
dtype: int32