## Pandas - Series

In [207]:
import numpy as np
import pandas as pd

#### 1. 시리즈 생성
- Numpy 1차원 배열 + 인덱스

In [208]:
pop = [9904312, 3448737, 2890451, 2466052]
pop[0], pop[2]

(9904312, 2890451)

In [209]:
metro = pd.Series(pop, index=['서울', '부산', '인천', '대구'])
metro

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [210]:
# 값 하나를 인덱싱할 경우
metro[0], metro['서울']

(9904312, 9904312)

In [211]:
# 여러 값을 가져올 경우 - Series 형식
metro[[0,1]]

서울    9904312
부산    3448737
dtype: int64

In [212]:
metro[['서울', '부산']]

서울    9904312
부산    3448737
dtype: int64

In [213]:
# metro 데이터 타입
metro.values, type(metro.values)

(array([9904312, 3448737, 2890451, 2466052], dtype=int64), numpy.ndarray)

In [214]:
dice = pd.Series(np.random.randint(1,7,10))
dice

0    5
1    6
2    4
3    2
4    3
5    4
6    2
7    5
8    1
9    1
dtype: int32

In [215]:
# Series 데이터는 Numpy 데이터이므로 수식을 바로 적용할 수 있음
metro / 1000000

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

In [216]:
dice * 10

0    50
1    60
2    40
3    20
4    30
5    40
6    20
7    50
8    10
9    10
dtype: int32

#### 2. 시리즈와 딕셔너리

In [217]:
# 딕셔너리의 키가 시리즈의 인덱스가 됨
metro2 = pd.Series({'서울':9631482, '부산':3393191, '인천':2632035, '대전':1490158})

In [218]:
for key, value in metro2.items():
    print(key, value)

서울 9631482
부산 3393191
인천 2632035
대전 1490158


In [219]:
metro - metro2

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [220]:
# 무한대, 결축치 ---> 실수
a = np.array([np.inf, np.nan, 0, 1, 2])
a

array([inf, nan,  0.,  1.,  2.])

#### 3. 속성

In [221]:
metro.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [222]:
metro.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [223]:
metro.name = '광역시'
metro

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 광역시, dtype: int64

#### 4. Method
- count, unique, nunique, value_counts

In [224]:
dice

0    5
1    6
2    4
3    2
4    3
5    4
6    2
7    5
8    1
9    1
dtype: int32

In [225]:
# element의 갯수
dice.count()

10

In [226]:
# 고유한 값
dice.unique()

array([5, 6, 4, 2, 3, 1])

In [227]:
# 고유한 값의 갯수
dice.nunique()

6

In [228]:
# 고유한 값 별로 갯수
dice.value_counts()

5    2
4    2
2    2
1    2
6    1
3    1
dtype: int64

- sum, min, max, mean

In [229]:
dice.sum(), dice.min(), dice.max(), dice.mean()

(33, 1, 6, 3.3)

In [230]:
metro.mean()

4677388.0

In [231]:
# 요약 통계
metro.describe()

count    4.000000e+00
mean     4.677388e+06
std      3.507776e+06
min      2.466052e+06
25%      2.784351e+06
50%      3.169594e+06
75%      5.062631e+06
max      9.904312e+06
Name: 광역시, dtype: float64

- Sorting

In [232]:
# 데이터를 기준으로 오름차순
metro.sort_values()

대구    2466052
인천    2890451
부산    3448737
서울    9904312
Name: 광역시, dtype: int64

In [234]:
# 데이터를 기준으로 내림차순
metro.sort_values(ascending=False)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 광역시, dtype: int64

In [235]:
metro.sort_values()[::-1]

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 광역시, dtype: int64

- 결측치(Na, NaN, Null) 처리

In [236]:
dm = metro - metro2
dm

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [237]:
dm.isna()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [238]:
dm.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [239]:
# 0이 아닌 값이 나오면 결측치가 있음
dm.isna().sum()

2

In [240]:
# metro에는 결측치가 없음
metro.isnull().sum()

0

In [241]:
# 결측치를 평균으로 대체
dm.fillna(dm.mean())

대구    195597.333333
대전    195597.333333
부산     55546.000000
서울    272830.000000
인천    258416.000000
dtype: float64

In [242]:
# 결측치를 중앙값으로 대체
dm.fillna(dm.median())

대구    258416.0
대전    258416.0
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [244]:
# 결측치를 0으로 대체하고 정수형으로 변경
dm.fillna(0).astype(int)

대구         0
대전         0
부산     55546
서울    272830
인천    258416
dtype: int32

In [245]:
# 결측치 제거
dm.dropna()

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

- inplace option

In [246]:
dm

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [248]:
dm2 = dm.dropna()
dm2

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [249]:
dm.dropna(inplace=True)
dm

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [250]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [252]:
age = titanic['age']
age.isna().sum(), age.count()

(177, 714)