# Pandas - Series

In [1]:
import numpy as np
import pandas as pd

### 1. 시리즈 생성
- Numpy 1차원 배열 + 인덱스

In [2]:
pop = [9904321, 3448737, 2890451, 2466052]          # 서울, 부산, 인천, 대구 인구수
pop[0], pop[2]

(9904321, 2890451)

In [3]:
metro = pd.Series(pop, index=["Seoul", "Busan", "Incheon", "Daegu"])
metro

Seoul      9904321
Busan      3448737
Incheon    2890451
Daegu      2466052
dtype: int64

In [4]:
# 값 하나를 인덱싱 할 경우
metro[0], metro['Seoul']

(9904321, 9904321)

In [5]:
# metro 데이터 타입
metro.values, type(metro.values)

(array([9904321, 3448737, 2890451, 2466052], dtype=int64), numpy.ndarray)

In [6]:
# 여러 값을 가져올 경우 - 시리즈 형식
metro[[0,1]]

Seoul    9904321
Busan    3448737
dtype: int64

In [7]:
metro[['Seoul', 'Busan']]

Seoul    9904321
Busan    3448737
dtype: int64

In [8]:
dice = pd.Series(np.random.randint(1,7,10))
dice

0    1
1    3
2    2
3    1
4    2
5    4
6    5
7    5
8    3
9    2
dtype: int32

In [9]:
# 시리즈 데이터는 넘파이 어레이이므로 수식을 바로 적용할 수 있음
metro / 1000000

Seoul      9.904321
Busan      3.448737
Incheon    2.890451
Daegu      2.466052
dtype: float64

In [10]:
dice * 10

0    10
1    30
2    20
3    10
4    20
5    40
6    50
7    50
8    30
9    20
dtype: int32

### 2. 시리즈와 딕셔너리

In [15]:
# 딕셔너리의 키가 시리즈의 인덱스가 됨
city = {'Seoul': 9631482, 'Busan':3393191, 'Incheon':2632035, 'Daejeon':1490158}
metro2 = pd.Series(city)
metro2

Seoul      9631482
Busan      3393191
Incheon    2632035
Daejeon    1490158
dtype: int64

In [16]:
# 시리즈는 .item()을 통해 자연스럽게 key, value로 빠져나올 수 있음
for key, value in metro2.items():
    print(key, value)

Seoul 9631482
Busan 3393191
Incheon 2632035
Daejeon 1490158


In [17]:
metro - metro2

Busan       55546.0
Daegu           NaN
Daejeon         NaN
Incheon    258416.0
Seoul      272839.0
dtype: float64

In [18]:
# 무한대, 결측치 --> type: 실수
a = np.array([np.inf, np.nan, 0, 1, 2])
a

array([inf, nan,  0.,  1.,  2.])

In [19]:
metro.values

array([9904321, 3448737, 2890451, 2466052], dtype=int64)

In [20]:
metro.index

Index(['Seoul', 'Busan', 'Incheon', 'Daegu'], dtype='object')

In [21]:
metro.name = 'District'
metro

Seoul      9904321
Busan      3448737
Incheon    2890451
Daegu      2466052
Name: District, dtype: int64

### 4. Method

- count, unique, nunique, value_counts

In [22]:
dice

0    1
1    3
2    2
3    1
4    2
5    4
6    5
7    5
8    3
9    2
dtype: int32

In [24]:
# element의 갯수
dice.count()

10

In [25]:
# 고유한 값
dice.unique()

array([1, 3, 2, 4, 5])

In [26]:
# 고유한 값의 갯수
dice.nunique()

5

In [27]:
# 고유한 값별로 갯수
dice.value_counts()

2    3
1    2
3    2
5    2
4    1
dtype: int64

- sum, min, max, mean

In [28]:
dice.sum(), dice.min(), dice.max(), dice.mean()

(28, 1, 5, 2.8)

In [29]:
metro.mean()

4677390.25

In [30]:
# 요약 통계
metro.describe()

count    4.000000e+00
mean     4.677390e+06
std      3.507780e+06
min      2.466052e+06
25%      2.784351e+06
50%      3.169594e+06
75%      5.062633e+06
max      9.904321e+06
Name: District, dtype: float64

- Sorting

In [31]:
# 데이터를 기준으로 오름차순
metro.sort_values()

Daegu      2466052
Incheon    2890451
Busan      3448737
Seoul      9904321
Name: District, dtype: int64

In [32]:
# 데이터를 기준으로 내림차순
metro.sort_values(ascending=False)

Seoul      9904321
Busan      3448737
Incheon    2890451
Daegu      2466052
Name: District, dtype: int64

In [33]:
metro.sort_index()

Busan      3448737
Daegu      2466052
Incheon    2890451
Seoul      9904321
Name: District, dtype: int64

- 결측치(Na, NaN, Null) 처리

In [34]:
dm = metro - metro2
dm

Busan       55546.0
Daegu           NaN
Daejeon         NaN
Incheon    258416.0
Seoul      272839.0
dtype: float64

In [35]:
dm.isna()

Busan      False
Daegu       True
Daejeon     True
Incheon    False
Seoul      False
dtype: bool

In [37]:
dm.isnull()

Busan      False
Daegu       True
Daejeon     True
Incheon    False
Seoul      False
dtype: bool

In [41]:
# 0 이 아닌 값이 나오면 결측치가 있음
dm.isna().sum()

2

In [40]:
# metro에는 결측치가 없음
metro.isnull().sum()

0

In [42]:
# 결측치: 제거 or 대체 (평균/중앙값/최빈값 - 연구자가 결정)
# 결측치를 평균으로 대체
dm.fillna(dm.mean())

Busan       55546.000000
Daegu      195600.333333
Daejeon    195600.333333
Incheon    258416.000000
Seoul      272839.000000
dtype: float64

In [43]:
# 결측치를 중앙값으로 대체
dm.fillna(dm.median())

Busan       55546.0
Daegu      258416.0
Daejeon    258416.0
Incheon    258416.0
Seoul      272839.0
dtype: float64

In [45]:
# 결측치를 0으로 대체하고 정수형으로 변경
dm.fillna(0).astype(int)

Busan       55546
Daegu           0
Daejeon         0
Incheon    258416
Seoul      272839
dtype: int32

In [46]:
# 결측치 제거
dm.dropna()

Busan       55546.0
Incheon    258416.0
Seoul      272839.0
dtype: float64

- inplace option

In [47]:
dm

Busan       55546.0
Daegu           NaN
Daejeon         NaN
Incheon    258416.0
Seoul      272839.0
dtype: float64

In [48]:
dm2 = dm.dropna()
dm2

Busan       55546.0
Incheon    258416.0
Seoul      272839.0
dtype: float64

In [49]:
dm.dropna(inplace=True)
dm

Busan       55546.0
Incheon    258416.0
Seoul      272839.0
dtype: float64

In [50]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [51]:
age = titanic['age']
age.isna().sum(), age.count()

(177, 714)

In [53]:
#age.fillna(age.mean())