# Pandas

In [1]:
import numpy as np
import pandas as pd

### 1. Series

In [2]:
s = pd.Series([9904312,3448737,2890451,2466052],
            index=['서울','부산','인천','대구'])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [3]:
s[0], s['서울']

(9904312, 9904312)

In [4]:
s[[1,3]]

부산    3448737
대구    2466052
dtype: int64

In [5]:
s[::2]

서울    9904312
인천    2890451
dtype: int64

In [6]:
dice = pd.Series(np.random.randint(1,7,5))
dice

0    4
1    3
2    4
3    2
4    3
dtype: int32

In [7]:
# Series의 데이터는 넘파이이므로 수식을 바로 적용할 수 있음
s / 1000000

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

### Series와 딕셔너리

In [8]:
cities = {'서울':9631482, '부산':3393191, '인천':2632035, '대전':1490158}

In [9]:
cities = {'서울':9631482, '부산':3393191, '인천':2632035, '대전':1490158}
s2 = pd.Series(cities)
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [10]:
for key, value in s2.items():
    print(key, value)

서울 9631482
부산 3393191
인천 2632035
대전 1490158


In [11]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

### 속성과 메소드

In [12]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [13]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [14]:
s.name = '도시'
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 도시, dtype: int64

- count(), value_counts(), unique(), nunique()

In [15]:
np.random.seed(2021)
dice = pd.Series(np.random.randint(1,7,100))

In [16]:
# element의 갯수

dice.count()

100

In [17]:
# 고유한 값

dice.unique()

array([5, 6, 2, 1, 4, 3])

In [18]:
# 고유한 값의 종류

dice.nunique()

6

In [19]:
# 고유한 값별로 갯수
dice.value_counts()    ###

2    21
6    21
3    19
4    18
5    13
1     8
dtype: int64

- sum(), min(), max(), mean()

In [37]:
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 도시, dtype: int64

In [20]:
s.sum()

18709552

In [21]:
s.min(), s.max(), s.mean()

(2466052, 9904312, 4677388.0)

In [22]:
s.describe()        #요약 통계 정보

count    4.000000e+00
mean     4.677388e+06
std      3.507776e+06
min      2.466052e+06
25%      2.784351e+06
50%      3.169594e+06
75%      5.062631e+06
max      9.904312e+06
Name: 도시, dtype: float64

- sorting

In [23]:
s.sort_values()

대구    2466052
인천    2890451
부산    3448737
서울    9904312
Name: 도시, dtype: int64

In [24]:
s.sort_values(ascending=False)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 도시, dtype: int64

In [25]:
s.sort_values()[::-1]

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 도시, dtype: int64

In [26]:
s.sort_index()

대구    2466052
부산    3448737
서울    9904312
인천    2890451
Name: 도시, dtype: int64

- 결측치(Na, Null, Nan)처리

In [27]:
# 결측값 여부 확인

ds.isna()       #isnull

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [28]:
# value_counts() method로는 결측치가 있는지 확인 불가

ds.value_counts()

272830.0    1
55546.0     1
258416.0    1
dtype: int64

In [29]:
ds.isna().sum()

2

In [30]:
dice.isnull().sum()

0

In [31]:
#결측치 채우기
# 1) 평균 / 2_ 중앙값 / 3) 최빈값       대체
# 



In [32]:
ds.fillna(ds.mean())      #평균으로 채워넣기

대구    195597.333333
대전    195597.333333
부산     55546.000000
서울    272830.000000
인천    258416.000000
dtype: float64

In [33]:
ds.fillna(0).astype(int)

대구         0
대전         0
부산     55546
서울    272830
인천    258416
dtype: int32

In [34]:
# 결측치 제거

ds.dropna()

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [35]:
ds_median = ds.fillna(ds.median()).astype(int)
ds_median

대구    258416
대전    258416
부산     55546
서울    272830
인천    258416
dtype: int32

In [38]:
ds.dropna(inplace=True)     # 내 자신을 바꾸고 싶을때
ds

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64