# pandas

In [10]:
import pandas as pd
import numpy as np

### 1. sereis

In [11]:
s = pd.Series([9904312,3448737,2890457,2466052],
                index=['서울','부산','인천','대구'])
s

서울    9904312
부산    3448737
인천    2890457
대구    2466052
dtype: int64

In [12]:
s[0],s['서울']

(9904312, 9904312)

In [17]:
s[[1,3]]

부산    3448737
대구    2466052
dtype: int64

In [18]:
s[1::2]

부산    3448737
대구    2466052
dtype: int64

In [14]:
cities = {'서울':9904312, '부산':3448737, '인천':2890451, '대구':2466052}
s2 = pd.Series(cities)
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [15]:
dice = pd.Series(np.random.randint(1,7,5))
dice

0    3
1    1
2    6
3    1
4    3
dtype: int32

In [16]:
# Series의 데이터는 넘파이이므로 수식을 바로 적용할 수 있음

s / 1000000

서울    9.904312
부산    3.448737
인천    2.890457
대구    2.466052
dtype: float64

### series와 dictionary

In [26]:
cities = {'서울':9631482, '부산':3393191, '인천':2632035, '대전':1490458}
s2 = pd.Series(cities)
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490458
dtype: int64

In [27]:
for key, value in s2.items():
    print(key, value)

서울 9631482
부산 3393191
인천 2632035
대전 1490458


In [29]:
# NaN = Nor A Number , 인덱스 값이 다르면 연산이 이루어 지지 않음!
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258422.0
dtype: float64

In [30]:
np.nan, np.inf

(nan, inf)

### 속성과 메소드

In [33]:
s.values

array([9904312, 3448737, 2890457, 2466052], dtype=int64)

In [32]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [36]:
s.name = '도시'
s

서울    9904312
부산    3448737
인천    2890457
대구    2466052
Name: 도시, dtype: int64

        -count(), value_counts(), unique(), nunique()

In [37]:
np.random.seed(2021)
dice = pd.Series(np.random.randint(1,7,100))

In [39]:
#element의 갯수
dice.count()

100

In [40]:
# 고유한 값
dice.unique()

array([5, 6, 2, 1, 4, 3])

In [42]:
# 고유한 값의 종류
dice.nunique()

6

In [43]:
# 고유한 값별로 갯수
dice.value_counts()

2    21
6    21
3    19
4    18
5    13
1     8
dtype: int64

    -sum(전부 더한 값),min(가장 작은값),max(가장 큰값),mean(평균),describe(요약 통계정보)

In [44]:
s.sum()

18709558

In [45]:
s.min(), s.max(), s.mean()

(2466052, 9904312, 4677389.5)

In [46]:
s.describe()

count    4.000000e+00
mean     4.677390e+06
std      3.507775e+06
min      2.466052e+06
25%      2.784356e+06
50%      3.169597e+06
75%      5.062631e+06
max      9.904312e+06
Name: 도시, dtype: float64

    -sorting

In [47]:
s.sort_values()

대구    2466052
인천    2890457
부산    3448737
서울    9904312
Name: 도시, dtype: int64

In [53]:
# 내림차순
s.sort_values()[::-1]

서울    9904312
부산    3448737
인천    2890457
대구    2466052
Name: 도시, dtype: int64

In [52]:
s.sort_values(ascending=False)

서울    9904312
부산    3448737
인천    2890457
대구    2466052
Name: 도시, dtype: int64

In [54]:
s.sort_index()

대구    2466052
부산    3448737
서울    9904312
인천    2890457
Name: 도시, dtype: int64

    -결측치(Na, Null, Nan) 처리

In [62]:
#결측치 확인
ds.isna()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [59]:
# value_counts() method로는 결측치가 있는지 확인 불가
ds.value_counts()

272830.0    1
55546.0     1
258422.0    1
dtype: int64

In [63]:
#결측치 갯수 확인(Na, Null, Nan)
ds.isna().sum()

2

In [68]:
dice.isnull().sum()

0

    대체
        1)평균
        2)중앙값
        3)최빈값
    삭제

In [69]:
#결측치를 평균으로 대체
ds.fillna(ds.mean())

대구    195599.333333
대전    195599.333333
부산     55546.000000
서울    272830.000000
인천    258422.000000
dtype: float64

In [71]:
# 결측치를 0로 대체
ds.fillna(0)

대구         0.0
대전         0.0
부산     55546.0
서울    272830.0
인천    258422.0
dtype: float64

In [72]:
ds.fillna(0).astype(int)

대구         0
대전         0
부산     55546
서울    272830
인천    258422
dtype: int32

In [73]:
# 결측치 제거
ds.dropna()

부산     55546.0
서울    272830.0
인천    258422.0
dtype: float64

In [75]:
ds_median = ds.fillna(ds.median()).astype(int)
ds_median

대구    258422
대전    258422
부산     55546
서울    272830
인천    258422
dtype: int32

In [76]:
ds.dropna(inplace=True)
ds

부산     55546.0
서울    272830.0
인천    258422.0
dtype: float64