# Pandas

### 1. serise

In [1]:
import numpy as np
import pandas as pd

In [2]:
s = pd.Series([9904312, 3448737, 2890457, 2466052], 
            index=['서울', '부산', '인천', '대구'])
s #리스트 형식

서울    9904312
부산    3448737
인천    2890457
대구    2466052
dtype: int64

In [3]:
s[0], s['서울']

(9904312, 9904312)

In [4]:
cities = {'서울':99904321, '부산':3448737, '인천':28890451, '대구':2466052}
s2 = pd.Series(cities)
s2 #딕셔너리 형식

서울    99904321
부산     3448737
인천    28890451
대구     2466052
dtype: int64

In [5]:
dice = pd.Series(np.random.randint((1, 7, 5)))
dice

0    0
1    5
2    3
dtype: int32

In [6]:
#Series의 데이터는 넘파이이므로 수식을 바로 적용할 수 있음
s / 1000000

서울    9.904312
부산    3.448737
인천    2.890457
대구    2.466052
dtype: float64

In [7]:
s[::2]

서울    9904312
인천    2890457
dtype: int64

In [8]:
s[[1, 3]]

부산    3448737
대구    2466052
dtype: int64

In [9]:
cities = {'서울':99904321, '부산':3448737, '인천':28890451, '대구':2466052}
s2 = pd.Series(cities)
s2

서울    99904321
부산     3448737
인천    28890451
대구     2466052
dtype: int64

In [10]:
for key, value in s2.items():
    print(key, value)

서울 99904321
부산 3448737
인천 28890451
대구 2466052


In [11]:
#시리즈의 데이터는 넘파이이므로 수식을 바로 적용할 수 있음
s / 1000000

서울    9.904312
부산    3.448737
인천    2.890457
대구    2.466052
dtype: float64

### Seroes와 Dictionary

In [12]:
ds = s - s2
ds

서울   -90000009
부산           0
인천   -25999994
대구           0
dtype: int64

In [13]:
np.nan, np.inf

(nan, inf)

### 속성과 메소드

In [14]:
s.values

array([9904312, 3448737, 2890457, 2466052], dtype=int64)

In [15]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [16]:
s.name = '도시'
s

서울    9904312
부산    3448737
인천    2890457
대구    2466052
Name: 도시, dtype: int64

- count(), value_counts(), unique(),nunique()

In [17]:
np.random.seed(2021)
dice = pd.Series(np.random.randint(1, 17, 100))

In [18]:
dice.count()

100

In [19]:
#고유한 값
dice.unique

<bound method Series.unique of 0      5
1      6
2     10
3      1
4     14
      ..
95    16
96     3
97    15
98    10
99    12
Length: 100, dtype: int32>

In [20]:
#고유한 값의 종류
dice.nunique()

16

In [21]:
#고유한 값별로 갯수
dice.value_counts()

6     9
7     9
10    9
12    8
2     7
8     7
3     6
4     6
11    6
14    6
15    6
5     5
13    5
16    5
1     3
9     3
dtype: int64

- sum(), min, max(), mean()

In [22]:
s.sum()

18709558

In [23]:
s.min(), s.max(), s.mean()

(2466052, 9904312, 4677389.5)

In [24]:
s.describe()
#구할수있는건 다 구할수있음

count    4.000000e+00
mean     4.677390e+06
std      3.507775e+06
min      2.466052e+06
25%      2.784356e+06
50%      3.169597e+06
75%      5.062631e+06
max      9.904312e+06
Name: 도시, dtype: float64

- sorting

In [25]:
s.sort_values()

대구    2466052
인천    2890457
부산    3448737
서울    9904312
Name: 도시, dtype: int64

In [26]:
s.sort_values(ascending=False)

서울    9904312
부산    3448737
인천    2890457
대구    2466052
Name: 도시, dtype: int64

In [27]:
s.sort_values()[::-1]

서울    9904312
부산    3448737
인천    2890457
대구    2466052
Name: 도시, dtype: int64

In [28]:
s.sort_index()

대구    2466052
부산    3448737
서울    9904312
인천    2890457
Name: 도시, dtype: int64

- 결측치(Na, Null, Nan)처리

In [29]:
ds.isna()

서울    False
부산    False
인천    False
대구    False
dtype: bool

In [30]:
#Value _counts() method로는 결측치가 있는지 확인 불가
ds.value_counts()

 0           2
-90000009    1
-25999994    1
dtype: int64

In [31]:
ds.isna().sum()

0

In [32]:
dice.isnull().sum()

0

In [33]:
ds.fillna(ds.mean())

서울   -90000009
부산           0
인천   -25999994
대구           0
dtype: int64

In [34]:
ds

서울   -90000009
부산           0
인천   -25999994
대구           0
dtype: int64

In [35]:
ds.fillna(0).astype(int)
#데이터 타입을 변경할때 astype을 쓴다

서울   -90000009
부산           0
인천   -25999994
대구           0
dtype: int32

In [36]:
#결측지 제거
ds.dropna()
#isna, fillna, dropna 기억할것

서울   -90000009
부산           0
인천   -25999994
대구           0
dtype: int64

In [37]:
ds_median = ds.fillna(ds.median()).astype(int)
ds_median

서울   -90000009
부산           0
인천   -25999994
대구           0
dtype: int32

In [38]:
ds.dropna(inplace=True)
ds

서울   -90000009
부산           0
인천   -25999994
대구           0
dtype: int64