# Pandas

In [1]:
import numpy as np
import pandas as pd

## 1. Series

In [5]:
s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [7]:
s[0], s['서울']
# 인덱스는 숫자로 쓰거나 지정한 인덱스명을 쓸 수 있다.

(9904312, 9904312)

In [14]:
s[[1,3]]
# 복수의 인덱스로 인덱스와 값 불러오기

부산    3448737
대구    2466052
dtype: int64

In [16]:
s[::2]
# 슬라이싱도 동일하다.

서울    9904312
인천    2890451
dtype: int64

In [22]:
cities = {'서울': 9904312, '부산':3448737, '인천':2890451, '대구':2466052}
s = pd.Series(cities)
s
# 데이터 타입만 같으면

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [11]:
dice = pd.Series(np.random.randint(1,7,5))
dice

0    6
1    6
2    5
3    3
4    4
dtype: int32

In [12]:
# Series의 데이터는 넘파이이므로 수식을 바로 적용할 수 있다.
s / 1000000

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

In [27]:
cities = {'서울': 9631482, '부산':3393191, '인천':2632035, '대전':1490158}
s2 = pd.Series(cities)
s2
# 데이터 타입만 같으면

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [28]:
for key, value in s.items():
    print(key, value)

서울 9904312
부산 3448737
인천 2890451
대구 2466052


In [29]:
for key, value in s2.items():
    print(key, value)

서울 9631482
부산 3393191
인천 2632035
대전 1490158


In [30]:
ds = s - s2
ds
# NaN은 Not a Number의 줄임말
# 결측치가 있을 때 데이터 타입이 실수로 변하는 이유

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [31]:
np.nan, np.inf

(nan, inf)

### 속성과 메소드

In [33]:
s.values
# 시리즈의 밸류값만 뽑아냄.(=numpy array)

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [34]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [35]:
s.name = '도시'
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 도시, dtype: int64

- count, value_counts(), unique(), nunique()

In [37]:
np.random.seed(2021)
dice = pd.Series(np.random.randint(1,7,100))

In [39]:
# elemont의 갯수 확인
dice.count()

100

In [40]:
# 고유한 값 확인
dice.unique()

array([5, 6, 2, 1, 4, 3])

In [41]:
# 고유한 값의 종류 확인
dice.nunique()

6

In [42]:
# 고유한 값별로 갯수
dice.value_counts()

2    21
6    21
3    19
4    18
5    13
1     8
dtype: int64

- sum(), min(), max(), mean() (연산, 최소최댓값, 평균 등)

In [43]:
s.sum()

18709552

In [46]:
s.min(), s.max(), s.mean()

(2466052, 9904312, 4677388.0)

In [47]:
# 요약 통계 정보
s.describe()

count    4.000000e+00
mean     4.677388e+06
std      3.507776e+06
min      2.466052e+06
25%      2.784351e+06
50%      3.169594e+06
75%      5.062631e+06
max      9.904312e+06
Name: 도시, dtype: float64

- sorting

In [49]:
s.sort_values()

대구    2466052
인천    2890451
부산    3448737
서울    9904312
Name: 도시, dtype: int64

In [50]:
s.sort_values(ascending=False)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 도시, dtype: int64

In [53]:
s.values[::-1]

array([2466052, 2890451, 3448737, 9904312], dtype=int64)

In [54]:
s.sort_values()[::-1]

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 도시, dtype: int64

In [51]:
s.sort_index()

대구    2466052
부산    3448737
서울    9904312
인천    2890451
Name: 도시, dtype: int64

In [52]:
s.sort_index(ascending=False)

인천    2890451
서울    9904312
부산    3448737
대구    2466052
Name: 도시, dtype: int64

- 결측치(Na, Null, Nan) 처리

In [55]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [57]:
ds.isna()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [58]:
# Value_counts() method로는 결측치가 있는지 확인 불가
ds.value_counts()

272830.0    1
55546.0     1
258416.0    1
dtype: int64

In [61]:
ds.isna().sum() # 이와 같이 결측치의 갯수를 더해서 한 번에 확인 가능함.

2

In [65]:
dice.isnull().sum()

0

# 결측치가 나왔을 때 대처법
#### 1. 수치데이터 일 때는 평균, 중앙값, 카테고리일 경우 최빈값 등으로 대체한다.
#### 2. 삭제한다.

- isna()로 결측치 확인, fillna 혹은 dropna로 결측치를 대체하거나 제거

In [69]:
ds.fillna(ds.mean()) # 결측치를 평균으로 대체

대구    195597.333333
대전    195597.333333
부산     55546.000000
서울    272830.000000
인천    258416.000000
dtype: float64

In [71]:
ds
# fillna 메소드는 기존값을 변경하지 않음

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [75]:
ds.fillna(0).astype(int) #타입을 바꿀 때는 astype()

대구         0
대전         0
부산     55546
서울    272830
인천    258416
dtype: int32

In [77]:
# 결측치 제거
ds.dropna()

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [80]:
ds_median = ds.fillna(ds.median()).astype(int) # 결측치를 중앙값으로 대체하고 타입을 int로 변경
ds_median

대구    258416
대전    258416
부산     55546
서울    272830
인천    258416
dtype: int32

In [83]:
ds.dropna(inplace=True)
ds
# 기존 데이터 자체를 변경하고 싶을 때는 (inplace=True)

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64