# Pandas

# Pandas 데이터 프레임과 시리즈

### 시리즈(Series)

- 1차원 Numpy 배열과 유사

- index라는 속성이 있어서 인덱싱 목적으로 사용

- 벡터 연산도 지원

In [1]:
import pandas as pd
import numpy as np

- 시리즈와 데이터프레임 두가지가 기본이다.

- 자동으로 인덱스가 만들어진다.

In [2]:
dic = {
    'city': ['서울', '부산', '대전', '대구', '광주'],
    'year': [2017, 2017, 2018, 2018, 2018],
    'temp': [18, 20, 19, 21, 20]
}

In [3]:
data = pd.DataFrame(dic)
data

Unnamed: 0,city,year,temp
0,서울,2017,18
1,부산,2017,20
2,대전,2018,19
3,대구,2018,21
4,광주,2018,20


In [4]:
type(data)

pandas.core.frame.DataFrame

In [5]:
# 열의 이름으로 순서를 변경 할 수 있다.
data[['year', 'city', 'temp']]

Unnamed: 0,year,city,temp
0,2017,서울,18
1,2017,부산,20
2,2018,대전,19
3,2018,대구,21
4,2018,광주,20


In [6]:
data[['year']]
data['year']
data.year

0    2017
1    2017
2    2018
3    2018
4    2018
Name: year, dtype: int64

In [7]:
# index 변경하기
data.index = ['a', 'b', 'c', 'd', 'e']

data

Unnamed: 0,city,year,temp
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [8]:
# columns
data.columns

Index(['city', 'year', 'temp'], dtype='object')

In [9]:
# columns 변경하기
data.columns = ['도시', '년도', '날씨']

data

Unnamed: 0,도시,년도,날씨
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [10]:
# 도시를 index로 사용
data.set_index(['도시'])
data.set_index('도시')

Unnamed: 0_level_0,년도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [11]:
data
data.loc['a']

도시      서울
년도    2017
날씨      18
Name: a, dtype: object

In [12]:
data.index = range(5)
data.columns = ['city', 'year', 'temp']
data

Unnamed: 0,city,year,temp
0,서울,2017,18
1,부산,2017,20
2,대전,2018,19
3,대구,2018,21
4,광주,2018,20


In [14]:
# 대입연산자를 사용하지 않고 원본을 바꿀때
# inplace=True
data.set_index(['city'], inplace=True)
data

Unnamed: 0_level_0,year,temp
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [16]:
# index 부분은 나오지 않음
data.loc['서울']

year    2017
temp      18
Name: 서울, dtype: int64

In [17]:
data.columns = ['년도', '날씨']
data

Unnamed: 0_level_0,년도,날씨
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [18]:
data.loc[['서울', '부산']]

Unnamed: 0_level_0,년도,날씨
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20


In [21]:
data.iloc[0:2]

Unnamed: 0_level_0,년도,날씨
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20


In [24]:
data.loc[['부산', '대전']]

Unnamed: 0_level_0,년도,날씨
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2017,20
대전,2018,19


In [25]:
data.iloc[1:3]

Unnamed: 0_level_0,년도,날씨
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2017,20
대전,2018,19


In [26]:
data

Unnamed: 0_level_0,년도,날씨
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [28]:
# data에 값 추가하기
data['car'] = [50, 40, 20, 30, 10]

data

Unnamed: 0_level_0,년도,날씨,car
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,50
부산,2017,20,40
대전,2018,19,20
대구,2018,21,30
광주,2018,20,10


In [34]:
# 조건
data['car']>=30

# car가 30 이상이면 True, 아니면 False
data['high'] = data['car']>=30
data

Unnamed: 0_level_0,년도,날씨,car,high
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
대구,2018,21,30,True
광주,2018,20,10,False


In [36]:
# 지우기
data.drop('car', 1)

Unnamed: 0_level_0,년도,날씨,high
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,True
부산,2017,20,True
대전,2018,19,False
대구,2018,21,True
광주,2018,20,False


In [38]:
# 단, 원본이 지워지지는 않음
data

Unnamed: 0_level_0,년도,날씨,car,high
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
대구,2018,21,30,True
광주,2018,20,10,False


## Series

In [47]:
# 생성
s = pd.Series([4, 7, -5, 2])

print(s)
print(type(s))
print(s.shape)

0    4
1    7
2   -5
3    2
dtype: int64
<class 'pandas.core.series.Series'>
(4,)


In [48]:
# 생성 하면서 index를 수정
s = pd.Series([4, 7, -5, 2], index=['d', 'b', 'a', 'c'])
s

d    4
b    7
a   -5
c    2
dtype: int64

In [55]:
# 값들 출력, dtype 출력
s.values, s.dtype

(array([ 4,  7, -5,  2], dtype=int64), dtype('int64'))

### 연습 01

각 도시의 인구 데이터 Series로 만드시오

도시 = '서울', '부산', '인천', '대구'

인구수 = 9904312, 3448737, 2890451, 2466052

In [57]:
s = pd.Series([9904312, 3448737, 2890451, 2466052], index=['서울', '부산', '인천', '대구'])

s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [59]:
s.서울, s.대구

(9904312, 2466052)

In [64]:
# Series에 name 넣기
# column명
s.name = '인구'

s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [65]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [68]:
# index의 name 넣기
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [72]:
# 연산
# 각 요소별로 연산
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### 인덱싱

In [79]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [73]:
# 인덱싱
s[1]

3448737

In [74]:
s.부산

3448737

In [76]:
s['부산']

3448737

In [82]:
s[['부산']]

도시
부산    3448737
Name: 인구, dtype: int64

In [80]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [83]:
s[['서울', '대구', '부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

### 슬라이싱

In [84]:
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [86]:
s['부산':'인천']

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [93]:
# 인구가 250만 이상인 도시
s[s >= 2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [116]:
# 인구가 250만 이상, 500만 이하인 도시
s[(s>= 2500000) & (s <= 5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [134]:
# 딕셔너리 자료를 이용해서 Series 만들기
data = {
    '서울': 9631482,
    '부산': 3393191,
    '인천': 2632035,
    '대전': 1490158
}

s2 = pd.Series(data)
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [135]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [136]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [137]:
# null 값을 제외하고 가져올때
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [138]:
# null 값인것을 가져오기
ds[ds.isnull()]

대구   NaN
대전   NaN
dtype: float64

### 연습 02

인구 증가율은?

In [139]:
s, s2

(도시
 서울    9904312
 부산    3448737
 인천    2890451
 대구    2466052
 Name: 인구, dtype: int64,
 서울    9631482
 부산    3393191
 인천    2632035
 대전    1490158
 dtype: int64)

In [157]:
rs = (s - s2) / s2 * 100
rs[rs.notnull()]

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [158]:
# 삭제하기
del rs['서울']

In [159]:
rs

대구         NaN
대전         NaN
부산    1.636984
인천    9.818107
dtype: float64