# pandas
- 데이터프레임(Dataframe)과 시리즈(Series)를 사용하기 위한 라이브러리
- 리스트, 어레이의 차이처럼 데이터프레임, ndarray의 차이 이해

In [1]:
import numpy as np
import pandas as pd

In [2]:
dic = {'city': ['서울', '부산', '대전', '대구', '광주'],
        'year': [2017, 2017, 2018, 2018, 2018],
        'temp': [18, 20, 19, 21, 20]}
data = pd.DataFrame(dic) ; data

Unnamed: 0,city,year,temp
0,서울,2017,18
1,부산,2017,20
2,대전,2018,19
3,대구,2018,21
4,광주,2018,20


## 인덱스와 컬럼이 자동으로 만들어진다

In [3]:
# 컬럼(열) 순서 변경
data[['year', 'city', 'temp']]

Unnamed: 0,year,city,temp
0,2017,서울,18
1,2017,부산,20
2,2018,대전,19
3,2018,대구,21
4,2018,광주,20


In [4]:
# 일부 컬럼(열)만 보기
data[['year', 'city']]

Unnamed: 0,year,city
0,2017,서울
1,2017,부산
2,2018,대전
3,2018,대구
4,2018,광주


In [5]:
data.index = ['a','b','c','d','e'] ; data

Unnamed: 0,city,year,temp
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [6]:
data.columns = ['도시','연도','날씨'] ; data

Unnamed: 0,도시,연도,날씨
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [7]:
data.set_index(['도시'])

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [8]:
data['연도']

a    2017
b    2017
c    2018
d    2018
e    2018
Name: 연도, dtype: int64

In [9]:
data.연도

a    2017
b    2017
c    2018
d    2018
e    2018
Name: 연도, dtype: int64

In [10]:
data

Unnamed: 0,도시,연도,날씨
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [11]:
data.loc['a']

도시      서울
연도    2017
날씨      18
Name: a, dtype: object

In [12]:
data.set_index(['도시'], inplace=True) ; data

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [13]:
data.loc['서울']

연도    2017
날씨      18
Name: 서울, dtype: int64

In [14]:
data.loc[['서울','부산']]

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20


In [15]:
data.iloc[1:3]

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2017,20
대전,2018,19


In [16]:
cars = [50,40,20,30,10]
data['car'] = cars ; data

Unnamed: 0_level_0,연도,날씨,car
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,50
부산,2017,20,40
대전,2018,19,20
대구,2018,21,30
광주,2018,20,10


In [17]:
data['high'] = data.car >= 30 ; data

Unnamed: 0_level_0,연도,날씨,car,high
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
대구,2018,21,30,True
광주,2018,20,10,False


In [18]:
data.drop('car', 1)

Unnamed: 0_level_0,연도,날씨,high
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,True
부산,2017,20,True
대전,2018,19,False
대구,2018,21,True
광주,2018,20,False


In [19]:
data.drop(['car', 'high'], 1)

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


## 람다 함수

In [20]:
import numpy as np
def f(x):
    return x.max() - x.min()

p = np.array([1,2,3,4])
f(p)

3

In [21]:
import pandas as pd
f = lambda x: x.max() - x.min()

df = pd.DataFrame(np.arange(12).reshape(4, 3), 
                  columns=['A', 'B', 'C'], index=['a', 'b', 'c', 'd'])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [22]:
df.apply(lambda x: x.max() - x.min())

A    9
B    9
C    9
dtype: int64

In [23]:
df.apply(f, 1)

a    2
b    2
c    2
d    2
dtype: int64

## Series

### 컬럼이 하나인 데이터프레임
- 인덱스는 붙어있다

In [24]:
data.연도

도시
서울    2017
부산    2017
대전    2018
대구    2018
광주    2018
Name: 연도, dtype: int64

In [25]:
type(data.연도)

pandas.core.series.Series