# pandas
- 데이터프레임(Dataframe)과 시리즈(Series)

- Python에서 data를 편리하게 다루기 위해 table(표) 구조로 처리하는 경우가 많다.
- 이를 위해서 pandas 패키지를 사용
   * pandas : panel data analysis (구조화된 데이터 분석)
- DataFrame
   * Excel의 spread sheet와 같은 2차원 table 구조로 data를 다룬다.
   * 숫자, 문자열, 불리언 등의 임의의 type의 data를 담을 수 있다.

In [3]:
# 시리즈와 데이터프레임 두가지가 기본이다
# 자동으로 인덱스가 만들어진다

import numpy as np
import pandas as pd

- DataFrame() 함수를 이용
- 딕셔너리 type의 data로부터 DataFrame을 만드는 예
   * indexing 번호가 자동으로 부여(0부터 시작)

In [4]:
dic = {'city': ['서울', '부산', '대전', '대구', '광주'],
        'year': [2017, 2017, 2018, 2018, 2018],
        'temp': [18, 20, 19, 21, 20]}
data = pd.DataFrame(dic) ; data

Unnamed: 0,city,year,temp
0,서울,2017,18
1,부산,2017,20
2,대전,2018,19
3,대구,2018,21
4,광주,2018,20


In [6]:
data.head(1)

Unnamed: 0,city,year,temp
0,서울,2017,18


- Column의 순서를 변경 
   * column 명을 원하는 순서로 된 list로 만들어 인자로 제공 

In [4]:
data[['year', 'city', 'temp']]

Unnamed: 0,year,city,temp
0,2017,서울,18
1,2017,부산,20
2,2018,대전,19
3,2018,대구,21
4,2018,광주,20


## 인덱스

- index를 임의의 이름으로 지정할 수 있다.

In [5]:
data.index = ['a','b','c','d','e'] ; data

Unnamed: 0,city,year,temp
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


- column 이름을 변경할 수 있다.

In [6]:
data.columns = ['도시','연도','날씨'] ; data

Unnamed: 0,도시,연도,날씨
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


- DataFrame에서 특정 column(열)의 내용만 얻으려고 할 경우
   * column(row) 명으로 접근 : data['연도']
   * 속성 값으로 접근 : data.연도

In [7]:
data['연도']

a    2017
b    2017
c    2018
d    2018
e    2018
Name: 연도, dtype: int64

In [8]:
data.연도

a    2017
b    2017
c    2018
d    2018
e    2018
Name: 연도, dtype: int64

In [9]:
data.서울

AttributeError: 'DataFrame' object has no attribute '서울'

- DataFrame에서 특정 row(행)의 내용만 얻으려고 할 경우
   * index를 사용하는 방법 : data.loc['b']
   * index가 아닌 행의 위치를 지정하는 방법 : data.iloc[1:3]

In [10]:
data

Unnamed: 0,도시,연도,날씨
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [11]:
data.loc['b']

도시      부산
연도    2017
날씨      20
Name: b, dtype: object

In [12]:
data.loc['서울']      # '서울'은 index가 아니다

KeyError: '서울'

- index를 임의의 column으로 재배정
   * 대상 object(객체) 자체의 변경 : inplace=True 명시해야

In [13]:
data.set_index(['도시'])

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [14]:
data.loc['서울']      # '서울' : 아직 data의 index가 아니다. (변경이 안되었음)

KeyError: '서울'

In [15]:
data

Unnamed: 0,도시,연도,날씨
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [16]:
data.set_index(['도시'], inplace=True) ; data

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [17]:
data.loc['서울']

연도    2017
날씨      18
Name: 서울, dtype: int64

In [18]:
data.loc[['서울','부산']]

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20


In [19]:
data.iloc[1:3]

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2017,20
대전,2018,19


## Column 추가

- 대상 object(객체)에 현재 없는 column 명을 인자로 주면 자동으로 새로운 column이 생성

In [20]:
cars = [50,40,20,30,10]
data['car'] = cars ; data

Unnamed: 0_level_0,연도,날씨,car
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,50
부산,2017,20,40
대전,2018,19,20
대구,2018,21,30
광주,2018,20,10


- 특정 조건에 맞는 항목을 찾는 방법
   * 예) car >= 30 인 도시를 찾고(True/False), 이를 high 라는 새 column에 저장

In [21]:
data['high'] = data.car >= 30 ; data

Unnamed: 0_level_0,연도,날씨,car,high
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
대구,2018,21,30,True
광주,2018,20,10,False


In [22]:
data['high'] = data.날씨 >= 20
print(data)

      연도  날씨  car   high
도시                      
서울  2017  18   50  False
부산  2017  20   40   True
대전  2018  19   20  False
대구  2018  21   30   True
광주  2018  20   10   True


- 특정 column를 삭제
   * drop()

In [24]:
data.drop('car', 1)

Unnamed: 0_level_0,연도,날씨,high
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,False
부산,2017,20,True
대전,2018,19,False
대구,2018,21,True
광주,2018,20,True


In [25]:
data.drop(['car', 'high'], 1)

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [26]:
data.drop('대전', 0)

Unnamed: 0_level_0,연도,날씨,car,high
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,False
부산,2017,20,40,True
대구,2018,21,30,True
광주,2018,20,10,True


In [27]:
dic = {'city': ['서울', '부산', '대전', '대구', '광주'],
        'year': [2017, 2017, 2018, 2018, 2018],
        'temp': [18, 20, 19, 21, 20]}
data = pd.DataFrame(dic) ; data

Unnamed: 0,city,year,temp
0,서울,2017,18
1,부산,2017,20
2,대전,2018,19
3,대구,2018,21
4,광주,2018,20


In [28]:
data.drop('year', 1,inplace=True )
data

Unnamed: 0,city,temp
0,서울,18
1,부산,20
2,대전,19
3,대구,21
4,광주,20


## 람다 함수

- 특정 함수를 편리하게 전체 data에 일괄 적용하는 방법
   * default 적용 기준 : 열(column)
   * 행(row) 방향으로 적용 : axis=1

- 예) (최대값-최소값)을 계산하는 함수를 정의하고 전체 data에 적용

In [71]:
f = lambda x: x.max() - x.min()

df = pd.DataFrame(np.arange(12).reshape(4, 3), 
                  columns=['A', 'B', 'C'], index=['a', 'b', 'c', 'd'])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [72]:
df.apply(f)

A    9
B    9
C    9
dtype: int64

In [73]:
df.apply(f, 1)

a    2
b    2
c    2
d    2
dtype: int64

## Series

- column이 하나 뿐인 DataFrame

In [74]:
# 파이썬 기본 타입인 딕셔너리로부터 시리즈를 만들 수 있다

dic = {'서울':800, '부산':150, '대구': 100}
dic

{'서울': 800, '부산': 150, '대구': 100}

In [75]:
s = pd.Series(dic) ; s

서울    800
부산    150
대구    100
dtype: int64

In [78]:
# 파이썬 기본 타입인 리스트와 index로부터 시리즈를 만들 수 있다

region = pd.Series(['서울', '부산', '대전', '대구', '광주'], 
                  index=[1, 2, 3, 4, 5])
region

1    서울
2    부산
3    대전
4    대구
5    광주
dtype: object