# pandas
- 데이터프레임(Dataframe)과 시리즈(Series)

In [1]:
# 시리즈와 데이터프레임 두가지가 기본이다
# 자동으로 인덱스가 만들어진다

import numpy as np
import pandas as pd

In [2]:
dic = {'city': ['서울', '부산', '대전', '대구', '광주'],
        'year': [2017, 2017, 2018, 2018, 2018],
        'temp': [18, 20, 19, 21, 20]}
data = pd.DataFrame(dic) ; data

Unnamed: 0,city,year,temp
0,서울,2017,18
1,부산,2017,20
2,대전,2018,19
3,대구,2018,21
4,광주,2018,20


In [5]:
data['city'], type(data['city'])

(0    서울
 1    부산
 2    대전
 3    대구
 4    광주
 Name: city, dtype: object, pandas.core.series.Series)

In [6]:
data[['year', 'city', 'temp']]

Unnamed: 0,year,city,temp
0,2017,서울,18
1,2017,부산,20
2,2018,대전,19
3,2018,대구,21
4,2018,광주,20


In [7]:
data.index = ['a','b','c','d','e'] ; data

Unnamed: 0,city,year,temp
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [8]:
data.columns = ['도시','연도','날씨'] ; data

Unnamed: 0,도시,연도,날씨
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [9]:
data.set_index(['도시'])

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


### 특정컬럼 값을 얻기 위해

In [10]:
data['연도']   # column 값으로접근 

a    2017
b    2017
c    2018
d    2018
e    2018
Name: 연도, dtype: int64

In [11]:
data.연도     # 속성 값으로 접

a    2017
b    2017
c    2018
d    2018
e    2018
Name: 연도, dtype: int64

In [12]:
data

Unnamed: 0,도시,연도,날씨
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


### 특정 값(행)을 얻는 방법 - 인덱스 또는 숫자로 위치 지정

In [13]:
data.loc['a']  # df.loc: 라벨값 기반의 2차원 인덱싱 - Series type

도시      서울
연도    2017
날씨      18
Name: a, dtype: object

In [14]:
data.set_index(['도시'], inplace=True) ; data

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [15]:
data.loc['서울']

연도    2017
날씨      18
Name: 서울, dtype: int64

In [16]:
data.loc[['서울','부산']]

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20


In [18]:
data.iloc[1:5]    # iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 
                  # 인덱스만 받는다. 다른 사항은 loc 인덱서와 같다.

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [19]:
data.loc['부산':'광주']  # 위와 동일 (차이점은 마지막 부분이 포함된다는 것)

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [20]:
# 새로운 열 추가 (feature)
cars = [50,40,20,30,10]
data['car'] = cars ; data

Unnamed: 0_level_0,연도,날씨,car
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,50
부산,2017,20,40
대전,2018,19,20
대구,2018,21,30
광주,2018,20,10


In [21]:
data['high'] = data.car >= 30 ; data

Unnamed: 0_level_0,연도,날씨,car,high
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
대구,2018,21,30,True
광주,2018,20,10,False


In [22]:
data.drop('car', 1)

Unnamed: 0_level_0,연도,날씨,high
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,True
부산,2017,20,True
대전,2018,19,False
대구,2018,21,True
광주,2018,20,False


In [23]:
data.drop(['car', 'high'], 1)

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


## 람다 함수
- 이름없는 함수
- 형식: "lamda 인수: 인수가 포함된 식"
- 이름을 줄 수도 있음.

In [24]:
f = lambda x: x.max() - x.min()

df = pd.DataFrame(np.arange(12).reshape(4, 3), 
                  columns=['A', 'B', 'C'], index=['a', 'b', 'c', 'd'])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [36]:
df.max(0), df.max(), df.max(1), type(df.max(1))

(A     9
 B    10
 C    11
 dtype: int32, A     9
 B    10
 C    11
 dtype: int32, a     2
 b     5
 c     8
 d    11
 dtype: int32, pandas.core.series.Series)

In [37]:
print(df.max(), df.min(), df.sum(), df.mean())
print(df.A.max())

A     9
B    10
C    11
dtype: int32 A    0
B    1
C    2
dtype: int32 A    18
B    22
C    26
dtype: int64 A    4.5
B    5.5
C    6.5
dtype: float64
9


In [38]:
df.apply(f)        # Apply a function along an axis of the DataFrame

A    9
B    9
C    9
dtype: int64

In [39]:
df.apply(f, 1)   # array 처럼 행 1, 열 0

a    2
b    2
c    2
d    2
dtype: int64

## Series

In [40]:
# 파이썬 기본 타입인  딕셔너리로부터 시리즈를 만들 수 있다
dic = {'서울':800, '부산':150, '대구': 100}
dic

{'서울': 800, '부산': 150, '대구': 100}

In [41]:
s = pd.Series(dic) ; s

서울    800
부산    150
대구    100
dtype: int64

In [26]:
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [26]:
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
