### pandas
- Python에서 data를 편리하게 다루기 위해 table(표) 구조로 처리하는 경우가 많다.
- 이를 위해서 pandas 패키지를 사용
   * pandas : panel data analysis (구조화된 데이터 분석)
- DataFrame
   * Excel의 spread sheet와 같은 2차원 table 구조로 data를 다룬다.
   * 숫자, 문자열, 불리언 등의 임의의 type의 data를 담을 수 있다.
   
1) numpy와 List가 비슷한 점?

- 대괄호 [1, 2, 3]에 의해 구성

- 리스트 -> 넘파이


2) numpy와 List가 다른 점?

- numpy: 계산 가능 배열 (*배열: 계산O), 모든 원소는 숫자

- List: 계산 불가 값의 나열, 문자숫자등등


3) pandas와 딕셔너리

- 딕셔너리에 의해서 판다스가 만들어짐

- 딕셔너리: 키이름, value값으로 구성

- pandas


- 데이터프레임: 행과 열로 이루어진 2차원 표 --> 딕셔너리 이용
- 시리즈: 행 또는 열 1개로만 이루어진 1차원 표 --> 딕셔너리 또는 리스트
- 결측치 Nan: 특정 타임에 측정이 되지 않았거나 잘못된 값이 들어간 경우, 절대로 0이 아님

In [1]:
import numpy as np
import pandas as pd
from numpy import *
from pandas import *

In [2]:
region = Series(['서울', '부산', '대구', '대전', '광주'],
               index = ['a', 'b', '가', 'd', '500']) ; region

a      서울
b      부산
가      대구
d      대전
500    광주
dtype: object

In [3]:
region1 = Series(['서울', '부산', '대구', '대전', '광주']) ; region1

0    서울
1    부산
2    대구
3    대전
4    광주
dtype: object

In [4]:
region2 = Series(['서울', '부산', '대구', '대전', '광주'],
               index = ['a', 'b', 'c', 'd', 'e']) ; region2

a    서울
b    부산
c    대구
d    대전
e    광주
dtype: object

In [5]:
dic2 = {'city' : '서울', 'year' : 2018}
data2 = pd.Series(dic2) ; data2
# key이름은 인덱스가 되고, value값은 행의 값이 된다.

city      서울
year    2018
dtype: object

In [6]:
dic3 = {'city' : ['서울'], 'year' : [2018]}
data3 = pd.Series(dic3) ; data3

city      [서울]
year    [2018]
dtype: object

### DataFrame()
- 딕셔너리 type의 data로부터 DataFrame을 만드는 예
   * indexing 번호가 자동으로 부여(0부터 시작)

In [7]:
dic4 = {'city' : ['서울'], 'year' : [2018]}
data4 = pd.DataFrame(dic4) ; data4

Unnamed: 0,city,year
0,서울,2018


In [8]:
dic = {'city' : ['서울', '부산', '대전', '대구', '광주'],
      'year' : [2017, 2017, 2018, 2018, 2018],
      'temp' : [18, 20, 19, 21, 20]}
data7 = pd.DataFrame(dic) ; data7

Unnamed: 0,city,year,temp
0,서울,2017,18
1,부산,2017,20
2,대전,2018,19
3,대구,2018,21
4,광주,2018,20


In [9]:
dic = {'city' : ['서울', '부산', '대전', '대구', '광주'],
      'year' : [2017, 2017, 2018, 2018, 2018],
      'temp' : [18, 20, 19, 21, 20]}
data6 = pd.Series(dic) ; data6

city              [서울, 부산, 대전, 대구, 광주]
year    [2017, 2017, 2018, 2018, 2018]
temp              [18, 20, 19, 21, 20]
dtype: object

In [10]:
type(data7)

pandas.core.frame.DataFrame

In [11]:
print(data7['city'])

0    서울
1    부산
2    대전
3    대구
4    광주
Name: city, dtype: object


In [12]:
a = data7['city'] # 1개 값 = Series
type(a)

pandas.core.series.Series

In [13]:
b = data7[ ['year', 'temp'] ] # 2개 궁금하면 대괄호 2개 
print(b)
type(b) # 여러개 값 = DataFrame

   year  temp
0  2017    18
1  2017    20
2  2018    19
3  2018    21
4  2018    20


pandas.core.frame.DataFrame

### 인덱스
- index를 임의의 이름으로 지정할 수 있다.

In [14]:
data7.index = ['가', 'a', 5.2, '라', '기린'] ; data7

Unnamed: 0,city,year,temp
가,서울,2017,18
a,부산,2017,20
5.2,대전,2018,19
라,대구,2018,21
기린,광주,2018,20


In [15]:
data7.columns = ['도시', '연도', '날씨'] ; data7 # column 이름 바꿈

Unnamed: 0,도시,연도,날씨
가,서울,2017,18
a,부산,2017,20
5.2,대전,2018,19
라,대구,2018,21
기린,광주,2018,20


- DataFrame에서 특정 column(열)의 내용만 얻으려고 할 경우
   * column(row) 명으로 접근 : data['연도']
   * 속성 값으로 접근 : data.연도

In [16]:
data7['도시']

가      서울
a      부산
5.2    대전
라      대구
기린     광주
Name: 도시, dtype: object

In [17]:
data7[ ['도시', '날씨'] ]

Unnamed: 0,도시,날씨
가,서울,18
a,부산,20
5.2,대전,19
라,대구,21
기린,광주,20


In [18]:
data7.도시

가      서울
a      부산
5.2    대전
라      대구
기린     광주
Name: 도시, dtype: object

- DataFrame에서 특정 row(행)의 내용만 얻으려고 할 경우
   * index를 사용하는 방법 : data.loc['b']
   * index가 아닌 행의 위치를 지정하는 방법 : data.iloc[1:3]

In [19]:
data7

Unnamed: 0,도시,연도,날씨
가,서울,2017,18
a,부산,2017,20
5.2,대전,2018,19
라,대구,2018,21
기린,광주,2018,20


In [20]:
data7.loc['기린']

도시      광주
연도    2018
날씨      20
Name: 기린, dtype: object

In [21]:
data7.loc[5.2]

도시      대전
연도    2018
날씨      19
Name: 5.2, dtype: object

In [22]:
data7.iloc[1:3]

Unnamed: 0,도시,연도,날씨
a,부산,2017,20
5.2,대전,2018,19


- index를 임의의 column으로 재배정
   * 대상 object(객체) 자체의 변경 : inplace=True 명시해야 함

In [23]:
data7.set_index('도시') # 도시를 인덱스로

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [24]:
data7 # 변경 안 됨, pandas 원본 변경X

Unnamed: 0,도시,연도,날씨
가,서울,2017,18
a,부산,2017,20
5.2,대전,2018,19
라,대구,2018,21
기린,광주,2018,20


In [25]:
data7

Unnamed: 0,도시,연도,날씨
가,서울,2017,18
a,부산,2017,20
5.2,대전,2018,19
라,대구,2018,21
기린,광주,2018,20


In [26]:
data8 = data7.set_index('도시') # 이렇게 해야 변경 됨
data8

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [27]:
data7.set_index('도시', inplace = True) # 인덱스 바꿈
data7

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [28]:
data7.loc['대전']

연도    2018
날씨      19
Name: 대전, dtype: int64

In [29]:
data7.iloc[1:4]

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2017,20
대전,2018,19
대구,2018,21


### Column 추가
- 대상 object(객체)에 현재 없는 column 명을 인자로 주면 자동으로 새로운 column이 생성

In [30]:
cars = [50, 40, 20, 30, 10] # 리스트 생성
data7['car'] = cars         # car 열에 cars 값 추가
data7

Unnamed: 0_level_0,연도,날씨,car
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,50
부산,2017,20,40
대전,2018,19,20
대구,2018,21,30
광주,2018,20,10


In [31]:
data7['high1'] = data7.car >= 30 ; data7

Unnamed: 0_level_0,연도,날씨,car,high1
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
대구,2018,21,30,True
광주,2018,20,10,False


In [32]:
# 열 추가는 원본에 바로 반영 됨
data7['high2'] = data7.car >= 40 ; data7

Unnamed: 0_level_0,연도,날씨,car,high1,high2
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,2017,18,50,True,True
부산,2017,20,40,True,True
대전,2018,19,20,False,False
대구,2018,21,30,True,False
광주,2018,20,10,False,False


In [33]:
# 특정 칼럼 삭제: drop()
data7.drop('high1', 1) # 1: 열, 0: 행을 의미



Unnamed: 0_level_0,연도,날씨,car,high2
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
대구,2018,21,30,False
광주,2018,20,10,False


In [34]:
data7 # 삭제는 원본 변경X

Unnamed: 0_level_0,연도,날씨,car,high1,high2
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,2017,18,50,True,True
부산,2017,20,40,True,True
대전,2018,19,20,False,False
대구,2018,21,30,True,False
광주,2018,20,10,False,False


In [35]:
a = data7.drop('high2', 1) # 지우는 방법 1
a



Unnamed: 0_level_0,연도,날씨,car,high1
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
대구,2018,21,30,True
광주,2018,20,10,False


In [36]:
data7.drop('high1', 1, inplace = True) # 지우는 방법 2

  data7.drop('high1', 1, inplace = True) # 지우는 방법 2


In [37]:
data7

Unnamed: 0_level_0,연도,날씨,car,high2
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
대구,2018,21,30,False
광주,2018,20,10,False


In [38]:
data7.drop('대구', 0, inplace = True) # 행

  data7.drop('대구', 0, inplace = True) # 행


In [39]:
data7

Unnamed: 0_level_0,연도,날씨,car,high2
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
광주,2018,20,10,False


### 람다 함수
- 특정 함수를 편리하게 전체 data에 일괄 적용하는 방법
   * default 적용 기준 : 열(column)
   * 행(row) 방향으로 적용 : axis=1
   
- 예) (최대값-최소값)을 계산하는 함수를 정의하고 전체 data에 적용

In [40]:
def f(x):
    k = x.max() - x.min()
    return k

In [41]:
def f(x):
    return x.max() - x.min()

In [42]:
# 람다식: 간단한 함수를 변수화 시킨 것
f = lambda x: x.max() - x.min()

In [43]:
df = pd.DataFrame(np.arange(12).reshape(4, 3),
                 columns = ['A열', 'B열', 'C열'],
                 index = ['a', 'b', 'c', 'd'])
df

Unnamed: 0,A열,B열,C열
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [44]:
# 람다식 적용할 때 apply 씀
df.apply(f) # 기본값이 axis=0, 열단위로 최댓값-최솟값

A열    9
B열    9
C열    9
dtype: int64

In [45]:
df.apply(f, 0)

A열    9
B열    9
C열    9
dtype: int64

In [46]:
df.apply(f, 1) # 행단위로 계산

a    2
b    2
c    2
d    2
dtype: int64