<a href="https://colab.research.google.com/github/zzzzzuuuuu/big-data-analytics/blob/main/pandas_DataFrame.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 데이터프레임(DataFrame)
# DataFrame 생성법
- 딕셔너리를 통한 생성
  - 동일한 길이의 리스트(혹은 넘파이 배열)가 value로 담긴 딕셔너리를 활용
  - 인덱스 미지정시 기본 정수 인덱스로 생성
  - head(), tail(): 상위 5개, 하위 5개의 인덱스만 보여줌
  - 피쳐를 선택적으로 생성
    - columns 파라미터 사용
    - DAtaFrame(D, columns=['a','b','c'])
  - 없는 피처를 선택하면 결측치로 생성
  - 인덱스 확인은 index, 피쳐 확인은 columns 속성 사용
  - 피쳐별 데이터 호출은 속성 혹은 괄호 인덱싱
    - D.index
    - D.columns
    - D.a
    - D['a']
  - 특정 피쳐만 호출한 데이터는 Series 객체

  ### DataFrame 피쳐 수정
  - 딕셔너리에서 새로운 키를 추가 및 삭제하는 것과 유사
    - 인덱스를 기준으로 데이터 추가
    - 기본적으로 numpy 연산을 따름(브로드캐스팅)

In [None]:
import numpy as np
import pandas as pd

In [None]:
from pandas import Series, DataFrame

In [None]:
# 데이터 프레임 생성
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [None]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [None]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [None]:
# 피쳐 선택적으로 생성
DataFrame(data, columns=["year", "state"]) # 해당 칼럼만 출력

Unnamed: 0,year,state
0,2000,Ohio
1,2001,Ohio
2,2002,Ohio
3,2001,Nevada
4,2002,Nevada
5,2003,Nevada


In [None]:
# 없는 피쳐 선택시 결측치로 생성됨
frame2 = DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [None]:
# 피쳐 확인
frame2.index

RangeIndex(start=0, stop=6, step=1)

In [None]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [None]:
frame2["state"]

Unnamed: 0,state
0,Ohio
1,Ohio
2,Ohio
3,Nevada
4,Nevada
5,Nevada


In [None]:
frame2.year

Unnamed: 0,year
0,2000
1,2001
2,2002
3,2001
4,2002
5,2003


In [None]:
# 특정 피쳐만 호출시 데이터타입은 Series 객체
type(frame2) # 데이터프레임
type(frame2.year) # Series

In [None]:
# 피쳐 수정
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [None]:
frame["debt"] = 16.5 # 특정 속성(피쳐) 추가
frame

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,16.5
1,Ohio,2001,1.7,16.5
2,Ohio,2002,3.6,16.5
3,Nevada,2001,2.4,16.5
4,Nevada,2002,2.9,16.5
5,Nevada,2003,3.2,16.5


In [None]:
frame["debt"] = np.arange(6.) # 0.0부터 6개...
frame

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,0.0
1,Ohio,2001,1.7,1.0
2,Ohio,2002,3.6,2.0
3,Nevada,2001,2.4,3.0
4,Nevada,2002,2.9,4.0
5,Nevada,2003,3.2,5.0


In [None]:
frame["state"] == "Ohio" # True, False 반환

Unnamed: 0,state
0,True
1,True
2,True
3,False
4,False
5,False


In [None]:
frame["eastern"] = frame["state"] == "Ohio"
frame

Unnamed: 0,state,year,pop,debt,eastern
0,Ohio,2000,1.5,0.0,True
1,Ohio,2001,1.7,1.0,True
2,Ohio,2002,3.6,2.0,True
3,Nevada,2001,2.4,3.0,False
4,Nevada,2002,2.9,4.0,False
5,Nevada,2003,3.2,5.0,False


In [None]:
val = Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
val

Unnamed: 0,0
two,-1.2
four,-1.5
five,-1.7


In [None]:
frame["debt"] = val # 겹치는 게 없으니 debt에 넣을 게 없다.
frame

Unnamed: 0,state,year,pop,debt,eastern
0,Ohio,2000,1.5,,True
1,Ohio,2001,1.7,,True
2,Ohio,2002,3.6,,True
3,Nevada,2001,2.4,,False
4,Nevada,2002,2.9,,False
5,Nevada,2003,3.2,,False


In [None]:
val.index = [2, 4, 5] # 인덱스 수정
val

Unnamed: 0,0
2,-1.2
4,-1.5
5,-1.7


In [None]:
frame["debt"] = val # 나머지는 결측됨.
frame

Unnamed: 0,state,year,pop,debt,eastern
0,Ohio,2000,1.5,,True
1,Ohio,2001,1.7,,True
2,Ohio,2002,3.6,-1.2,True
3,Nevada,2001,2.4,,False
4,Nevada,2002,2.9,-1.5,False
5,Nevada,2003,3.2,-1.7,False


In [None]:
# 피쳐 삭제
# del frame['eastern']
frame.columns

Index(['state', 'year', 'pop', 'debt', 'eastern'], dtype='object')

In [None]:
frame.pop("debt")

Unnamed: 0,debt
0,
1,
2,-1.2
3,
4,-1.5
5,-1.7


In [None]:
frame # estern, debt 열이 빠짐

Unnamed: 0,state,year,pop,eastern
0,Ohio,2000,1.5,True
1,Ohio,2001,1.7,True
2,Ohio,2002,3.6,True
3,Nevada,2001,2.4,False
4,Nevada,2002,2.9,False
5,Nevada,2003,3.2,False


### 중첩 dictionary를 활용한 DataFrame 생성
- 딕셔너리로 생성시
  - 같은 길이의 리스트, 배열 등 동일한 길이의 자료를 값으로 가져야 함.
- 딕셔너리들의 리스트로 생성시
  - 각 딕셔너리가 행으로 들어감 (인스턴스)
  - 키의 합집합이 피쳐 이름 (결측치가 생길 수 있음)
- 딕셔너리들의 딕셔너리를 통해서 생성시
  - 바깥쪽 키가 피쳐 이름
  - 안쪽 키의 합집합이 인덱스(색인) (결측치가 생길 수 있음)

*2차원 ndarray: 데이터를 담고 있는 행렬로, 선택적으로 행과 열의 이름을 전달할 수 있음.

In [None]:
# 동일한 길이로 값이 이루어진 딕셔너리 -> DataFrame
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
DataFrame(data)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [None]:
# 딕셔너리 리스트 -> DataFrame
data1 = {"state": "Ohio",
         "year": 2000,
         "pop": 1.5}

data2 = {"state": "Mass",
         "year": 2000,
         "GDP": 1.8}

data3 = {"year": 2011,
         "pop": 1.1}

DataFrame([data1, data2, data3]) # 키의 합집합이 속성으로 들어감

Unnamed: 0,state,year,pop,GDP
0,Ohio,2000,1.5,
1,Mass,2000,,1.8
2,,2011,1.1,


In [None]:
# 중첩된 딕셔너리 -> DataFrame
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9}}
frame3 = DataFrame(populations) # 바깥쪽 키 값이 속성으로 들어감, 안쪽 키의 합집합이 index
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [None]:
DataFrame(populations, index=[2001, 2002, 2003]) # 인덱스 지정 가능

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


In [None]:
# 2차원 넘파이 배열 -> DataFrame
arr = np.array([[2000, 'Ohio', 1.5],
                [2001, 'Ohio', 1.7],
                [2002, 'Ohio', 3.6],
                [2001, 'Nevada', 2.4],
                [2002, 'Nevada', 2.9],
                [2003, 'Nevada', 3.2]])
arr

array([['2000', 'Ohio', '1.5'],
       ['2001', 'Ohio', '1.7'],
       ['2002', 'Ohio', '3.6'],
       ['2001', 'Nevada', '2.4'],
       ['2002', 'Nevada', '2.9'],
       ['2003', 'Nevada', '3.2']], dtype='<U32')

In [None]:
D = DataFrame(arr)
D

Unnamed: 0,0,1,2
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [None]:
D.index = ['a', 'b', 'c', 'd', 'e', 'f']
D

Unnamed: 0,0,1,2
a,2000,Ohio,1.5
b,2001,Ohio,1.7
c,2002,Ohio,3.6
d,2001,Nevada,2.4
e,2002,Nevada,2.9
f,2003,Nevada,3.2


In [None]:
D.columns = ['year', 'state', 'pop']
D

Unnamed: 0,year,state,pop
a,2000,Ohio,1.5
b,2001,Ohio,1.7
c,2002,Ohio,3.6
d,2001,Nevada,2.4
e,2002,Nevada,2.9
f,2003,Nevada,3.2


In [None]:
arr=np.array([[2000, 'Ohio', 1.5],
       [2001, 'Ohio', 1.7],
       [2002, 'Ohio', 3.6],
       [2001, 'Nevada', 2.4],
       [2002, 'Nevada', 2.9],
       [2003, 'Nevada', 3.2]])
D = DataFrame(arr, index=['a', 'b', 'c', 'd', 'e', 'f'], columns=['year', 'state', 'pop'])
D

Unnamed: 0,year,state,pop
a,2000,Ohio,1.5
b,2001,Ohio,1.7
c,2002,Ohio,3.6
d,2001,Nevada,2.4
e,2002,Nevada,2.9
f,2003,Nevada,3.2


### name 속성
- 인덱스 네임과 피쳐(columns) 네임 속성
  - D.index.name
  - D.columns.name
  - D.name(X)
- DataFrame으로부터 차원 넘파이 배열 반환
  - to_numpy()

In [None]:
# name 속성
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [None]:
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [None]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

## 기능
### 재색인 (reindex)
- Series 및 DataFrame을 새롭게 색인(기존 색인-피쳐 관계를 유지)하고 이에 맞춰서 새로운 객체를 생성하는 인스턴스 메서드
  - 인수로 새로운 인덱스 label을 입력
  - S.reindex(['a', 'b', 'c', 'd'])

  - method=ffill: 결측치 발생시, 이전 색인의 값으로 대체
  - method=bfill: 결측치 발생시, 이후 색인의 값으로 대체
  - fill_value: 결측치 발생시, 대체할 값을 지정

  - DataFrame에서의 재색인 시에 index, columns 파라미터를 통해 재색인
    - axis 파라미터를 통해서도 재색인 가능

In [None]:
# 재색인
obj = Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

Unnamed: 0,0
d,4.5
b,7.2
a,-5.3
c,3.6


In [None]:
obj.index=['a', 'b', 'c', 'd']
obj

Unnamed: 0,0
a,4.5
b,7.2
c,-5.3
d,3.6


In [None]:
# reindex는 기존 색인-피쳐 관계를 유지 (Series 예시)
obj2 = obj.reindex(['a', 'c', 'd', 'b', 'e']) # e 결측치 처리
obj2

Unnamed: 0,0
a,4.5
c,-5.3
d,3.6
b,7.2
e,


In [None]:
obj

Unnamed: 0,0
a,4.5
b,7.2
c,-5.3
d,3.6


In [None]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0,2,4])
obj3

Unnamed: 0,0
0,blue
2,purple
4,yellow


In [None]:
obj3.reindex(np.arange(6))

Unnamed: 0,0
0,blue
1,
2,purple
3,
4,yellow
5,


In [None]:
obj3.reindex(np.arange(6), method="ffill")

Unnamed: 0,0
0,blue
1,blue
2,purple
3,purple
4,yellow
5,yellow


In [None]:
obj3.reindex(np.arange(6), method="bfill")

Unnamed: 0,0
0,blue
1,purple
2,purple
3,yellow
4,yellow
5,


In [None]:
obj3.reindex(np.arange(6), fill_value=777)

Unnamed: 0,0
0,blue
1,777
2,purple
3,777
4,yellow
5,777


In [None]:
# DataFrame에서의 재색인
frame = DataFrame(np.arange(9).reshape((3,3)),
                  index=["a", "c", "d"],
                  columns=["Ohio", "Texas", "California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [None]:
frame2 = frame.reindex(index=['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [None]:
states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [None]:
# axis="columns"와 axis="index" 적용 가능 (1 혹은 0)
frame.reindex(states, axis="columns") # axis=1

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [None]:
# pandas DataFrame p.9 예제
personal_info = Series(["Jiyu", "F", "24"], index=["name", "gender", "age"])
info = personal_info.reindex(["gender", "name", "age"])
f = frame.reindex(['a', 'd'], axis=0)
f

Unnamed: 0,Ohio,Texas,California
a,0,1,2
d,6,7,8


### 행 또는 열 삭제 (drop)
- del 이나 pop과 달리 기존 DataFrame이나 Series를 변경하지 않음
- DataFrame에서 index나 columns를 선택적으로 drop 가능

In [None]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

Unnamed: 0,0
a,0.0
b,1.0
c,2.0
d,3.0
e,4.0


In [None]:
obj.drop(['d', 'c'])

Unnamed: 0,0
a,0.0
b,1.0
e,4.0


In [None]:
obj # 기존의 Series 변경 X

Unnamed: 0,0
a,0.0
b,1.0
c,2.0
d,3.0
e,4.0


In [None]:
# DataFrame에서의 drop, index나 columns를 선택적으로 drop 가능
data = DataFrame(np.arange(16).reshape((4,4)),
                 index=["Ohio", "Colorado", "Utah", "New York"],
                 columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data.drop(index=["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data.drop(columns=["two", "four"], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [None]:
data.drop(["two", "four"], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [None]:
data.drop(["two", "four"], axis="columns")

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


## 색인, 선택, 필터
## Series
- 기본적으로, 넘파이 배열에서처럼 색인 가능
  - 1차원 넘파이 배열처럼 취급
  - boolean 배열을 활용한 색인, 팬시색인 적용 가능
  - index 이름, index 순서를 통해서 색인 가능
    - 정수 색인과 정수인 색인 사이의 혼란 (loc, iloc)
- loc, iloc
  - 인덱싱에서의 혼란을 없앨 수 있음
  - 각각 Series의 속성
  - loc: 인덱스 이름만 색인으로 활용
  - iloc: 인덱스 순서만 색인으로 활용

## DataFrame
- columns 이름을 통해서 딕셔너리처럼 색인 가능
- 슬라이싱을 통해 해당하는 index들의 행을 색인 가능
- 활용에 제한적.

- loc, iloc
  - loc, iloc 활용시 넘파이 2차원 배열처럼 접근 가능
  - loc: 인덱스 레이블만 색인으로 활용
  - iloc: 인덱스 순서만 색인으로 활용
  - 팬시 색인, Boolean 객체 색인 포함 다양한 색인 활용 가능
    - iloc은 Boolean 객체 색인 불가
  - loc에서 레이블의 슬라이싱은 레이블로 포함


In [None]:
# 넘파이 배열처럼 괄호를 통해 색인 가능, 괄호 index 순서나 index 레이블을 입력하여 호출
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

Unnamed: 0,0
a,0.0
b,1.0
c,2.0
d,3.0


In [None]:
obj[0]

  obj[0]


0.0

In [None]:
obj[['d', 'b']] # 인덱스 레이블 'd'와 'b'에 해당하는 값 반환

Unnamed: 0,0
d,3.0
b,1.0


In [None]:
obj[[3, 1]] # 정수 위치를 기반으로 3번째와 1번째 위치에 있는 값을 반환.

  obj[[3, 1]] # 정수 위치를 기반으로 3번째와 1번째 위치에 있는 값을 반환.


Unnamed: 0,0
d,3.0
b,1.0


In [None]:
obj[obj < 2]

Unnamed: 0,0
a,0.0
b,1.0


In [None]:
# 정수 색인과 정수인 색인 사이의 혼란
obj = Series(np.arange(4.), index=["a", 2, 1, 0])
obj

Unnamed: 0,0
a,0.0
2,1.0
1,2.0
0,3.0


In [None]:
obj[0] # 인덱스가 0인지... 인덱스명이 0인지... 혼란...

3.0

In [None]:
#obj[3] # 오류 난다!!!!!

In [None]:
# loc, iloc
obj.loc

<pandas.core.indexing._LocIndexer at 0x7d2a2567c9a0>

In [None]:
obj.iloc

<pandas.core.indexing._iLocIndexer at 0x7d2a25664bd0>

In [None]:
obj.loc["a"], obj.loc[2], obj.loc[1], obj.loc[0] # 인덱스 라벨(이름)

(0.0, 1.0, 2.0, 3.0)

In [None]:
obj.iloc[0], obj.iloc[1], obj.iloc[2], obj.iloc[3] # 인덱스 순서

(0.0, 1.0, 2.0, 3.0)

In [None]:
# DataFrame 색인
data = DataFrame(np.arange(16).reshape((4,4)),
                 index=["Ohio", "Colorado", "Utah", "New York"],
                 columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data["two"]

Unnamed: 0,two
Ohio,1
Colorado,5
Utah,9
New York,13


In [None]:
data[["three", "one"]]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [None]:
data[:2] # 인덱스 다루기

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [None]:
# data[[1, 2]]
# data[2] # 얘네 오류 난다...

In [None]:
# data[:,:] # 데이터프레임에서는 적용 안됨

### 얘를 기억해라! (DataFrame loc, iloc)

In [None]:
# loc과 iloc 적용시 넘파이 2차원 배열처럼 접근 가능
data = DataFrame(np.arange(16).reshape((4,4)),
                 index=["Ohio", "Colorado", "Utah", "New York"],
                 columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data.loc["Colorado"] # 인덱스에서 선택. Series 형태

Unnamed: 0,Colorado
one,4
two,5
three,6
four,7


In [None]:
data.loc[["Colorado", "New York"]]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
New York,12,13,14,15


In [None]:
data.loc[["Colorado", "New York"], ["two", "three"]] # 복합적으로 인덱스하려면 쉼표(,) 사용

Unnamed: 0,two,three
Colorado,5,6
New York,13,14


In [None]:
data.loc["Colorado", ["two", "three"]] # 데이터프레임 형태가 아닌 시리즈 형태로 보임

Unnamed: 0,Colorado
two,5
three,6


In [None]:
data.loc[["Colorado"], ["two", "three"]] # 데이터프레임 형태!!

Unnamed: 0,two,three
Colorado,5,6


In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data.iloc[1:2] # 1번 인덱스부터 2번 인덱스 앞까지 출력

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7


In [None]:
data.iloc[2] # 2번 인덱스를 Series 형태로 출력

Unnamed: 0,Utah
one,8
two,9
three,10
four,11


In [None]:
data.iloc[:, 1] # 모든 행의 1번 인덱스 Series 형태로 반환

Unnamed: 0,two
Ohio,1
Colorado,5
Utah,9
New York,13


In [None]:
data.iloc[[2,1]] # 2번 행과 1번 행 ...

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
Colorado,4,5,6,7


In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data.iloc[2, [3,0,1]] # 2번 행의 3, 0, 1 열 반환 Series 형태

Unnamed: 0,Utah
four,11
one,8
two,9


In [None]:
# 레이블의 슬라이싱은 레이블도 포함
data.loc[:"Utah", "two"] # Utah 까지 포함.

Unnamed: 0,two
Ohio,1
Colorado,5
Utah,9


In [None]:
data.iloc[:, :3]

Unnamed: 0,one,two,three
Ohio,0,1,2
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [None]:
data.iloc[:, :3][data.three>5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [None]:
data.loc[data.three > 5] # iloc은 오류남 ..

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# pandas dataframe p.12
obj1 = Series([1, 2, 3], index=[2,0,1])
obj2 = Series([1,2,3], index=['c', 'b', 'a'])


In [None]:
obj1

Unnamed: 0,0
2,1
0,2
1,3


In [None]:
obj1.loc[[1,0,2]]

Unnamed: 0,0
1,3
0,2
2,1


In [None]:
obj1.iloc[[2,1,0]]

Unnamed: 0,0
1,3
0,2
2,1


In [None]:
obj2

Unnamed: 0,0
c,1
b,2
a,3


In [None]:
obj2.loc[['a','b','c']]

Unnamed: 0,0
a,3
b,2
c,1


In [None]:
obj2.iloc[[2,1,0]]

Unnamed: 0,0
a,3
b,2
c,1


In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data.loc[data.three > 7, ['one', 'two']]

Unnamed: 0,one,two
Utah,8,9
New York,12,13


In [None]:
data.loc[data.loc[:, "three"]>7, ['one', 'two']] # 위랑 같은 결과

Unnamed: 0,one,two
Utah,8,9
New York,12,13


In [None]:
data.loc[data["three"]>7, ["one", "two"]] # 위랑 같은 결과, boolean에서는 iloc 못 씀

Unnamed: 0,one,two
Utah,8,9
New York,12,13


### DataFrame과 Series의 연산
- 넘파이 배열의 연산을 따름
  - 브로드 캐스팅
  - Series의 index를 DataFrame의 columns로 고려하여 브로드캐스팅
  - 메서드를 통한 산술 연산시에, axis 매개변수 (index 혹은 columns)

In [None]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1],
            index=["a", "c", "e", "f", "g"])
s1

Unnamed: 0,0
a,7.3
c,-2.5
d,3.4
e,1.5


In [None]:
s2

Unnamed: 0,0
a,-2.1
c,3.6
e,-1.5
f,4.0
g,3.1


In [None]:
s1 + s2

Unnamed: 0,0
a,5.2
c,1.1
d,
e,0.0
f,
g,


In [None]:
df1 = DataFrame(np.arange(9.).reshape((3,3)), columns=list("bcd"),
                index=["Ohio", "Texas", "Colorado"])
df2 = DataFrame(np.arange(12.).reshape((4,3)), columns=list("bde"),
                index=["Utah", "Ohio", "Texas", "Oregon"])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [None]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [None]:
df1 = DataFrame({"A": [1, 2]})
df2 = DataFrame({"B": [3, 4]})
df1

Unnamed: 0,A
0,1
1,2


In [None]:
df2

Unnamed: 0,B
0,3
1,4


In [None]:
df1 + df2

Unnamed: 0,A,B
0,,
1,,


In [None]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)),
                columns=list("abcd"))
df2 = DataFrame(np.arange(20.).reshape((4, 5)),
                columns=list("abcde"))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [None]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [None]:
df1.add(df2, fill_value=0) # 둘 중에 하나라도 없으면 결측치 처리 -> 0으로 채움

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
df1.sub(df2, fill_value=100)

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,96.0
1,-1.0,-1.0,-1.0,-1.0,91.0
2,-2.0,-2.0,-2.0,-2.0,86.0
3,85.0,84.0,83.0,82.0,81.0


In [None]:
df1.rsub(df2, fill_value=100) # df2 - df1

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,-96.0
1,1.0,1.0,1.0,1.0,-91.0
2,2.0,2.0,2.0,2.0,-86.0
3,-85.0,-84.0,-83.0,-82.0,-81.0


In [None]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [None]:
df1.div(1) # df1 / 1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [None]:
df1.rdiv(1) # 1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [None]:
# 데이터프레임과 시리즈 간의 연산
arr = np.arange(12.).reshape((3,4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [None]:
arr[0]

array([0., 1., 2., 3.])

In [None]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [None]:
frame = DataFrame(np.arange(12.).reshape((4,3)),
                  columns=list("bde"),
                  index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
series

Unnamed: 0,Utah
b,0.0
d,1.0
e,2.0


In [None]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [None]:
series2 = Series(np.arange(3), index=["b", "e", "f"])
series2

Unnamed: 0,0
b,0
e,1
f,2


In [None]:
frame + series2 # b, e만 공통

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [None]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [None]:
series3 = frame["d"]
series3

Unnamed: 0,d
Utah,1.0
Ohio,4.0
Texas,7.0
Oregon,10.0


In [None]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
series

Unnamed: 0,Utah
b,0.0
d,1.0
e,2.0


In [None]:
frame.sub(series, axis="index") # series의 인덱스가 frame의 인덱스와 하나도 맞지 않기 때문에 연산 불가능 -> NaN

Unnamed: 0,b,d,e
Ohio,,,
Oregon,,,
Texas,,,
Utah,,,
b,,,
d,,,
e,,,


In [None]:
frame.sub(series, axis="columns") # series를 DataFrame의 열 방향으로 맞추어 연산.

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [None]:
frame.sub(series3, axis="index")

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### 함수 적용과 매핑
- 넘파이와 같이 유니버설 함수가 적용될 수 있음
- apply 메서드를 통해 행 또는 열을 따라 적용 가능
  - Series, DataFrame 모두 적용 가능
  - default는 index를 따라 연산 (axis로 조정 가능)
  - lambda 예약어를 활용하여 간편하게 적용 가능
    - 함수의 input은 Series
  - 그 결과로 series를 반환할 시, 새로운 DataFrame이 생성

  - applymap: DataFrame의 개별 요소에 대해 동일한 함수를 적용할 때
  - map: Series의 개별 요소에 대해 동일한 함수를 적용할 때


In [None]:
frame = DataFrame(np.random.standard_normal((4, 3)),
                  columns=list("bde"),
                  index=["Utah", "Ohio", "Texas", "Oregon"])
frame

Unnamed: 0,b,d,e
Utah,-0.3091,0.484703,0.953506
Ohio,-0.954657,-0.337217,0.9934
Texas,-0.016697,-0.730352,0.708283
Oregon,1.116259,-0.00693,-2.192428


In [None]:
np.abs(frame) # 절대값

Unnamed: 0,b,d,e
Utah,0.3091,0.484703,0.953506
Ohio,0.954657,0.337217,0.9934
Texas,0.016697,0.730352,0.708283
Oregon,1.116259,0.00693,2.192428


In [None]:
def f1(x): # x는 각 열을 나타냄.
  return x.max() - x.min()

frame.apply(f1) # 연산한 결과를 Seires로 반환하여 반환된 Series의 인덱스는 각 열의 이름

Unnamed: 0,0
b,2.070917
d,1.215055
e,3.185828


In [None]:
frame.apply(lambda x:x.max() - x.min())

Unnamed: 0,0
b,2.070917
d,1.215055
e,3.185828


In [None]:
frame.apply(f1, axis="index")

Unnamed: 0,0
b,2.070917
d,1.215055
e,3.185828


In [None]:
frame.apply(f1, axis="columns")

Unnamed: 0,0
Utah,1.262606
Ohio,1.948057
Texas,1.438634
Oregon,3.308687


In [None]:
frame

Unnamed: 0,b,d,e
Utah,-0.3091,0.484703,0.953506
Ohio,-0.954657,-0.337217,0.9934
Texas,-0.016697,-0.730352,0.708283
Oregon,1.116259,-0.00693,-2.192428


In [None]:
def f2(x):
  return Series([x.min(), x.max()], index=["min", "max"])
type(frame.apply(f2)) # 데이터프레임
frame.apply(f2)

Unnamed: 0,b,d,e
min,-0.954657,-0.730352,-2.192428
max,1.116259,0.484703,0.9934


In [None]:
S1 = frame["b"]
S1 # 시리즈

Unnamed: 0,b
Utah,-0.3091
Ohio,-0.954657
Texas,-0.016697
Oregon,1.116259


In [None]:
S1.map(lambda x:2*x) # 모든 요소에 *2, 시리즈이므로 map 적용

Unnamed: 0,b
Utah,-0.6182
Ohio,-1.909315
Texas,-0.033394
Oregon,2.232518


In [None]:
frame

Unnamed: 0,b,d,e
Utah,-0.3091,0.484703,0.953506
Ohio,-0.954657,-0.337217,0.9934
Texas,-0.016697,-0.730352,0.708283
Oregon,1.116259,-0.00693,-2.192428


In [None]:
frame.applymap(lambda x:2*x) # 데이터프레임일 경우 applymap

  frame.applymap(lambda x:2*x) # 데이터프레임일 경우 applymap


Unnamed: 0,b,d,e
Utah,-0.6182,0.969406,1.907012
Ohio,-1.909315,-0.674435,1.986799
Texas,-0.033394,-1.460703,1.416566
Oregon,2.232518,-0.01386,-4.384856


In [None]:
# dataframe p.15 apply 활용 문제
frame.apply(lambda x:x.b*x.d*x.e, axis='columns') # 람다함수 유동적 적용, x는 행을 나타냄

Unnamed: 0,0
Utah,-0.142856
Ohio,0.319802
Texas,0.008637
Oregon,0.01696


### 정렬과 순위
- sort_index 메서드를 통해 오름차순으로 정렬하여 반환
  - axis 인수를 통해, 행/열 정렬 결정(기본값 index)
  -ascending=True/False를 통해 오름차순, 내림차순 결정

- sort_values 메서드를 통해, 오름차순으로 정렬하여 반환
  - NaN이 존재할 시 na_position을 통해 그 위치 조정 가능
  - DataFrame의 경우 인수로 피쳐 이름을 받아 해당 column 정ㄹ려 가능

- rank 메서드를 통해 정렬 순위를 알 수 있음
  - 동점인 항목은 평균(method='first'를 통해 구분)
  - 내림차순으로 순위 매기기 가능
  - DataFrame의 경우 axis를 통해 행 열 순위 선택 가능

In [None]:
# sort_index
obj = Series(np.arange(4), index=['d', 'a', 'b', 'c'])
obj

Unnamed: 0,0
d,0
a,1
b,2
c,3


In [None]:
obj.sort_index() # 인덱스 오름차순

Unnamed: 0,0
a,1
b,2
c,3
d,0


In [None]:
obj # 원본 배열은 변하지 않음.

Unnamed: 0,0
d,0
a,1
b,2
c,3


In [None]:
frame = DataFrame(np.arange(8).reshape((2, 4)),
                  index=["three", "one"],
                  columns=["d", "a", "b", "c"])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [None]:
frame.sort_index(axis="columns") # columns 기준으로 오름차순

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [None]:
frame.sort_index(axis="columns", ascending=False) # 내림차순

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [None]:
# sort_values
obj = Series([4, 7, -3, 2])
obj

Unnamed: 0,0
0,4
1,7
2,-3
3,2


In [None]:
obj.sort_values() # 값에 따라 오름차순

Unnamed: 0,0
2,-3
3,2
0,4
1,7


In [None]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

Unnamed: 0,0
4,-3.0
5,2.0
0,4.0
2,7.0
1,
3,


In [None]:
obj.sort_values(na_position="first") # na_position을 NaN 위치 조정

Unnamed: 0,0
1,
3,
4,-3.0
5,2.0
0,4.0
2,7.0


In [None]:
# DataFrame의 sort_values
frame = DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [None]:
frame.sort_values("b")

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [None]:
frame.sort_values(["a", "b"]) # a를 기준으로 하되, a가 같은 값인 경우 그 다음 기준이 되는 b

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [None]:
obj = Series([7, -5, 7, 4, 2, 0, 4])
obj

Unnamed: 0,0
0,7
1,-5
2,7
3,4
4,2
5,0
6,4


In [None]:
obj.rank() # 등수 알려줌, 동점이면 평균으로......

Unnamed: 0,0
0,6.5
1,1.0
2,6.5
3,4.5
4,3.0
5,2.0
6,4.5


In [None]:
obj.rank(method="first") # method='first'를 통해 구분 지을 수 있음 (먼저 나오는 걸 순위 높게)

Unnamed: 0,0
0,6.0
1,1.0
2,7.0
3,4.0
4,3.0
5,2.0
6,5.0


In [None]:
obj.rank(ascending=False) # 반대로

Unnamed: 0,0
0,1.5
1,7.0
2,1.5
3,3.5
4,5.0
5,6.0
6,3.5


In [None]:
frame = DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                   "c": [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [None]:
frame.rank(axis="columns") # 행 내에서 각 열에 있는 값들이 서로 비교되어 순위 매겨짐

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### 넘파이 기반 함수 / 메서드
- 기본적으로 결측치 제외하고 계산됨
  - skipna 옵션으로 조정 가능
  - axis="columns", "index"를 통해 행/열을 따라 계산 가능
  - 다양한 종류의 요약 통계 관련 메서드 제공
  - describe는 데이터 종류에 맞게 열을 따라서 요약 통계를 제공

### 상관관계와 공분산
- 파이썬 피클 데이터 (yahoo_price, yahoo_volumn)
  - 피클은 데이터를 쉽게 저장하고 load할 수 있게 해주는 내장 모듈
  - pd.read_pickle: 피클 데이터로 데이터프레임으로 읽음
  - pct_change: 변화를 퍼센트로 나타내는 메서드

- corr: 인수와의 상관관계를 나타내는 메서드 (correlation)
- cov: 인수와의 공분산을 나타내는 메서드 (covariance)
  - 정렬된 색인을 갖고 NA를 포함하지 않는 Series에 대해 계산 가능
  - 데이터 프레임에 적용시 모든 피쳐에 대해 corr와 cov를 얻을 수 있음
  - 데이터 프레임의 corrwith는 다른 Series나 DataFrame과의 상관관계를 얻을 수 있음

In [None]:
# 넘파이 기반 함수/메서드
df = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index=["a", "b", "c", "d"],
               columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [None]:
df.sum()

Unnamed: 0,0
one,9.25
two,-5.8


In [None]:
df.sum(axis="columns") # 결측치는 0으로 취급

Unnamed: 0,0
a,1.4
b,2.6
c,0.0
d,-0.55


In [None]:
df.sum(axis="index", skipna=False) # skipna 옵션 디폴트는 True -> 결측치를 다루지 않는다는 의미

Unnamed: 0,0
one,
two,


In [None]:
df.sum(axis="columns", skipna=False)

Unnamed: 0,0
a,
b,2.6
c,
d,-0.55


In [None]:
df.mean(axis="columns") # 평균

Unnamed: 0,0
a,1.4
b,1.3
c,
d,-0.275


In [None]:
df.idxmax() # 각 최대값을 갖고 있는 색인의 값 반환

Unnamed: 0,0
one,b
two,d


In [None]:
df.idxmax(axis="columns")

  df.idxmax(axis="columns")


Unnamed: 0,0
a,one
b,one
c,
d,one


In [None]:
df.cumsum() # 누적합

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [None]:
df.cumsum(axis=1)

Unnamed: 0,one,two
a,1.4,
b,7.1,2.6
c,,
d,0.75,-0.55


In [None]:
df.describe() # 다양한 결과를 많이.. 알려줌

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [None]:
obj = Series(["a", "a", "b", "c"] * 4)
obj

Unnamed: 0,0
0,a
1,a
2,b
3,c
4,a
5,a
6,b
7,c
8,a
9,a


In [None]:
obj.describe()

Unnamed: 0,0
count,16
unique,3
top,a
freq,8
