## 판다스 데이터프레임
판다스 데이터프레임은 다음 그림과같이 행과 열로 구성된 2차원 데이터(엑셀 데이터)를 다루는데 효과적인 자료구조입니다. 

<img src="https://i.ibb.co/7VjmyLd/pandas-0-0.png" width="300" style="float:left" />

데이터 프레임은 다음과 같이 import를 합니다.

In [3]:
from pandas import DataFrame
import pandas as pd

In [4]:
import numpy as np

데이터 프레임은 크게 세 가지 방법으로 생성할 수 있습니다. 
-	딕셔너리로 데이터프레임을 생성
-	리스트로 데이터프레임을 생성
-	리스트와 딕셔너리로 데이터프레임을 생성

#### 딕셔너리로 데이터프레임 생성

우선 위 테이블을 딕셔너리로 표현해 보겠습니다. 하나의 컬럼을 딕셔너리의 키, 값 쌍으로 구성합니다. 이 때 값은 리스트 형태로 정의합니다. 

In [None]:
딕셔너리 = {
        "x" : [10,40],
        "y" : [20,30]
}
df = DataFrame(딕셔너리)
df

Unnamed: 0,x,y
0,10,20
1,40,30


데이터프레임은 생성자에서 딕셔너리를 입력받아 객체를 반환합니다. 코드를 실행하면 자동으로 맵핑된 인덱스가 함께 출력됩니다. 



#### 리스트로 데이터프레임 생성
테이블의 헤더 (시가/고가/저가/종가의 1행)를 제외하고 나머지 데이터를 2차원 형태로 정의합니다. 

In [None]:
리스트 = [
    [10,20],
    [30,40]
]

df = DataFrame(리스트)
df

Unnamed: 0,0,1
0,10,20
1,30,40


그리고 생성자에 columns 파라미터로 헤더 정보를 전달합니다. 

In [None]:
df.index = ["x",'y']
df.columns=["a","b"]

df

Unnamed: 0,a,b
x,10,20
y,30,40


데이터 프레임에도 다양한 속성 (인스턴스 변수)이 있는데 columns 파라미터에는 테이블 열의 제목이 들어있습니다. 

#### 리스트와 딕셔너리를 조합
세 번째 방식은 두 번째와 유사하게 행 단위로 데이터를 표현하는데 이 때 데이터에 레이블을 붙여서 각 행을 하나의 딕셔너리로 표현합니다. 말로 풀어쓰면 어려운데 코드를 보면 쉽게 이해할 수 있습니다. 

In [6]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data) #딕셔너리 하나가 하나의 행, 딕셔너리의 키값은 컬럼
df

Unnamed: 0,시가,고가,저가,종가
0,100,110,90,105
1,90,112,80,95
2,80,115,70,85
3,70,80,60,75


데이터 프레임도 시리즈와 유사하게 인덱스를 지정할 수 있습니다.  
- 생성할 때 인덱스 추가  
- 생성 후에 인덱스 추가  

In [None]:
z = [
     [10,20],
     [30,40]
]

idx=["x","y"]
c =["a","b"]
df = DataFrame(data=z, index=idx ,columns = c)

df

Unnamed: 0,a,b
x,10,20
y,30,40


세 가지 방식 모두 동일한 데이터프레임 객체를 생성합니다. 원본 데이터가 저장된 형태에 따라 적합한 데이터프레임 생성 방식을 사용하면 됩니다. 

----

보통 데이터는 웹에서 가져오거나 엑셀에서 저장돼 있습니다. 데이터 프레임은 엑셀이나 웹에서 값을 얻어오는 메서드를 제공하기 때문에 처음부터 데이터 프레임을 만들일은 생각보다 많지 않습니다. 

In [None]:
import pandas as pd

url = "http://finance.naver.com/"
dfs =pd.read_html(url)
type(dfs)  #html 읽어온 타입은 list이다 


list

In [None]:
housing = pd.read_csv("/content/sample_data/california_housing_test.csv")

housing


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.30,34.26,43.0,1510.0,310.0,809.0,277.0,3.5990,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
...,...,...,...,...,...,...,...,...,...
2995,-119.86,34.42,23.0,1450.0,642.0,1258.0,607.0,1.1790,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.70,36.30,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.10,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0


## 데이터 프레임의 구조

데이터프레임의 각 컬럼은 시리즈이며 같은 인덱스를 갖는 시리즈가 모여 하나의 데이터 프레임을 구성합니다. 

<img src="https://i.ibb.co/Xx2rtYB/pandas-0-1.png" width="600" style="float:left" />

데이터 프레임은 다음과 같이 시가/고가/저가/종가 네 개의 시리즈로 구분할 수 있습니다. 

<img src="https://i.ibb.co/x6RMmHV/pandas-0-2.png" width="600" style="float:left" />

혹은 데이터프레임의 각 로우(row)는 시리즈이며 네 개의 시리즈로 구성됐다고 해석할 수 있습니다.

<img src="https://i.ibb.co/GpLVrCS/pandas-0-3.png" width="600" style="float:left" />

이번에는 시가/고가/저가/종가의 인덱스를 갖는 네 개의 시리즈를 확인할 수 있습니다. 

<img src="https://i.ibb.co/PGMNKH9/pandas-0-4.png" width="600" style="float:left" />

Q. 다음 선택된 시리즈의 인덱스는 무엇인가?

<img src="https://i.ibb.co/3RP6LMC/pandas-0-5.png" width="400" style="float:left" />

## 데이터프레임과 인덱싱

데이터프레임은 2차원 자료를 저장하기 때문에 로우 혹은 컬럼 단위로 데이터를 가져올 수 있습니다. 다음의 데이터프레임을 사용해서 인덱싱을 연습해 봅시다.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df #각각의 딕셔너리가 index와 결합했음.

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


우선 컬럼의 데이터를 가져와 봅시다. 컬럼은 컬럼의 이름(columns)을 사용해서 선택할 수 있습니다. 

In [None]:
df['고가']

20200615    110
20200616    112
20200617    115
20200618     80
Name: 고가, dtype: int64

`ndarray`에서 사용해 본 것과 같이 연속하지 않은 컬럼을 선택할 수도 있습니다.

In [None]:
df[['고가','종가']]
df[  df.columns[0:3]]

Unnamed: 0,시가,고가,저가
20200615,100,110,90
20200616,90,112,80
20200617,80,115,70
20200618,70,80,60


로우 데이터는 `iloc`와 `loc`를 사용해서 값을 얻어올 수 있습니다. 

In [None]:
from pandas import Series

s= Series(['a','b'], index=["x","y"])
s.loc["x":"y"]

x    a
y    b
dtype: object

In [None]:
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


당연히 연속하지 않은 여러개의 로우도 선택할 수 있습니다.

In [None]:
df.iloc[[-1,0]]

Unnamed: 0,시가,고가,저가,종가
20200618,70,80,60,75
20200615,100,110,90,105


이번에는 데이터프레임에 저장된 하나의 값 (115)를 출력해 보겠습니다.  

In [None]:
df.iloc[2][1]
df.loc["20200617","고가"]

115

데이터 프레임에서는 `[ ]` 인덱싱 기호 한 번에 행과 열을 지정할 수도 있습니다. 

In [None]:
df.iloc[:2][["시가","고가"]]
df.iloc[:2,:2]

Unnamed: 0,시가,고가
20200615,100,110
20200616,90,112


### 데이터프레임 수정
데이터프레임에 값을 수정하거나 추가해봅시다.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


데이터 프레임에 컬럼 단위로 값을 추가할 때는 컬럼의 이름과 값을 전달하면 됩니다. 만약 하나의 값을 입력한다면 컬럼 전체가 해당 값으로 채워집니다.

Unnamed: 0,시가,고가,저가,종가,NEW
20200615,100,110,90,105,10
20200616,90,112,80,95,10
20200617,80,115,70,85,10
20200618,70,80,60,75,10


리스트 형태로 값을 전달할 수도 있습니다.

Unnamed: 0,시가,고가,저가,종가,NEW
20200615,100,110,90,105,10
20200616,90,112,80,95,20
20200617,80,115,70,85,30
20200618,70,80,60,75,40


하나의 값을 변경할 때는 `변경할위치 = 값` 형태로 코드를 작성합니다.

Q. 고가와 저가의 차이를 "변동폭" 이름의 칼럼에 저장하라.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


로우 단위의 데이터를 추가할 때는 `iloc` 혹은 `loc`를 사용하는 것외에 동일합니다.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


`20200619` 로우에 값을 추가

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75
20200619,10,10,10,10


값을 삭제할 때는 시리즈와 동일하게 drop메서드를 사용합니다. 차이점은 데이터프레임은 2차원 형태이기 때문에 가로축 삭제인지 세로축 삭제인지를 알려줘야 합니다. `axis`는 컬럼 단위로 삭제할지 로우 단위로 삭제할지를 지정합니다. `axis=1`은 컬럼 단위로 삭제한다는 의미입니다.

In [None]:
df.drop('시가', axis=1)

Unnamed: 0,고가,저가,종가
20200615,110,90,105
20200616,112,80,95
20200617,115,70,85
20200618,80,60,75


로우 단위로도 삭제할 수 있습니다. `axis`를 입력하지 않으면 0으로 간주됩니다.

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85


## 인덱스 및 칼럼 설정하기

`reset_index`는 인덱스를 칼럼으로 변경합니다.

Unnamed: 0,index,시가,고가,저가,종가
0,20200615,100,110,90,105
1,20200616,90,112,80,95
2,20200617,80,115,70,85
3,20200618,70,80,60,75


`set_index`는 칼럼 이름으로 인덱스를 설정합니다. 

## 데이터프레임 연결하기
하나 이상의 데이터 프레임을 연결할 수 있습니다. 

In [None]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(4, 2), columns=['A', 'B'])
df1

Unnamed: 0,A,B
0,-0.532825,-0.799201
1,0.699131,-0.703095
2,-0.337424,-1.686015
3,-0.161084,-0.330879


In [None]:
df2 = pd.DataFrame(np.random.randn(4, 2), columns=['A', 'B'])
df2

Unnamed: 0,A,B
0,0.61702,0.151633
1,-0.308665,0.358633
2,0.802221,-0.870168
3,0.198,0.282982


`append` 메서드로 연결한 데이터 프레임을 전달합니다

In [None]:
df1.append(df2)

Unnamed: 0,A,B
0,1.382102,-1.346167
1,-1.106819,1.331357
2,0.384795,-1.562648
3,0.064274,1.145529
0,-0.559248,-1.1835
1,0.911591,-1.103314
2,0.529724,-0.685318
3,-0.990691,0.052634


pd의 `concat` 함수로 연결할 데이터 프레임을 리스트로 전달합니다.

### merge
`pandas`에 정의된 `merge` 함수를 사용할 수도 있습니다. 

In [None]:
df1 = DataFrame( np.random.randint(10, size=(2,4)), columns=["a", "b", "c", "d"])
df1['구분'] = ["가", "나"]
df1

Unnamed: 0,a,b,c,d,구분
0,3,9,1,9,가
1,8,0,1,1,나


In [None]:
df2 = DataFrame( np.random.randint(10, size=(4,4)), columns=["e", "f", "g", "h"])
df2['구분'] = ["가", "나", "다", "가"]
df2

Unnamed: 0,e,f,g,h,구분
0,3,1,7,0,가
1,9,3,5,6,나
2,9,3,6,2,다
3,5,9,8,5,가


`pd.merge(df1, df2, on="칼럼이름")` 형태로 사용합니다.

In [None]:
pd.merge(df1, df2, on="구분")

Unnamed: 0,a,b,c,d,구분,e,f,g,h
0,3,9,1,9,가,3,1,7,0
1,3,9,1,9,가,5,9,8,5
2,8,0,1,1,나,9,3,5,6


`how` 옵션을 사용하면 `join` 방식을 지정할 수 있습니다. 
- `left` / `right` / `inner`