# 데이터프레임(DataFrame) 구조

* 행과 열을 가진 2차원 배열 구조
* index, columns을 가짐

## 데이터프레임 생성

In [1]:
import pandas as pd

In [2]:
# 행과 열 구조의 DataFrame
df = pd.DataFrame([[1, 2, 3, 4], [5, 6, 7, 8]],
                  index=list('ab'),
                  columns=list('abcd'))                             

In [3]:
df

Unnamed: 0,a,b,c,d
a,1,2,3,4
b,5,6,7,8


In [4]:
# 데이터 조회
df.values  # 결과가 다차원 배열로 관리되는 것을 알 수 있다.

array([[1, 2, 3, 4],
       [5, 6, 7, 8]], dtype=int64)

In [5]:
type(df.values)

numpy.ndarray

## 행과 열의 인덱스 정보와 배열의 메타 정보 확인

In [6]:
df.index  # 행의 레이블은 index 클래스의 객체

Index(['a', 'b'], dtype='object')

In [7]:
df.columns  # 열의 레이블도 index 클래스의 객체

Index(['a', 'b', 'c', 'd'], dtype='object')

In [8]:
df.shape, df.ndim, df.size  
# 형상은 2차원이라 2개의 원소를 갖는 튜플로 표시(2,4)=2행 4열, 차원, 크기는 원소의 개수인 8개

((2, 4), 2, 8)

## 색인 검색

* 데이터프레임의 색인 검색은 열의 레이블을 검색하는 방식이다.
* index로 검색은 안된다.

In [9]:
try:
    df[0]
except Exception as e:
    print(e)

0


In [10]:
df['a']  # 열 이름으로 검색하면 결과는 Series 객체이다.

a    1
b    5
Name: a, dtype: int64

## 데이터프레임의 행 명칭으로 검색: loc(label based)

* 행 명칭으로 조회할 때는 loc(label based) indexer를 사용한다.

In [11]:
df.loc['a'] # 행('a')으로 조회할 때는 loc indexer를 사용한다.
# 데이터프레임의 행이 1개일 경우 결과는 Series 객체

a    1
b    2
c    3
d    4
Name: a, dtype: int64

In [12]:
# 'a' 행, 모든 열 조회
df.loc['a', :]
# 행이 1개이면 결과는 Series 객체

a    1
b    2
c    3
d    4
Name: a, dtype: int64

In [13]:
# 모든 행과 'b','c' 열을 조회
df.loc['a':, 'b':'c']
# 결과는 행과 열이 있는 DataFrame이다.

Unnamed: 0,b,c
a,2,3
b,6,7


## 슬라이스 검색을 통한 부분 집합일 때 메모리 공유

In [14]:
dfv = df.loc['a':, 'b':'c']

In [15]:
import numpy as np

In [None]:
# 판다스의 데이터프레임은 슬라이스 검색하면 원본과 메모리를 공유한다.
np.may_share_memory(dfv, df)

True

In [None]:
dfv['b'] = 0

In [None]:
dfv

In [None]:
df
# 메모리는 공유하는데 값은 변하지 않네ㅠㅠ.. 이전 버전에서는 변했는데 버전에 따라 달라지고 있다.

## 인덱스 숫자 정보로 검색: iloc(integer position based)

* 정수 인덱스로 조회할 때는 iloc(integer position based) indexer를 사용한다.

In [None]:
df.iloc[0]  # 0은 위치(position)이며, 0 position의 행을 의미한다.

In [None]:
df.iloc[0, 0]

In [None]:
s = df.iloc[:, 0] # 0 position 열

In [None]:
s

In [None]:
# iloc를 이용한 슬라이싱도 메모리를 공유한다.
np.may_share_memory(s, df)

In [None]:
df.iloc[0, 0] = 100

In [None]:
df

In [None]:
s