# [ DataFrame 살펴보기 ]
* 데이터를 테이블로, 즉, 표 형태로 저장하는 자료구조
* 구성 : 행 + 열
* 생성 : pandas.DataFrame() 생성자 메서드

(1) 모듈 로딩 --------------------------------------------------

In [1]:
from pandas import DataFrame

(2) 데이터 준비 --------------------------------------------------

In [2]:
data = [[11, 22, 33], [44, 55, 66], [77, 88, 99]]

(3) DataFrame 으로 저장 (DataFrame 객체 생성)

In [3]:
df1 = DataFrame(data)
df1

Unnamed: 0,0,1,2
0,11,22,33
1,44,55,66
2,77,88,99


(4) DataFrame 의 속성 읽기 => 객체변수명, 속성명

In [4]:
df1.index

RangeIndex(start=0, stop=3, step=1)

In [5]:
df1.columns

RangeIndex(start=0, stop=3, step=1)

In [6]:
df1.values

array([[11, 22, 33],
       [44, 55, 66],
       [77, 88, 99]], dtype=int64)

In [7]:
# 표의 형태
df1.shape

(3, 3)

In [8]:
# 데이터의 차원 정보
df1.ndim

2

In [9]:
# 컬럼별 데이터 타입
df1.dtypes

0    int64
1    int64
2    int64
dtype: object

(5) 원소 읽기 => 행과 열 지정 => 1개 원소

- 컬럼(열, column) 읽기 => 객체변수명(인덱스)

In [10]:
df1

Unnamed: 0,0,1,2
0,11,22,33
1,44,55,66
2,77,88,99


In [11]:
df1[0]

0    11
1    44
2    77
Name: 0, dtype: int64

In [12]:
# df1[-1] # 사용 불가

In [13]:
# 컬럼변경 ======================================
df1.columns = ['A', 'B', 'C']
df1

Unnamed: 0,A,B,C
0,11,22,33
1,44,55,66
2,77,88,99


In [14]:
df1['A']

0    11
1    44
2    77
Name: A, dtype: int64

In [15]:
df1.A

0    11
1    44
2    77
Name: A, dtype: int64

In [16]:
# columns 는 라벨 인덱스로 바꾼다면 숫자 인덱스는 더 이상 못 쓴다.
# df1[0]

In [17]:
df1.columns = [0, 1, 2]

In [18]:
df1[0]

0    11
1    44
2    77
Name: 0, dtype: int64

In [19]:
# df1.0   # 숫자 인덱스의 경우 점찍어서 접근하는 문법 불가능

행으로는 어떻게 읽을까? 이미 대괄호 [] 방식 => 열 읽기 로 지정해버렸는데?

하나의 열은 같은 종류의 값들만 들어있지만,  
행 하나는 그 자체로 하나의 완벽한 데이터.  
그래서 행 하나를 엔티티, 레코드, 인스턴스 라고 부른다.  
열 하나는 속성, 필드, 특성, 피쳐 라고 부른다.

- 로우(열, row) 읽기 => 방법 2가지
    * 위치    인덱스로 읽기 : 객체변수명.iloc[인덱스]
    * 레이블 인덱스로 읽기 : 객체변수명.loc[인덱스]

In [23]:
df1.index = ['one', 'two', 'three']

In [24]:
df1

Unnamed: 0,0,1,2
one,11,22,33
two,44,55,66
three,77,88,99


In [25]:
df1.loc['one']

0    11
1    22
2    33
Name: one, dtype: int64

In [26]:
df1.iloc[0]

0    11
1    22
2    33
Name: one, dtype: int64

In [27]:
zero = df1.iloc[0]
type(zero)

pandas.core.series.Series

(6) 모든 원소를 한번에 한개씩만 출력

In [28]:
df1

Unnamed: 0,0,1,2
one,11,22,33
two,44,55,66
three,77,88,99


In [29]:
print(zero)

0    11
1    22
2    33
Name: one, dtype: int64


In [30]:
# 각 원소 차례로 출력 (내 코드)
for i in range(df1.shape[0]):
    row = df1.iloc[i]
    for e in row:
        print(e)

11
22
33
44
55
66
77
88
99


- 객체변수명.iloc[ 행인덱스, 열인덱스 ]

In [31]:
df1.iloc[0, 0], df1.iloc[0, 2], df1.iloc[1, 0], df1.iloc[1, 2]

(11, 33, 44, 66)

In [32]:
df1.loc['one', 0], df1.loc['one', 2], df1.loc['two', 0], df1.loc['two', 2]

(11, 33, 44, 66)

In [33]:
# 컬럼명 변경 => 객체변수명.columns = 새로운컬럼명
df1.columns = ['A', 'B', 'C']
df1

Unnamed: 0,A,B,C
one,11,22,33
two,44,55,66
three,77,88,99


In [34]:
df1.loc['one', 'B'], df1.loc['two', 'C']

(22, 66)

In [35]:
df1.iloc[0, 1], df1.iloc[1, 2]

(22, 66)

iloc 는 문자를 넣을 수 없다. Naver.  
iloc 는 무조건 정수만 들어가야 한다. (라벨이 설정되든 말든)

loc 는 정수를 쓸 수 있다. (라벨이 설정되지 않은 행 or 열이라면)

In [36]:
df1.iloc[0][1], df1.iloc[1][2]

(22, 66)

In [37]:
df1.loc['one']['B'], df1.loc['one']['C']

(22, 33)

In [38]:
zero = df1.iloc[0]
zero   # 열 속성값이 Series 의 인덱스가 된다.

A    11
B    22
C    33
Name: one, dtype: int64

In [39]:
b = df1['B']
b   # 행 인덱스가 Series 의 인덱스가 된다.

one      22
two      55
three    88
Name: B, dtype: int64

In [40]:
df1.shape

(3, 3)

In [41]:
df1.index, df1.columns

(Index(['one', 'two', 'three'], dtype='object'),
 Index(['A', 'B', 'C'], dtype='object'))

- iloc 를 활용한 모든 원소 출력 => 행과 열의 번호

In [42]:
for row in range(df1.shape[0]):
    for col in range(df1.shape[1]):
        print(df1.iloc[row, col])

11
22
33
44
55
66
77
88
99


 - loc 를 활용한 모든 원소 출력 => 행 레이블/이름과 열 레이블/이름

In [43]:
for r in df1.index:
    for c in df1.columns:
        print(df1.loc[r, c])

11
22
33
44
55
66
77
88
99


#### [ 문제 ] one, three 행을 선택 후 저장하기

In [50]:
onethreeDF = df1.loc[['one', 'three']]
type(onethreeDF), onethreeDF

(pandas.core.frame.DataFrame,
         A   B   C
 one    11  22  33
 three  77  88  99)

In [53]:
df1.loc[['one']]   # 인수로 리스트를 넘기면 반환값은 DataFrame

Unnamed: 0,A,B,C
one,11,22,33
