# Panda - DataFrame

In [1]:
import numpy as np
import pandas as pd

### 1. 데이터 프레임 생성

In [2]:
# 데이터 프레임: 2차원 데이터 + 행 인덱스 + 열 인덱스
#   Series1 Series2 Series3
# 인  정수   실수   문자열
# 덱  정수   실수   문자열
# 스  정수   실수   문자열
# 데이터 프레임은 딕셔너리처럼 생성 방법이 다양하다.

In [4]:
# data 딕셔너리의 키 = 데이터프레임의 열 인덱스
data = {        # key값은 열 인덱스가 되고 value값은 Data가 된다.
    "국어": [80, 90, 70, 30], 
    "영어": [90, 70, 60, 40], 
    "수학": [90, 60, 80, 70]
}
df = pd.DataFrame(data)
df

Unnamed: 0,국어,영어,수학
0,80,90,90
1,90,70,60
2,70,60,80
3,30,40,70


In [5]:
df.index = ['춘향', '몽룡', '향단', '방자']
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [7]:
np.random.seed(2022)
df2 = pd.DataFrame(np.random.randint(40, 101, 12).reshape(4, 3), 
                    columns=['국어','영어','수학'],
                    index=['춘향', '몽룡', '향단', '방자'])
df2

Unnamed: 0,국어,영어,수학
춘향,68,85,88
몽룡,89,89,88
향단,95,64,58
방자,64,56,93


- 반복문을 써서 만드는 경우

In [8]:
kor, eng, mat = [], [], []
for i in range(4):
    kor.append(np.random.randint(40, 101))
    eng.append(np.random.randint(40, 101))
    mat.append(np.random.randint(40, 101))
kor

[81, 51, 80, 59]

In [9]:
pd.DataFrame({'국어':kor, '영어':eng, '수학':mat}, index=['춘향', '몽룡', '향단', '방자'])

Unnamed: 0,국어,영어,수학
춘향,81,73,67
몽룡,51,59,70
향단,80,51,88
방자,59,78,48


In [10]:
line = []
for i in range(4):
    d = {'국어':np.random.randint(40, 101),
         '영어':np.random.randint(40, 101),
         '수학':np.random.randint(40, 101)
        }
    line.append(d)
line

[{'국어': 54, '영어': 69, '수학': 56},
 {'국어': 98, '영어': 66, '수학': 51},
 {'국어': 70, '영어': 73, '수학': 42},
 {'국어': 56, '영어': 93, '수학': 55}]

In [11]:
pd.DataFrame(line, index=['춘향', '몽룡', '향단', '방자'])

Unnamed: 0,국어,수학,영어
춘향,54,56,69
몽룡,98,51,66
향단,70,42,73
방자,56,55,93


### 2. 데이터프레임 인덱싱

In [12]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [24]:
df['국어']          # 시리즈

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [25]:
df.국어

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [26]:
# 인덱싱 순서 - 열 인데스, 행 인덱스 순*** <-> 다른 일반 인덱싱과는 반대
# 시리즈를 먼저 선택하고, 인덱스를 선택
df['영어']['몽룡']

70

In [29]:
df['영어']['몽룡'], df['영어'][1], df.영어[1], df.영어.몽룡

(70, 70, 70, 70)

- 슬라이스

In [31]:
df['국어'][:2]          # 시리즈에서 슬라이스

춘향    80
몽룡    90
Name: 국어, dtype: int64

In [32]:
# 슬라이싱을 할 때 인덱스 값으로 문자열을 주면 숫자와는 다르게 동작함
df['국어'][:'몽룡']

춘향    80
몽룡    90
Name: 국어, dtype: int64

- 데이터프레임 결과 (Selection)

In [42]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [43]:
df[['국어','영어']]         # 데이터프레임으로 출력

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [44]:
df['국어']              # 시리즈

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [45]:
df[['국어']]

Unnamed: 0,국어
춘향,80
몽룡,90
향단,70
방자,30


In [46]:
df[['국어']][:2]

Unnamed: 0,국어
춘향,80
몽룡,90


- loc인데서: [행인데스, 열인덱스]

In [47]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [51]:
df.loc['몽룡', '영어'], df.loc['몽룡']['영어'], df.loc['몽룡'][1], df.loc['몽룡'].영어

(70, 70, 70, 70)

In [50]:
df.loc['몽룡'][:]

국어    90
영어    70
수학    60
Name: 몽룡, dtype: int64

- iloc 인덱서: [행숫자 인덱스, 열숫자 인덱스] (Numpy style)

In [60]:
df.iloc[1,1], df.iloc[1][1], df.iloc[1]['영어'], df.iloc[1].영어

(70, 70, 70, 70)

In [61]:
df.iloc[:2, 1:]

Unnamed: 0,영어,수학
춘향,90,90
몽룡,70,60


In [67]:
print(df['수학']['방자'], df['수학'].방자, df.수학.방자, df.수학[3])
print(df.loc['방자']['수학'], df.loc['방자'].수학, df.loc['방자'][2], df.loc['방자', '수학'])
print(df.iloc[3,2], df.iloc[3].수학, df.iloc[3][2], df.iloc[3].수학)

70 70 70 70
70 70 70 70
70 70 70 70
