# Pandas - DataFrame

In [1]:
import numpy as np
import pandas as pd

### 1. 데이터 프레임 생성

In [2]:
# 데이터를 만들기, 딕셔너리
# 데이터 딕셔너리의 키가 데이터프레임의 열 인덱스

data = {
 "국어": [80, 90, 70, 30],
 "영어": [90, 70, 60, 40],
 "수학": [90, 60, 80, 70]
}

df=pd.DataFrame(data)
df

Unnamed: 0,국어,영어,수학
0,80,90,90
1,90,70,60
2,70,60,80
3,30,40,70


In [3]:
# 인덱스 만들기

df.index=["춘향", "몽룡", "향단", "방자"]
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [4]:
# 한번에 하는 방법

# 이차원 어레이를 먼저 만듬, 컬럼(열), 인덱스 만들기

np.random.seed(2022)
df2 = pd.DataFrame(np.random.randint(40,101,12).reshape(4,3),
                columns=['국어','영어','수학'],
                index=['춘향', '몽룡', '향단', '방자'])       # 41점에서100점
df2

Unnamed: 0,국어,영어,수학
춘향,68,85,88
몽룡,89,89,88
향단,95,64,58
방자,64,56,93


* 2차원을 반복문을 써서 만들 경우

In [5]:
# 1

kor, eng, mat = [],[],[]
for i in range(4):
    kor.append(np.random.randint(40,101))
    eng.append(np.random.randint(40,101))
    mat.append(np.random.randint(40,101))
kor

[81, 51, 80, 59]

In [6]:
pd.DataFrame({'국어':kor, '영어':eng, '수학':mat})

Unnamed: 0,국어,영어,수학
0,81,73,67
1,51,59,70
2,80,51,88
3,59,78,48


In [7]:
# 2

line =[]
for i in range(4):
    d = {'국어':np.random.randint(40,101),
        '영어':np.random.randint(40,101),
        '수학':np.random.randint(40,101)}
    line.append(d)
line

[{'국어': 54, '영어': 69, '수학': 56},
 {'국어': 98, '영어': 66, '수학': 51},
 {'국어': 70, '영어': 73, '수학': 42},
 {'국어': 56, '영어': 93, '수학': 55}]

In [8]:
pd.DataFrame(line)

Unnamed: 0,국어,영어,수학
0,54,69,56
1,98,66,51
2,70,73,42
3,56,93,55


### 2. 데이터프레임 인덱싱

In [9]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [11]:
df['국어']      # 시리즈

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [13]:
df.국어     # 실전 활용도 ↑

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [10]:
# 인덱싱 순서 : 열인덱스, 행인덱스
# 시리즈를 먼저 선택하고, 인덱스를 선택

df['영어']['몽룡']

70

In [16]:
df['영어'][1], df.영어[1]

(70, 70)

In [15]:
df.영어.몽룡

70

* 슬라이스

In [17]:
df['국어'][:2]      # 시리즈 : df['국어']

춘향    80
몽룡    90
Name: 국어, dtype: int64

In [18]:
# 슬라이싱을 할 때 인덱스 값 대신 문자열도 가능
df['국어'][:'몽룡']

춘향    80
몽룡    90
Name: 국어, dtype: int64

* 결과를 데이터프레임으로 만들기 (Selection)

In [19]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [23]:
df['국어']      # → 시리즈가 됨

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [20]:
df[['국어','영어']]         # → 데이터프레임이 됨

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [24]:
# 슬라이스
df[['국어']] [:2]

Unnamed: 0,국어
춘향,80
몽룡,90


* loc 인덱서 : [행인덱스,열인덱스]

In [26]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [29]:
df.loc['몽룡','영어'], df.loc['몽룡']['영어'], df.loc['몽룡'][1]

(70, 70, 70)

In [30]:
df.loc['몽룡'].영어

70

* iloc 인덱서 : [행숫자 인덱스, 열숫자 인덱스] / numpy style

In [33]:
df.iloc[1,1], df.iloc[1][1], df.iloc[1].영어, df.iloc[1]['영어']

(70, 70, 70, 70)

In [34]:
df.iloc[:2, 1:]

Unnamed: 0,영어,수학
춘향,90,90
몽룡,70,60


In [42]:
# 방자의 수학점수 인덱싱
df['수학']['방자'], 
df.loc['방자']['수학']
df.iloc[3,2], df.iloc[3][2], df.iloc[3].수학, df.iloc[3]['수학'], df.iloc[-1,-1]

(70, 70, 70, 70, 70)

* 값 변경

In [43]:
df['국어']['방자']=80
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,80,40,70


In [44]:
df.영어.방자=85
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,80,85,70


* 열 추가

In [45]:
df['과학'] = [40.3, 80.4, 75.3, 68.5]
df

Unnamed: 0,국어,영어,수학,과학
춘향,80,90,90,40.3
몽룡,90,70,60,80.4
향단,70,60,80,75.3
방자,80,85,70,68.5


In [46]:
# 만들 떄는 위 형식으로... 아래 형식은 안됨
df.평균 = [10,20,30,40]

  df.평균 = [10,20,30,40]


In [49]:
# 4가지 과목의 평균값 구하기
df['평균'] = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,과학,평균
춘향,80,90,90,40.3,75.076
몽룡,90,70,60,80.4,75.1
향단,70,60,80,75.3,71.324
방자,80,85,70,68.5,75.876


* 열 삭제

In [52]:
del df['평균']      # del df.평균: 안됨, 출력할 때면 . 형식으로 사용하기
df

Unnamed: 0,국어,영어,수학,과학
춘향,80,90,90,40.3
몽룡,90,70,60,80.4
향단,70,60,80,75.3
방자,80,85,70,68.5


In [60]:
df.drop(columns=['수학','과학'])
df

KeyError: "['수학' '과학'] not found in axis"

In [57]:
df.drop(columns=['과학'], inplace=True)
df

KeyError: "['과학'] not found in axis"

* 행 삭제

In [58]:
df.drop(['방자'])

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60


In [59]:
df.drop(['향단'], inplace=True)
df

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
방자,80,85
