## 데이터 프레임

### 데이터 프레임 만들기

In [2]:
# 분석을 도와주는 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os # 경로를 다루는 라이브러리
import seaborn as sns

In [3]:
## File path
fpath = "./dataset"

In [5]:
exam_data = {
    "수학":[90,80,90],
    "영어":[98,89,95],
    "성별":["남","남","여"],
    "합격":[True,False, True]
}

exam_df = pd.DataFrame(exam_data)
print(exam_df)
print(exam_df.shape)
print(exam_df.info())

   수학  영어 성별     합격
0  90  98  남   True
1  80  89  남  False
2  90  95  여   True
(3, 4)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   수학      3 non-null      int64 
 1   영어      3 non-null      int64 
 2   성별      3 non-null      object
 3   합격      3 non-null      bool  
dtypes: bool(1), int64(2), object(1)
memory usage: 207.0+ bytes
None


In [6]:
list_df = [["green","M",13.5,"class1"],
           ["red","L",15.3,"class2"],
           ["blue","XL",10.1, "class1"]]

df = pd.DataFrame(list_df, columns = ["color","size","price","classLabel"])

print(df)

   color size  price classLabel
0  green    M   13.5     class1
1    red    L   15.3     class2
2   blue   XL   10.1     class1


In [25]:
df = pd.DataFrame(
[['green', 'M', 13.5, 'class1'],
['red', 'L', 15.3, 'class2'],
['blue', 'XL', 10.1, 'class1']])

df.columns = ['color', 'size', 'price', 'classlabel']
# df.index = [1, 2, 3]
df

Unnamed: 0,color,size,price,classlabel
0,green,M,13.5,class1
1,red,L,15.3,class2
2,blue,XL,10.1,class1


In [8]:
#변수명 바꾸기 - inplace 필수
df.rename(columns = {"color":"색상","size":"크기",
                     "price":"가격","classLabel":"클래스"},
                     inplace = True)

print(df)


      색상  크기    가격     클래스
0  green   M  13.5  class1
1    red   L  15.3  class2
2   blue  XL  10.1  class1


## 데이터 프레임 다루기

### df.rename(inplace = True)



In [26]:
# df.rename (inplace = True)
df.rename(columns={'color':'색깔', 'size':'크기',
                   'price':'가격', 'classlabel': '클래스'}, 
                   inplace=True)

# df의 행 인덱스 중에서, '준서'를 '학생1'로, '예은'을 '학생2'로 바꾸기
df.rename(index={0:1, 1:2, 2:3 }, 
          inplace=True)
df

Unnamed: 0,색깔,크기,가격,클래스
1,green,M,13.5,class1
2,red,L,15.3,class2
3,blue,XL,10.1,class1


### df.drop(axis, inplace = True)

In [27]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
print(exam_df)
print("="*50)

# 데이터 변수 지우기
print(exam_df.drop(labels = ["수학"], axis = 1, inplace=False))
print(exam_df.drop(labels = ["수학", "합격"], axis = 1, inplace=False))
print("="*50)

# 데이터값 지우기
print(exam_df.drop(labels = [1], axis = 0, inplace=False))

   수학  영어 성별     합격
0  90  98  남   True
1  80  89  남  False
2  70  95  여   True
   영어 성별     합격
0  98  남   True
1  89  남  False
2  95  여   True
   영어 성별
0  98  남
1  89  남
2  95  여
   수학  영어 성별    합격
0  90  98  남  True
2  70  95  여  True


In [37]:
## Drop missing value
exam_df.loc[0, "성별"] = np.nan
exam_df.loc[1, "수학":"영어"] = None

## NaN 값 지우기
exam_df.dropna(axis = 0)
exam_df.dropna(axis = 0, subset = ["수학"])
exam_df.dropna(axis = 1)

## NaN 값 바꾸기
exam_df.fillna("Missing", inplace = False)

Unnamed: 0,수학,영어,성별,합격
0,90.0,98.0,Missing,True
1,Missing,Missing,남,False
2,70.0,95.0,여,True


### 데이터 indexing

In [8]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학' : [ 90, 80, 70], 
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], 
             '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data)

# 변수명으로 열 선택하기
print(df['수학'])
print(df[['수학','음악']])
# print(df.loc['수학':'음악'])

# 인덱스명으로 행 선택하기
print(df[0:2])

0    90
1    80
2    70
Name: 수학, dtype: int64
   수학   음악
0  90   85
1  80   95
2  70  100
   수학  영어  음악   체육
0  90  98  85  100
1  80  89  95   90


### loc select

In [4]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학' : [ 90, 80, 70], 
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], 
             '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])

# loc 인덱스를 사용하여 행 선택
loc_loc1 = df.loc['서준']    # loc 인덱서 활용, series
print("df.loc['서준'] : \n", loc_loc1)
print('\n\n')

loc_loc2 = df.loc[['서준', '인아']]    # loc 인덱서 활용, series
print("df.loc[['서준', '인아']] : \n",loc_loc2)
print('\n\n')

loc_loc3 = df.loc['서준':'인아']    # loc 인덱서 활용, series
print("df.loc['서준':'인아'] : \n",loc_loc3)
print('\n\n')
# # 행 인덱스를 사용하여 행 1개를 선택
# loc1 = df.loc['서준']    # loc 인덱서 활용, series
# print(loc1)


# loc 인덱스를 사용하여 행과 열 선택
loc_loc4 = df.loc[:, '수학']    # loc 인덱서 활용, series
print("df.loc[:, '수학'] : \n", loc_loc4)
print('\n\n')

# loc 인덱스를 사용하여 행과 열 선택
loc_loc5 = df.loc[:, ['수학', '체육']]   # loc 인덱서 활용, series
print("df.loc[:, ['수학', '체육']] : \n", loc_loc5)
print('\n\n')

# loc 인덱스를 사용하여 행과 열 선택
loc_loc6 = df.loc['우현':'인하', '수학':'음악']   # loc 인덱서 활용, series
print("df.loc['우현':'인하', '수학':'음악']  : \n", loc_loc6)
print('\n\n')

df.loc['서준'] : 
 수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64



df.loc[['서준', '인아']] : 
     수학  영어   음악   체육
서준  90  98   85  100
인아  70  95  100   90



df.loc['서준':'인아'] : 
     수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90



df.loc[:, '수학'] : 
 서준    90
우현    80
인아    70
Name: 수학, dtype: int64



df.loc[:, ['수학', '체육']] : 
     수학   체육
서준  90  100
우현  80   90
인아  70   90



df.loc['우현':'인하', '수학':'음악']  : 
     수학  영어   음악
우현  80  89   95
인아  70  95  100





### 행과 열 추가하기

In [14]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)
print(df)
print("="*50)

# 새로운 열(columns)을 추가
df['국어'] = [80, 90, 100]
print(df)
print("="*50)

# 새로운 열(columns)을 중간에 추가
df.insert(1, "코딩", [60, 80, 100])
print(df)
print("="*50)

# 새로운 행(row)을 추가
df.loc[4] = ['동규', 90, 40, 80, 70, 60, 60]
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90
   이름  수학  영어   음악   체육   국어
0  서준  90  98   85  100   80
1  우현  80  89   95   90   90
2  인아  70  95  100   90  100
   이름   코딩  수학  영어   음악   체육   국어
0  서준   60  90  98   85  100   80
1  우현   80  80  89   95   90   90
2  인아  100  70  95  100   90  100
   이름   코딩  수학  영어   음악   체육   국어
0  서준   60  90  98   85  100   80
1  우현   80  80  89   95   90   90
2  인아  100  70  95  100   90  100
4  동규   90  40  80   70   60   60


### 데이터 element 값 바꾸기

In [11]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data)

# '이름' 열을 새로운 인덱스로 지정하고, df 객체에 변경사항 반영
df.set_index('이름', inplace=True)
print(df)

df.loc['서준', '체육'] = 100
print(df)
print('\n')

# 데이터프레임 df의 원소 여러 개를 변경하는 방법: '서준'의 '음악', '체육' 점수
df.loc['서준', ['음악', '체육']] = 50
print(df)
print('\n')

df.loc['서준', ['음악', '체육']] = 100, 50
print(df)

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90
    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


    수학  영어   음악  체육
이름                 
서준  90  98   50  50
우현  80  89   95  90
인아  70  95  100  90


    수학  영어   음악  체육
이름                 
서준  90  98  100  50
우현  80  89   95  90
인아  70  95  100  90


### Reindexing
- set_index(inplace = True)
- reindex()
- reset_index()

In [19]:
# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 
             'c1':[4,5,6], 
             'c2':[7,8,9], 
             'c3':[10,11,12], 
             'c4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
print("df = \n", df)
df.set_index('c0', drop = True, inplace=True)
print("df.set_index('c0', drop = True, inplace=True) = \n", df)
print('\n')

# 인덱스를 [r0, r1, r2, r3, r4]로 재지정
new_index = [1, 2, 3, 4, 5]
ndf = df.reindex(new_index)
print(ndf)
print('\n')

# reindex로 발생한 NaN값을 숫자 0으로 채우기
new_index = [1, 2, 3, 4, 5]
ndf2 = df.reindex(new_index, fill_value=0)
print(ndf2, "\n")

# 행 인덱스를 정수형으로 초기화
print("df.reset_index()")
ndf = df.reset_index()
print(ndf)

df = 
     c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
df.set_index('c0', drop = True, inplace=True) = 
     c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15


     c1   c2    c3    c4
c0                      
1   4.0  7.0  10.0  13.0
2   5.0  8.0  11.0  14.0
3   6.0  9.0  12.0  15.0
4   NaN  NaN   NaN   NaN
5   NaN  NaN   NaN   NaN


    c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15
4    0   0   0   0
5    0   0   0   0 

df.reset_index()
   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15
