## 데이터 프레임

### 데이터 프레임 만들기

In [1]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
fpath = "./dataset"

In [10]:
exam_data = {
        '수학' : [ 90, 80, 70], 
        '영어' : [ 98, 89, 95],
        '성별': ['남', '남', '여'], 
        '합격' : [True, False, True]
}

exam_df = pd.DataFrame(exam_data)
print(exam_df)
print(exam_df.shape)
print(exam_df.info())

   수학  영어 성별     합격
0  90  98  남   True
1  80  89  남  False
2  70  95  여   True
(3, 4)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   수학      3 non-null      int64 
 1   영어      3 non-null      int64 
 2   성별      3 non-null      object
 3   합격      3 non-null      bool  
dtypes: bool(1), int64(2), object(1)
memory usage: 207.0+ bytes
None


In [11]:
list_df = [["green", "M", 13.5, "class1"],
            ["red", "L", 15.3, "class2"],
            ["blue", "XL", 10.1, "class1"]]
df = pd.DataFrame(list_df, columns= ["color", "size", "price", "class_label"])
print(df)

   color size  price class_label
0  green    M   13.5      class1
1    red    L   15.3      class2
2   blue   XL   10.1      class1


## 데이터 프레임 다루기

### df.rename(inplace = True)



In [7]:
# df.rename (inplace = True)
list_df = [["green", "M", 13.5, "class1"],
            ["red", "L", 15.3, "class2"],
            ["blue", "XL", 10.1, "class1"]]
df = pd.DataFrame(list_df, columns= ["color", "size", "price", "class_label"])
print(df)

df.rename(columns= {"color":"색깔", "size":"크기", 
                    "price": "가격","classlabel":"클래스"},
        index = {0:1, 1:2, 2:3}, 
        inplace = True)
print(df)

   color size  price class_label
0  green    M   13.5      class1
1    red    L   15.3      class2
2   blue   XL   10.1      class1
      색깔  크기    가격 class_label
1  green   M  13.5      class1
2    red   L  15.3      class2
3   blue  XL  10.1      class1


### df.drop(axis, inplace = True)

In [8]:
##
exam_data = {'수학' : [ 90, 80, 70], 
             '영어' : [ 98, 89, 95],
             '성별': ['남', '남', '여'], 
             '합격' : [True, False, True]}
             
exam_df = pd.DataFrame(exam_data)
print('exam_df = \n', exam_df)

# 데이터 변수 지우기
exam_df.drop(labels = ['수학'], axis = 1, inplace = True)
print('-'*50)
print(exam_df)

exam_df.drop(labels = ['영어', '합격'], axis = 1, inplace = True)
print('-'*50)
print(exam_df)

exam_df.drop(labels = [0], axis = 0, inplace=True)
print('-'*50)
print(exam_df)

exam_df = 
    수학  영어 성별     합격
0  90  98  남   True
1  80  89  남  False
2  70  95  여   True
--------------------------------------------------
   영어 성별     합격
0  98  남   True
1  89  남  False
2  95  여   True
--------------------------------------------------
  성별
0  남
1  남
2  여
--------------------------------------------------
  성별
1  남
2  여


In [9]:
## Drop missing value
exam_data = {'수학' : [ 90, 80, 70], 
             '영어' : [ 98, 89, 95],
             '성별': ['남', '남', '여'], 
             '합격' : [True, False, True]}
             
exam_df = pd.DataFrame(exam_data)

print("exam_df = \n", exam_df)
exam_df.loc[0,"성별"] = np.nan
exam_df.loc[1,"수학":"영어"] = None
print("-" * 50)
print("exam_df = \n", exam_df)

## NaN 값 지우기
print("-" * 50)
print(exam_df.dropna(axis = 0)) #row

print("-" * 50)
print(exam_df.dropna(axis = 0, subset = ["수학"])) #row

print("-" * 50)
print(exam_df.dropna(axis = 1)) #column

## NaN 값 바꾸기
exam_df.fillna("Missing", inplace = False)

exam_df = 
    수학  영어 성별     합격
0  90  98  남   True
1  80  89  남  False
2  70  95  여   True
--------------------------------------------------
exam_df = 
      수학    영어   성별     합격
0  90.0  98.0  NaN   True
1   NaN   NaN    남  False
2  70.0  95.0    여   True
--------------------------------------------------
     수학    영어 성별    합격
2  70.0  95.0  여  True
--------------------------------------------------
     수학    영어   성별    합격
0  90.0  98.0  NaN  True
2  70.0  95.0    여  True
--------------------------------------------------
      합격
0   True
1  False
2   True


In [13]:
fname = 'vor_r.xlsx'

vor = pd.read_excel("./dataset/vor_r.xlsx")

print(vor.head())
print('-'*100)

vor.rename(columns = {"group":"소속", "id":"번호"}, inplace = True)
print(vor.head())
print('-'*100)

vor.drop(labels= ["소속", "번호"], axis = 1, inplace = True)
print(vor.head())

   group  id time    hz0.04    hz0.08     hz0.1    hz0.16    hz0.32    hz0.64  \
0      1   1  Pre  0.213840  0.717955  0.848727  0.850790  0.802738  0.808393   
1      1   2  Pre  0.345725  0.795440  0.781473  0.924972  0.801245  0.803880   
2      1   3  Pre  0.376285  0.799327  0.781350  0.777773  0.868007  0.868853   
3      1   4  Pre  0.451440  0.771083  0.808645  0.787825  0.839985  0.832352   
4      1   5  Pre  0.287360  0.825547  0.831303  0.818332  0.817320  0.816153   

        hz1  
0  0.738967  
1  0.781420  
2  0.754252  
3  0.818722  
4  0.836298  
----------------------------------------------------------------------------------------------------
   소속  번호 time    hz0.04    hz0.08     hz0.1    hz0.16    hz0.32    hz0.64  \
0   1   1  Pre  0.213840  0.717955  0.848727  0.850790  0.802738  0.808393   
1   1   2  Pre  0.345725  0.795440  0.781473  0.924972  0.801245  0.803880   
2   1   3  Pre  0.376285  0.799327  0.781350  0.777773  0.868007  0.868853   
3   1   4  Pre  

### 데이터 indexing

In [8]:
## data indexing
exam_data = {
        '수학' : [ 90, 80, 70], 
        '영어' : [ 98, 89, 95],
        '성별': ['남', '남', '여'], 
        '합격' : [True, False, True]
}
             
exam_df = pd.DataFrame(exam_data)

# 변수명으로 열 선택하기
print("수학")
print(exam_df["수학"])
print('-'*100)
print(exam_df[["성별", "수학"]])
print('-'*100)

# 인덱스명으로 행 선택하기
print(exam_df[2:])


수학
0    90
1    80
2    70
Name: 수학, dtype: int64
----------------------------------------------------------------------------------------------------
  성별  수학
0  남  90
1  남  80
2  여  70
----------------------------------------------------------------------------------------------------
   수학  영어 성별    합격
2  70  95  여  True


### loc select

In [9]:
## loc
print(exam_df)
print('-'*100)
## 
print(exam_df.loc[[0, 2]])
print('-'*100)

print(exam_df.loc[0: 2])
print('-'*100)

print(exam_df.loc[:, "수학"])
print('-'*100)

print(exam_df.loc[:, ["수학", "합격"]])
print('-'*100)

print(exam_df.loc[1:, "수학":"성별"])
print('-'*100)

   수학  영어 성별     합격
0  90  98  남   True
1  80  89  남  False
2  70  95  여   True
----------------------------------------------------------------------------------------------------
   수학  영어 성별    합격
0  90  98  남  True
2  70  95  여  True
----------------------------------------------------------------------------------------------------
   수학  영어 성별     합격
0  90  98  남   True
1  80  89  남  False
2  70  95  여   True
----------------------------------------------------------------------------------------------------
0    90
1    80
2    70
Name: 수학, dtype: int64
----------------------------------------------------------------------------------------------------
   수학     합격
0  90   True
1  80  False
2  70   True
----------------------------------------------------------------------------------------------------
   수학  영어 성별
1  80  89  남
2  70  95  여
----------------------------------------------------------------------------------------------------


In [10]:
# 문제
df = pd.DataFrame({
    'hdz':['yes', 'no', 'no', 'no', 'yes'],
    'chestpain':[True, False, False, True, False],
    'cholesterol':[208, 282, 235, 277, 280],
    'sysbp':[160, 140, 188, 162, 122]
}, index = np.arange(5))

### loc를 이용한 문제

# 문제 1. chestpain의 3번째와 5번째 자료를 loc index를 이용하여 추출.
print('chestpain')
print(df.loc[[2, 4], 'chestpain'])
print('-'*100)

# 문제 2. chestpain, cholesterol, sysbp의 변수들의 2번째에서 ~ 4번째 자료를 loc index를 이용하여 추출.
print(df.loc[1:3, "chestpain":"sysbp"])
print('-'*100)

# 문제 3. hdz 열 전체를 loc index를 이용하여 추출.
print('hdz')
print(df.loc[:,'hdz'])
print('-'*100)

# 문제 4. 열의 순서를 바꾸어서 loc index를 이용하여 추출.
print(df.loc[:, ::-1])

chestpain
2    False
4    False
Name: chestpain, dtype: bool
----------------------------------------------------------------------------------------------------
   chestpain  cholesterol  sysbp
1      False          282    140
2      False          235    188
3       True          277    162
----------------------------------------------------------------------------------------------------
hdz
0    yes
1     no
2     no
3     no
4    yes
Name: hdz, dtype: object
----------------------------------------------------------------------------------------------------
   sysbp  cholesterol  chestpain  hdz
0    160          208       True  yes
1    140          282      False   no
2    188          235      False   no
3    162          277       True   no
4    122          280      False  yes


In [11]:
# 문제
df = pd.DataFrame({
    'hdz':['yes', 'no', 'no', 'no', 'yes'],
    'chestpain':[True, False, False, True, False],
    'cholesterol':[208, 282, 235, 277, 280],
    'sysbp':[160, 140, 188, 162, 122]
}, index = np.arange(1,6))

print('df = \n', df)
print('-'*100)
print('df.iloc[0] = \n', df.iloc[0])
print('-'*100)
print('df.iloc[0:3] = \n', df.iloc[0:3])
print('-'*100)
print('df.iloc[:, 0] = \n', df.iloc[:, 0])
print('-'*100)
print('df.iloc[:, 1] = \n', df.iloc[:, 1])
print('-'*100)
print('df.iloc[:, 1:3] = \n', df.iloc[:, 1:3]) # 파이썬슬라이싱과 같다.

df = 
    hdz  chestpain  cholesterol  sysbp
1  yes       True          208    160
2   no      False          282    140
3   no      False          235    188
4   no       True          277    162
5  yes      False          280    122
----------------------------------------------------------------------------------------------------
df.iloc[0] = 
 hdz             yes
chestpain      True
cholesterol     208
sysbp           160
Name: 1, dtype: object
----------------------------------------------------------------------------------------------------
df.iloc[0:3] = 
    hdz  chestpain  cholesterol  sysbp
1  yes       True          208    160
2   no      False          282    140
3   no      False          235    188
----------------------------------------------------------------------------------------------------
df.iloc[:, 0] = 
 1    yes
2     no
3     no
4     no
5    yes
Name: hdz, dtype: object
---------------------------------------------------------------------------------------

In [15]:
# 행과 열 추가
exam_df
print('-'*100)

# 새로운 열(columns)을 중간에 추가
exam_df['음악'] = [100, 90, 80]
# exam_df.insert(1, '코딩',[50, 80, 100])

# 새로운 행(row)을 추가
exam_df.loc[3] = [60, 90, 80, '여', False, 100]

exam_df

----------------------------------------------------------------------------------------------------


ValueError: cannot set a row with mismatched columns

In [42]:
# 데이터 값 바꾸기
print(exam_df)
print('-'*100)

exam_df.loc[3, '코딩'] = 0
print(exam_df)
print('-'*100)

exam_df.loc[2, '코딩':'영어'] = [10000, 20000]
print(exam_df)

   수학     코딩     영어 성별     합격   음악
0  90     50     98  남   True  100
1  80     80     89  남  False  100
2  70  10000  20000  여   True  100
3  60     90     80  여  False  100
----------------------------------------------------------------------------------------------------
   수학     코딩     영어 성별     합격   음악
0  90     50     98  남   True  100
1  80     80     89  남  False  100
2  70  10000  20000  여   True  100
3  60      0     80  여  False  100
----------------------------------------------------------------------------------------------------
   수학     코딩     영어 성별     합격   음악
0  90     50     98  남   True  100
1  80     80     89  남  False  100
2  70  10000  20000  여   True  100
3  60      0     80  여  False  100
----------------------------------------------------------------------------------------------------


In [40]:
df = pd.DataFrame({
    'hdz':['yes', 'no', 'no', 'no', 'yes'],
    'chestpain':[True, False, False, True, False],
    'cholesterol':[208, 282, 235, 277, 280],
    'sysbp':[160, 140, 188, 162, 122]
}, index = np.arange(5))

df.loc[4, 'sysbp'] = 10000
print(df)
print('-'*100)
df.loc[1:3, 'sysbp'] = [1,2,3]
print(df)

   hdz  chestpain  cholesterol  sysbp
0  yes       True          208    160
1   no      False          282    140
2   no      False          235    188
3   no       True          277    162
4  yes      False          280  10000
----------------------------------------------------------------------------------------------------
   hdz  chestpain  cholesterol  sysbp
0  yes       True          208    160
1   no      False          282      1
2   no      False          235      2
3   no       True          277      3
4  yes      False          280  10000


In [45]:
dict_data = {
    "c0":np.arange(1, 4),
    "c1":np.arange(4, 7),
    "c2":np.arange(7, 10),
    "c3":np.arange(10, 13),
    "c4":np.arange(13, 16),
}
df = pd.DataFrame(dict_data, index = ["r0", "r1", "r2"])
print(df)
print('-'*50)

df.set_index('c0', inplace = True)
print(df)
print('-'*50)

df.reset_index(inplace = True)
print(df)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
--------------------------------------------------
    c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15
--------------------------------------------------
   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


In [51]:
fname = 'vor_r.xlsx'

vor = pd.read_excel("./dataset/vor_r.xlsx")
print(vor)
print('-'*100)
vor.set_index("id", inplace = True)
print(vor)
vor.reset_index()
print(vor)

    group  id    time    hz0.04    hz0.08     hz0.1    hz0.16    hz0.32  \
0       1   1     Pre  0.213840  0.717955  0.848727  0.850790  0.802738   
1       1   2     Pre  0.345725  0.795440  0.781473  0.924972  0.801245   
2       1   3     Pre  0.376285  0.799327  0.781350  0.777773  0.868007   
3       1   4     Pre  0.451440  0.771083  0.808645  0.787825  0.839985   
4       1   5     Pre  0.287360  0.825547  0.831303  0.818332  0.817320   
..    ...  ..     ...       ...       ...       ...       ...       ...   
59      2  12  Post14  0.079660  0.237193  0.471418  0.474830  0.585082   
60      2  13  Post14  0.085117  0.387700  0.403857  0.583710  0.665262   
61      2  14  Post14  0.058188  0.399475  0.467535  0.648505  0.657350   
62      2  15  Post14  0.098390  0.357222  0.478880  0.456372  0.536233   
63      2  16  Post14  0.117395  0.449813  0.472043  0.571655  0.690753   

      hz0.64       hz1  
0   0.808393  0.738967  
1   0.803880  0.781420  
2   0.868853  0.754252  