In [2]:
'''
DataFrame 자료구조 특징 
 - 2차원 행렬구조(DB의 table과 유사) 
 - 칼럼 단위 상이한 자료형 
 - DataFrame 칼럼 구성 : Series(1차원)
'''

# pd.DataFrame() # 방법1
# DataFrame() # 방법2

import pandas as pd # pd.DataFrame()
from pandas import DataFrame # DataFrame()

In [3]:
# 1. DataFrame 생성 

# 1) 기본 자료구조(list, dict) 이용 
name = ['hong', 'lee', 'kang', 'yoo']
age = [35, 45, 55 ,25]
pay = [350, 200, 400, 250]
addr = ['서울시', '부산시', '대전시', '인천시']

data = {'name':name, 'age':age, 'pay':pay,"addr":addr}
frame = DataFrame(data, columns=['name','age','pay','addr'])
print(frame)

   name  age  pay addr
0  hong   35  350  서울시
1   lee   45  200  부산시
2  kang   55  400  대전시
3   yoo   25  250  인천시


In [4]:
# DF 칼럼 추가 :Series 객체 이용  
gender = pd.Series(['M', 'M', 'F', 'F'])
frame['gender'] = gender # 성별 칼럼 추가 
print(frame)


   name  age  pay addr gender
0  hong   35  350  서울시      M
1   lee   45  200  부산시      M
2  kang   55  400  대전시      F
3   yoo   25  250  인천시      F


In [5]:
# 2)  numpy 이용해서 데이터 프레임 만들기
import numpy as np
frame2 = pd.DataFrame(np.arange(12).reshape(3,4),
                      columns = ['a', 'b', 'c', 'd'])
print(frame2)

   a  b   c   d
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11


In [47]:
# 수학 / 통계 함수 적용(축이라는 개념 으로 한다)
frame2.mean(axis= 0)#axis= 0 행 축 (열 단위)

a    4.0
b    5.0
c    6.0
d    7.0
dtype: float64

In [48]:
frame2.mean(axis= 1)#axis= 0 열 축 (행 단위)

0    1.5
1    5.5
2    9.5
dtype: float64

In [6]:
# 행/열 통계 구하기 
print(frame2.mean(axis = 0)) # 행 축 = 열단위
print(frame2.mean(axis = 1)) # 열 축 = 행단위 

a    4.0
b    5.0
c    6.0
d    7.0
dtype: float64
0    1.5
1    5.5
2    9.5
dtype: float64


In [7]:
# 2. index 지정 
print(frame2.index)

RangeIndex(start=0, stop=3, step=1)


In [8]:
# 1) 특정 칼럼으로 index 지정 
setIdx = frame2.set_index('c')
print(setIdx) # 해당 칼럼 제외 

    a  b   d
c           
2   0  1   3
6   4  5   7
10  8  9  11


In [9]:
setIdx = frame2.set_index('b')
print(setIdx)


   a   c   d
b           
1  0   2   3
5  4   6   7
9  8  10  11


In [10]:
# 2) index 재지정 
resetIdx = setIdx.reset_index() # default index : 0~n
print(resetIdx)

   b  a   c   d
0  1  0   2   3
1  5  4   6   7
2  9  8  10  11


In [14]:
# 3. DF 칼럼 참조 

import pandas as pd

emp = pd.read_csv("./data/emp.csv", encoding="utf-8")
emp.info() 
print(emp)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   No      5 non-null      int64 
 1   Name    5 non-null      object
 2   Pay     5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes
    No Name  Pay
0  101  홍길동  150
1  102  이순신  450
2  103  강감찬  500
3  104  유관순  350
4  105  김유신  400


In [49]:
# 1) 단일 칼럼  
emp.No # obj.column

0    101
1    102
2    103
3    104
4    105
Name: No, dtype: int64

In [50]:
emp['No'] # obj['column']

0    101
1    102
2    103
3    104
4    105
Name: No, dtype: int64

In [53]:
# 2) 복수 칼럼  
emp[['No','Pay']]
cols = ['No','Pay']
emp[cols]


Unnamed: 0,No,Pay
0,101,150
1,102,450
2,103,500
3,104,350
4,105,400


In [52]:
print(cols)

['No', 'Pay']


In [51]:
emp['Pay'][2] # obj['column'][n]

500

In [17]:
# 4. subset 만들기 : old DF -> new DF

# 1) 특정 칼럼 제외  
subset1 = emp[['Name', 'Pay']] #[['Name':'Name']] - Error 발생 
subset1

Unnamed: 0,Name,Pay
0,홍길동,150
1,이순신,450
2,강감찬,500
3,유관순,350
4,김유신,400


In [18]:
# 2) 특정 행 제외

# 해당 원소(row)를 제거한 후 new object 생성 
# 현재 object는 변경 안됨

subset2 = emp.drop(1) # 2row drop
subset2 # 2row drop

Unnamed: 0,No,Name,Pay
0,101,홍길동,150
2,103,강감찬,500
3,104,유관순,350
4,105,김유신,400


In [20]:
# 3) 특정 칼럼 기준 행 삭제 
# - 급여가 350이하 관측치 제외 

subset3 = emp #복사(원본 보존) 
pay = emp['Pay']

for i, c in enumerate(pay) : # index, content 
    if c <= 350 : # 350 미만인 경우 
        # 해당 관측치 제거 -> 기존 객체 overwrite        
        subset3 = subset3.drop(i)

print(subset3)   

    No Name  Pay
1  102  이순신  450
2  103  강감찬  500
4  105  김유신  400


In [22]:
# 4) columns 이용  : 칼럼 많은 경우
iris = pd.read_csv('./data/iris.csv')
print(iris.info()) # dataset 정보
print(iris.columns)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Sepal.Length  150 non-null    float64
 1   Sepal.Width   150 non-null    float64
 2   Petal.Length  150 non-null    float64
 3   Petal.Width   150 non-null    float64
 4   Species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB
None
Index(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width',
       'Species'],
      dtype='object')


In [None]:
# 칼럼명 수정
''' 
iris.columns = ['one','two','three', 'four', 'five']
print(iris.head())
'''

In [23]:
iris_cols = list(iris.columns)
print(iris_cols)

['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width', 'Species']


In [24]:
# x,y변수 선택 
iris_x = iris_cols[:4]
iris_y = iris_cols[-1]
print(iris_x) 
print(iris_y) 

['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width']
Species


In [27]:
X = iris[iris_x] # [['col1', 'col2', ...]]
Y = iris[iris_y] 

print(X.shape ,Y.shape )

(150, 4) (150,)


In [29]:
# 5. DataFrame 행열 참조 : index type - loc, iloc
'''
.loc for label based indexing - label indexing
.iloc for positional indexing - integer indexing

1) loc 속성 : label index 기반 
 형식) DF.loc[행label, 열label]
 - DF 대상 행과 열의 레이블 index 이용 

2) iloc 속성 : integer index 기반 
 형식) DF.iloc[행integer, 열integer]
'''

emp

Unnamed: 0,No,Name,Pay
0,101,홍길동,150
1,102,이순신,450
2,103,강감찬,500
3,104,유관순,350
4,105,김유신,400


In [32]:
# 1) loc 속성 : label index 기반 
emp.loc[0] # 특정 행 전체(default)

No      101
Name    홍길동
Pay     150
Name: 0, dtype: object

In [31]:
emp.loc[1:3] # 연속 행 : 숫자는 label 해석

Unnamed: 0,No,Name,Pay
1,102,이순신,450
2,103,강감찬,500
3,104,유관순,350


In [33]:
emp.loc[:, 'Name'] # 특정 열 전체

0    홍길동
1    이순신
2    강감찬
3    유관순
4    김유신
Name: Name, dtype: object

In [34]:
emp.loc[1:3, 'No':'Pay'] # 연속 행렬 
# #emp.loc[1:3, 0:2] # Error(integer 사용불가)

Unnamed: 0,No,Name,Pay
1,102,이순신,450
2,103,강감찬,500
3,104,유관순,350


In [35]:
# 비연속 복수 행/열 선택 : [] or () 묶음
emp.loc[[0,2], ('No','Pay')] # 비연속 선택 : 괄호 

Unnamed: 0,No,Pay
0,101,150
2,103,500


In [38]:
# 2) iloc 속성 : integer index 기반
emp.iloc[0] # 행 default


No      101
Name    홍길동
Pay     150
Name: 0, dtype: object

In [39]:
emp.iloc[1:3] # 연속 행 : 숫자는 integer 해석

Unnamed: 0,No,Name,Pay
1,102,이순신,450
2,103,강감찬,500


In [40]:
emp.iloc[:, 1] # 열 전체 : 숫자 index(2번 열)
#emp.iloc[:, 'Name'] # Error : label 사용불가

0    홍길동
1    이순신
2    강감찬
3    유관순
4    김유신
Name: Name, dtype: object

In [41]:
emp.iloc[1:4, :] # 연속행렬 : 숫자 index(2~4행)

Unnamed: 0,No,Name,Pay
1,102,이순신,450
2,103,강감찬,500
3,104,유관순,350


In [42]:
# 비연속 복수 행/열 선택 : []만 가능, () 사용 불가 
emp.iloc[[0,2], [0,2]] 
#emp.iloc[(0,2), (0,2)]  # IndexingError: Too many indexers

# 주의 : iloc 속성은 tuple index 사용 불가 

Unnamed: 0,No,Pay
0,101,150
2,103,500


In [43]:
############################
### DF 행렬 참조 example
############################

# iris data random 선택 
print(len(iris)) # 150 -> 105(70%)

import numpy as np
from numpy.random import choice # function
help(choice) # choice(a, size=None, replace=True, p=None)
# a : 1-D array-like or int
# size : int or tuple of ints
# replace=False : 비복원 추출


150
Help on built-in function choice:

choice(...) method of numpy.random.mtrand.RandomState instance
    choice(a, size=None, replace=True, p=None)
    
    Generates a random sample from a given 1-D array
    
    .. versionadded:: 1.7.0
    
    .. note::
        New code should use the ``choice`` method of a ``default_rng()``
        instance instead; please see the :ref:`random-quick-start`.
    
    Parameters
    ----------
    a : 1-D array-like or int
        If an ndarray, a random sample is generated from its elements.
        If an int, the random sample is generated as if a were np.arange(a)
    size : int or tuple of ints, optional
        Output shape.  If the given shape is, e.g., ``(m, n, k)``, then
        ``m * n * k`` samples are drawn.  Default is None, in which case a
        single value is returned.
    replace : boolean, optional
        Whether the sample is with or without replacement
    p : 1-D array-like, optional
        The probabilities associated with 

In [44]:
# 행 index : sampling
row_idx = np.random.choice(len(iris), int(len(iris)*0.7), replace = False) 
print(row_idx)
print(len(row_idx)) 

[149  44 130 127  39  31  86  98 126  45  13 117 108  63 142 136  79 116
 135  38 125  19   6 131  28  96  69  11   1  43  21  61 128 114  36  10
 101 133  26 113  72  30  51   4  58 137   0  49 141  71 145 112  76  73
  75  90 121  34  29 104 105  85  65  62  60 118 109 146  95  55  64  99
  92  46  57 147 144  97   7  14  77  94   3  83  25  50  24   2  66  80
  54  52 138 102 139  42  40 134 110  78  18  33  23  27 100]
105


In [45]:
# train dataset
train_set = iris.loc[row_idx] # [iris_idx, :]
print(train_set.head())
print(train_set.shape) 

     Sepal.Length  Sepal.Width  Petal.Length  Petal.Width    Species
149           5.9          3.0           5.1          1.8  virginica
44            5.1          3.8           1.9          0.4     setosa
130           7.4          2.8           6.1          1.9  virginica
127           6.1          3.0           4.9          1.8  virginica
39            5.1          3.4           1.5          0.2     setosa
(105, 5)


In [46]:
# test dataset 
test_idx = [i for i in range(len(iris)) if not i in row_idx]
test_set = iris.loc[test_idx]
test_set.shape 

(45, 5)