# step02_Dataframe.py

dataframe 자료구조 특징
 - 2차원 행렬구조 (table 유사)
 - 열(칼럼) 단위 데이터 처리 용이
 - Series(1차)의 모임 -> Dataframe(2차)

# 1. DataFrame 생성


In [1]:
import pandas as pd
from pandas import Series, DataFrame

In [10]:

# 1) 기본 자료구조 (list, dict) 이용
name = ['hong','lee','kang','yoo'] # list 생성
age = [35, 45, 55, 25]
pay = [250, 350, 450, 200]
addr = ['서울시', '부산시', '대전시', '인천시']

data = {'name':name, 'age':age, 'pay':pay, 'addr':addr}
print('dictionary : \n', data)


frame = pd.DataFrame(data)
print('dataframe : \n',frame)


frame = pd.DataFrame(data = data, columns = ['name','age','addr','pay'])
print('칼럼 위치 변경 : \n',frame) # 컬럼 위치가 변경됨



# 데이터프레임에 칼럼 축출
# 형식) object['column'] or object.column
age = frame['age'] # or frame.age
print('age 칼럼 평균 : \n',age.mean()) # 40.0


# 새 칼럼 추가
# 형식) object['new column'] = new values
gender = Series(['남','남','남','여'])
frame['gender'] = gender
print('새 칼럼 추가 : \n', frame)

# 칼럼 삭제
del frame['gender']
print('칼럼삭제 : \n',frame)


dictionary : 
 {'name': ['hong', 'lee', 'kang', 'yoo'], 'age': [35, 45, 55, 25], 'pay': [250, 350, 450, 200], 'addr': ['서울시', '부산시', '대전시', '인천시']}
dataframe : 
    name  age  pay addr
0  hong   35  250  서울시
1   lee   45  350  부산시
2  kang   55  450  대전시
3   yoo   25  200  인천시
칼럼 위치 변경 : 
    name  age addr  pay
0  hong   35  서울시  250
1   lee   45  부산시  350
2  kang   55  대전시  450
3   yoo   25  인천시  200
age 칼럼 평균 : 
 40.0
새 칼럼 추가 : 
    name  age addr  pay gender
0  hong   35  서울시  250      남
1   lee   45  부산시  350      남
2  kang   55  대전시  450      남
3   yoo   25  인천시  200      여
칼럼삭제 : 
    name  age addr  pay
0  hong   35  서울시  250
1   lee   45  부산시  350
2  kang   55  대전시  450
3   yoo   25  인천시  200


In [7]:

# 2) numpy 이용 : 선형대수 관련 함수
import numpy as np
# arange(12) : 0~11까지의 12개 값 생성, reshape(3,4) : 3행 4열 구조의 프레임 생성
frame2 = DataFrame(np.arange(12).reshape(3,4),
                   columns = ['a','b','c','d'])
print('frame2 : \n',frame2)



# 행/열 통계 구하기
print(frame2.mean(axis = 0)) # 행(0)축 : 열단위 평균
print(frame2.mean(axis = 1)) # 열(1)축 : 행단위 평균


frame2 : 
    a  b   c   d
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
a    4.0
b    5.0
c    6.0
d    7.0
dtype: float64
0    1.5
1    5.5
2    9.5
dtype: float64


# 2. DataFrame 칼럼 참조

In [9]:
frame2.index # 행 이름 : RangeIndex(start=0, stop=3, step=1)
frame2.values # 값 이름 : array([[ 0,  1,  2,  3], [ 4,  5,  6,  7], [ 8,  9, 10, 11]])

# emp.csv
emp = pd.read_csv("C:\\IITT\\4_Python-II\\data\\emp.csv", encoding='utf-8')
print('emp 테이블 정보: \n',emp.info())
emp.head() # head(emp)

# 1) 단일 칼럼 선택 : object['column'] or object.column
print(emp['No'])
print(emp.No)
print(emp.No[1]) # 특정 칼럼의 특정 원소 선택

# 2) 복수 칼럼 선택 : 중첩 list 사용
print(emp[['No','Pay']])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   No      5 non-null      int64 
 1   Name    5 non-null      object
 2   Pay     5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes
emp 테이블 정보: 
 None
0    101
1    102
2    103
3    104
4    105
Name: No, dtype: int64
0    101
1    102
2    103
3    104
4    105
Name: No, dtype: int64
102
    No  Pay
0  101  150
1  102  450
2  103  500
3  104  350
4  105  400


# 3. subset 만들기

In [2]:
import pandas as pd
emp = pd.read_csv("C:\\IITT\\4_Python-II\\data\\emp.csv", encoding='utf-8')

# 1) 특정 칼럼 제외 : 칼럼 적은 경우
emp.info()
print('\n')
subset1 = emp[['Name','Pay']] # del emp[]를 사용하면 기존 테이블이 수정됨
print('subset1')
print(subset1)
print('\n')

# 2) 특정 행 제외
subset2 = emp.drop(0) 
print('subset2')
print(subset2)
print('\n')

# 3) 조건식으로 행 선택
subset3 = emp[emp.Pay>350]
print('subset3')
print(subset3)
print('\n')

# 4) 칼럼 이용 : 칼럼이 많은 경우
iris = pd.read_csv('C:\\IITT\\4_Python-II\\data\\iris.csv', encoding='utf-8')
print(iris.info())
print('\n')
print('iris head \n',iris.head())
print('\n')

print(iris['Sepal.Width']) # 칼럼 꺼내오기
# iris.Sepal.Width - 칼럼명에 .이 포함된 경우 사용 불가능

cols = iris.columns # 칼럼명만 출력
iris[cols[1:3]]

# x y 변수 생성
iris_x = iris[cols[:4]]
iris_y = iris[iris.columns[-1]]

iris_x.shape # (150, 4) # 2차원
iris_y.shape # (150, ) # 1차원

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   No      5 non-null      int64 
 1   Name    5 non-null      object
 2   Pay     5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes


subset1
  Name  Pay
0  홍길동  150
1  이순신  450
2  강감찬  500
3  유관순  350
4  김유신  400


subset2
    No Name  Pay
1  102  이순신  450
2  103  강감찬  500
3  104  유관순  350
4  105  김유신  400


subset3
    No Name  Pay
1  102  이순신  450
2  103  강감찬  500
4  105  김유신  400


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Sepal.Length  150 non-null    float64
 1   Sepal.Width   150 non-null    float64
 2   Petal.Length  150 non-null    float64
 3   Petal.Width   150 non-null    float64
 4   Species       150 non-null    object 
dty

(150,)

# 4. DataFrame 행렬 참조 : DF[row,col]
 - 1) DF.loc[row,col] : label index 
 - 2) DF.iloc[row,col] : integr index

In [13]:
# 행과 열의 label
emp.loc[1:3,['No','Pay']] 
print(emp.loc[1:3,'No']) 

# 행과 열의 숫자 index
emp.iloc[1:3,:2] 
print(emp.iloc[1:3,[0,2]])

from numpy.random import choice

# 훈련 데이터 설정
row_idx = choice(a=len(iris), size=int(len(iris)*0.7), replace=False)
len(row_idx) # 105

train_set = iris.iloc[row_idx]
train_set.head()


# 테스트 데이터 설정 : list + for
test_idx = [i for i in range(len(iris)) if not i in row_idx]
print(len(test_idx)) # 45


# x, y 변수 분리
cols = list(iris.columns)
x = cols[:4]
y = cols[-1]

iris_x = iris.loc[test_idx, x]
iris_y = iris.loc[test_idx, y]


print(iris_x.shape)
print(iris_y.shape)

1    102
2    103
3    104
Name: No, dtype: int64
    No  Pay
1  102  450
2  103  500
45
(45, 4)
(45,)
