# 데이터프레임

In [1]:
import pandas as pd

In [5]:
# 열이름을 key로 하고, 리스트를 value로 갖는 딕셔너리 정의(2차원 배열)
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 
             'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터 프레임으로 변환, 변수 df에 저장
df = pd.DataFrame(dict_data)

# df의 자료형 출력
print(type(df))
print('\n')
# 변수 df에 저장되어 있는 데이터프레임 객체를 출력
print(df)

<class 'pandas.core.frame.DataFrame'>


   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


In [8]:
# 행 인덱스 / 열 이름 설정

# df.index : 행 인덱스
# df.columns : 열 이름

df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                 index = ['준서', '예은'], 
                 columns = ['나이', '성별', '학교'])

print(df)
print('\n')
print(df.index)
print('\n')
print(df.columns)
print('\n')

# 모든 행이나 열을 바꿀 때
df.index = ['학생1', '학생2']
df.columns = ['연령', '남녀', '소속']

print(df)
print('\n')
print(df.index)
print('\n')
print(df.columns)
print('\n')

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


Index(['준서', '예은'], dtype='object')


Index(['나이', '성별', '학교'], dtype='object')


     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


Index(['학생1', '학생2'], dtype='object')


Index(['연령', '남녀', '소속'], dtype='object')




특정 행의 인덱스나 열 이름을 수정할 때

In [12]:
# 특정 행이나 열을 바꿀 때
# 학생1만

df.rename(index = {'학생1' : '하은'})

Unnamed: 0,연령,남녀,소속
하은,15,남,덕영중
학생2,17,여,수리중


In [13]:
df.rename(columns = {'연령' : 'age'})

# 출력에서 볼 수 있듯이 df는 원본 데이터가 바뀌지 않는다.
# 그래서 사용하는 것이 inplace=True (default=False)

Unnamed: 0,age,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [15]:
df.rename(columns = {'연령' : 'age'}, inplace = True)
df

Unnamed: 0,age,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [16]:
# 또는 inplace를 사용하지 않고 덮어쓰기
df = df.rename(index = {'학생1' : '하은'})
df

Unnamed: 0,age,남녀,소속
하은,15,남,덕영중
학생2,17,여,수리중


데이터프레임 행 삭제

In [20]:
# 행: axis = 0 (default) : index
# 열: axis = 1           : columns

# df.drop('age', axis=0)  # 열 이름인데 행 삭제 옵션을 써서 오류가 남
df.drop('age', axis=1)  # 열 삭제

Unnamed: 0,남녀,소속
하은,남,덕영중
학생2,여,수리중


In [24]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                 index = ['준서', '예은'], 
                 columns = ['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [29]:
df['나이']

준서    15
예은    17
Name: 나이, dtype: int64

column명으로는 접근이 쉬운데 (= 인덱스로 접근이 가능) \
레코드를 추출하는 것은 loc 또는, iloc를 사용 (= 인덱스로 접근 불가능) \
df.loc[행 이름] \
df.iloc[인덱스] 

In [28]:
label1 = df.loc['준서']
label1

나이     15
성별      남
학교    덕영중
Name: 준서, dtype: object

In [41]:
exam_data = {'이름' : [ '서준', '우현', '인아'], 
             '수학' : [ 90, 80, 70], 
             '영어' : [ 98, 89, 95], 
             '음악' : [ 85, 95, 100], 
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [42]:
# 한 컬럼을 데이터프레임의 인덱스로 변경
df.set_index('이름', inplace = True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [43]:
df['총점'] = df['수학'] + df['영어'] + df['음악'] + df['체육']
df

Unnamed: 0_level_0,수학,영어,음악,체육,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,373
우현,80,89,95,90,354
인아,70,95,100,90,355


In [44]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 서준 to 인아
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   수학      3 non-null      int64
 1   영어      3 non-null      int64
 2   음악      3 non-null      int64
 3   체육      3 non-null      int64
 4   총점      3 non-null      int64
dtypes: int64(5)
memory usage: 144.0+ bytes


In [45]:
# 한 컬럼에 한 값을 넣으면 모든 레코드의 그 컬럼 값이 한 값으로 바뀜
df['평균'] = 0
df

Unnamed: 0_level_0,수학,영어,음악,체육,총점,평균
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서준,90,98,85,100,373,0
우현,80,89,95,90,354,0
인아,70,95,100,90,355,0


In [46]:
# 마찬가지로 행도 똑같이 한 값이 다 들어간다.
df.loc['길동'] = 0
df

Unnamed: 0_level_0,수학,영어,음악,체육,총점,평균
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서준,90,98,85,100,373,0
우현,80,89,95,90,354,0
인아,70,95,100,90,355,0
길동,0,0,0,0,0,0


In [51]:
# 행열 바꾸기
# 전치 행렬
# T 또는 transpose() 함수 사용

df.T
df.transpose()

이름,서준,우현,인아,길동
수학,90,80,70,0
영어,98,89,95,0
음악,85,95,100,0
체육,100,90,90,0
총점,373,354,355,0
평균,0,0,0,0


In [54]:
df['평균'] = df['총점']/4
df

Unnamed: 0_level_0,수학,영어,음악,체육,총점,평균
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서준,90,98,85,80,373,93.25
우현,80,89,95,90,354,88.5
인아,70,95,100,90,355,88.75
길동,0,0,0,0,0,0.0


행 삭제

In [55]:
df.drop('길동', inplace = True)
df

Unnamed: 0_level_0,수학,영어,음악,체육,총점,평균
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서준,90,98,85,80,373,93.25
우현,80,89,95,90,354,88.5
인아,70,95,100,90,355,88.75


평균 점수 출력

In [56]:
for row in df['평균']:
    print(row)

93.25
88.5
88.75


In [66]:
grades = []
for row in df['평균']:
    if row >= 90:
        grades.append('합격')
    else:
        grades.append('불합격')
df['grades'] = grades
df

Unnamed: 0_level_0,수학,영어,음악,체육,총점,평균,결과,grades
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
서준,90,98,85,80,373,93.25,불합격,합격
우현,80,89,95,90,354,88.5,불합격,불합격
인아,70,95,100,90,355,88.75,불합격,불합격


In [71]:
def scholarship(row):
    print(row)
    if row == '합격':
        return '장학생'
    else:
        return '비장학생'

In [74]:
df.grades = df.grades.apply(scholarship)
df

합격
불합격
불합격


Unnamed: 0_level_0,수학,영어,음악,체육,총점,평균,결과,grades
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
서준,90,98,85,80,373,93.25,불합격,장학생
우현,80,89,95,90,354,88.5,불합격,비장학생
인아,70,95,100,90,355,88.75,불합격,비장학생


In [75]:
df = pd.read_csv('csv_sample.csv')
df

Unnamed: 0,c0,c1,c2,c3
0,0,1,4,7
1,1,2,5,8
2,2,3,6,9
