# DataFrame
- 2차원 배열
- 행과 열로 구성

In [1]:
# Dictionary를 이용한 DataFrame 생성
dict_data = {'c0':[1,2,3],'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
dict_data

{'c0': [1, 2, 3],
 'c1': [4, 5, 6],
 'c2': [7, 8, 9],
 'c3': [10, 11, 12],
 'c4': [13, 14, 15]}

In [2]:
import pandas as pd

In [3]:
df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


In [4]:
# List를 이용한 DataFrame 생성
df = pd.DataFrame(
        [[15, '남', '덕영중'],
        [17, '여', '수리중']],
        index=['준서','예은'],
        columns=['나이','성별','학교']
    )
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [5]:
# 행과 열 이름 변경하기
print(df.index)
print(df.columns)


Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


In [6]:
# 행 인덱스, 열 이름 변경하기 - #1
df.index = ['학생1','학생2']
df.columns = ['연령', '남녀', '소속']
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [7]:
df = pd.DataFrame(
        [[15, '남', '덕영중'],
        [17, '여', '수리중']],
        index=['준서','예은'],
        columns=['나이','성별','학교']
    )
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [8]:
# 행 인덱스, 열 이름 변경하기 - #2
    # 바로 적용 : inplace = True
df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
준서,15,남,덕영중
예은,17,여,수리중


In [9]:
# 행 이름 변경하기
# df의 행 인덱스 중에서, '준서'를 '학생1'로, '예은'을 '학생2'로 바꾸기
df.rename(index={'준서':'학생1','예은':'학생2'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [10]:
# 리스트로 만들기

df = pd.DataFrame(
        [[90, 98, 85, 100],
        [80, 89, 95, 90],
        [70, 95, 100, 90]],
        index=['서준','우현','인아'],
        columns=['수학','영어','음악','체육']
    )
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [11]:
# 딕셔너리로 만들기

dict_data = {'수학':[90,80,70],'영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(dict_data,index=['서준','우현','인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


### 행 삭제

In [12]:
df2 = df.copy()
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [13]:
# df2의 index가 우현인 1개의 행을 삭제
df2.drop('우현')

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [14]:
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [15]:
# df2의 index가 우현인 1개의 행을 삭제
    # 열은 axis='rows' or axis= 0
df2.drop('우현', axis=0, inplace=True)
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [16]:
# df3의 index가 '우현'과 '인아'인 2개 행을 삭제
df3 = df.copy()
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [17]:
df3.drop(['우현','인아'],axis=0,inplace=True)
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


### 열삭제

In [18]:
# df4의 수학 1개 열을 삭제
    # 열은 axis='columns' or axis= 1
df4 = df.copy()
df4.drop('수학', axis=1, inplace=True)
df4

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [19]:
# df5의 영어, 음악 2개 열을 삭제
df5 = df.copy()
df5.drop(['영어','음악'], axis=1, inplace=True)
df5

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


---

### 행선택
- index 이름을 기준으로 선택할 경우에는 loc
- 정수형 위치 index를 사용할 경우에는 iloc

In [21]:
df


Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [22]:
# index가 서준인 행을 선택
print(df.loc['서준'])
print(df.iloc[0])

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [26]:
# 행 index를 사용하여 서준과 우현 2개의 행을 선택
# loc 사용
print(df.loc[['서준','우현']])
# iloc 사용
print(df.iloc[0:2])

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90
    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


## 열 선택

In [29]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [34]:
df['수학']

서준    90
우현    80
인아    70
Name: 수학, dtype: int64

In [35]:
df.수학

서준    90
우현    80
인아    70
Name: 수학, dtype: int64

### 범위 Slicing 활용
- dataFrame.iloc[시작 index : 끝 index : 증가치]

In [37]:
df.iloc[::2]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [40]:
df.iloc[0:3:2]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [41]:
df.iloc[::-1]

Unnamed: 0,수학,영어,음악,체육
인아,70,95,100,90
우현,80,89,95,90
서준,90,98,85,100


### 행과 열을 이용한 데이터 선택

In [60]:
exam_data = {'수학':[90,80,70],'영어':[98,89,95],
             '음악':[85,95,100], '체육':[100,90,90],
             '이름':['서준', '우현', '인아']}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,체육,이름
0,90,98,85,100,서준
1,80,89,95,90,우현
2,70,95,100,90,인아


In [61]:
# index이름을 정하기
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [62]:
# loc #1
print(df.loc['서준',['음악','체육']])
# loc #2
print(df.loc['서준','음악':'체육'])
# loc #3
print(df.loc['서준','음악':])

# iloc #1
print(df.iloc[0,[2,3]])
# iloc #2  Slicing 응용
print(df.iloc[0,2:4])
# iloc #3
print(df.iloc[0,2:])

음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64


In [63]:
# df에 컬럼(열)을 추가하기
df['국어'] = 80
df


Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80


In [64]:
# df에 인덱스(행)을 추가하기
df.loc['철수'] = [10, 20, 30, 40, 50]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50


In [65]:
# 영희를 추가할때 인아점수로 추가하기
df.loc['영희'] = df.loc['인아']
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [66]:
# 서준의 체육점수를 80점으로 변경하기
    # loc
df.loc['서준','체육'] = 80
df
    # iloc
df.iloc[0,3] = 80
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,80,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [69]:
# 서준의 음악과 체육점수를 50점으로 변경하기
    # loc
df.loc['서준',['체육','음악']] = 50
df
    # iloc
df.iloc[0,2:4] = 50
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,50,50,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [75]:
# 서준의 음악 점수를 100점 체육점수를 50점으로 변경하기
    # loc 튜플활용 
df.loc['서준',['음악','체육']] = 100,50
df
    # iloc
df.iloc[0,2:4] = 100,50
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,100,50,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [76]:
# 행과 열의 위치 바꾸기
    # transpose()
df.transpose()

이름,서준,우현,인아,철수,영희
수학,90,80,70,10,70
영어,98,89,95,20,95
음악,100,95,100,30,100
체육,50,90,90,40,90
국어,80,80,80,50,80


In [77]:
    # .T
df.T

이름,서준,우현,인아,철수,영희
수학,90,80,70,10,70
영어,98,89,95,20,95
음악,100,95,100,30,100
체육,50,90,90,40,90
국어,80,80,80,50,80


In [79]:
data = {'c0':[1,2,3],'c1':[4,5,6],
        'c2':[7,8,9], 'c3':[10,11,12],
        'c4':[13,14,15]
        }
df = pd.DataFrame(data, index=['r0','r1','r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [83]:
# 인덱스를 재설정하기
new_index = ['r0','r1','r2','r3','r4']
ndf = df.reindex(new_index)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [82]:
# Nan값 0으로 대체하기 
ndf = df.reindex(new_index, fill_value=0)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


In [84]:
# reset_index()
    # 인덱스 초기화 함수
ndf = df.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


In [85]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [87]:
# 내림차순으로 행 인덱스 정렬
    # 기본값은 오름차순
df.sort_index(ascending=False)

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [88]:
# 특정 값을 기준으로 정렬
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [93]:
# c1 컬럼의 값들을 내림차순으로 정렬하기
    # 변경값 저장하기 : inplace = True
df.sort_values(by='c1', ascending=False, inplace=True)

In [94]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


### DataFrame 연산

In [96]:
import seaborn as sns

In [105]:
titanic = sns.load_dataset('titanic')
titanic.head()


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [106]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [107]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [109]:
# titanic에서 age와 fare 부분의 컬럼만 발췌하여 df라는 dataFrame 만들기
    # 방법1
df = titanic[['age','fare']]
    # 방법2
df= titanic.loc[:, ['age','fare']]
df

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [110]:
df.describe()

Unnamed: 0,age,fare
count,714.0,891.0
mean,29.699118,32.204208
std,14.526497,49.693429
min,0.42,0.0
25%,20.125,7.9104
50%,28.0,14.4542
75%,38.0,31.0
max,80.0,512.3292


In [113]:
# 모든 컬럼을 10씩 증가하여 addition이라는 DataFrame 생성하기
addition = df + 10
addition

Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [112]:
# addition = df.add(10, fill_value=0)
# addition

Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,10.0,33.4500
889,36.0,40.0000


In [114]:
# addition과 df의 차를 구하여 subtraction 이라는 DataFrame 만들기
subtraction = addition - df
subtraction.head()

Unnamed: 0,age,fare
0,10.0,10.0
1,10.0,10.0
2,10.0,10.0
3,10.0,10.0
4,10.0,10.0
