# DataFrame
- 2차원 배열
- 행과 열로 구성

In [1]:
# Dictionary를 이용한 DataFrame 생성
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
dict_data

{'c0': [1, 2, 3],
 'c1': [4, 5, 6],
 'c2': [7, 8, 9],
 'c3': [10, 11, 12],
 'c4': [13, 14, 15]}

In [2]:
import pandas as pd

df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


In [3]:
# List를 이용한 DataFrame 생성
df = pd.DataFrame(
    [[15, '남', '덕영중'],
    [17, '여', '수리중']],
    index=['준서','예은'],
    columns=['나이', '성별', '학교']
    )
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [4]:
# 행과 열 이름 변경하기
print(df.index)
print(df.columns)

Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


In [5]:
# 행 인덱스, 열 이름 변경하기 #1
df.index = ['학생1', '학생2']
df.columns = ['연령', '남녀', '소속']
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [6]:
# List를 이용한 DataFrame 생성
df = pd.DataFrame(
    [[15, '남', '덕영중'],
    [17, '여', '수리중']],
    index=['준서','예은'],
    columns=['나이', '성별', '학교']
    )
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [7]:
# 행 index, 열 이름 변경하기 #2
df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True) # inplace = True : 변수에 바로 적용하겠다
df

Unnamed: 0,연령,남녀,소속
준서,15,남,덕영중
예은,17,여,수리중


In [8]:
# 행이름 변경하기
# df의 행 index 중에서, '준서'를 '학생1'로 '예은'을 '학생2'로 바꾸기
df.rename(index={'준서':'학생1', '예은':'학생2'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [9]:
# List를 이용한 DataFrame 생성
df = pd.DataFrame(
    [
        [90, 98, 85, 100],
        [80, 89, 95, 90],
        [70, 95, 100, 90],
    ],
    index=['서준', '우현', '인아'],
    columns=['수학', '영어', '음악', '체육']
    )
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [10]:
# dictionary를 이용한 DataFrame 생성
df = pd.DataFrame(
    {'수학':[90,80,70], '영어':[98, 89, 95], '음악':[85,95,100], '체육':[100,90,90]},
    index=['서준', '우현', '인아']
    )
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


### 행 삭제

In [11]:
df2 = df.copy() # 별개의 사본을 만든다(그냥 입력하면 수정도 함께)
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [12]:
# df2의 index가 우현인 행을 삭제
df2.drop('우현', axis=0) # inplace 없으면 df2 원형은 그대로다, axis=0이 기본값(행방향)

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [13]:
df3 = df.copy()
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [14]:
# df3의 index가 우현과 인아인 2개 행을 삭제
df3.drop(['우현','인아'], axis=0, inplace=True)
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


In [15]:
# df4의 coulum이 수학인 열 삭제 
df4 = df.copy()
df4.drop('수학', axis=1, inplace=True)
df4

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [16]:
df5 = df.copy()

In [17]:
# df5의 영어와 음악 2개 열 삭제
df5.drop(['영어', '음악'], axis=1, inplace=True)
df5

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


In [18]:
# df5의 영어와 음악 2개 열 삭제
df5 = df.copy()
df5.drop(['영어', '음악'], axis='columns', inplace=True)
df5

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


In [19]:
# index가 서준인 행을 선택
print(df.loc['서준'])
print(df.iloc[0])

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64
수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [26]:
# 행 인덱스를 사용하여 서준과 우현 2개의 행을 선택
# loc 사용
df.loc[['서준','우현']]
# iloc 사용
df.iloc[:2]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


### 열 선택

In [29]:
df['수학']

서준    90
우현    80
인아    70
Name: 수학, dtype: int64

In [27]:
df.수학 # 하나 볼 때 유용.

서준    90
우현    80
인아    70
Name: 수학, dtype: int64

### 범위 Slicing 활용
- dataFrame.iloc[시작:끝:증가치]


In [30]:
df.iloc[::2]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [31]:
df.iloc[0:3:2]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [32]:
df.iloc[::-1]

Unnamed: 0,수학,영어,음악,체육
인아,70,95,100,90
우현,80,89,95,90
서준,90,98,85,100


### 행과 열을 이용한 데이터 선택

In [33]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [38]:
# index 이름을 정하기
# List를 이용한 DataFrame 생성
df = pd.DataFrame(
    {'수학':[90,80,70], 
    '영어':[98, 89, 95], 
    '음악':[85,95,100], 
    '체육':[100,90,90], 
    '이름':['서준', '우현', '인아']},
    )
df

Unnamed: 0,수학,영어,음악,체육,이름
0,90,98,85,100,서준
1,80,89,95,90,우현
2,70,95,100,90,인아


In [39]:
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [47]:
print(df.loc['서준', ['음악', '체육']])
print(df.loc['서준','음악':'체육']) # 체육 전까지가 아니고 포함
print(df.loc['서준','음악':]) # 서준 행의 음악 열부터 끝 열까지 출력
print(df.iloc[0,[2,3]])
print(df.iloc[0,2:4])

음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64


In [50]:
# 열 추가
df['국어'] = 80 # 모든 행에 80
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80


In [52]:
# 행 추가
df.loc['철수'] = [10,20,30,40,50]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50


In [54]:
df.loc['영희'] = df.loc['인아'] # 인아 행과 값들이 같다
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [60]:
# 서준의 체육 점수를 80으로 변경
df.loc['서준', '체육'] = 80
print(df.iloc[0,3])
print(df['체육']['서준'])
df

80
80


Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,80,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [69]:
# 서준의 음악과 체육 점수를 50점으로 변경
(df.loc['서준',['음악','체육']]) = 50
print(df.iloc[0,[2,3]])
df

음악    50
체육    50
Name: 서준, dtype: int64


Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,50,50,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [73]:
# 서준의 음악 점수를 100점, 체육 점수를 50점으로 변경
df.loc['서준',['음악','체육']] = 100, 50 # 튜플, 리스트도 가능하다. 딕셔너리는 반대로 들어가네?
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,100,50,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [74]:
df.transpose()

이름,서준,우현,인아,철수,영희
수학,90,80,70,10,70
영어,98,89,95,20,95
음악,100,95,100,30,100
체육,50,90,90,40,90
국어,80,80,80,50,80


In [75]:
df.T

이름,서준,우현,인아,철수,영희
수학,90,80,70,10,70
영어,98,89,95,20,95
음악,100,95,100,30,100
체육,50,90,90,40,90
국어,80,80,80,50,80


---

In [91]:
df = pd.DataFrame({
    'c0':[1,2,3],
    'c1':[4,5,6],
    'c2':[7,8,9],
    'c3':[10,11,12],
    'c4':[13,14,15]},
    index=['r0', 'r1', 'r2']
)
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [92]:
# index를 늘이고 싶다 > 재설정하기
new_index = ['r0','r1','r2','r3','r4']
ndf = df.reindex(new_index, fill_value=0)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


In [93]:
ndf = ndf.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15
3,r3,0,0,0,0,0
4,r4,0,0,0,0,0


> reset 하고 원래 index를 column화

In [94]:
# 내림차순으로 행 인덱스 정렬
df.sort_index(ascending=False)

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [95]:
# 특정 값을 기준으로 정렬
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [96]:
df.sort_values(by='c1', ascending=False) # c1 행 기준

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


### DataFrame 연산

In [97]:
import seaborn as sns

In [98]:
titanic = sns.load_dataset('titanic')

In [99]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


> 특성공학 : column engineering

In [101]:
# titanic에서 age와 fare 부분의 컬럼만 발췌하여 df라는 dataFrame 만들기
df = titanic[['age','fare']]

In [102]:
df

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [103]:
df.describe() # 총 수(NaN값 제외), 평균, 표준편차, ...

Unnamed: 0,age,fare
count,714.0,891.0
mean,29.699118,32.204208
std,14.526497,49.693429
min,0.42,0.0
25%,20.125,7.9104
50%,28.0,14.4542
75%,38.0,31.0
max,80.0,512.3292


In [106]:
# 모든 컬럼을 10 씩 증가하기
addition = df + 10

In [105]:
addition

Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [112]:
# addition과 df의 차를 구하여 subtraction이라는 dataFrame 만들기
subtraction = addition - df

In [113]:
subtraction

Unnamed: 0,age,fare
0,10.0,10.0
1,10.0,10.0
2,10.0,10.0
3,10.0,10.0
4,10.0,10.0
...,...,...
886,10.0,10.0
887,10.0,10.0
888,,10.0
889,10.0,10.0


In [132]:
(subtraction.isna())

Unnamed: 0,age,fare
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False
...,...,...
886,False,False
887,False,False
888,True,False
889,False,False
