# DataFame
- 2차원 배열
- 행과 열로 구성

In [58]:
import pandas as pd

In [59]:
# Dictionary를 이용한 DataFrame 생성
dict_data = {'c0':[1,2,3],'c1':[4,5,6],'c2':[7,8,9],'c3':[10,11,12]\
            ,'c4':[13,14,15]}
dict_data

{'c0': [1, 2, 3],
 'c1': [4, 5, 6],
 'c2': [7, 8, 9],
 'c3': [10, 11, 12],
 'c4': [13, 14, 15]}

In [60]:
df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


In [61]:
# List를 이용한 DataFrame 생성
df = pd.DataFrame(
    [[15,'남','덕영중'],
    [17,'여','수리중']],
    index=['준서','예은'],
    columns=['나이','성별','학교']
)
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [62]:
# 행과 열 이름 변경하기
print(df.index)
print(df.columns)

Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


In [63]:
# 행 인덱스, 열 이름 변경하기 - 1
df.index = ['학생1','학생2']
df.columns = ['연령','남녀','소속']
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [64]:
df = pd.DataFrame(
    [[15,'남','덕영중'],
    [17,'여','수리중']],
    index=['준서','예은'],
    columns=['나이','성별','학교']
)
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [65]:
df.rename(columns={'나이':'연령','성별':'남녀','학교':'소속'},inplace=True)
# inplace = True => 변경내용을 바로 적용
df

Unnamed: 0,연령,남녀,소속
준서,15,남,덕영중
예은,17,여,수리중


In [66]:
# 행 이름 변경하기
# df의 행 인덱스 중에서, '준서'를 '학생1'로, '예은'을 '학생2'로 바꾸기

df.rename(index={'준서':'학생1','예은':'학생2'},inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [67]:
# ex 1 ) 
df = pd.DataFrame(
    [[90,98,85,100],
    [80,89,95,90],
    [70,95,100,90],
    ],
    index=['서준','우현','인아'],
    columns=['수학','영어','음악','체육']
)
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


## 행삭제

In [68]:
df2 = df.copy()

In [69]:
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [70]:
# df2의 index가 우현인 1개행을 삭제
df2.drop('우현',axis=0, inplace=True)

In [71]:
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [72]:
df3 = df.copy()

In [73]:
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [74]:
# df3의 index가 우현과 인아인 2개 행을 삭제
df3.drop(['우현','인아'],inplace=True)

In [75]:
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


In [76]:
# 열 삭제
df4 = df.copy()

In [77]:
df4

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [78]:
# df4의 수학 1개 열을 삭제
df4.drop(['수학'],axis=1,inplace=True)

In [79]:
df4

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [80]:
df5 = df.copy()

In [81]:
df5

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [82]:
# df5의 영어와 음악 2개 열을 삭제

df5.drop(['영어','음악'],axis=1,inplace=True)

In [83]:
df5

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


---

### 행선택
- index이름을 기준으로 선택할 경우에는 loc
- 정수형 위치 index를 사용할 경우에는 iloc

In [84]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [85]:
# index가 서준인 행을 선택

print(df.loc['서준'])
print(df.iloc[0])

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64
수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [86]:
# 행 인덱스를 사용하여 서준과 우현 2개의 행을 선택
# loc사용
print(df.loc[['서준','우현']])
# iloc사용
print(df.iloc[[0,1]]) # (= print(df.iloc[[0:2]]))

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90
    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


# 열선택

In [87]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [88]:
df['수학']

서준    90
우현    80
인아    70
Name: 수학, dtype: int64

In [89]:
df.수학

서준    90
우현    80
인아    70
Name: 수학, dtype: int64

### 범위 Sclicing 활용
- dataFrame.iloc[시작index:끝indx:증가치]

In [90]:
df[::2]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [91]:
df.iloc[0:3:2]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [92]:
df.iloc[::-1] # 역순으로 출력 인아->우현->서준

Unnamed: 0,수학,영어,음악,체육
인아,70,95,100,90
우현,80,89,95,90
서준,90,98,85,100


# 행과 열을 이용한 데이터 선택

In [93]:
exam_data = {'수학':[90,80,70], '영어':[98,89,95],
 '음악':[85,95,100], '체육':[100,90,90], '이름': ['서준','우현','인아'] }
df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,체육,이름
0,90,98,85,100,서준
1,80,89,95,90,우현
2,70,95,100,90,인아


In [94]:
df.set_index('이름',inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [95]:
print(df.loc['서준',['음악','체육']])
print(df.iloc[0,2:]) # (= print(df.iloc[0,2:4]) or print(df.iloc[0,[2,3]]))
print(df.loc['서준','음악':'체육']) # (= print(df.loc['서준','음악':]))

음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64


In [96]:
df['국어'] = 80
# df['국어'] = [10,20,30] # 추가할 데이터가 다른경우
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80


In [97]:
df.loc['철수'] = [10,20,30,40,50]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50


In [98]:
df.loc['영희'] = df.loc['인아']
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [102]:
# 서준의 체육점수를 80점으로 변경하기

# sol 1)
df.iloc[0,3] = 80
df

# sol 2 )
# df.loc['서준','체육'] = 80
# df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,80,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [104]:
# 서준의 음악과 체육점수를 50점으로 변경하기

df.iloc[0,2:4] = 50
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,50,50,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [106]:
# 서준의 음악 점수를 100점 체육 점수를 50점으로 변경하기

df.iloc[0,2:4] = [100,50]
# (=df.iloc[0,2:4] = 100,50) 튜플로 써도 됨, python에서 아무것도 안보이는 걸 튜플이라 함
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,100,50,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [108]:
# 행과 열의 위치 바꾸기
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,100,50,80
우현,80,89,95,90,80
인아,70,95,100,90,80
철수,10,20,30,40,50
영희,70,95,100,90,80


In [109]:
df.transpose()

이름,서준,우현,인아,철수,영희
수학,90,80,70,10,70
영어,98,89,95,20,95
음악,100,95,100,30,100
체육,50,90,90,40,90
국어,80,80,80,50,80


In [110]:
df.T

이름,서준,우현,인아,철수,영희
수학,90,80,70,10,70
영어,98,89,95,20,95
음악,100,95,100,30,100
체육,50,90,90,40,90
국어,80,80,80,50,80


In [117]:
# sol 1 )
test = {'r0':[1,4,7,10,13],
        'r1':[2,5,8,11,14],
        'r2':[3,6,9,12,15],
       }
df = pd.DataFrame(test).transpose()
df.columns = ['c0','c1','c2','c3','c4']
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [114]:
# sol 2 ) 
test = [[1,4,7,10,13],
        [2,5,8,11,14],
        [3,6,9,12,15],
       ]
df = pd.DataFrame(test,index=['r0','r1','r2'] ,columns=['c0','c1','c2','c3','c4'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [131]:
# 인덱스를 재설정하기

new_index = ['r0','r1','r2','r3','r4']
ndf = df.reindex(new_index,fill_value=0) # Nan -> 0으로 채우기 
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


In [132]:
ndf = df.reset_index() 
ndf 

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


In [133]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [134]:
# 내림차순으로 행 인덱스 정렬
df.sort_index(ascending=False)

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [135]:
# 특정 값을 기준으로 정렬
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [137]:
df.sort_values(by='c1',ascending=False,inplace=True)

In [138]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


### DataFrame 연산

- 타이타닉 데이터는 python seaborn에서 제공해줌



In [139]:
import seaborn as sns

In [140]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


> 특성공학(column engineering) : 컬럼을 가지고 새로운 컬럼을 유추하는 것 

In [144]:
# titanic에서 age와 fare부분의 컬럼만 발췌하여 df라는 dataFrame 만들기

df = pd.DataFrame(titanic[['age','fare']])
df

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [147]:
# 모든 컬럼을 10씩 증가하여 addition이라는 DataFarame 생성하기

addition = df.add(10) # (= df + 10 )
addition

Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [149]:
# addition과 df의 차를 구하여 subtraction이라는 Dataframe 만들기

subtraction = addition.sub(df) # (= addition - df )
subtraction

Unnamed: 0,age,fare
0,10.0,10.0
1,10.0,10.0
2,10.0,10.0
3,10.0,10.0
4,10.0,10.0
...,...,...
886,10.0,10.0
887,10.0,10.0
888,,10.0
889,10.0,10.0
