In [75]:
import pandas as pd

In [76]:
# Dictionary
# 열 기준
dict_data = {
    'c0':[1,2,3],
    'c1':[4,5,6],
    'c2':[7,8,9],
    'c3':[10,11,12]
}
dict_data

{'c0': [1, 2, 3], 'c1': [4, 5, 6], 'c2': [7, 8, 9], 'c3': [10, 11, 12]}

In [77]:
df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


In [78]:
# List
# 행 기준
df = pd.DataFrame(
    [
    [15,'남','덕영중'],
    [17,'여','수리중']
    ], 
    index=['준서','예은'],
    columns=['나이','성별','학교']
    )
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [79]:
print(df.index)
print(df.columns)

Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


In [80]:
# Index를 학생1, 학생2로 변경
# df.index = ['학생1','학생2']
# df

In [81]:
# 컬럼을 연령, 남녀, 소속으로 변경
# df.columns = ['연령','남녀','소속']
# df

In [82]:
# 즉 dictionary 생성 시 index, columns를 지정하지 않고 나중에 지정해도 됨
# 단, 컬럼수가 과도하게 많아지면 불가능
# rename 사용 (주의: inplace=True)
# DataFrame with the renamed axis labels or None if inplace=True.
# inplace가 False이면 저장이 되지 않는다. (기본값: False)
# 저장하려면 다른 변수에 넣어주거나 .rename({ },inplace=True) 옵션을 준다.
df.rename(columns={'나이':'연령'}, inplace=True)
df

Unnamed: 0,연령,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [83]:
# 준서를 학생1로 변경하기
df.rename(index={'준서':'학생1'},inplace=True)
df

Unnamed: 0,연령,성별,학교
학생1,15,남,덕영중
예은,17,여,수리중


In [84]:
# List를 통하여 DataFrame 제작시 index와 Column이름 변경하기
df = pd.DataFrame(
    [
    [90,98,85,100],
    [80,89,95,90],
    [70,95,100,90]],
    index=['서준','우현','인아'],
    columns=['수학','영어','음악','체육']
)
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [85]:
# df2로 복사
df2 = df.copy()
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [86]:
# df2의 index가 우현인 1개행을 삭제
df2.drop('우현',axis=0,inplace=True)
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [87]:
df3 = df.copy()
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [88]:
# df3의 index가 우현과 인아인 2개 행을 한꺼번에 삭제
df3.drop(index=['우현','인아'], axis=0, inplace=True)
df3


Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


In [89]:
# df4의 수학 1개 열을 삭제
df4 = df.copy()
df4.drop(columns='수학',axis=1,inplace=True)
df4

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [90]:
# df5의 영어와 음악 2개열을 삭제
df5 = df.copy()
df5.drop(columns=['영어','음악'],axis=1,inplace=True)
df5

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


In [91]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


- location, index location

In [92]:
df.loc['서준']

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [93]:
# 데이터가 많을 경우 특정 데이터 추출 (범위 지정)
df.iloc[[0,1]]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [94]:
df.iloc[0:2]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [95]:
df.수학

서준    90
우현    80
인아    70
Name: 수학, dtype: int64

In [96]:
# 시작index, 끝index, 증가치
df.iloc[0:3:2]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [97]:
# 역순으로 출력
df.iloc[::-1]

Unnamed: 0,수학,영어,음악,체육
인아,70,95,100,90
우현,80,89,95,90
서준,90,98,85,100


### 행과 열을 이용한 데이터 선택
1. 데이터프레임 생성 및 특정 위치 찾기

In [98]:
exam_data = {'수학':[90,80,70], '영어':[98,89,95],
 '음악':[85,95,100], '체육':[100,90,90], '이름': ['서준','우현','인아'] }
exam_data

{'수학': [90, 80, 70],
 '영어': [98, 89, 95],
 '음악': [85, 95, 100],
 '체육': [100, 90, 90],
 '이름': ['서준', '우현', '인아']}

In [99]:
df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,체육,이름
0,90,98,85,100,서준
1,80,89,95,90,우현
2,70,95,100,90,인아


In [100]:
df.이름

0    서준
1    우현
2    인아
Name: 이름, dtype: object

In [101]:
# index 만들기
df.set_index('이름',inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


### 서준의 음악, 체육 점수만 출력

In [109]:
# loc
df.loc['서준',['음악','체육']]

음악     85
체육    100
Name: 서준, dtype: int64

In [111]:
# iloc
df.iloc[0,[2,3]]

음악     85
체육    100
Name: 서준, dtype: int64

### 데이터 변경하기

In [113]:
# 국어 점수 추가
df['국어'] = [10,20,30]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,10
우현,80,89,95,90,20
인아,70,95,100,90,30


In [137]:
# 철수란 학생의 점수는 10, 20, 30, 40, 50점으로 추가하기
df.loc['철수'] = [10,20,30,40,50]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,10
우현,80,89,95,90,20
인아,70,95,100,90,30
철수,10,20,30,40,50


In [142]:
# 영희의 점수는 인아와 동일하다 데이터 추가
df.loc['영희'] = df.loc['인아']
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,10
우현,80,89,95,90,20
인아,70,95,100,90,30
철수,10,20,30,40,50
영희,70,95,100,90,30


In [146]:
# 서준의 체육 점수를 80으로 변경하기
df.loc['서준','체육'] = 80
df.iloc[0,3] = 80
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,80,10
우현,80,89,95,90,20
인아,70,95,100,90,30
철수,10,20,30,40,50
영희,70,95,100,90,30


In [147]:
# 서준의 음악과 체육 점수를 50점으로 변경하기
df.loc['서준',['음악','체육']] = 50
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,50,50,10
우현,80,89,95,90,20
인아,70,95,100,90,30
철수,10,20,30,40,50
영희,70,95,100,90,30


In [148]:
# 서준의 음악 점수를 100점, 체육 점수를 50점으로 한 번에 변경하기
df.loc['서준',['음악','체육']] = [100,50]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,100,50,10
우현,80,89,95,90,20
인아,70,95,100,90,30
철수,10,20,30,40,50
영희,70,95,100,90,30


In [149]:
df.T

이름,서준,우현,인아,철수,영희
수학,90,80,70,10,70
영어,98,89,95,20,95
음악,100,95,100,30,100
체육,50,90,90,40,90
국어,10,20,30,50,30


In [150]:
df.transpose()

이름,서준,우현,인아,철수,영희
수학,90,80,70,10,70
영어,98,89,95,20,95
음악,100,95,100,30,100
체육,50,90,90,40,90
국어,10,20,30,50,30


In [159]:
data = pd.DataFrame({
    'c0':[1,2,3],
    'c1':[4,5,6],
    'c2':[7,8,9],
    'c3':[10,11,12],
    'c4':[13,14,15]
})
data.index = ['r0','r1','r2']
data

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [164]:
# 인덱스 재설정
data.index
# r3, r4 index 추가하고
new_index = ['r0','r1','r2','r3','r4']
# NaN 값을 0으로 fill
ndf = data.reindex(new_index, fill_value=0)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


In [165]:
# index reset (기본 index 1,2,3,4... 를 새로운 index로 생성)
ndf.reset_index()

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15
3,r3,0,0,0,0,0
4,r4,0,0,0,0,0


In [169]:
# 인덱스 정렬하기
# 역순 정렬
data.sort_index(ascending=False)
# inplace = True 하면 저장

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [173]:
# c1을 기준으로 내림차순 정렬 후 바로 적용하기
data.sort_values(by='c1',ascending=False, inplace=True)
data

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


---
### DataFrame 연산

In [None]:
# !pip install seaborn

In [175]:
import seaborn as sns

In [196]:
titanic = sns.load_dataset('titanic')
titanic.head()
# titanic.count()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [186]:
# titanic에서 age와 fare부분만 발췌하여 df라는 dataframe 만들기
df = titanic[['age','fare']]
df
# range(0,len(df)+1)


Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [193]:
# 모든 컬럼을 10씩 증가하여 addition이라는 dataframe 생성하기
addition = df + 10
addition

Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [194]:
# addition과 df의 차이를 구하여 subtraction이라는 dataframe 만들기
subtraction = addition - df
subtraction

Unnamed: 0,age,fare
0,10.0,10.0
1,10.0,10.0
2,10.0,10.0
3,10.0,10.0
4,10.0,10.0
...,...,...
886,10.0,10.0
887,10.0,10.0
888,,10.0
889,10.0,10.0
