In [7]:
import pandas as pd

In [8]:
dict_data = {
    'c0' : [1,2,3],
    'c1' : [4,5,6],
    'c2' : [7,8,9],
    'c3' : [10,11,12]
}

dict_data

{'c0': [1, 2, 3], 'c1': [4, 5, 6], 'c2': [7, 8, 9], 'c3': [10, 11, 12]}

In [9]:
df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


In [10]:
# List
df = pd.DataFrame([
    [15, '남', '덕영중'],
    [17, '여', '수리중'],
    ],
    index = ['준서', '예은'],
    columns = ['나이', '성별', '학교']
)

df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [11]:
print(df.index)
print(df.columns)

Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


In [12]:
# Index를 학생1, 학생2로 변경
df.index = ['학생1', '학생2']
df

Unnamed: 0,나이,성별,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [13]:
# 컬럼을 연령, 남녀, 소속으로 변경
df.columns = ['연령', '남녀', '소속']
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


### 필요한 부분만 수정하기

In [14]:
df.rename(columns={'나이':'연령'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [15]:
# 준서를 학생1로 변경하기
df.rename(index={'준서':'학생1'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [16]:
# List를 통하여 DataFrame 제작후 index와 Column 이름 변경하기
df = pd.DataFrame([
    [90,98,85,100],
    [80,89,95,90],
    [70,95,100,90]
    ],
    index = ['서준','우현','인아'],
    columns = ['수학','영어','음악','체육']
)

df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [17]:
df = pd.DataFrame({
    '서준' : [90,98,85,100],
    '우현' : [80,89,95,90],
    '인아' : [70,95,100,90]
    },
).T
df.columns = ['수학','영어','음악','체육']
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [18]:
# df의 index가 우현과 인아인 2개 행을 한꺼번에 삭제
df3 = df.copy()
df3.drop(['우현','인아'], axis=0, inplace=True)
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


In [19]:
# df4의 수학 1개 열을 삭제
df4 = df.copy()
df4.drop(['수학'], axis=1, inplace=True)
df4

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [20]:
# df5의 영어와 음악 2개열을 삭제
df5 = df.copy()
df5.drop(['영어','음악'], axis=1, inplace=True)
df5

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


### 행과 열을 이용한 데이터 선택
1) 데이터프레임 생성 및 특정 위치 찾기

In [21]:
exam_data = {
    '수학':[90,80,70], 
    '영어':[98,89,95],
    '음악':[85,95,100], 
    '체육':[100,90,90], 
    '이름': ['서준','우현','인아'] 
}
exam_data

{'수학': [90, 80, 70],
 '영어': [98, 89, 95],
 '음악': [85, 95, 100],
 '체육': [100, 90, 90],
 '이름': ['서준', '우현', '인아']}

In [22]:
df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,체육,이름
0,90,98,85,100,서준
1,80,89,95,90,우현
2,70,95,100,90,인아


In [23]:
# index 만들기
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [24]:
# 서준의 음악, 체육 점수만 출력
df.loc['서준',['음악','체육']]

음악     85
체육    100
Name: 서준, dtype: int64

In [25]:
df.iloc[0,[2,3]]

음악     85
체육    100
Name: 서준, dtype: int64

### 데이터 변경하기

In [26]:
df['국어'] = [10,20,30]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,10
우현,80,89,95,90,20
인아,70,95,100,90,30


In [27]:
# 철수란 학생의 점수는 10, 20, 30, 40, 50 으로 추가하기
df.loc['철수'] = [10,20,30,40,50]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,10
우현,80,89,95,90,20
인아,70,95,100,90,30
철수,10,20,30,40,50


In [30]:
# 영희의 점수는 인아와 동일하다 데이터 추가하기
df.loc['영희'] = df.loc['인아']
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,10
우현,80,89,95,90,20
인아,70,95,100,90,30
철수,10,20,30,40,50
영희,70,95,100,90,30


In [36]:
# 서준의 체육 점수를 80으로 변경하기
df.loc['서준','체육'] = 80
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,80,10
우현,80,89,95,90,20
인아,70,95,100,90,30
철수,10,20,30,40,50
영희,70,95,100,90,30


In [37]:
# 서준의 음악과 체육 점수를 50점으로 변경하기
df.loc['서준',['음악','체육']] = 50
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,50,50,10
우현,80,89,95,90,20
인아,70,95,100,90,30
철수,10,20,30,40,50
영희,70,95,100,90,30


In [38]:
# 서준의 음악 점수를 100점 체육점수를 50점으로 변경하기
df.loc['서준',['음악','체육']] = [100,50]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,100,50,10
우현,80,89,95,90,20
인아,70,95,100,90,30
철수,10,20,30,40,50
영희,70,95,100,90,30


In [40]:
df.transpose() # df.T

이름,서준,우현,인아,철수,영희
수학,90,80,70,10,70
영어,98,89,95,20,95
음악,100,95,100,30,100
체육,50,90,90,40,90
국어,10,20,30,50,30


In [41]:
df = pd.DataFrame([
    [1,4,7,10,13],
    [2,5,8,11,14],
    [3,6,9,12,15]
    ],
    index = ['r0','r1','r2'],
    columns = ['c0','c1','c2','c3','c4']
)

df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [42]:
# 인덱스 재설정
new_index = ['r0','r1','r2','r3','r4']
ndf = df.reindex(new_index, fill_value=0)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


In [43]:
ndf = df.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


In [44]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [45]:
# 인덱스 정렬하기
df.sort_index(ascending=False)

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [47]:
# c1을 기준으로 내림차순 정렬후 바로 적용하기
df.sort_values(by='c1', ascending=False)

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


---
### DataFrame 연산

In [49]:
# !pip install seaborn

Collecting seaborn
  Downloading seaborn-0.12.2-py3-none-any.whl (293 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m293.3/293.3 kB[0m [31m8.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: seaborn
Successfully installed seaborn-0.12.2


In [50]:
import seaborn as sns

In [51]:
titaic = sns.load_dataset('titanic')
titaic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [59]:
# titanic에서 age와 fare부분만 발췌하여 df라는 dataframe 만들기
df = pd.DataFrame(
    [titaic['age'],
    titaic['fare']]
).T
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [62]:
# 모든 컬럼을 10씩 증가하여 addition이라는 dataframe 생성하기
addition = df + 10 # df.add(10)
addition.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


In [65]:
# addition과 df의 차이를 구하여 subtranction이라는 dataframe 만들기
subtranction = addition - df
subtranction.head()

Unnamed: 0,age,fare
0,10.0,10.0
1,10.0,10.0
2,10.0,10.0
3,10.0,10.0
4,10.0,10.0
