In [1]:
import pandas as pd

In [3]:
# 데이터프레임을 생성 

dict_data = {
  'c0' : [1,2,3],
  'c1' : [4,5,6],
  'c2' : [7,8,9],
  'c3' : [10,11,12],
  'c4' : [13,14,15],
}

df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


#### List를 이용한 DataFrame 생성

In [6]:
df = pd.DataFrame(
  [
    [15, '남', '덕영중'],
    [17, '여', '수리중'],
  ],
  index=['준서','예은'],
  columns=['나이', '성별', '학교']
)

df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [7]:
# Index만 확인
df.index

Index(['준서', '예은'], dtype='object')

In [8]:
# Columns만 확인
df.columns

Index(['나이', '성별', '학교'], dtype='object')

In [12]:
# 행 인덱스나 열 이름 변경하기 - 1
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [16]:
df.index

Index(['준서', '예은'], dtype='object')

In [17]:
df.index = ['학생1', '학생2']
df

Unnamed: 0,나이,성별,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [19]:
df.columns = ['연령', '성별', '학교']
df

Unnamed: 0,연령,성별,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [20]:
df = pd.DataFrame(
  [
    [15, '남', '덕영중'],
    [17, '여', '수리중'],
  ],
  index=['준서','예은'],
  columns=['나이', '성별', '학교']
)

df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [25]:
# 컬럼명을 변경 : 나이 -> 연령, 학교 -> 소속

df.rename(
  columns={
    '나이':'연령',
    '학교':'소속'
  },
  inplace=True
)

In [26]:
df

Unnamed: 0,연령,성별,소속
준서,15,남,덕영중
예은,17,여,수리중


In [27]:
# 행이름 변경 : 준서 -> 학생1, 예은 -> 학생2

df.rename(
  index={
    '준서':'학생1',
    '예은':'학생2'
  },
  inplace=True
)

In [28]:
df

Unnamed: 0,연령,성별,소속
학생1,15,남,덕영중
학생2,17,여,수리중


---
### 행 삭제

In [29]:
exam_data = {
  '수학' : [90, 80, 70],
  '영어' : [98, 89, 95],
  '음악' : [85, 95, 100],
  '체육' : [100, 90, 90],
}

df = pd.DataFrame(
  exam_data,
  index=['서준','우현','인아']
)

df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [30]:
# 데이터프레임 df를 복제 
df2 = df.copy()

In [32]:
# df2의 index가 우현인 1개 행(row)을 삭제
df2.drop(
  '우현',
  inplace=True
)

df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [33]:
df3 = df.copy()
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [34]:
# df3의 index가 우현과 인아인 2개행을 삭제
df3.drop(
  ['우현','인아'],
  inplace=True
)

df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


### 열삭제

In [35]:
df4 = df.copy()
df4

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [38]:
# 수학 열(column)을 삭제

df4.drop(
  '수학',
  axis='columns', # axis = 'rows'
  inplace=True
)
df4

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [39]:
df5 = df.copy()
df5

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [40]:
# df5의 영어와 음악 컬럼을 삭제 
df5.drop(
  ['영어','음악'],
  axis='columns',
  inplace=True
)

df5

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


---
# 행 선택 
- index 이름을 기준으로 행을 선택할 경우에는 loc
- 정수형 위치 index를 사용할 경우에는 iloc 

In [46]:
# index가 서준인 행을 추출
df.loc['서준',:]

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [45]:
df.iloc[0,:]

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [48]:
# 행 인덱스를 사용하여 서준과 우현 2개 행 선택
df.loc[['서준','우현'],:]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [49]:
df.iloc[[0,1],:]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [50]:
df.loc['서준':'우현',:]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [51]:
df.iloc[0:2,:]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


---
### 열선택

In [52]:
exam_data = {
  '이름' : ['서준','우현','인아'],
  '수학' : [90, 80, 70],
  '영어' : [98, 89, 95],
  '음악' : [85, 95, 100],
  '체육' : [100, 90, 90],
}

df = pd.DataFrame(
  exam_data
)

df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [56]:
# 수학만 선택
df['수학']
df.수학
df.loc[:,'수학']
df.iloc[:, 1]

0    90
1    80
2    70
Name: 수학, dtype: int64

In [61]:
df['수학'][1:3]

1    80
2    70
Name: 수학, dtype: int64

In [63]:
# 음악, 체육
df[['음악','체육']]

Unnamed: 0,음악,체육
0,85,100
1,95,90
2,100,90


### 범위 Slicing

df.iloc[시작index:끝index+1:증가치]

In [65]:
# 0번과 2번 행 
df.iloc[::2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,95,100,90


In [66]:
df.iloc[0:3:2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,95,100,90


In [68]:
# iloc만으로 index 내림차순 
df.iloc[::-1]

Unnamed: 0,이름,수학,영어,음악,체육
2,인아,70,95,100,90
1,우현,80,89,95,90
0,서준,90,98,85,100


In [71]:
a = [1,2,3]
a[-3]

1

In [73]:
# index를 구성
df.set_index(
  '이름',
  inplace=True
)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [75]:
df.loc['서준','음악']

85

In [81]:
df['음악']['서준']

85

In [85]:
# 서준의 음악과 체육 점수 출력하기
df[['음악','체육']].loc['서준']

음악     85
체육    100
Name: 서준, dtype: int64

In [89]:
df.loc['서준']

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [90]:
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [93]:
df.to_csv("./Data/work.csv")

In [94]:
pd.read_csv("./Data/work.csv")

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


---
# 열추가

In [95]:
exam_data = {
  '이름' : ['서준','우현','인아'],
  '수학' : [90, 80, 70],
  '영어' : [98, 89, 95],
  '음악' : [85, 95, 100],
  '체육' : [100, 90, 90],
}

df = pd.DataFrame(
  exam_data
)

df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [96]:
# df에 국어 컬럼, 데이터값을 80 지정
df['국어'] = 80
df

Unnamed: 0,이름,수학,영어,음악,체육,국어
0,서준,90,98,85,100,80
1,우현,80,89,95,90,80
2,인아,70,95,100,90,80


### 행추가


In [97]:
df.loc[3] = ['동규', 90, 80, 70, 60, 50]
df

Unnamed: 0,이름,수학,영어,음악,체육,국어
0,서준,90,98,85,100,80
1,우현,80,89,95,90,80
2,인아,70,95,100,90,80
3,동규,90,80,70,60,50


In [98]:
# 행 간 복사
df.loc[4] = df.loc[2]
df

Unnamed: 0,이름,수학,영어,음악,체육,국어
0,서준,90,98,85,100,80
1,우현,80,89,95,90,80
2,인아,70,95,100,90,80
3,동규,90,80,70,60,50
4,인아,70,95,100,90,80


In [99]:
df.set_index(
  '이름',
  inplace=True
)
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인아,70,95,100,90,80
동규,90,80,70,60,50
인아,70,95,100,90,80


In [103]:
# 서준의 체육점수를 80으로 수정
df.loc['서준']['체육'] = 80
df['체육']['서준'] = 80

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc['서준']['체육'] = 80


In [105]:
df.loc['서준','체육'] = 80

80

In [108]:
# df에서 서준의 음악과 체육 점수를 50으로 변경하기 

df.loc['서준',['음악','체육']] = 50
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,50,50,80
우현,80,89,95,90,80
인아,70,95,100,90,80
동규,90,80,70,60,50
인아,70,95,100,90,80


In [109]:
# df에서 서준의 음악 -> 100  과 체육 -> 50으로 변경하기 

df.loc['서준',['음악','체육']] = 100, 50
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,100,50,80
우현,80,89,95,90,80
인아,70,95,100,90,80
동규,90,80,70,60,50
인아,70,95,100,90,80


### 행 index 재배열

In [110]:
dict_data

{'c0': [1, 2, 3],
 'c1': [4, 5, 6],
 'c2': [7, 8, 9],
 'c3': [10, 11, 12],
 'c4': [13, 14, 15]}

In [111]:
df = pd.DataFrame(
  dict_data,
  index=['r0','r1','r2']
)
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [112]:
new_index = ['r0','r1','r2','r3','r4']
ndf = df.reindex(new_index)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [113]:
new_index = ['r0','r1','r2','r3','r4']
ndf = df.reindex(new_index, fill_value=0)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


In [115]:
# index 초기화 : index를 Column으로 변경 
ndf = df.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


In [116]:
ndf.set_index('index', inplace=True)
ndf

Unnamed: 0_level_0,c0,c1,c2,c3,c4
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [117]:
# 내림차순으로 행 인덱스 정렬
ndf.sort_index(ascending=False)

Unnamed: 0_level_0,c0,c1,c2,c3,c4
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [120]:
# 특정값을 기준으로 정렬
ndf.sort_values(
  by='c1',
  ascending=False
  )

Unnamed: 0_level_0,c0,c1,c2,c3,c4
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


---
### DataFrame 연산

In [121]:
import seaborn as sns

In [122]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [123]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [124]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [127]:
# titanic에서 age, fare 2개열을 선택하여 데이터프레임 만들기

df = titanic.loc[:,['age','fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [128]:
# addtion dataframe 만들기 : df + 10
addition = df + 10
addition.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


In [129]:
subtraction = addition - df
subtraction.head()

Unnamed: 0,age,fare
0,10.0,10.0
1,10.0,10.0
2,10.0,10.0
3,10.0,10.0
4,10.0,10.0
