## DataFrame 
- 2차원 배열
- 행과 열로 구성

#### Dictionary 를 이용한 DataFrame 생성 

In [9]:
dict_data = {
  'c0' : [1,2,3],
  'c1' : [4,5,6],
  'c2' : [7,8,9],
  'c3' : [10,11,12],
  'c4' : [13,14,15]
}

dict_data

{'c0': [1, 2, 3],
 'c1': [4, 5, 6],
 'c2': [7, 8, 9],
 'c3': [10, 11, 12],
 'c4': [13, 14, 15]}

In [5]:
dict_data['c0'][0]

1

In [7]:
import pandas as pd  # dataFrame 은 pandes 가 사용


In [10]:
# DataFrame 으로 변환 \
df = pd.DataFrame(dict_data)
df


Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


In [11]:
# df의 자료형 
type(df)

pandas.core.frame.DataFrame

### List를 이용한  DataFrame  생성


In [12]:
list_data = [
  [15,'남','덕영중'],
  [17, '여', '수리중']
]

list_data

[[15, '남', '덕영중'], [17, '여', '수리중']]

In [19]:
df = pd.DataFrame(
  list_data,                            # Data
  index=['준서','예은'],                 # index 명 
  columns=['나이','성별','학교']
)

df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


## 행과 열 이름 변경하기

In [20]:
# 행 인덱스, 열 이름 확인하기 
print(df.index)
print(df.columns)

Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


In [22]:
# index 의 준서와 예은 -> 학생1, 학생2 로 변경 
df.index = ['학생1', '학생2']

# column 이름도 변경 : 연령, 남녀, 소속 
df.columns = [ '연령', '남녀', '소속']
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [28]:
# column 이른 중 소속을 학교로 남녀를 성별로 변경하기 
df.rename(
  columns={
        '남녀' : '성별', 
        '소속' : '학교'
  },
  inplace=True   # 즉시적용
)

df



Unnamed: 0,연령,성별,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [29]:
# df의  index 중 학생1 -> 준서로 변경 
df.rename(
  index={ '학생1' : '준서' },
  inplace=True   # 즉시적용
)

df


Unnamed: 0,연령,성별,학교
준서,15,남,덕영중
학생2,17,여,수리중


### 행 삭제

In [30]:
# 내가 풀은 것 

dict_data = {
  '수학' : [90,80,70],
  '영어' : [98,89,95],
  '음악' : [85,95,100],
  '체육' : [100,90,90]
}

# DataFrame 으로 변환 \
df = pd.DataFrame(dict_data)


df = pd.DataFrame(
  dict_data,                            # Data
  index=['서준','우현', '인하']
)

df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인하,70,95,100,90


In [31]:
# 선생님이 풀은 것 
df = pd.DataFrame (
  {
    '수학' : [90,80,70],
    '영어' : [98,89,95],
    '음악' : [85,95,100],
    '체육' : [100,90,90]
  },
  index=['서준','우현', '인하']
)

df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인하,70,95,100,90


In [54]:
# 데이터프레인 df를 복제 
df2 = df.copy()

In [55]:
# df2중 우현이라는 1개의 행을 삭제 
# df2 = df.copy()
df2.drop('우현', inplace=True)
df2


Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인하,70,95,100,90


In [47]:
df3 = df.copy()
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인하,70,95,100,90


In [41]:
# df3의 인덱스 중 우현과 인아를 동시에 삭제 

df3.drop(
  ['우현', '인하'],
  inplace=True
)

df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


In [48]:

df3.drop(
  ['우현', '인하'],
  axis='rows',    # axis = 0
  inplace=True
)

df3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


In [51]:
df4 = df.copy()
df4

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인하,70,95,100,90


In [52]:
# df4의 수학 열 삭제 
df4.drop('수학',
         axis='columns',  # axix = 1
          inplace=True)

df4

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인하,95,100,90


In [56]:
#  영어와 음악 2개열 삭제 
df5 = df.copy()


In [57]:
# df5의 수학 열 삭제 
df5.drop(
  ['영어', '음악'],
  axis='columns',  # axix = 1
  inplace=True
  )

df5

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인하,70,90


### 행 선택 

- index 이름을 기준으로 행을 선택할 경우에는 loc 
- index 숫자를 기준으로 행을 선택할 경우에는 iloc

In [61]:
dfOrigin = df.copy()

In [60]:
#index  가 서준인 행을 선택 
print(df.loc['서준'])
print(df.iloc[0])

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64
수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [68]:
# 서준과 우현의 2개 행 선택 
print(df.loc[['서준','우현']])

print(df.iloc[[0,1]])

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90
    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


In [72]:
# Slicing 을 통해 점위 지정후로 선택 
print(df.loc['서준':'우현'])
print(df.iloc[0:2])

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90
    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


## 열 선택

In [75]:
df = pd.DataFrame (
  {
    '이름' : ['서준','우현', '인하'],
    '수학' : [90,80,70],
    '영어' : [98,89,95],
    '음악' : [85,95,100],
    '체육' : [100,90,90]
  }
)

df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인하,70,95,100,90


In [76]:
# 수학 점수만 선택 
df['수학']

0    90
1    80
2    70
Name: 수학, dtype: int64

In [77]:
# 엉어 점수만 선택 
df.영어   # 컬럼이름만 이러한 선택이 가능 1개의 컬럼일 경우 가능 

0    98
1    89
2    95
Name: 영어, dtype: int64

In [79]:
# 음악, 체육 점수 선택 
df[['음악','체육']]

Unnamed: 0,음악,체육
0,85,100
1,95,90
2,100,90


### 범위 Slicing 활용
- df.iloc[시작Index:끝index:증가치]

In [83]:
# 행번호의 처음 부터 끝까지 2개씩 증가시키면서 선택 
df.iloc[::2]   # 동일결과 : df.iloc[0:3:2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인하,70,95,100,90


In [85]:
#  행의 끝번호부터 역순으로 선택 
df.iloc[::-1]

Unnamed: 0,이름,수학,영어,음악,체육
2,인하,70,95,100,90
1,우현,80,89,95,90
0,서준,90,98,85,100


### 행고 열을 이용한 데이터 선택

In [87]:
# 이름 열을 index로 변경 
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인하,70,95,100,90


In [89]:
# 서준의 음악 점수 선택 
print(df.loc['서준','음악'])
print(df.iloc[0,2])

85
85


In [100]:
#  서준의 음악과 체육 점수 선택 
print(df.loc['서준','음악':'체육']) 
print(df.loc['서준',['음악','체육']]) 
print(df.iloc[0,[2,3]])
print(df.iloc[0,2:4])
print(df.iloc[0,2:])


음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64


###  열 추가

In [105]:
df['국어'] = [50,60,70]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,50
우현,80,89,95,90,60
인하,70,95,100,90,70


### 행 추가 

In [110]:
df.loc['철수'] = 0
df


Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,50
우현,80,89,95,90,60
인하,70,95,100,90,70
3,0,0,0,0,0
철수,0,0,0,0,0


In [111]:
# 행번호 3을 삭제 
df.drop(3, inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,50
우현,80,89,95,90,60
인하,70,95,100,90,70
철수,0,0,0,0,0


In [112]:
df.loc['철수'] = [90,80,70,60,50]
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,50
우현,80,89,95,90,60
인하,70,95,100,90,70
철수,90,80,70,60,50


In [115]:
# df의 서준의 체육점수를 80으로 변경하기 
df.loc['서준','체육'] = 80
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,80,50
우현,80,89,95,90,60
인하,70,95,100,90,70
철수,90,80,70,60,50


In [116]:
df.iloc[0,3] = 100 
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,50
우현,80,89,95,90,60
인하,70,95,100,90,70
철수,90,80,70,60,50


In [118]:
# 서준의 음악과 체육 점수를 50으로 변경 
df.loc['서준',['음악','체육']] = 50
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,50,50,50
우현,80,89,95,90,60
인하,70,95,100,90,70
철수,90,80,70,60,50


In [119]:
#  서준의 음익과 체육 점수를 각각 100점 50점으로 변경 하기 
df.loc['서준',['음악','체육']] = [100,50]   # (100,50), 100,50 도 가능하나 기본은 [] 형식 
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,100,50,50
우현,80,89,95,90,60
인하,70,95,100,90,70
철수,90,80,70,60,50


In [120]:
# 전치 : Transfose
df.T

이름,서준,우현,인하,철수
수학,90,80,70,90
영어,98,89,95,80
음악,100,95,100,70
체육,50,90,90,60
국어,50,60,70,50


In [121]:
dict_data = {
  'c0' : [1,2,3],
  'c1' : [4,5,6],
  'c2' : [7,8,9],
  'c3' : [10,11,12],
  'c4' : [13,14,15]
}

dict_data

{'c0': [1, 2, 3],
 'c1': [4, 5, 6],
 'c2': [7, 8, 9],
 'c3': [10, 11, 12],
 'c4': [13, 14, 15]}

In [123]:
# dict_data를 DataFrame 작성 시  index r0,r1,r2 로 지정 
df = pd.DataFrame(
  dict_data,
  index = ['r0','r1','r2']
)

df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [125]:
# index를 r0~r4 로 재지정
ndf = df.reindex(['r0','r1','r2', 'r3','r4'])
ndf


Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [126]:
# index를 r0~r4 로 재지정 NaN 갑을 숫자 0으로 채우기 
ndf = df.reindex(['r0','r1','r2', 'r3','r4'], fill_value=0)
ndf


Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


In [129]:
# 행 index 최기화 
ndf =  df.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


In [133]:
ndf.set_index('index', inplace=True)

KeyError: "None of ['index'] are in the columns"

In [134]:
ndf

Unnamed: 0_level_0,c0,c1,c2,c3,c4
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


###  정렬

In [135]:
#  내림차순으로 행 인덱스 정렬
ndf.sort_index(ascending=False)

Unnamed: 0_level_0,c0,c1,c2,c3,c4
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


### 특정 값을 기준의로 정렬 

In [137]:
df2 = pd.DataFrame(
  dict_data,
  index =['r0','r2','r1']
)

df2

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r2,2,5,8,11,14
r1,3,6,9,12,15


In [138]:
df2.sort_index(ascending=False)

Unnamed: 0,c0,c1,c2,c3,c4
r2,2,5,8,11,14
r1,3,6,9,12,15
r0,1,4,7,10,13


### 특정 값을 기준으로 정력 

In [140]:

# c1 기준으로 내림차순 정렬
df.sort_values(
  by='c1',
  ascending=False
)

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13
