#### 판다스

https://pandas.pydata.org/docs/index.html

* 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

- Contents
 - Series(변환, 인덱스 구조, 원소 선택)
 - DataFrame(변환, 행인덱스/열이름 지정, 삭제,선택,추가, 변경, 전치, 인덱스 활용)

In [4]:
# Dictionary -> Series
import pandas as pd

dict_data = {'a':1,'b':2,'c':3}

sr = pd.Series(dict_data)
print(sr, type(sr))

a    1
b    2
c    3
dtype: int64 <class 'pandas.core.series.Series'>


In [24]:
# List -> Series
list_data = ['2019-07-02',3.14,'ABC',100,True]
sr = pd.Series(list_data)
# sr = pd.Series(list_data, index = ['a','b','c','d','e'])
# sr = pd.Series(list_data, index = list('abcde'))
print(sr,type(sr))

0    2019-07-02
1          3.14
2           ABC
3           100
4          True
dtype: object <class 'pandas.core.series.Series'>


In [25]:
sr[0]

'2019-07-02'

In [29]:
idx = sr.index
print(list(idx))

[0, 1, 2, 3, 4]


In [18]:
# 튜플 -> Series
tup_data = ('kevin','2019-07-02','남',True)
sr = pd.Series(tup_data,index = ['이름','생년월일','성별','학생여부'])
print(sr,type(sr))

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object <class 'pandas.core.series.Series'>


In [22]:
print(sr[1])
print(sr['생년월일'])

2019-07-02
2019-07-02


In [23]:
# 인덱스 및 값
idx = sr.index
print(idx)
val = sr.values
print(val)

Index(['이름', '생년월일', '성별', '학생여부'], dtype='object')
['kevin' '2019-07-02' '남' True]


#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체. 
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [57]:
import numpy as np
np.random.seed(0)
data = np.random.randint(100,120, size=(3,3))

df = pd.DataFrame(data,index=['태현','서진','동완'],
                 columns = ['몸무개','식사량','운동량'])

df


Unnamed: 0,몸무개,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [58]:
df_org = df.copy()
df_org

Unnamed: 0,몸무개,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


pandas indexing : iloc 정수 인덱스, loc 이름 인덱스

In [33]:
print(df.iloc[1])

몸무개    103
식사량    103
운동량    107
Name: 서진, dtype: int32


In [35]:
print(df.loc['서진'])

몸무개    103
식사량    103
운동량    107
Name: 서진, dtype: int32


In [72]:
df = df_org.copy()
df

Unnamed: 0,몸무개,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [68]:
# Q. iloc, loc를 사용하여 107을 출력하세요.

print(df.iloc[1,2])
print(df.loc["서진","운동량"])

107
107


In [46]:
df.iloc[0,0] = 85
df

Unnamed: 0,몸무개,식사량,운동량
태현,85,115,100
서진,103,103,107
동완,109,119,118


In [73]:
df.iloc[0] = [60,3,2]
df.loc["서진"] = [80,3,5]
df.loc["동완"]=[68,3,2]
df

Unnamed: 0,몸무개,식사량,운동량
태현,60,3,2
서진,80,3,5
동완,68,3,2


In [74]:
# Q. 행 2, 열 2 추가해서 데이터를 삽입하세요.
df.loc['예슬'] = 0
df

Unnamed: 0,몸무개,식사량,운동량
태현,60,3,2
서진,80,3,5
동완,68,3,2
예슬,0,0,0


In [75]:
# df.loc[:,'수면시간']
df['수면시간'] = 0
df

Unnamed: 0,몸무개,식사량,운동량,수면시간
태현,60,3,2,0
서진,80,3,5,0
동완,68,3,2,0
예슬,0,0,0,0


In [76]:
df.loc[:,'간식횟수'] = 0
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60,3,2,0,0
서진,80,3,5,0,0
동완,68,3,2,0,0
예슬,0,0,0,0,0


In [77]:
df.loc['용훈',:] = 0
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,0.0,0.0
서진,80.0,3.0,5.0,0.0,0.0
동완,68.0,3.0,2.0,0.0,0.0
예슬,0.0,0.0,0.0,0.0,0.0
용훈,0.0,0.0,0.0,0.0,0.0


In [79]:
df.iloc[3] = df.iloc[2]
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,0.0,0.0
서진,80.0,3.0,5.0,0.0,0.0
동완,68.0,3.0,2.0,0.0,0.0
예슬,68.0,3.0,2.0,0.0,0.0
용훈,60.0,3.0,2.0,0.0,0.0


In [78]:
df.iloc[4] = df.iloc[0]
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,0.0,0.0
서진,80.0,3.0,5.0,0.0,0.0
동완,68.0,3.0,2.0,0.0,0.0
예슬,0.0,0.0,0.0,0.0,0.0
용훈,60.0,3.0,2.0,0.0,0.0


In [80]:
df.iloc[:3,3] = 7
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,7.0,0.0
서진,80.0,3.0,5.0,7.0,0.0
동완,68.0,3.0,2.0,7.0,0.0
예슬,68.0,3.0,2.0,0.0,0.0
용훈,60.0,3.0,2.0,0.0,0.0


In [81]:
df.iloc[3:,3] = 6
df.iloc[:,4] = 2
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,7.0,2
서진,80.0,3.0,5.0,7.0,2
동완,68.0,3.0,2.0,7.0,2
예슬,68.0,3.0,2.0,6.0,2
용훈,60.0,3.0,2.0,6.0,2


In [85]:
df = df_org.copy()
df

Unnamed: 0,몸무개,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [86]:
df.loc['주경'] = 0
df.loc['인혁'] = 0

df['공부시간'] = 0
df['멍 때리는 시간'] = 0

df.iloc[:3, 3] = 8
df.iloc[:3, 4] = 3

df.loc['주경'] = df.loc['태현']

df.loc['인혁'] = [100,85,90,17,5]

df

Unnamed: 0,몸무개,식사량,운동량,공부시간,멍 때리는 시간
태현,112,115,100,8,3
서진,103,103,107,8,3
동완,109,119,118,8,3
주경,112,115,100,8,3
인혁,100,85,90,17,5


[과제] 아래 데이터를 보완하여 10명에 대한 나이, 키, 식사횟수, 수면시간, 몸무개를 포함하는 데이터프레임을 작성하세요.(다음사항 유의)
- 행인덱스의 이름을 한글이름으로 변경
- 컬럼이름은 문제에서 주어진 순서를 준수

In [1]:
# 열이름 바꾸기
import pandas as pd

df_c = pd.DataFrame(index = ['a','b','c','d','e'],
                   columns = ['나이', '키', '몸무게'])
# df_c.loc[:] = [[20, 170, 40], [25,180,80], [27,175,50], [23,160,50]]
df_c.loc['a'] = [20, 170, 63]
df_c.loc['b'] = [25, 173, 60]
df_c.loc['c'] = [23, 180, 80]
df_c.loc['d'] = [24, 165, 50]
df_c.loc['e'] = [28, 190, 95]
df_c

Unnamed: 0,나이,키,몸무게
a,20,170,63
b,25,173,60
c,23,180,80
d,24,165,50
e,28,190,95


In [2]:
df_org = df_c.copy()

In [3]:
# 원본 미반영
df_r=df_c.rename(columns={'나이':'age'})
df_r

Unnamed: 0,age,키,몸무게
a,20,170,63
b,25,173,60
c,23,180,80
d,24,165,50
e,28,190,95


In [4]:
# 원본 반영
df_r.rename(columns={'age':'나이'},inplace=True)
df_r

Unnamed: 0,나이,키,몸무게
a,20,170,63
b,25,173,60
c,23,180,80
d,24,165,50
e,28,190,95


In [5]:
df_c = df_org.copy()

In [None]:
나이, 키, 식사횟수, 수면시간, 몸무개

In [6]:
import pandas as pd
df_a = pd.concat([df_c, df_c],axis=0)
df_a.index = ['학생1','학생2','학생3','학생4','학생5','학생6','학생7','학생8','학생9','학생10']
df_a['수면시간'] = 7
df_a['식사횟수'] = 3
new_columns = ['나이', '키', '식사횟수', '수면시간', '몸무게']
df = df_a.reindex(columns=new_columns)
df

Unnamed: 0,나이,키,식사횟수,수면시간,몸무게
학생1,20,170,3,7,63
학생2,25,173,3,7,60
학생3,23,180,3,7,80
학생4,24,165,3,7,50
학생5,28,190,3,7,95
학생6,20,170,3,7,63
학생7,25,173,3,7,60
학생8,23,180,3,7,80
학생9,24,165,3,7,50
학생10,28,190,3,7,95


In [93]:
import pandas as pd

data = pd.DataFrame({'column1': [1, 2, 3],
                   'column2': [4, 5, 6],
                   'column3': [7, 8, 9]})
print(data,'\n')
data1 = data.drop('column2',axis=1)
print(data1,'\n')
print(data)

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9 

   column1  column3
0        1        7
1        2        8
2        3        9 

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9


In [91]:
# 열삭제

import pandas as pd

data = pd.DataFrame({'column1': [1, 2, 3],
                   'column2': [4, 5, 6],
                   'column3': [7, 8, 9]})
print(data)
data.drop('column2',axis=1,inplace=True) # 원본에서 삭제
data

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9


Unnamed: 0,column1,column3
0,1,7
1,2,8
2,3,9


In [84]:
# 행삭제
data.drop(0,axis=0,inplace=True)
data

Unnamed: 0,column1,column3
1,2,8
2,3,9


In [94]:
df = df_org.copy()
df

Unnamed: 0,몸무개,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [95]:
df.columns

Index(['몸무개', '식사량', '운동량'], dtype='object')

In [96]:
# 컬럼명 변경
df.columns = ["몸무개","식사량(끼니)","운동량(시간)"]
df

Unnamed: 0,몸무개,식사량(끼니),운동량(시간)
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [98]:
# 인덱스 이름 변경
df.index = ['서진','태현','동완']
df

Unnamed: 0,몸무개,식사량(끼니),운동량(시간)
서진,112,115,100
태현,103,103,107
동완,109,119,118


In [99]:
df.iloc[1,1] = np.nan
df

Unnamed: 0,몸무개,식사량(끼니),운동량(시간)
서진,112,115.0,100
태현,103,,107
동완,109,119.0,118


In [102]:
# null값 개수 구하기
df.isnull().sum().sum()

1

In [106]:
# 각 열의 평균
df.mean(axis=0)

몸무개        108.000000
식사량(끼니)    117.000000
운동량(시간)    108.333333
dtype: float64

In [107]:
# 평균값 대체
df.iloc[1,1] = 117
df

Unnamed: 0,몸무개,식사량(끼니),운동량(시간)
서진,112,115.0,100
태현,103,117.0,107
동완,109,119.0,118


In [117]:
# 2차원 리스트를 데이터프레임으로 변환
import numpy as np
a = np.random.randint(1,5,size=(10,5))
print(a,type(a))

[[4 3 4 4 3]
 [3 4 1 2 3]
 [4 3 2 3 2]
 [1 3 3 4 1]
 [4 3 4 1 1]
 [3 1 3 4 3]
 [3 4 1 1 1]
 [2 3 1 2 3]
 [4 3 3 4 2]
 [1 1 1 4 4]] <class 'numpy.ndarray'>


In [118]:
a=pd.DataFrame(a,index=['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'],
               columns=['국어','영어','수학','과학','사회'])
a

Unnamed: 0,국어,영어,수학,과학,사회
s1,4,3,4,4,3
s2,3,4,1,2,3
s3,4,3,2,3,2
s4,1,3,3,4,1
s5,4,3,4,1,1
s6,3,1,3,4,3
s7,3,4,1,1,1
s8,2,3,1,2,3
s9,4,3,3,4,2
s10,1,1,1,4,4


In [None]:
# Q. 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요.(아래 사항 반영)
- S1 ~ S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 5점
- 결시자가 국어 3명, 수학 2명 있음
- 영어, 수학의 점수가 국어 대비 5점 낮음

In [119]:
for i in range(10):
    a.iloc[i] = 90 - i*5
a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,90,90,90,90
s2,85,85,85,85,85
s3,80,80,80,80,80
s4,75,75,75,75,75
s5,70,70,70,70,70
s6,65,65,65,65,65
s7,60,60,60,60,60
s8,55,55,55,55,55
s9,50,50,50,50,50
s10,45,45,45,45,45


In [120]:
for i in range(10):
    a.iloc[i,1:3] = a.iloc[i,0] - 5
a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,85,85,90,90
s2,85,80,80,85,85
s3,80,75,75,80,80
s4,75,70,70,75,75
s5,70,65,65,70,70
s6,65,60,60,65,65
s7,60,55,55,60,60
s8,55,50,50,55,55
s9,50,45,45,50,50
s10,45,40,40,45,45


In [121]:
a.iloc[7:,0] = np.nan
a.iloc[8:,2] = np.nan
a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90.0,85,85.0,90,90
s2,85.0,80,80.0,85,85
s3,80.0,75,75.0,80,80
s4,75.0,70,70.0,75,75
s5,70.0,65,65.0,70,70
s6,65.0,60,60.0,65,65
s7,60.0,55,55.0,60,60
s8,,50,50.0,55,55
s9,,45,,50,50
s10,,40,,45,45


In [122]:
a['평균'] = (a['국어'] + a['영어'] + a['수학'] + a['과학'] + a['사회'])/5
a

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90.0,85,85.0,90,90,88.0
s2,85.0,80,80.0,85,85,83.0
s3,80.0,75,75.0,80,80,78.0
s4,75.0,70,70.0,75,75,73.0
s5,70.0,65,65.0,70,70,68.0
s6,65.0,60,60.0,65,65,63.0
s7,60.0,55,55.0,60,60,58.0
s8,,50,50.0,55,55,
s9,,45,,50,50,
s10,,40,,45,45,


#### [과제] 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요.(아래 사항 수정해서 진행)
- S1 ~ S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 5점
- 결시자가 국어 3명, 수학 2명 있음
- 영어, 수학의 점수가 국어 대비 5점 낮음

In [167]:
# 데이터프레임 생성(8행 5열)
import numpy as np
import pandas as pd

np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))

df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


#### 과제 : 생성된 데이터프레임에서 아래 사항을 수행하세요.
- 열이름과 행이름 변경
- 3행만 출력
- 5열만 출력
- 3행 5열의 값 출력
- 4열의 값을 모두 0으로 변경
- 2,3행의 3열 값을 조회(2가지 방법)
- 6행의 2,3,4열의 값을 조회(2가지 방법)
- 2열을 Series와 DataFrame으로 각각 출력
- 2행 3열의 값을 2행 4열의 값과 동일하게 변경
- 2행 3열의 값과 2행 4열의 값을 동시에 만족하는 3,4열을 출력

In [168]:
df.columns =['국어','영어','수학','과학','사회']
df.index = index=['s1','s2','s3','s4','s5','s6','s7','s8']
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,92,74,53,58,50
s2,71,69,60,93,91
s3,60,71,88,82,70
s4,94,79,89,64,76
s5,67,76,72,52,52
s6,51,76,55,90,96
s7,83,79,92,74,57
s8,93,83,65,98,87


In [179]:
print(df.iloc[3],'\n')
print(df.iloc[:,4],'\n')
print(df.iloc[2,4],'\n')
print(df.iloc[1:3,2],'\n')
print(df.iloc[5,1:4],'\n')
print(df.iloc[:,1],type(df.iloc[:,1]),'\n')
print(df.iloc[:,[1]],type(df.iloc[:,[1]]),'\n')
df.iloc[1,2] = df.iloc[1,3]
print(df,'\n')
print(df.iloc[1,2:4])

국어    94
영어    79
수학    89
과학    64
사회    76
Name: s4, dtype: int32 

s1    50
s2    91
s3    70
s4    76
s5    52
s6    96
s7    57
s8    87
Name: 사회, dtype: int32 

70 

s2    93
s3    88
Name: 수학, dtype: int32 

영어    76
수학    55
과학    90
Name: s6, dtype: int32 

s1    74
s2    69
s3    71
s4    79
s5    76
s6    76
s7    79
s8    83
Name: 영어, dtype: int32 <class 'pandas.core.series.Series'> 

    영어
s1  74
s2  69
s3  71
s4  79
s5  76
s6  76
s7  79
s8  83 <class 'pandas.core.frame.DataFrame'> 

    국어  영어  수학  과학  사회
s1  92  74  53  58  50
s2  71  69  93  93  91
s3  60  71  88  82  70
s4  94  79  89  64  76
s5  67  76  72  52  52
s6  51  76  55  90  96
s7  83  79  92  74  57
s8  93  83  65  98  87 

수학    93
과학    93
Name: s2, dtype: int32


In [None]:
# Q. 5행 5열의 리스트, 배열, 사전 형태의 데이터를 데이터 프레임으로 변환하여 출력하세요.

In [27]:
# 배열
import numpy as np

np.random.seed(0)
data = np.random.randint(80,100,size=(5,5))
print(data,type(data))

[[92 95 80 83 83]
 [87 89 99 98 84]
 [86 92 81 86 87]
 [94 97 85 93 88]
 [89 99 96 99 85]] <class 'numpy.ndarray'>


In [35]:
list('abcde')

['a', 'b', 'c', 'd', 'e']

In [37]:
import pandas as pd
df_ar = pd.DataFrame(data,columns=list('abcde'),index=list('가나다라마'))
df_ar

Unnamed: 0,a,b,c,d,e
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [29]:
# 리스트
data_list = data.tolist()
print(data_list,type(data_list))

[[92, 95, 80, 83, 83], [87, 89, 99, 98, 84], [86, 92, 81, 86, 87], [94, 97, 85, 93, 88], [89, 99, 96, 99, 85]] <class 'list'>


In [38]:
df_list = pd.DataFrame(data_list,columns=list('abcde'),index=list('가나다라마'))
df_list

Unnamed: 0,a,b,c,d,e
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [32]:
# 사전
dict_data = {'a':[92, 95, 80, 83, 83], 'b':[87, 89, 99, 98, 84], 'c':[86, 92, 81, 86, 87], \
             'd':[94, 97, 85, 93, 88], 'e':[89, 99, 96, 99, 85]}
print(dict_data,type(dict_data))

{'a': [92, 95, 80, 83, 83], 'b': [87, 89, 99, 98, 84], 'c': [86, 92, 81, 86, 87], 'd': [94, 97, 85, 93, 88], 'e': [89, 99, 96, 99, 85]} <class 'dict'>


In [39]:
df_dict = pd.DataFrame(dict_data,index=list('가나다라마'))
df_dict

Unnamed: 0,a,b,c,d,e
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [40]:
df = df_dict.copy()
df

Unnamed: 0,a,b,c,d,e
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [42]:
# df - > 배열
ar = df.values
print(ar, type(ar))

[[92 87 86 94 89]
 [95 89 92 97 99]
 [80 99 81 85 96]
 [83 98 86 93 99]
 [83 84 87 88 85]] <class 'numpy.ndarray'>


In [45]:
# df -> 리스트
li = df.values.tolist()
print(li,type(li))

[[92, 87, 86, 94, 89], [95, 89, 92, 97, 99], [80, 99, 81, 85, 96], [83, 98, 86, 93, 99], [83, 84, 87, 88, 85]] <class 'list'>


In [50]:
# df -> 사전
df.to_dict()

{'a': {'가': 92, '나': 95, '다': 80, '라': 83, '마': 83},
 'b': {'가': 87, '나': 89, '다': 99, '라': 98, '마': 84},
 'c': {'가': 86, '나': 92, '다': 81, '라': 86, '마': 87},
 'd': {'가': 94, '나': 97, '다': 85, '라': 93, '마': 88},
 'e': {'가': 89, '나': 99, '다': 96, '라': 99, '마': 85}}

In [51]:
# 값을 리스트 형태로 반환
df.to_dict('list')

{'a': [92, 95, 80, 83, 83],
 'b': [87, 89, 99, 98, 84],
 'c': [86, 92, 81, 86, 87],
 'd': [94, 97, 85, 93, 88],
 'e': [89, 99, 96, 99, 85]}

#### 인덱스 처리 함수
- set_index()
- reset_index()
- reindex()
- rename()

In [52]:
df

Unnamed: 0,a,b,c,d,e
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [57]:
df1 = df.reset_index()
df1

Unnamed: 0,index,a,b,c,d,e
0,가,92,87,86,94,89
1,나,95,89,92,97,99
2,다,80,99,81,85,96
3,라,83,98,86,93,99
4,마,83,84,87,88,85


In [58]:
df2 = df1.set_index('index')
df2

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [59]:
df3 = df2.reset_index()
df3

Unnamed: 0,index,a,b,c,d,e
0,가,92,87,86,94,89
1,나,95,89,92,97,99
2,다,80,99,81,85,96
3,라,83,98,86,93,99
4,마,83,84,87,88,85


In [66]:
new_index = ['나','다','라','마','가','바']
df4 = df2.reindex(new_index,fill_value=0)
df4

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85
가,92,87,86,94,89
바,0,0,0,0,0


In [68]:
new_columns = list('bcdea')
df5 = df4.reindex(columns=new_columns)
df5

Unnamed: 0_level_0,b,c,d,e,a
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
나,89,92,97,99,95
다,99,81,85,96,80
라,98,86,93,99,83
마,84,87,88,85,83
가,87,86,94,89,92
바,0,0,0,0,0


#### [과제] 아래 2차원 배열로 데이터 프레임을 만들고 아래사항을 수행하세요.
- 행인덱스를 한글이름으로, 컬럼이름을 교과목으로 지정하세요.
- 행인덱스를 정수형 인덱스로 변환하세요
- 행이름의 순서를 반대로 바꾸어 출력하세요.
- 컬럼이름의 순서를 반대로 바꾸어 출력하세요.
- 인덱스 컬럼으로 인덱스를 세팅하세요.
- 한국사 이름을 역사로 변경하세요.

In [61]:
ex = np.random.randint(50,100,size=(10,10))
np.random.seed(0)
print(ex)

[[68 96 85 70 67 77 64 91 51 86]
 [60 72 93 90 61 52 66 82 50 88]
 [69 96 92 90 63 80 74 52 53 80]
 [84 93 63 98 90 58 69 81 58 76]
 [52 53 94 64 82 54 53 95 61 72]
 [63 95 61 66 74 79 71 96 75 66]
 [69 83 90 82 86 56 71 81 63 57]
 [74 65 91 68 90 65 61 88 97 79]
 [51 81 94 74 74 53 68 97 53 92]
 [62 88 85 72 55 73 93 82 61 90]]


In [1]:
# 수정 요
import pandas as pd
import numpy as np

np.random.seed(0)
score = np.random.randint(50,101, size = (10,10))
SD = pd.DataFrame(score,index = ["동완","날두","메시","모드리치","페르난데스",
                              "포그바","스털링","음바페","손흥민","차붐"],
              columns=["한국사","국어","영어","수학","사회","화학","생명과학","물리",
                      "지구과학","예체능"])
SD


Unnamed: 0,한국사,국어,영어,수학,사회,화학,생명과학,물리,지구과학,예체능
동완,94,97,50,53,53,89,59,69,71,100
날두,86,73,56,74,74,62,51,88,89,73
메시,96,74,67,87,75,63,58,59,70,66
모드리치,55,65,97,50,68,85,74,99,79,69
페르난데스,69,64,89,82,51,59,82,81,60,73
포그바,85,61,100,78,84,50,50,86,55,88
스털링,90,67,65,54,91,92,81,51,51,89
음바페,91,85,88,61,96,68,77,50,64,85
손흥민,62,92,70,61,54,56,54,97,53,62
차붐,86,90,64,65,70,85,73,65,63,71


In [2]:
rSD = SD.reset_index()
rSD

Unnamed: 0,index,한국사,국어,영어,수학,사회,화학,생명과학,물리,지구과학,예체능
0,동완,94,97,50,53,53,89,59,69,71,100
1,날두,86,73,56,74,74,62,51,88,89,73
2,메시,96,74,67,87,75,63,58,59,70,66
3,모드리치,55,65,97,50,68,85,74,99,79,69
4,페르난데스,69,64,89,82,51,59,82,81,60,73
5,포그바,85,61,100,78,84,50,50,86,55,88
6,스털링,90,67,65,54,91,92,81,51,51,89
7,음바페,91,85,88,61,96,68,77,50,64,85
8,손흥민,62,92,70,61,54,56,54,97,53,62
9,차붐,86,90,64,65,70,85,73,65,63,71


In [3]:
index = rSD.index[::-1]
rrSD = rSD.reindex(index=index)
rrSD

Unnamed: 0,index,한국사,국어,영어,수학,사회,화학,생명과학,물리,지구과학,예체능
9,차붐,86,90,64,65,70,85,73,65,63,71
8,손흥민,62,92,70,61,54,56,54,97,53,62
7,음바페,91,85,88,61,96,68,77,50,64,85
6,스털링,90,67,65,54,91,92,81,51,51,89
5,포그바,85,61,100,78,84,50,50,86,55,88
4,페르난데스,69,64,89,82,51,59,82,81,60,73
3,모드리치,55,65,97,50,68,85,74,99,79,69
2,메시,96,74,67,87,75,63,58,59,70,66
1,날두,86,73,56,74,74,62,51,88,89,73
0,동완,94,97,50,53,53,89,59,69,71,100


In [4]:
rcSD = rrSD.reindex(columns = rrSD.columns[::-1])
rcSD

Unnamed: 0,예체능,지구과학,물리,생명과학,화학,사회,수학,영어,국어,한국사,index
9,71,63,65,73,85,70,65,64,90,86,차붐
8,62,53,97,54,56,54,61,70,92,62,손흥민
7,85,64,50,77,68,96,61,88,85,91,음바페
6,89,51,51,81,92,91,54,65,67,90,스털링
5,88,55,86,50,50,84,78,100,61,85,포그바
4,73,60,81,82,59,51,82,89,64,69,페르난데스
3,69,79,99,74,85,68,50,97,65,55,모드리치
2,66,70,59,58,63,75,87,67,74,96,메시
1,73,89,88,51,62,74,74,56,73,86,날두
0,100,71,69,59,89,53,53,50,97,94,동완


In [6]:
df = rcSD.set_index('index')
df

Unnamed: 0_level_0,예체능,지구과학,물리,생명과학,화학,사회,수학,영어,국어,한국사
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
차붐,71,63,65,73,85,70,65,64,90,86
손흥민,62,53,97,54,56,54,61,70,92,62
음바페,85,64,50,77,68,96,61,88,85,91
스털링,89,51,51,81,92,91,54,65,67,90
포그바,88,55,86,50,50,84,78,100,61,85
페르난데스,73,60,81,82,59,51,82,89,64,69
모드리치,69,79,99,74,85,68,50,97,65,55
메시,66,70,59,58,63,75,87,67,74,96
날두,73,89,88,51,62,74,74,56,73,86
동완,100,71,69,59,89,53,53,50,97,94


In [7]:
df = df.rename(columns={'한국사':'역사'})
df

Unnamed: 0_level_0,예체능,지구과학,물리,생명과학,화학,사회,수학,영어,국어,역사
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
차붐,71,63,65,73,85,70,65,64,90,86
손흥민,62,53,97,54,56,54,61,70,92,62
음바페,85,64,50,77,68,96,61,88,85,91
스털링,89,51,51,81,92,91,54,65,67,90
포그바,88,55,86,50,50,84,78,100,61,85
페르난데스,73,60,81,82,59,51,82,89,64,69
모드리치,69,79,99,74,85,68,50,97,65,55
메시,66,70,59,58,63,75,87,67,74,96
날두,73,89,88,51,62,74,74,56,73,86
동완,100,71,69,59,89,53,53,50,97,94
