### 데이터 과학자가 판다스를 배우는 이유
빅데이터의 시대가 성큼 다가왔다. 미국을 비롯한 데이터 선진국들은 인공지능과 빅테이터 기술을 놀라운 속도로 확산시키며 삶의 패러다임을 바꾸고 있다.  
과거와는 달리 엄청나게 빠른 속도로 쌓여가는 방대한 데이터와, 그 데이터를 저장, 분석할 수 있는 컴퓨팅 파워의 결합이 데이터 과학이라는 새로운 영역을 
출현 가능하게 했다.  
데이터 과학은 데이터를 연구하는 분야이고, 데이터 자체가 가장 중요한 자원이다.  
실제로 **데이터 분석 업무의 80~90%는 데이터를 수집하고 정리하는 일이 차지한다고 한다.** 나머지 10 - 20%는 알고리즘을 선택하고 모델링 결과를 분석하여 
데이터로부터 유용한 정보를 뽑아내는 분석 프로세스의 몫이다.  
데이터과학자가 하는 가장 기초적이고 중요한 일은 데이터를 수집하고 분석이 가능한 형태로 정리하는 것이라고 말할 수 있다. 
pandas라이브러리는 데이터를 수집하고 정리하는 데 최적화된 도구라고 볼 수 있다.  
오픈소스라서 무료라는 장점도 있다. 또한 가장 배우기 쉬운 프로그래밍 언어 중의 하나인 파이썬을 기반으로 하기 때문에 컴퓨터과학이나 프로그램을 전공하지 않은 사람들도 쉽게 따라가며 배우는 것이 가능하다.  
판다스를 배우면 데이터 과학의 80 - 90% 업무를 처리할 수 있고, 데이터과학자에게 필요한 기본적이면서도 아주 중요한 도구를 갖추게 된다. 

### 판다스 자료구조
분석을 위해 다양한 소스로부터 수집하는 데이터는 형태나 속성이 매우 다양하다. 특히 서로 다른 형식을 갖는 여러 종류의 데이터를 컴퓨터가 이해할 수 있도록 동일한 형식을 갖는 구조로 통합할 필요가 있다.  
이를 위해 판다스는 시리즈(Series)와 데이터프레임(DataFrame)이라는 구조화된 데이터 형식을 제공한다.  
서로 다른 종류의 데이터를 한곳에 담는 그릇(컨테이너)이 된다.  
다만 시리즈는 1차원 배열이고, 데이터프레임이 2차원 배열이라는 점에서 차이가 있다.  
판다스의 1차적인 목적은 서로 다른 여러 가지 유형의 데이터를 공통의 포멧으로 정리하는 것이다. 특히 행과 열로 이루어진 2차원 구조의 데이터프레임은 데이터 분석 실무에서 자주 사용된다.  
이 책의 많은 머신러닝 예제들도 데이터프레임으로 정리된 데이터를 사용한다.  

<pre>
<code>
def pandas_learning():
    print('let's go')
</code>
</pre>
link : [Google][https://google.com]  

[google](https://google.com, "google link")


### 시리즈
시리즈는 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다. 키와 값이 {k:v}형태로 짝을 이루는 파이썬 딕셔너리와 비슷한 구조를 갖는다고 볼 수 있다.  
딕셔너리와 시리즈의 구조가 비슷하기 때문에 딕셔너리를 시리즈로 변환하는 방법을 많이 사용한다. 판다스는 내장 함수인 Series()를 이용하고, 디셔너리를 함수의 인자로 전달한다.
딕셔너리 -> 시리즈 변환: pandas.Series(딕셔너리)  


In [1]:
import pandas as pd

dict_data = {'a': 1, 'b':2, 'c': 3}

sr = pd.Series(dict_data)

print(type(sr))
print('\n')
print(sr)

<class 'pandas.core.series.Series'>


a    1
b    2
c    3
dtype: int64


#### 인덱스 구조
인덱스는 자기와 짝을 이루는 데이터 값의 순서와 주소를 저장한다. 인덱스를 잘 활용하면 데이터 값의 탐색, 정렬, 선택, 결합 등 데이터 조작을 쉽게 할 수 있다. 인덱스에는 크게 두 가지 종류가 있다. 정수형 위치 인덱스(integer position)와 인덱스 이름(index name) 또는 인덱스 라벨(index label)이 그것이다.  
인덱스 배열 : Series객체.index  
데이터 값 배열: Series객체.values  
판다스 Series() 함수를 사용하여 파이썬 리스트를 시리즈로 변환한다. 단, 리스트를 시리즈로 변활할 때는 딕셔너리의 키처럼 인덱스로 변환될 값이 없다. 따라서 인덱스를 별도로 정의하지 않으면, 디폴트로 정수형 위치 인덱스(0,1,2...)가 자동으로 지정된다. 

In [2]:
list_data = ['2021-11-11', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
print(sr)

idx = sr.index
val = sr.values
print(idx)
print('\n')
print(val)

0    2021-11-11
1          3.14
2           ABC
3           100
4          True
dtype: object
RangeIndex(start=0, stop=5, step=1)


['2021-11-11' 3.14 'ABC' 100 True]


### 원소 선택
원소의 위치를 나타내는 주소 역할을 하는 인덱스를 이용하여 시리즈의 원소를 선택한다. 하나의 원소를 선택할 수도 있고, 여러 원소를 한꺼번에 선택할 수도 있다. 
파이썬 리스트 슬라이싱 기법과 비슷하게 인덱스 범위를 지정하여 원소를 선택하는 방법도 있다.  
인덱스의 두 가지 유형에 따라 사용법이 조금 다르다. 정수형 위치 인덱스는 대괄호안에 위치를 나타내는 숫자를 입력하는데 반해, 인덱스 이름을 사용할 때는 대괄화안에 이름과 함께 따옴표를 입력한다. 큰 따옴표와 작은 따옴표 모두 가능하다.  
Series() 함수를 사용하여 파이썬 튜플을 시리즈로 변환한다. 튜플도 리스트처럼 딕셔너리의 키에 해당하는 값이 없어서 시리즈로 변활할 때 정수형 위치 인덱스가 자동 지정된다.
리스트 또는 튜플을 시리즈로 만들 때 정수형 위치 인덱스 대신 인덱스 이름을 따로 지정할 수 있다. Series() 함수의 index 옵션에 인덱스 이름을 직접 전달하는 방식이다.  

In [3]:
tup_data = ('영인', '2010-05-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)
print(sr.index)
print(sr[0])
print(sr['이름'])

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object
Index(['이름', '생년월일', '성별', '학생여부'], dtype='object')
영인
영인


In [4]:
print(sr[[1,2]])
print(sr[['생년월일', '성별']])

생년월일    2010-05-01
성별               여
dtype: object
생년월일    2010-05-01
성별               여
dtype: object


In [5]:
print(sr[1:2])
print('\n')
print(sr['생년월일':'학생여부'])

생년월일    2010-05-01
dtype: object


생년월일    2010-05-01
성별               여
학생여부          True
dtype: object


### 데이터프레임
데이터프레임은 2차원 배열이다. 행과 열로 만들어지는 2차원 배월 구조는 마이크로소프트 엑셀과 관계형 데이터베이스 등 컴퓨터 관련 다양한 분야에서 사용된다.  판다스의 데이터프레임 자료구조는 대표적인 통계 패키지인 R의 데이터프레임에서 유래했다고 알려져 있다.  
시리즈를 열벡터라고하면, 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬이다.  
데이터프레임은 행과 열을 나타내기 위해 두 가지 종류의 주소를 사용한다. 행 인덱스와 열이름으로 구분한다.  
데이터프레임의 열은 공통의 속성을 갖는 일련의 데이터를 나타내고, 행은 개별 관측대상에 대한 다양한 속성 데이터들의 모음인 레코드가 된다. 
> **데이터프레임 만들기**  
데이터프레임을 만들기 위해서는 같은 길이(원소의 개수가 동일한)의 1차원 배열 여러 개가 필요하다. 데이터프레임은 여러 개의 시리즈(열)을 모아놓은 집합으로 이해하면 된다. 딕셔너리의 값 해당하는 각 리스트가 시리즈 배열로 변환되어 데이터프레임의 열이 된다. 딕셔너리의 키는 각 시리즈이 이름으로 변환되어 최종적으로 데이터프레임의 열 이름이 된다.  
데이터프레임을 만들 때는 판다스 DataFrame()함수를 사용한다.  
딕셔너리 -> 데이터프레임 변환 : pandas.DataFrame(딕셔너리 객체)

In [8]:
import pandas as pd

dict_data = {'co': [1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

df = pd.DataFrame(dict_data)

print(type(df))
print('\n')
print(df)

<class 'pandas.core.frame.DataFrame'>


   co  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


### 행 인덱스/열 이름 설정
데이터프레임의 구조적 특성 때문에 2차원 배열 형태의 데이터를 데이터프레임으로 변환하기 쉽다. 2차원 배열에는 여러 개의 리스트(투플)을 원소로 갖는 리스트(투플)를 예로 들 수 있다.  
한편 2차원 배열을 DataFrame() 함수 인자로 전달하여 데이터프레임으로 변환할 때 행 인덱스와 열 이름 속성을 사용자가 직접 지정할 수도 있다.  
**pandas(2차원 배열, index=행 인덱스 배열, columns=열 이름 배열)**



In [10]:
import pandas as pd

df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], index=['준서', '예은'], columns=['나이', '성별', '학교'])

print(df)
print('\n')
print(df.index)
print('\n')
print(df.columns)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


Index(['준서', '예은'], dtype='object')


Index(['나이', '성별', '학교'], dtype='object')


In [11]:
df.index = ['학생1', '학생2']
df.columns = ['연령', '남녀', '소속']

In [12]:
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


데이터프레임에 rename() 메소드를 적용하면 행 인덱스 또는 열 이름의 일부를 선택하여 변경할 수 있다. 단, 원본 객체를 직접 수정하는 것이 아니라 새로운 데이터프레임 객체를 반환하는 점에 유의한다. 원본 객체를 변경하려면 inplace=True 옵션을 사용한다.  
***DataFrame 객체.rename(index={기존 인덱스:새 인덱스, ...})***


In [14]:
df.rename(columns={'연령': '나이'}, inplace=True)
df

Unnamed: 0,나이,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


### 행/열 삭제
데이터프레임의 행 또는 열을 삭제하는 명령으로 drop() 메소드가 있다. 행을 삭제할 때는 축(axis) 옵션으로 axis=0을 입력하거나, 별도로 입력하지 않는다. 반면 축 옵션으로 axis=1을 입력하면 열을 삭제한다.  
동시에 여러 개의 행 또는 열을 삭제하려면 리스트 형태로 입력한다. 한편 drop() 메소드는 기존 객체를 변경하지 않고 새로운 객체를 반환하는 점을 유의한다. rename과 같이 원본 객체를 직접 변경하기 위해서는 inplace=True 옵션을 추가한다.  
**행 삭제 : DataFrame 객체.drop(행 인덱스 또는 배열, axis=0)
    열 삭제 : DataFrame 객체.drop(열 이름 또는 배열, axis=1)**


In [17]:
import pandas as pd

exam_data = {'수학': [90,80,70], '영어':[99,88,90], '음악': [85,95,100], '체육': [100,90,90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
print(df)
print('\n')

df2 = df[:]
df2.drop('우현', inplace=True)
print(df2)
print('\n')

df3 = df[:]
df3.drop(['우현', '인아'], axis=0, inplace=True)
print(df3)

    수학  영어   음악   체육
서준  90  99   85  100
우현  80  88   95   90
인아  70  90  100   90


    수학  영어   음악   체육
서준  90  99   85  100
인아  70  90  100   90


    수학  영어  음악   체육
서준  90  99  85  100


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [18]:
df4 = df.copy()
df4.drop('수학', axis=1, inplace=True)
print(df4)
print('\n')

df5 = df.copy()
df5.drop(['영어', '음악'], axis=1, inplace=True)
print(df5)

    영어   음악   체육
서준  99   85  100
우현  88   95   90
인아  90  100   90


    수학   체육
서준  90  100
우현  80   90
인아  70   90


### 행 선택
데이터프레임의 행 데이터를 선택하기 위해서는 loc와 iloc 인덱서를 사용한다. 인덱스 이름을 기준으로 행을 선택할 때는 loc을 이용하고, 정수형 위치 인덱스를 사용할 때는 iloc를 사용한다.  


In [20]:
label1 = df.loc['서준']
position1 = df.iloc[0]
print(label1)
print('\n')
print(position1)

수학     90
영어     99
음악     85
체육    100
Name: 서준, dtype: int64


수학     90
영어     99
음악     85
체육    100
Name: 서준, dtype: int64


In [22]:
label2 = df.loc[['서준','우현']]
position2 = df.iloc[[0,1]]
print(label2)
print('\n')
print(position2)


    수학  영어  음악   체육
서준  90  99  85  100
우현  80  88  95   90


    수학  영어  음악   체육
서준  90  99  85  100
우현  80  88  95   90


In [24]:
label3 = df.loc['서준':'우현']
position3 = df.iloc[0:1]
print(label3)
print('\n')
print(position3)

    수학  영어  음악   체육
서준  90  99  85  100
우현  80  88  95   90


    수학  영어  음악   체육
서준  90  99  85  100


### 열 선택
데이터프레임의 열 데이터를 1개만 선택할 때는, 대괄호([])안에 열 이름을 따옴표와 함께 입력하거나 도트(.) 다음에 열 이름을 입력하는 두 가지 방식을 사용한다.  두 번째 방법은 반드시 열 이름이 문자일 경우에만 가능하다. 이처럼 열 1개를 선택하면 시리즈 객체가 반환된다.  
**열 1개 선택(시리즈 생성) : DataFrame 객체["열 이름"] 또는 DataFrame 객체.열 이름**


In [25]:
exam_data = {'이름': ['서준', '우현', '인아'], '수학': [90,80,70], '영어':[98,99,100], '음악':[100,90,95], '체육':[100,99,100]}
df = pd.DataFrame(exam_data)
print(df)
print(type(df))
print('\n')

math1 = df['수학']
print(math1)
print(type(math1))
print('\n')

eng = df.영어
print(eng)
print(type(eng))

   이름  수학   영어   음악   체육
0  서준  90   98  100  100
1  우현  80   99   90   99
2  인아  70  100   95  100
<class 'pandas.core.frame.DataFrame'>


0    90
1    80
2    70
Name: 수학, dtype: int64
<class 'pandas.core.series.Series'>


0     98
1     99
2    100
Name: 영어, dtype: int64
<class 'pandas.core.series.Series'>


In [26]:
music_gym = df[['음악', '체육']]
print(music_gym)
print(type(music_gym))
print('\n')

math2 = df[['수학']]
print(math2)
print(type(math2))

    음악   체육
0  100  100
1   90   99
2   95  100
<class 'pandas.core.frame.DataFrame'>


   수학
0  90
1  80
2  70
<class 'pandas.core.frame.DataFrame'>


In [27]:
df.iloc[::2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,100,100
2,인아,70,100,95,100


In [28]:
df.iloc[0:3:2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,100,100
2,인아,70,100,95,100


In [29]:
df.iloc[::-1]

Unnamed: 0,이름,수학,영어,음악,체육
2,인아,70,100,95,100
1,우현,80,99,90,99
0,서준,90,98,100,100


### 원소 선택
데이터프레임의 행 인덱스와 열 이름을 [행, 열] 형식의 2차원 좌표로 입력하여 원소 위치를 지정하는 방법이다. 원소가 위치하는 행과 열의 좌표를 입력하면 해당 위치의 원소가 반환된다.  
1개의 행과 2개 이상의 열을 선택하거나 반대로 2개 이상의 행과 1개의 열을 선택하는 경우 시리즈 객체가 반환된다.  2개 이상의 행과 2개 이상의 열을 선택하면, 데이터프레임 객체를 반환한다. 
***인덱스 이름 : DataFrame 객체.loc[행 인덱스, 열 이름 ]
   정수 위치 인덱스 : DataFrame 객체.iloc[행 번호, 열 번호]***
  
  

In [30]:
df.set_index('이름', inplace=True)
print(df)


    수학   영어   음악   체육
이름                   
서준  90   98  100  100
우현  80   99   90   99
인아  70  100   95  100


In [31]:
a = df.loc['서준', '음악']
print(a)
b = df.iloc[0,3]
print(b)

100
100


In [39]:
c = df.loc['서준', ['음악', '체육']]
print(c)
d = df.iloc[0, [2,3]]
print(d)
e = df.loc['서준', '음악':'체육']
print(e)
f = df.iloc[0, 2:]
print(f)
g = df.loc[['서준', '우현'], ['음악', '체육']]
print(g)
h = df.iloc[[0,1], [2,3]]
print(h)
i = df.loc['서준':'우현', '음악':'체육']
print(i)
j = df.iloc[0:2, 2:]

음악    100
체육    100
Name: 서준, dtype: int64
음악    100
체육    100
Name: 서준, dtype: int64
음악    100
체육    100
Name: 서준, dtype: int64
음악    100
체육    100
Name: 서준, dtype: int64
     음악   체육
이름          
서준  100  100
우현   90   99
     음악   체육
이름          
서준  100  100
우현   90   99
     음악   체육
이름          
서준  100  100
우현   90   99


In [42]:
df.iloc[ : , [2, 3]]

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,100,100
우현,90,99
인아,95,100


### 열 추가
데이터프레임에 열을 추가하는 방법이다. 데이터프레임의 마지막 열에 덧붙이듯 새로운 열을 추가한다.  
***열 추가: DataFrame 객체['추가하려는 열 이름'] = 데이터 값***

In [43]:
df['국어'] = 80

In [44]:
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,100,100,80
우현,80,99,90,99,80
인아,70,100,95,100,80


### 행 추가
데이터프레임에 행을 추가하는 방법이다. 추가하려는 행 이름과 데이터 값을 loc인덱서로 사용하여 입력한다. 하나의 데이터 값을 입력하거나, 열의 개수에 맞게 배열 형태로 여러 개의 값을 입력할 수 있다.  
전자의 경우 행의 모든 원소에 같은 값이 추가된다. 후자의 경우 배열의 순서대로 열 위치에 값이 하나씩 추가된다. 또한 행 벡터 자체가 배열이므로, 기존 행을 복사해서 새로운 행에 그대로 추가할 수도 있다.  
***행 추가: DataFrame.loc['새로운 행 이름'] = 데이터 값 (또는 배열)***

In [45]:
exam_data = {'이름': ['서준', '우현', '인아'], '수학': [90,80,70], '영어':[98,99,100], '음악':[100,90,95], '체육':[100,99,100]}
df = pd.DataFrame(exam_data)
print(df)


   이름  수학   영어   음악   체육
0  서준  90   98  100  100
1  우현  80   99   90   99
2  인아  70  100   95  100


In [46]:
df.loc[3] = 0
print(df)
print('\n')
df.loc[4] = ['동규', 90,80,70,60]
print(df)
print('\n')

df.loc[5] = df.loc[3]
print(df)

   이름  수학   영어   음악   체육
0  서준  90   98  100  100
1  우현  80   99   90   99
2  인아  70  100   95  100
3   0   0    0    0    0


   이름  수학   영어   음악   체육
0  서준  90   98  100  100
1  우현  80   99   90   99
2  인아  70  100   95  100
3   0   0    0    0    0
4  동규  90   80   70   60


   이름  수학   영어   음악   체육
0  서준  90   98  100  100
1  우현  80   99   90   99
2  인아  70  100   95  100
3   0   0    0    0    0
4  동규  90   80   70   60
5   0   0    0    0    0


### 원소 값 변경
데이터프레임의 특정 원소를 선택하고 새로운 데이터 값을 지정해주면 원소 값이 변경된다. 원소 1개를 선택하여 변경할 수 도 있고, 여러개의 원소를 한꺼번에 값을 바꿀 수 도 있다.  
변경할 원소를 선택할 때 데이터프레임 인덱싱과 슬라이싱 기법을 사용한다.  
***원소 값 변경: DataFrame 객체의 일부분 또는 원소를 선택 = 새로운 값***

In [70]:
df.drop(0, inplace=True)

In [71]:
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,100,80
우현,80,99,90,99
인아,70,100,95,100
동규,90,80,70,60


In [73]:
df.iloc[0][3] = 80
print(df)
print('\n')

df.loc['서준']['체육'] = 90
print(df)
print('\n')

df.loc['서준','체육'] = 100
print(df)

    수학   영어   음악   체육
이름                   
서준  90   98  100   80
우현  80   99   90   99
인아  70  100   95  100
동규  90   80   70   60


    수학   영어   음악   체육
이름                   
서준  90   98  100   90
우현  80   99   90   99
인아  70  100   95  100
동규  90   80   70   60


    수학   영어   음악   체육
이름                   
서준  90   98  100  100
우현  80   99   90   99
인아  70  100   95  100
동규  90   80   70   60


In [76]:
# 원소 여러 개를 변경
df.loc['서준', ['음악', '체육']] = 50
print(df)
print('\n')
df.loc['서준',['음악','체육']] = 100, 50
print(df)

    수학   영어  음악   체육
이름                  
서준  90   98  50   50
우현  80   99  90   99
인아  70  100  95  100
동규  90   80  70   60


    수학   영어   음악   체육
이름                   
서준  90   98  100   50
우현  80   99   90   99
인아  70  100   95  100
동규  90   80   70   60


### 행, 열의 위치 바꾸기
선형대수학의 전치행렬과 같은 개념.  
전치의 결과로 새로운 객체를 반환하므로, 기존 객체를 반환하기 위해서는 df = transpose() 또는 df = df.T와 같이 기존 객체에 새로운 객체를 할당해주는 과정이 필요하다.  
***행, 열 바꾸기: DataFrame 객체.transpose() 또는 DataFrame 객체.T***

In [77]:
exam_data = {'이름': ['서준','우현','인아'],
             '수학': [90,80,70],
             '영어': [98,99,70],
             '음악': [85,95,100],
             '체육': [100,90,90]
            }
df = pd.DataFrame(exam_data)
print(df)
print('\n')

df = df.transpose()
print(df)
print('\n')

df = df.T
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  99   95   90
2  인아  70  70  100   90


      0   1    2
이름   서준  우현   인아
수학   90  80   70
영어   98  99   70
음악   85  95  100
체육  100  90   90


   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  99   95   90
2  인아  70  70  100   90


### 인덱스 활용
#### 특정 열을 행 인덱스로 설정
set_index() 메소드를 사용하여 데이터프레임의 특정 열을 행 인덱스로 설정한다. 단, 원본 데이터프레임을 바꾸지 않고 새로운 데이터프레임 객체를 반환하는 점에 유의한다. 
***특정 열을 행 인덱스로 설정: DataFrame 객체.set_index(['열 이름'] 또는 '열 이름')***

In [79]:
ndf = df.set_index(['이름'])
print(ndf)
print('\n')

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  99   95   90
인아  70  70  100   90




In [80]:
ndf2 = df.set_index(['음악'])
print(ndf2)
print('\n')

     이름  수학  영어   체육
음악                  
85   서준  90  98  100
95   우현  80  99   90
100  인아  70  70   90




In [81]:
ndf3 = df.set_index(['수학', '음악'])
print(ndf3)
print('\n')

        이름  영어   체육
수학 음악              
90 85   서준  98  100
80 95   우현  99   90
70 100  인아  70   90




### 행 인덱스 재배열
reindex() 메소드를 사용하면 데이터프레임의 행 인덱스를 새로운 배열로 저장할 수 있다. 기존 객체를 변경하지 않고 새로운 데이터프레임 객체를 반환한다.  
***새로운 배열로 행 인덱스를 재지정: DataFrame 객체.reindx(새로운 인덱스 배열)***

In [84]:
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
print(df)
print('\n')

new_index = ['r0', 'r1', 'r2','r3','r4']
ndf = df.reindex(new_index)
print(ndf)
print('\n')
ndf2 = df.reindex(new_index, fill_value=0)
print(ndf2)

    co  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


     co   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN


    co  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
r3   0   0   0   0   0
r4   0   0   0   0   0


### 행 인덱스 초기화
reset_index() 메소드를 활용하여 행 인덱스를 정수형 위치 인덱스로 초기화한다. 이 때 기존 행 인덱스는 열로 이동한다. 다른 경우와 마찬가지로 새로운 데이터프레임 객체를 반환한다.  
***정수형 위치 인덱스로 초기화: DataFrame 객체.reset_index()***

In [85]:
df = pd.DataFrame(dict_data, index = ['r0','r1','r2'])
print(df)
print('\n')

ndf = df.reset_index()
print(ndf)

    co  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


  index  co  c1  c2  c3  c4
0    r0   1   4   7  10  13
1    r1   2   5   8  11  14
2    r2   3   6   9  12  15


In [89]:
ndf.drop(['index'], axis=1, inplace=True)

### 행 인덱스를 기준으로 데이터프레임 정렬
sort_index() 메소드를 활용하여 행 인덱스를 기준으로 데이터프레임의 값을 정렬한다. ascending 옵션을 사용하여 오름차순 또는 내림차순을 설정한다. 새롭게 정렬된 데이터프레임을 반환한다.  
***행 인덱스 기준 정렬: DataFrame 객체.sort_index()***

In [91]:
ndf = df.sort_index(ascending=False)
print(ndf)

    co  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


### 특정 열의 데이터 값을 기준으로 데이터프레임 정렬하기 
특정 열의 데이터를 기준으로 데이터프레임을 정렬할 수 있다. sort_values() 메소드를 활용하며, 새롭게 정렬된 데이터프레임 객체를 반환한다.  
***열 기준 정렬: DataFrame 객체.sort_values()***

In [92]:
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
print(df)
print('\n')

ndf = df.sort_values(by='c1', ascending=False)
print(ndf)

    co  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


    co  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


### 산술연산
> 판다스 객체의 산술연산은 내부적으로 3단계 프로세스를 거친다. 행/열 인덱스를 기준으로 모든 원소를 정렬한다. 동일한 위치에 있는 원소끼리 일대일로 대응시킨다. 일대일 대응이 되는 원소끼리 연산을 처리한다. 단, 이때 대응되는 원소가 없으면 NaN으로 처리한다. 

### 시리즈 연산
- 시리즈 vs 숫자  
시리즈 객체에 어떤 숫자를 더하면 시리즈의 개별 원소에 각각 숫자를 더하고 계산한 결과를 시리즈 객체로 반환한다. 덧셈, 뺄셈, 곱셈, 나눗셈 모두 가능하다. 다음의 예제에서는 시리즈 객체의 각 원소를 200으로 나누는 과정을 살펴보자.  

***시리즈와 숫자 연산: Series 객체  + 연산자(+,-,*\,/) + 숫자***



In [93]:
student1 = pd.Series({'국어': 100, '영어': 80, '수학':90})
print(student1)
print('\n')

국어    100
영어     80
수학     90
dtype: int64




In [94]:
percentage = student1/200

In [95]:
print(percentage)
print('\n')
print(type(percentage))

국어    0.50
영어    0.40
수학    0.45
dtype: float64


<class 'pandas.core.series.Series'>
