# Part 1. 판다스 입문
## 2. 판다스 자료구조
* Series : 1차원 배열
* DataFrame : 2차원 배열

### 2.1 Series
데이터가 순차적으로 나열된 1차원 배열의 형태
#### Series 만들기
딕셔너리와 Series 의 구조가 비슷하기 때문에 딕셔너리를 Series로 변환하는 방법을 많이 사용함.

```python
딕셔너리 -> 시리즈 변환: pandas.Series( 딕셔너리 )
```

In [1]:
# pandas 불러오기
import pandas as pd

In [2]:
# key:value 쌍으로 딕셔너리를 만들고, 변수 dict_data에 저장
dict_data = {'a': 1, 'b': 2, 'c': 3}

In [3]:
# 판다스 Series() 함수로 dictionary를 Series로 변환. 변수 sr에 저장
sr = pd.Series(dict_data)

In [4]:
type(sr)

pandas.core.series.Series

In [5]:
sr

a    1
b    2
c    3
dtype: int64

#### 인덱스 구조
* 정수형 위치 인덱스(integer position) : default
* 인덱스 이름(index name) 또는 인덱스 라벨(index label)

In [6]:
# 리스트를 시리즈로 변환하여 변수 sr에 저장
list_data = ['2019-01-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)

In [7]:
# 인덱스 배열은 변수 idx에 저장. 데이터 값 배열은 변수 val에 저장
idx = sr.index
val = sr.values

In [8]:
print(idx)
print(type(idx))
print(val)
print(type(val))

RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>
['2019-01-02' 3.14 'ABC' 100 True]
<class 'numpy.ndarray'>


#### 원소 선택
인덱스를 이용하여 시리즈의 원소를 선택한다.  
파이썬의 리스트 슬라이싱 기법과 비슷하게 인덱스 범위를 지정하여 원소를 선택할 수도 있다.

In [9]:
# 튜플은 시리즈로 변환
tup_data = ('영인', '2010-05-01', '여', True)
sr3 = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr3)

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object


In [10]:
# 원소를 한개 선택
print(sr3[0])    # sr의 1번째 원소를 선택(정수형 위치 인덱스)
print(sr3['이름']) # '이름' 라벨을 가진 원소를 선택(인덱스 이름)

영인
영인


In [11]:
# 여러 개의 원소를 선택(인덱스 리스트 활용)
print(sr3[[1,2]])
print(sr3[['생년월일', '성별']])

생년월일    2010-05-01
성별               여
dtype: object
생년월일    2010-05-01
성별               여
dtype: object


In [12]:
# 여러 개의 원소를 선택(슬라이싱)
print(sr3[1:2])
print()
print(sr3['생년월일':'성별'])

생년월일    2010-05-01
dtype: object

생년월일    2010-05-01
성별               여
dtype: object


### 2.2 DataFrame
데이터프레임의 열은 각각 시리즈 객체이다.  
#### 데이터프레임 만들기
같은 길이(원소의 개수가 동일한)의 1차원 배열 여러 개가 필요함.  
여러 개의 시리즈(열, column)를 모아 놓은 집합으로 이해하면 쉬움.  
딕셔너리의 값(v)에 해당하는 각 리스트가 시리즈 배열로 변환되어 데이터프레임의 열이 되고,  
키(k)는 각 시리즈의 이름으로 변환되어 최종적으로 데이터프레임의 열 이름이 된다.

```python
딕셔너리 -> 데이터프레임 변환: pandas.DataFrame( 딕셔너리 객체 )
```

In [13]:
# 열이름을 key로 하고, 리스트를 value로 갖는 딕셔너리 정의(2차원 배열)
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
dict_data

{'c0': [1, 2, 3],
 'c1': [4, 5, 6],
 'c2': [7, 8, 9],
 'c3': [10, 11, 12],
 'c4': [13, 14, 15]}

In [14]:
# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환. 변수 df에 저장
df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


In [15]:
# df의 자료형 출력
type(df)

pandas.core.frame.DataFrame

In [16]:
# 변수df에 저장되어 있는 데이터프레임 객체를 출력
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


#### 행 인덱스/열 이름 설정
```python
행 인덱스/열 이름 설정: pandas.DataFrame( 2차원 배열,
                                         index=행 인덱스 배열,
                                         columns=열 이름 배열 )
```

In [17]:
# 행 인덱스/열 이름 지정하여 데이터프레임 만들기
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                  index=['준서', '예은'], columns=['나이', '성별', '학교'])

In [18]:
# 행 인덱스, 열 이름 확인하기
print(df)   # 데이터프레임
print()
print(df.index) # 행 인덱스
print()
print(df.columns)   # 열 이름

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중

Index(['준서', '예은'], dtype='object')

Index(['나이', '성별', '학교'], dtype='object')


df.index와 df.columns의 속성에 새로운 배열을 할당하면 행 인덱스와 열 이름을 변경할 수 있다.  
* 행 인덱스 변경: DataFrame 객체.index = 새로운 행 인덱스 배열
* 열 이름 변경: DataFrame 객체.columns = 새로운 열 이름 배열

In [19]:
# 행 인덱스, 열 이름 변경하기
df.index = ['학생1', '학생2']
df.columns = ['연령', '남녀', '소속']
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


rename 함수를 사용하면, 행 인덱스 또는 열 이름의 일부를 선택하여 변경할 수 있다.  
단, 원본 객체를 직접 수정하는 것이 아니라 새로운 데이터프레임 객체를 반환한다.  
원본 객체를 변경하려면 ```inplace=True``` 옵션을 사용한다.

* 행 인덱스 변경: DataFrame 객체.rename(index={기존 인덱스:새 인덱스, ... })
* 열 이름 변경: DataFrame 객체.rename(columns={기존 열 이름:새 열 이름, ...})

In [20]:
# 열 이름 중, '나이'를 '연령'으로, '성별'을 '남녀'로, '학교'를 '소속'으로 바꾸기
df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [21]:
# df의 행 인덱스 중에서, '준서'를 '학생1'로, '예은'을 '학생2'로 바꾸기
df.rename(index={'준서':'학생1', '예은':'학생2'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


#### 행/열 삭제
행을 삭제할 때는 축(axis) 옵션으로 axis=0을 입력하거나, 입력하지 않는다.(default)  
반면, 축 옵션으로 axis=1을 입력하면 열을 삭제한다.  
동시에 여러 개의 행 또는 열을 삭제하려면 리스트 형태로 입력한다.

* 행 삭제: DataFrame 객체.drop(행 인덱스 또는 배열, axis=0)
* 열 삭제: DataFrame 객체.drop(열 이름 또는 배열, axis=1)

In [22]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학': [90, 80, 70], '영어': [98, 89, 95],
             '음악': [85, 95, 100], '체육': [100, 90, 90]}
exam_data

{'수학': [90, 80, 70],
 '영어': [98, 89, 95],
 '음악': [85, 95, 100],
 '체육': [100, 90, 90]}

In [23]:
# 인덱스 설정
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [24]:
# 데이터프레임 df를 복제하여 변수 df2에 저장. df2의 1개 행(row) 삭제
df2 = df[:]
df2.drop('우현', inplace=True) # '우현' 이라는 이름의 행(row) 삭제
df2

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [25]:
# 데이터프레임 df를 복제하여 변수 df3에 저장. df3의 2개 행(row) 삭제
df3 = df[:]
df3.drop(['우현', '인아'], axis=0, inplace=True) # "우현", "인아"라는 이름의 행(row) 삭제
df3

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


In [26]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학': [90, 80, 70], '영어': [98, 89, 95],
             '음악': [85, 95, 100], '체육': [100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [27]:
# 데이터프레임 df를 복제하여 변수 df4에 저장. df4의 1개 열(column) 삭제
df4 = df.copy()
df4.drop('수학', axis=1, inplace=True)
df4

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [28]:
# 데이터프레임 df를 복제하여 변수 df5에 저장. df5의 2개 열(column) 삭제
df5 = df.copy()
df5.drop(['영어', '음악'], axis=1, inplace=True)
df5

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


In [29]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


#### 행(row) 선택
데이터프레임의 행 데이터를 선택하기 위해서는 loc과 iloc 인덱서를 사용한다.  

|구분|loc|iloc|
|----|----|----|
|탐색 대상|인덱스 이름(index label)|정수형 위치 인덱스(integer position)|
|범위 지정|가능(범위의 끝 포함)<br/>예)['a':'c'] -> 'a', 'b', 'c'|가능(범위의 끝 제외)<br/>예)[3:7] -> 3, 4, 5, 6(* 7 제외)|

In [30]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장.
exam_data = {'수학': [90, 80, 70], '영어': [98, 89, 95],
             '음악': [85, 95, 100], '체육' : [100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [31]:
# 행 인덱스를 사용하여 행 1개 선택
label1 = df.loc['서준']
position1 = df.iloc[0]

In [32]:
label1

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [33]:
position1

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [34]:
# 행 인덱스를 사용하여 2개 이상의 행 선택
label2 = df.loc[['서준', '우현']]
position2 = df.iloc[[0, 1]]

In [35]:
label2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [36]:
position2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [37]:
# 행 인덱스의 범위를 지정하여 행 선택
label3 = df.loc['서준':'우현']
position3 = df.iloc[0:1]

In [38]:
label3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [39]:
position3

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


#### 열(column) 선택
```python
열 1개 선택(시리즈 생성): DataFrame 객체["열 이름"] 또는 DataFrame 객체.열 이름
열 n개 선택(데이터프레임 생성): DataFrame 객체[[열1, 열2, ..., 열n]]
```

In [40]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장.
exam_data = { '이름': ['서준', '우현', '인아'],
              '수학': [90, 80, 70],
              '영어': [98, 89, 95],
              '음악': [85, 95, 100],
              '체육' : [100, 90, 90] }

df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90


In [41]:
type(df)

pandas.core.frame.DataFrame

In [42]:
math1 = df['수학']
math1

0    90
1    80
2    70
Name: 수학, dtype: int64

In [43]:
type(math1)

pandas.core.series.Series

In [44]:
# '음악', '체육' 점수 데이터를 선택. 변수 music_gym에 저장
music_gym = df[['음악', '체육']]
music_gym

Unnamed: 0,음악,체육
0,85,100
1,95,90
2,100,90


In [45]:
type(music_gym)

pandas.core.frame.DataFrame

In [46]:
# '영어' 점수 데이터만 선택. 변수 english에 저장.
english = df.영어
english

0    98
1    89
2    95
Name: 영어, dtype: int64

In [47]:
type(english)

pandas.core.series.Series

In [48]:
# '수학' 점수 데이터만 선택. 변수 math2에 저장.
math2 = df[['수학']]
math2

Unnamed: 0,수학
0,90
1,80
2,70


In [49]:
type(math2)

pandas.core.frame.DataFrame

#### 원소 선택

In [50]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장.
exam_data = { '이름': ['서준', '우현', '인아'],
              '수학': [90, 80, 70],
              '영어': [98, 89, 95],
              '음악': [85, 95, 100],
              '체육' : [100, 90, 90] }

df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90


In [51]:
# '이름' 열을 새로운 딘덱스로 지정하고, df 객체에 변경 사항 반영
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [52]:
# 데이터프레임 df의 특정 원소 1개 선택('서준'의 '음악' 점수)
a = df.loc['서준', '음악']
a

85

In [53]:
b = df.iloc[0, 2]
b

85

In [54]:
# 데이터프레임 df의 특정 원소 2개 이상 선택('서준'의 '음악', '체육' 점수)
c = df.loc['서준', ['음악', '체육']]
c

음악     85
체육    100
Name: 서준, dtype: int64

In [55]:
d = df.iloc[0, [2, 3]]
d

음악     85
체육    100
Name: 서준, dtype: int64

In [56]:
e = df.loc['서준', '음악':'체육']
e

음악     85
체육    100
Name: 서준, dtype: int64

In [57]:
f = df.iloc[0, 2:]
f

음악     85
체육    100
Name: 서준, dtype: int64

In [58]:
# df 2개 이상의 행과 열에 속하는 원소들 선택('서준', '우현'의 '음악', '체육' 점수)
g = df.loc[['서준', '우현'], ['음악', '체육']]
g

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


In [59]:
type(g)

pandas.core.frame.DataFrame

In [60]:
h = df.iloc[[0, 1], [2, 3]]
h

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


In [61]:
i = df.loc['서준':'우현', '음악':'체육']
i

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


In [62]:
j = df.iloc[0:2, 2:]
j

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


#### 열 추가
추가하려는 열 이름과 데이터 값을 다음과 같은 형식으로 입력한다.  
```python
열 추가: DataFrame 객체[ '추가하려는 열 이름' ] = 데이터 값
```
데이터프레임의 마지막 열에 덧붙이듯 새로운 열을 추가한다.

In [63]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장.
exam_data = { '이름': ['서준', '우현', '인아'],
              '수학': [90, 80, 70],
              '영어': [98, 89, 95],
              '음악': [85, 95, 100],
              '체육' : [100, 90, 90] }
df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90


In [64]:
# 데이터프레임 df에 '국어' 점수 열(column) 추가. 데이터 값은 80 지정
df['국어'] = 80
df

Unnamed: 0,수학,영어,음악,이름,체육,국어
0,90,98,85,서준,100,80
1,80,89,95,우현,90,80
2,70,95,100,인아,90,80


#### 행 추가
추가하려는 행 이름과 데이터 값을 loc 인덱서를 사용하여 입력한다.  
하나의 데이터 값을 입력하거나, 열의 개수에 맞게 배열 형태로 여러 개의 값을 입력할 수 있다.  
```python
행 추가: DataFrame 객체.loc[ '새로운 행 이름' ] = 데이터 값 (또는 배열)
```

In [65]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장.
exam_data = { '이름': ['서준', '우현', '인아'],
              '수학': [90, 80, 70],
              '영어': [98, 89, 95],
              '음악': [85, 95, 100],
              '체육' : [100, 90, 90] }
df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90


In [66]:
# 새로운 행(row) 추가 - 같은 원소 값 입력
df.loc[3] = 0
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90
3,0,0,0,0,0


In [67]:
# 새로운 행(row) 추가 - 원소 값 여러 개의 배열 입력
df.loc[4] = ['동규', 90, 80, 70, 60]
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90
3,0,0,0,0,0
4,동규,90,80,70,60


In [68]:
# 새로운 행(row) 추가 - 기존 행 복사
df.loc['복사된행'] = df.loc[3]
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90
3,0,0,0,0,0
4,동규,90,80,70,60
복사된행,0,0,0,0,0


기존 인덱스와 중복되는 경우 새로운 행을 추가하지 않고 기존 행의 원소값을 변경한다.  
행 인덱스를 지정할 때 기존 인덱승의 순서를 따르지 않아도 된다.

#### 원소 값 변경
```python
원소 값 변경: DataFrame 객체의 일부분 또는 원소를 선택 = 새로운 값
```

In [69]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장.
exam_data = { '이름': ['서준', '우현', '인아'],
              '수학': [90, 80, 70],
              '영어': [98, 89, 95],
              '음악': [85, 95, 100],
              '체육' : [100, 90, 90] }
df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90


In [70]:
# '이름' 열을 새로운 인덱스로 지정하고, df 객체에 변경사항 반영
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [71]:
# 데이터프레임 df의 특정 원소를 변경하는 방법: '서준'의 '체육' 점수
df.iloc[0][3] = 80
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,80
우현,80,89,95,90
인아,70,95,100,90


In [72]:
df.loc['서준']['체육'] = 90
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,90
우현,80,89,95,90
인아,70,95,100,90


In [73]:
df.loc['서준', '체육'] = 100
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [74]:
# 데이터프레임 df의 원소 여러 개를 변경하는 방법: '서준'의 '음악', '체육' 점수
df.loc['서준', ['음악', '체육']] = 50
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,50,50
우현,80,89,95,90
인아,70,95,100,90


In [75]:
df.loc['서준', ['음악', '체육']] = 100, 50
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,100,50
우현,80,89,95,90
인아,70,95,100,90


#### 행, 열의 위치 바꾸기
데이터프레임의 행과 열을 서로 맞바꾸는 방법이다.  
선형대수학의 전치행렬과 같은 개념이다.  
전치의 결과로 새로운 객체를 반환하므로, 기존 객체를 변경하기 위해서는 `df = df.transpose()` 또는 `df = df.T`와 같이 사용해야 한다.  
```python
행, 열 바꾸기 = DataFrame 객체.transpose() 또는 DataFrame 객체.T
```

In [76]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장.
exam_data = { '이름': ['서준', '우현', '인아'],
              '수학': [90, 80, 70],
              '영어': [98, 89, 95],
              '음악': [85, 95, 100],
              '체육' : [100, 90, 90] }
df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90


In [77]:
# 데이터프레임 df를 전치하기(메소드 활용)
df = df.transpose()
df

Unnamed: 0,0,1,2
수학,90,80,70
영어,98,89,95
음악,85,95,100
이름,서준,우현,인아
체육,100,90,90


In [78]:
# 데이터프레임 df를 다시 전치하기(클래스 속성 활용)
df = df.T
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90


## 3. 인덱스 활용
#### 특정 열을 행 인덱스로 설정
`set_index()` 메소드를 사용하여 데이터프레임의 특정 열을 행 인덱스로 설정한다.  
단, 원본 데이터프레임을 바꾸지 않고 새로운 데이터프레임 객체를 반환한다.  
```python
특정 열을 행 인덱스로 설정: DataFrame 객체.set_index( ['열 이름'] 또는 '열 이름' )
```
`set_index()` 메소드를 사용하여 행 인덱스를 새로 지정하면 기존 행 인덱스는 삭제된다.

In [79]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장.
exam_data = { '이름': ['서준', '우현', '인아'],
              '수학': [90, 80, 70],
              '영어': [98, 89, 95],
              '음악': [85, 95, 100],
              '체육' : [100, 90, 90] }
df = pd.DataFrame(exam_data)
df

Unnamed: 0,수학,영어,음악,이름,체육
0,90,98,85,서준,100
1,80,89,95,우현,90
2,70,95,100,인아,90


In [80]:
# 특정 열(column)을 데이터프레임의 행 인덱스(index)로 설정
ndf = df.set_index(['이름'])
ndf

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [81]:
ndf2 = ndf.set_index('음악')
ndf2

Unnamed: 0_level_0,수학,영어,체육
음악,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
85,90,98,100
95,80,89,90
100,70,95,90


In [82]:
ndf3 = ndf.set_index(['수학', '음악'])
ndf3

Unnamed: 0_level_0,Unnamed: 1_level_0,영어,체육
수학,음악,Unnamed: 2_level_1,Unnamed: 3_level_1
90,85,98,100
80,95,89,90
70,100,95,90


#### 행 인덱스 재배열
`reindex()` 메소드를 사용하면 데이터프레임의 행 인덱스를 새로운 배열로 재지정할 수 있다.  
기존 객체를 변경하지 않고 새로운 데이터프레임 객체를 반환한다.  
```python
새로운 배열로 행 인덱스를 재지정: DataFrame 객체.reindex( 새로운 인덱스 배열 )
```

In [83]:
# 딕셔너리 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
dict_data

{'c0': [1, 2, 3],
 'c1': [4, 5, 6],
 'c2': [7, 8, 9],
 'c3': [10, 11, 12],
 'c4': [13, 14, 15]}

In [84]:
# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [85]:
#인덱스를 [r0, r1, r2, r3, r4]로 재지정
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf = df.reindex(new_index)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [86]:
# reindex로 발생한 NaN값을 숫자 0으로 채우기
ndf2 = df.reindex(new_index, fill_value=0)
ndf2

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


#### 행 인덱스 초기화
`reset_index()` 메소드를 활용하여 행 인덱스를 정수형 위치 인덱스로 초기화한다.  
이때 기존 행 인덱스는 열로 이동한다. 다른 경우와 마찬가지로 새로운 데이터프레임 객체를 반환한다.  
```python
정수형 위치 인덱스로 초기화: DataFrame 객체.reset_index()
```

In [87]:
# 행 인덱스를 정수형으로 초기화
ndf3 = df.reset_index()
ndf3

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


#### 행 인덱스를 기준으로 데이터프레임 정렬
`sort_index()`메소드를 활용하여 행 인덱스를 기준으로 데이터프레임의 값을 정렬한다.  
ascending 옵션을 사용하여 오름차순 또는 내림차순을 설정한다. 새롭게 정렬된 데이터프레임을 반환한다.  

```python
행 인덱스 기준 정렬: DataFrame 객체.sort_index()
```

In [88]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [89]:
ndf4 = df.sort_index(ascending=False)
ndf4

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


#### 특정 열의 데이터 값을 기준으로 데이터프레임 정렬하기
`sort_values()` 메소드를 활용하여 특정 열의 데이터를 기준으로 데이터프레임을 정렬할 수 있다.  
아래 예에서는 'c1' 열을 기준으로 데이터프레임을 내림차순으로 정렬한다.

In [90]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [91]:
ndf5 = df.sort_values(by='c1', ascending=False)
ndf5

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


## 4. 산술연산
* 행/열 인덱스를 기준으로 모든 원소를 정렬한다.
* 동일한 위치에 있는 원소끼리 일대일로 대응시킨다.
* 일대일 대응이 되는 원소끼리 연산을 처리한다.
* 대응되는 원소가 없으면 NaN으로 처리한다.

### 4.1 시리즈 연산
#### 시리즈 vs 숫자

In [92]:
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student1

국어    100
수학     90
영어     80
dtype: int64

In [93]:
percentage = student1 / 200
percentage

국어    0.50
수학    0.45
영어    0.40
dtype: float64

In [94]:
type(percentage)

pandas.core.series.Series

#### 시리즈 vs 시리즈

In [95]:
student2 = pd.Series({'수학':80, '국어':90, '영어':80})
student2

국어    90
수학    80
영어    80
dtype: int64

In [96]:
addition = student1 + student2
addition

국어    190
수학    170
영어    160
dtype: int64

In [97]:
subtraction = student1 - student2
subtraction

국어    10
수학    10
영어     0
dtype: int64

In [98]:
multiplication = student1 * student2
multiplication

국어    9000
수학    7200
영어    6400
dtype: int64

In [99]:
division = student1 / student2
division

국어    1.111111
수학    1.125000
영어    1.000000
dtype: float64

In [100]:
result = pd.DataFrame([addition, subtraction, multiplication, division],
                     index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,190.0,170.0,160.0
뺄셈,10.0,10.0,0.0
곱셈,9000.0,7200.0,6400.0
나눗셈,1.111111,1.125,1.0


In [101]:
import pandas as pd
import numpy as np

In [102]:
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90})

In [103]:
student1

국어     NaN
수학    90.0
영어    80.0
dtype: float64

In [104]:
student2

국어    90
수학    80
dtype: int64

In [105]:
addition = student1 + student2
addition

국어      NaN
수학    170.0
영어      NaN
dtype: float64

In [106]:
subtraction = student1 - student2
subtraction

국어     NaN
수학    10.0
영어     NaN
dtype: float64

In [107]:
multiplication = student1 * student2
multiplication

국어       NaN
수학    7200.0
영어       NaN
dtype: float64

In [108]:
division = student1 / student2
division

국어      NaN
수학    1.125
영어      NaN
dtype: float64

In [109]:
result = pd.DataFrame([addition, subtraction, multiplication, division],
                     index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,,170.0,
뺄셈,,10.0,
곱셈,,7200.0,
나눗셈,,1.125,


#### 연산 메소드
연산에서 객체 사이에 공통 인덱스가 없거나 NaN이 포함된 경우 연산 결과는 NaN으로 반환된다.  
이런 상황을 피하려면 연산 메소드에 fill_value 옵션을 설정하여 적용한다.  
```python
연산 메소드 사용(시리즈와 시리즈 덧셈): Series1.add(Series2, fill_value=0)
```

In [110]:
student1

국어     NaN
수학    90.0
영어    80.0
dtype: float64

In [111]:
student2

국어    90
수학    80
dtype: int64

In [112]:
sr_add = student1.add(student2, fill_value=0)
sr_sub = student1.sub(student2, fill_value=0)
sr_mul = student1.mul(student2, fill_value=0)
sr_div = student1.div(student2, fill_value=0)
result = pd.DataFrame([sr_add, sr_sub, sr_mul, sr_div],
                     index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,90.0,170.0,80.0
뺄셈,-90.0,10.0,80.0
곱셈,0.0,7200.0,0.0
나눗셈,0.0,1.125,inf


### 4.2 데이터프레임 연산
시리즈 연산을 확장하는 개념으로 이해해야 함.  
#### 데이터프레임 vs 숫자

In [113]:
import pandas as pd
import seaborn as sns

In [114]:
# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [115]:
type(df)

pandas.core.frame.DataFrame

In [116]:
# 데이터프레임에 숫자 10 더하기
addition = df + 10
addition.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


In [117]:
type(addition)

pandas.core.frame.DataFrame

#### 데이터프레임 vs 데이터프레임
각 데이터프레임의 같은 행, 같은 열 위치에 있는 원소끼리 계산한다.

In [118]:
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [119]:
df.tail()

Unnamed: 0,age,fare
886,27.0,13.0
887,19.0,30.0
888,,23.45
889,26.0,30.0
890,32.0,7.75


In [120]:
type(df)

pandas.core.frame.DataFrame

In [121]:
# 데이터프레임에 숫자 10 더하기
addition = df + 10
df.tail()

Unnamed: 0,age,fare
886,27.0,13.0
887,19.0,30.0
888,,23.45
889,26.0,30.0
890,32.0,7.75


In [122]:
subtraction = addition - df
subtraction.tail()

Unnamed: 0,age,fare
886,10.0,10.0
887,10.0,10.0
888,,10.0
889,10.0,10.0
890,10.0,10.0
