# Ch07. Pandas - 자료형 다루기

---
* 날짜:
* 이름:


## 개념정리
---


```
import pandas as pd
```



In [1]:
import pandas as pd

---
### **(1) 판다스 자료형 : Series**
---

Series 는 1차원 배열 자료형으로 인덱스와 값의 쌍으로 구성되어 있습니다. 

| index | data |
|--|--|
|a|1|
|b|2|
|c|3|

#### **| 딕셔너리를 이용해 생성하기**

*  `pd.Series(dictionary)` : `dictionary` 자료형을 이용해 데이터를 생성합니다. 

```
s = pd.Series({"a": 1, "b": 2, "c":3})
s
```

In [None]:
s = pd.Series({"a": 1, "b": 2, "c":3})
s

a    1
b    2
c    3
dtype: int64

#### **| 리스트를 이용해 생성하기**

*  `pd.Series(list)` : `list` 자료형을 이용해 데이터를 생성합니다. (튜플, 넘파이어레이 도 가능합니다)

```
s = pd.Series([1, 2, 3])
s
```

In [None]:
s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64


위에서와 같이 `index` 없이 `list`만 작성하면 index 값은 자동적으로 0,1,2, .... 값으로 적용됩니다. 

원하는 `index`를 주려면 아래와 같이 작성합니다. 

* `pad.Series(list, index)` : `list` 자료형을 이용해 데이터 생성 시 `index`를 부여합니다. 



```
s = pd.Series([1,2,3], index=['a','b','c'])
```

In [None]:
s = pd.Series([1,2,3], index=['a','b','c'])

#### **| 값 확인**


* `.values` : `series`의 `data` 값을 반환 합니다. 
* `.index`: `series`의 `index` 값을 반환합니다. 

`values`와 `index` 값을 출력하고 두 값의 데이터 타입을 확인해 봅시다. 

```
print(s.values, type(s.values))
print(s.index, type(s.index))
```

In [None]:
print(s.values, type(s.values))
print(s.index, type(s.index))

[1 2 3] <class 'numpy.ndarray'>
Index(['a', 'b', 'c'], dtype='object') <class 'pandas.core.indexes.base.Index'>


#### | **브로드 캐스팅**

`values` 값은 `ndarray` 타입임을 확인할 수 있습니다. 

이는 우리가 앞서 넘파이 어레이에서 사용한 것처럼 브로드 캐스팅이 가능함을 뜻합니다.

```
s ** 2
```

In [None]:
s ** 2

a    1
b    4
c    9
dtype: int64

---
### **(2) 판다스 자료형 : DataFrame**
---

`DataFrame`은 2차원 배열 자료형으로 앞서 배운 `Series`의 두가지 요소, 값(`value`) 행 인덱스(`index`) 에 추가로  열(`column`) 이 추가됩니다. 

| index | c1 | c2 |
|--|--|--|
|0|1|4|
|1|2|5|
|2|3|6|

#### **| 딕셔너리를 이용해 생성하기**

*  `pd.DataFrame(dictionary, index=0,1,..)` : `dictionary` 자료형을 이용해 데이터를 생성합니다.

```
df = pd.DataFrame({"c1": [1, 2, 3],
                  "c2": [4, 5, 6]}, 
                  )
df
```

In [None]:
df = pd.DataFrame({"c1": [1, 2, 3],
                  "c2": [4, 5, 6]}, 
                  )
df

Unnamed: 0,c1,c2
0,1,4
1,2,5
2,3,6


#### **| 리스트를 이용해 생성하기**


*  `pd.DataFrame(list, index=[0,1,..], columns=[0,1,...])` : `list` 자료형을 이용해 데이터를 생성합니다.

이번에는 넘파이 배열을 활용해서 생성해 보겠습니다. 

```
import numpy as np

d = np.array([[1,2,3],
              [4,5,6]])
df = pd.DataFrame(d)
df
```

In [None]:
import numpy as np

d = np.array([[1,2,3],
              [4,5,6]])
df = pd.DataFrame(d)
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


이 경우 데이터프레임을 만들 경우 넘파이 배열과 같은 차원개념으로 생성됩니다. 

따라서 위에서 만든 것과 같은 데이터프레임를 만들기 위해선 아래와 같이 작성해야 합니다. 

또한 열 인덱스를 부여하기 위해서는 `columns`를 추가로 적어줍니다.

```
import numpy as np

d = np.array([[1,2],
              [3,4],
              [5,6]])
df = pd.DataFrame(d, columns=['c1', 'c2'])
df
```

In [None]:
import numpy as np

d = np.array([[1,2],
              [3,4],
              [5,6]])
df = pd.DataFrame(d, columns=['c1', 'c2'])
df

Unnamed: 0,c1,c2
0,1,2
1,3,4
2,5,6


#### **| 값 확인**


* `.values` : `DataFrame`의 `data` 값을 반환 합니다. 
* `.index`: `DataFrame`의 `index` 값을 반환합니다. 
* `.columns`: `DataFrame`의 `columns` 값을 반환합니다.

`values`, `index`, `columns` 값을 출력하고 데이터 타입을 확인해 봅시다. 

```
print(df.values, type(df.values))
print(df.index, type(df.index))
print(df.columns, type(df.columns))
```

In [None]:
print(df.values, type(df.values))
print(df.index, type(df.index))
print(df.columns, type(df.columns))

[[1 2]
 [3 4]
 [5 6]] <class 'numpy.ndarray'>
RangeIndex(start=0, stop=3, step=1) <class 'pandas.core.indexes.range.RangeIndex'>
Index(['c1', 'c2'], dtype='object') <class 'pandas.core.indexes.base.Index'>


#### | **브로드 캐스팅**

`Series`와 마찬가지로 `DataFrame` 자료형도 브로드 캐스팅이 가능합니다. 

```
df ** 2

```

In [None]:
df ** 2

Unnamed: 0,c1,c2
0,1,4
1,9,16
2,25,36


`DataFrame`과 리스트의 연산을 하면 `DataFrame`의 각 열(`column`) 별로 연산이 진행됩니다. 

```
df ** [1,2]
```

In [None]:
df ** [1,2]

Unnamed: 0,c1,c2
0,1,4
1,3,16
2,5,36


---
### **(3) 인덱싱**
---



아래와 같은 데이터프레임을 우선 생성해 봅시다. 

| index | c1 | c2 | c3|
|--|--|--|--|
|a|1|2|3|
|b|4|5|6|
|c|7|8|9|
|d|10|11|12|

```
df = pd.DataFrame({'c1': [1,4,7,10],
                   'c2': [2,5,8,11],
                   'c3': [3,6,9,12]},
                   index=['a','b','c','d']
                   )
df
```


In [2]:
df = pd.DataFrame({'c1': [1,4,7,10],
                   'c2': [2,5,8,11],
                   'c3': [3,6,9,12]},
                   index=['a','b','c','d']
                   )
df

Unnamed: 0,c1,c2,c3
a,1,2,3
b,4,5,6
c,7,8,9
d,10,11,12


기본적으로 데이터프레임에 아래와 같이 바로 인덱싱을 하면 열에 대한 인덱싱이 됩니다.

```
df['c1'], df['c1']['a']
```

In [None]:
df['c1'], df['c1']['a']

(a     1
 b     4
 c     7
 d    10
 Name: c1, dtype: int64, 1)

이후 리스트처럼 행에 대한 인덱싱을 진행할 수 있습니다. 

```
df['c1']['a']
```

In [None]:
df['c1']['a']

1

열에 대한 인덱싱을 할 때는 아래와 같이 여러개의 열을 인덱싱할 수 있습니다.

```
df[['c1', 'c2']]
```

In [None]:
df[['c1', 'c2']]

Unnamed: 0,c1,c2
a,1,2
b,4,5
c,7,8
d,10,11


판다스에서는 더 효율적인 두가지 방법의 인덱싱 함수를 제공합니다. 



* `.loc[index,column]` : 명시적 인덱스
* `.iloc[index,column]` : 암묵적 인덱스


콤마(,) 기준 왼쪽은 행 인덱스(`index`)를 적고 오른쪽은 열 인덱스(`column`)를 입력합니다. 




#### | **명시적 인덱스**

* `.loc[index]` :  인덱스의 정확한 이름을 필요로 합니다. 

```
s_loc = df.loc['a']
```

In [None]:
s_loc = df.loc['a']

#### | **암묵적 인덱스**

* `.iloc[index]` : 인덱스의 정확한 이름과 별개로 0부터 인덱스를 부여합니다. 

```
s_iloc = df.iloc[0]
```

In [None]:
s_iloc = df.iloc[0]

#### | **행, 열 인덱싱**


| index | c1 | c2 | c3|
|--|--|--|--|
|a|1|2|3|
|b|4|5|6|
|c|7|8|9|
|d|10|11|12|

현재 정의된 `df`에서 값 5를 출력해 봅시다.

```
print(df.loc['b','c2'])
print(df.iloc[1,1])
```



In [None]:
print(df.loc['b','c2'])
print(df.iloc[1,1])

5
5


#### **| 연습문제**


**연습 01**

행 `b`을 출력해 봅시다.




In [None]:
df.loc['b']

c1    4
c2    5
c3    6
Name: b, dtype: int64

**연습 02**

열 `c3`을 출력해 봅시다.  


In [None]:
df.loc[:, 'c3']

a     3
b     6
c     9
d    12
Name: c3, dtype: int64

**연습 03**

행 `d`의 열 `c1`과 `c3`을 출력해 봅시다.


In [None]:
df.loc['d', ['c1','c3']]

c1    10
c3    12
Name: d, dtype: int64

---
### **(4) 슬라이싱**
---

인덱스를 앞에서 배웠으니 이번엔 인덱스와 인덱스 까지의 값을 찾는 슬라이싱을 배워보도록 하겠습니다. 

시작하기전 `df`의 형태를 다시한번 확인해보겠습니다.

```
df
```



In [None]:
df

Unnamed: 0,c1,c2,c3
a,1,2,3
b,4,5,6
c,7,8,9
d,10,11,12


#### | **명시적 인덱스 슬라이싱**

* `.loc[index1:index1]` : `index1` 부터 `index2`까지 슬라이싱 합니다. 
인덱스의 정확한 이름을 필요로 합니다. 



|||||
|--|--|--|--|
|b|4|5|6|
|c|7|8|9|

`df` 에서 위에 해당하는 행만 출력해 봅시다. 

```
df.loc['b':'c']
```

In [10]:
df.loc['b':'c', 'c1':'c2']

Unnamed: 0,c1,c2
b,4,5
c,7,8


#### | **암묵적 인덱스 슬라이싱**

* `.iloc[index1:index2]` : `index1` 부터 `index2` 전 까지 슬라이싱 합니다.  인덱스의 정확한 이름과 별개로 0부터 인덱스를 부여합니다. 



|||||
|--|--|--|--|
|b|4|5|6|
|c|7|8|9|

`df` 에서 위에 해당하는 행만 출력해 봅시다. 

```
df.iloc[1:3]
```
`iloc`의 경우 기본적으로 슬라이싱 방법이 파이썬이나 넘파이의 슬라이싱 방법과 같습니다. 이에 유의하여 슬라이싱을 해야 합니다. 

In [None]:
df.iloc[1:3]

Unnamed: 0,c1,c2,c3
b,4,5,6
c,7,8,9


#### | **행, 열 슬라이싱**

* `.loc[index1:index2 , column1:column2]`
* `.iloc[index1:index2 , column1:column2]`

콤마(,) 기준 왼쪽은 행 인덱스의 범위(`index1, index2`)를 적고 오른쪽은 열 인덱스의 범위 (`column1`, `column2`)를 입력합니다. 



| index | c1 | c2 | c3|
|--|--|--|--|
|a|1|2|3|
|b|4|5|6|
|c|7|8|9|
|d|10|11|12|


* 현재 정의된 `df`에서 다음을 출력해 봅시다.

|||||
|--|--|--|--|
|b|4|5|
|c|7|8|


```
print(df.loc['b':'c','c1':'c2'])
print(df.iloc[1:3, :2])
```


In [None]:
print(df.loc['b':'c','c1':'c3'])
print(df.iloc[1:3, :2])   

   c1  c2  c3
b   4   5   6
c   7   8   9
   c1  c2
b   4   5
c   7   8


#### **| 연습문제**


**연습 04**


현재 정의된 `df`에서 다음을 출력해 봅시다.

|||||
|--|--|--|--|
|a|2|3|
|b|5|6|
|c|8|9|





In [None]:
df.iloc[0:3, 1:3]

Unnamed: 0,c2,c3
a,2,3
b,5,6
c,8,9


## 문제풀이
---

**예제 01**

딕셔너리를 사용해 다음과 같은 데이터 프레임을 작성한 후 `df01`으로 정의하세요.

| index | A | B | C | 
|--|--|--|--|
|00|1|0|1|
|01|2|2|1|
|02|3|3|0|

In [None]:
df01 = pd.DataFrame({"A":[1,2,3], "B":[0,2,3], "C":[1,1,0]}, index=["00","01","02"])
df01

Unnamed: 0,A,B,C
0,1,0,1
1,2,2,1
2,3,3,0


**예제 02**

딕셔너리를 사용하지 않고 다음과 같은 데이터 프레임을 작성한 후 `df02`으로 정의하세요.


| index | A | B | C | 
|--|--|--|--|
|00|1|0|1|
|01|2|2|1|
|02|3|3|0|

In [None]:
d = np.array([[1,0,1],
              [2,2,1],
              [3,3,0]])
df02 = pd.DataFrame(d, columns=["A","B","C"], index=["00","01","02"])
df02

Unnamed: 0,A,B,C
0,1,0,1
1,2,2,1
2,3,3,0


**예제 03**

`df01`의 행 인덱스(index)와 열 인덱스 (columns)을 출력하세요.



In [None]:
print(df01.index, df01.columns)

Index(['00', '01', '02'], dtype='object') Index(['A', 'B', 'C'], dtype='object')


**예제 04**

`df01` 값에 모두 5를 더한것을 출력하세요 (바인딩 하지 마세요.)


In [None]:
df01 + 5

Unnamed: 0,A,B,C
0,6,5,6
1,7,7,6
2,8,8,5


**예제 05**

`df01`에서 `0`에 해당하는 값둘을 명시적 인덱싱을 이용해서 하나씩 출력하세요. 

In [None]:
print(df01.loc['00','B'])
print(df01.loc['02','C'])

0
0


**예제 06**

`df01`에서 `1`에 해당하는 값들을 암묵적 인덱싱을 이용해서 하나씩 출력하세요. 

In [None]:
print(df01.iloc[0,1])
print(df01.iloc[2,2])

0
0


**예제 07**

`df01`에서 아래 데이터를 명시적 인덱스를 사용한 슬라이싱을 이용해 출력하세요.

| index | A | B | 
|--|--|--|
|01|2|2|
|02|3|3|



In [None]:
df01.loc["01":"02","A":"B"]

Unnamed: 0,A,B
1,2,2
2,3,3


**예제 08**

`df01`에서 아래 데이터를 암묵적 인덱스를 사용한 슬라이싱을 이용해 출력하세요.

| index | A | B | 
|--|--|--|
|01|2|2|
|02|3|3|



In [None]:
df01.iloc[0:2,0:2]

Unnamed: 0,A,B
0,1,0
1,2,2


**예제 09**

`df01`에서 아래 데이터를 명시적 인덱스를 사용한 슬라이싱을 이용해 출력하세요.

| index | B | C | 
|--|--|--|
|00|0|1|
|01|2|1|
|02|3|0|



In [None]:
df01.loc["00":"02", "B":"C"]

Unnamed: 0,B,C
0,0,1
1,2,1
2,3,0


**예제 10**

`df01`에서 아래 데이터를 암묵적 인덱스를 사용한 슬라이싱을 이용해 출력하세요.

| index | B | C | 
|--|--|--|
|00|0|1|
|01|2|1|
|02|3|0|



In [None]:
df01.iloc[:,1:]

Unnamed: 0,B,C
0,0,1
1,2,1
2,3,0
