# CH07.Pandas - 자료형 다루기

---
* 날짜: 2022-04-13
* 이름: 고민수


## 개념정리

pandas는 데이타 분석(Data Analysis)을 위해 널리 사용되는 파이썬 라이브러리 패키지입니다. 이번 시간에는 pandas의 기본 자료형을 알아보고 간단하게 다루는 방법을 알아보도록 합니다. 
```
import pandas as pd
```



In [1]:
import pandas as pd

---
### **(1) 판다스 자료형 : Series**
---

Series 는 1차원 배열 자료형으로 인덱스와 값의 쌍으로 구성되어 있습니다. 

| index | data |
|--|--|
|a|1|
|b|2|
|c|3|

#### **| 딕셔너리를 이용해 생성하기**

*  `pd.Series(dictionary)` : `dictionary` 자료형을 이용해 데이터를 생성합니다. 

```
s = pd.Series({"a": 1, "b": 2, "c":3})
```

In [3]:
s = pd.Series({"a": 1, "b": 2, "c":3})
s

a    1
b    2
c    3
dtype: int64

#### **| 리스트를 이용해 생성하기**

*  `pd.Series(list)` : `list` 자료형을 이용해 데이터를 생성합니다. (튜플, 넘파이어레이 도 가능합니다)

```
s = pd.Series([1, 2, 3])
```

In [4]:
s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64


위에서와 같이 `index` 없이 `list`만 작성하면 index 값은 자동적으로 0,1,2, .... 값으로 적용됩니다. 

원하는 `index`를 주려면 아래와 같이 작성합니다. 

* `pad.Series(list, index)` : `list` 자료형을 이용해 데이터 생성 시 `index`를 부여합니다. 



```
s = pd.Series([1,2,3], index=['a','b','c'])
```

In [6]:
s = pd.Series([1,2,3], index=['a','b','c'])
s

a    1
b    2
c    3
dtype: int64

#### **| 값 확인**


* `.values` : `series`의 `data` 값을 반환 합니다. 
* `.index`: `series`의 `index` 값을 반환합니다. 

`values`와 `index` 값을 출력하고 두 값의 데이터 타입을 확인해 봅시다. 

```
print(s.values, type(s.values))
print(s.index, type(s.index))
```

#### | **브로드 캐스팅**

`values` 값은 `ndarray` 타입임을 확인할 수 있습니다. 

이는 우리가 앞서 넘파이 어레이에서 사용한 것처럼 브로드 캐스팅이 가능함을 뜻합니다.

```
s ** 2
```

In [8]:
s.values, s ** 2

(array([1, 2, 3], dtype=int64),
 a    1
 b    4
 c    9
 dtype: int64)

---
### **(2) 판다스 자료형 : DataFrame**
---

`DataFrame`은 2차원 배열 자료형으로 앞서 배운 `Series`의 두가지 요소, 값(`value`) 행 인덱스(`index`) 에 추가로  열(`column`) 이 추가됩니다. 

| index | c1 | c2 |
|--|--|--|
|0|1|4|
|1|2|5|
|2|3|6|

#### **| 딕셔너리를 이용해 생성하기**

*  `pd.DataFrame(dictionary, index=0,1,..)` : `dictionary` 자료형을 이용해 데이터를 생성합니다.

```
df = pd.DataFrame({"c1": [1, 2, 3],
                  "c2": [4, 5, 6]}, 
                  )
```

In [10]:
df = pd.DataFrame({"c1": [1, 2, 3],
                  "c2": [4, 5, 6]}, 
                  )
df

Unnamed: 0,c1,c2
0,1,4
1,2,5
2,3,6


#### **| 리스트를 이용해 생성하기**


*  `pd.DataFrame(list, index=[0,1,..], columns=[0,1,...])` : `list` 자료형을 이용해 데이터를 생성합니다.

이번에는 넘파이 배열을 활용해서 생성해 보겠습니다. 

```
import numpy as np

d = np.array([[1,2,3],
              [4,5,6]])
df = pd.DataFrame(d)
df
```

In [12]:
import numpy as np

d = np.array([[1,2,3],
              [4,5,6]])
df = pd.DataFrame(d)
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


리스트를 이용해 데이터프레임을 만들 경우 넘파이 배열과 같은 차원개념으로 생성됩니다. 

따라서 위에서 만든 것과 같은 데이터프레임를 만들기 위해선 아래와 같이 작성해야 합니다. 

또한 열 인덱스를 부여하기 위해서는 `columns`를 추가로 적어줍니다.

```
import numpy as np

d = np.array([[1,2],
              [3,4],
              [5,6]])
df = pd.DataFrame(d, columns=['c1', 'c2'])
```

In [17]:
import numpy as np

d = np.array([[1,4],
              [2,5],
              [3,6]])
df = pd.DataFrame(d, columns=['c1', 'c2'])
df

Unnamed: 0,c1,c2
0,1,4
1,2,5
2,3,6


#### **| 값 확인**


* `.values` : `DataFrame`의 `data` 값을 반환 합니다. 
* `.index`: `DataFrame`의 `index` 값을 반환합니다. 
* `.columns`: `DataFrame`의 `columns` 값을 반환합니다.

`values`, `index`, `columns` 값을 출력하고 데이터 타입을 확인해 봅시다. 

In [18]:
df.columns, type(df.columns)
df.values

array([[1, 4],
       [2, 5],
       [3, 6]])

#### | **브로드 캐스팅**

`Series`와 마찬가지로 `DataFrame` 자료형도 브로드 캐스팅이 가능합니다. 

```
df ** 2

```

In [19]:
df ** 2

Unnamed: 0,c1,c2
0,1,16
1,4,25
2,9,36


`DataFrame`과 리스트의 연산을 하면 `DataFrame`의 각 열(`column`) 별로 연산이 진행됩니다. 

```
df ** [1,2]
```

In [21]:
df ** [1,2]

Unnamed: 0,c1,c2
0,1,16
1,2,25
2,3,36


---
### **(3) 인덱싱**
---



아래와 같은 데이터프레임을 우선 생성해 봅시다. 

| index | c1 | c2 | c3|
|--|--|--|--|
|a|1|2|3|
|b|4|5|6|
|c|7|8|9|
|d|10|11|12|

```
df = pd.DataFrame({'c1': [1,4,7,10],
                   'c2': [2,5,8,11],
                   'c3': [3,6,9,12]},
                   index=['a','b','c','d']
                   )

```


In [31]:
df = pd.DataFrame({'c1': [1,4,7,10],
                   'c2': [2,5,8,11],
                   'c3': [3,6,9,12]},
                   index=['a','b','c','d']
                   )
df["c1"]

a     1
b     4
c     7
d    10
Name: c1, dtype: int64

In [30]:
# [  [ ]  ] 를 통해 칼럼 지정 가능

df[ ["c1","c3","c2"] ]

Unnamed: 0,c1,c3,c2
a,1,3,2
b,4,6,5
c,7,9,8
d,10,12,11



판다스의 객체에 대한 인덱싱은 `암묵적 인덱스`와 `명시적 인덱스` 두가지 방법으로 가능합니다. 


| 실제 인덱스 | loc (명시적 인덱스) | iloc(암묵적 인덱스) |
|--|--|--|
|a|a|0|
|b|b|1|
|c|c|2|


#### | **명시적 인덱스**

* `.loc[index]` :  인덱스의 정확한 이름을 필요로 합니다. 

```
s_loc = df.loc['a']
```

In [34]:
print(df)
s_loc = df.loc['b']
s_loc

   c1  c2  c3
a   1   2   3
b   4   5   6
c   7   8   9
d  10  11  12


c1    4
c2    5
c3    6
Name: b, dtype: int64

#### | **암묵적 인덱스**

* `.iloc[index]` : 인덱스의 정확한 이름과 별개로 0부터 인덱스를 부여합니다. 

```
s_iloc = df.iloc[0]
```

In [39]:
s_iloc = df.iloc[0]
s_iloc

c1    1
c2    2
c3    3
Name: a, dtype: int64

이 때 인덱싱의 반환 값은 모두  `Series` 임을 명심합니다.

```
type(s_loc), type(s_iloc)
```

In [40]:
type(s_loc), type(s_iloc)

(pandas.core.series.Series, pandas.core.series.Series)

#### | **행, 열 인덱싱**

* `.loc[index,column]`
* `.iloc[index,column]` 

콤마(,) 기준 왼쪽은 행 인덱스(`index`)를 적고 오른쪽은 열 인덱스(`column`)를 입력합니다. 



| index | c1 | c2 | c3|
|--|--|--|--|
|a|1|2|3|
|b|4|5|6|
|c|7|8|9|
|d|10|11|12|


* 현재 정의된 `df`에서 값 5를 출력해 봅시다.

```
print(df.loc['b','c2'])
print(df.iloc[1,1])
```


In [41]:
print(df.loc['b','c2'])
print(df.iloc[1,1])

5
5


#### **| 연습문제**


**연습 01**

현재 정의된 `df`에서 값 `12`를 출력해 봅시다.


In [42]:
df.iloc[-1,-1]

12

**연습 02**

행 `c`을 출력해 봅시다.




In [43]:
df.loc["c"]

c1    7
c2    8
c3    9
Name: c, dtype: int64

**연습 03**

행 `d`의 열 `c1`과 `c3`을 출력해 봅시다.


In [48]:
df[["c1,"c3"]]

Unnamed: 0,c1,c3
a,1,3
b,4,6
c,7,9
d,10,12


---
### **(4) 슬라이싱**
---

인덱스를 앞에서 배웠으니 이번엔 인덱스와 인덱스 까지의 값을 찾는 슬라이싱을 배워보도록 하겠습니다. 

시작하기전 `df`의 형태를 다시한번 확인해보겠습니다.

```
df
```



In [49]:
df

Unnamed: 0,c1,c2,c3
a,1,2,3
b,4,5,6
c,7,8,9
d,10,11,12


#### | **명시적 인덱스 슬라이싱**

* `.loc[index1:index1]` : `index1` 부터 `index2`까지 슬라이싱 합니다. 
인덱스의 정확한 이름을 필요로 합니다. 



|||||
|--|--|--|--|
|b|4|5|6|
|c|7|8|9|

`df` 에서 위에 해당하는 행만 출력해 봅시다. 

```
df.loc['b':'c']
```

In [50]:
df.loc['b':'c']

Unnamed: 0,c1,c2,c3
b,4,5,6
c,7,8,9


#### | **암묵적 인덱스 슬라이싱**

* `.iloc[index1:index2]` : `index1` 부터 `index2` 전 까지 슬라이싱 합니다.  인덱스의 정확한 이름과 별개로 0부터 인덱스를 부여합니다. 



|||||
|--|--|--|--|
|b|4|5|6|
|c|7|8|9|

`df` 에서 위에 해당하는 행만 출력해 봅시다. 

```
df.iloc[1:3]
```
`iloc`의 경우 기본적으로 슬라이싱 방법이 파이썬이나 넘파이의 슬라이싱 방법과 같습니다. 이에 유의하여 슬라이싱을 해야 합니다. 

In [51]:
df.iloc[1:3]

Unnamed: 0,c1,c2,c3
b,4,5,6
c,7,8,9


#### | **행, 열 슬라이싱**

* `.loc[index1:index2 , column1:column2]`
* `.iloc[index1:index2 , column1:column2]`

콤마(,) 기준 왼쪽은 행 인덱스의 범위(`index1, index2`)를 적고 오른쪽은 열 인덱스의 범위 (`column1`, `column2`)를 입력합니다. 



| index | c1 | c2 | c3|
|--|--|--|--|
|a|1|2|3|
|b|4|5|6|
|c|7|8|9|
|d|10|11|12|


* 현재 정의된 `df`에서 다음을 출력해 봅시다.

|||||
|--|--|--|--|
|b|4|5|
|c|7|8|


```
print(df.loc['b':'c','c1':'c2'])
print(df.iloc[1:3, 0:1])
```


In [52]:
print(df.loc['b':'c','c1':'c2'])
print(df.iloc[1:3, 0:1])

   c1  c2
b   4   5
c   7   8
   c1
b   4
c   7


#### **| 연습문제**


**연습 04**


현재 정의된 `df`에서 다음을 출력해 봅시다.

|||||
|--|--|--|--|
|a|2|3|
|b|5|6|
|c|8|9|





In [None]:
df

## 문제풀이
---

**예제 01**

딕셔너리를 사용해 다음과 같은 데이터 프레임을 작성한 후 `df01`으로 정의하세요.

| index | A | B | C | 
|--|--|--|--|
|00|1|0|1|
|01|2|2|1|
|02|3|3|0|

In [57]:
df01 = pd.DataFrame({"A":[1,0,1],
                    "B":[2,2,1],
                    "C":[3,3,0]},
                   index=["00","01","02"])
df01

Unnamed: 0,A,B,C
0,1,2,3
1,0,2,3
2,1,1,0


**예제 02**

딕셔너리를 사용하지 않고 다음과 같은 데이터 프레임을 작성한 후 `df02`으로 정의하세요.


| index | A | B | C | 
|--|--|--|--|
|00|1|0|1|
|01|2|2|1|
|02|3|3|0|

In [63]:
import numpy as np

lst = np.array([[1,0,1],[2,2,1],[3,3,0]])
df02 = pd.DataFrame(lst, columns=["A","B","C"], index=["00","01","02"])
df02

Unnamed: 0,A,B,C
0,1,0,1
1,2,2,1
2,3,3,0


**예제 03**

`df01`의 행 인덱스(index)와 열 인덱스 (columns)을 출력하세요.



In [65]:
df01.index, df01.columns

(Index(['00', '01', '02'], dtype='object'),
 Index(['A', 'B', 'C'], dtype='object'))

**예제 04**

`df01` 값에 모두 5를 더한것을 출력하세요 (바인딩 하지 마세요.)


In [66]:
df01 + 5

Unnamed: 0,A,B,C
0,6,7,8
1,5,7,8
2,6,6,5


**예제 05**

`df01`에서 `0`에 해당하는 값둘을 명시적 인덱싱을 이용해서 하나씩 출력하세요. 

In [70]:
df01.loc["01","A"], df01.loc["02","C"]

(0, 0)

**예제 06**

`df01`에서 `1`에 해당하는 값들을 암묵적 인덱싱을 이용해서 하나씩 출력하세요. 

In [74]:
df01.iloc[0,0], df01.iloc[2,0], df01.iloc[2,1]

(1, 1, 1)

**예제 07**

`df01`에서 아래 데이터를 명시적 인덱스를 사용한 슬라이싱을 이용해 출력하세요.

| index | A | B | 
|--|--|--|
|01|2|2|
|02|3|3|



In [76]:
df01.loc["01":"02","A":"B"]

Unnamed: 0,A,B
1,0,2
2,1,1


**예제 08**

`df01`에서 아래 데이터를 암묵적 인덱스를 사용한 슬라이싱을 이용해 출력하세요.

| index | A | B | 
|--|--|--|
|01|2|2|
|02|3|3|



In [78]:
df01.iloc[:2,:2]

Unnamed: 0,A,B
0,1,2
1,0,2


**예제 09**

`df01`에서 아래 데이터를 암묵적 인덱스를 사용한 슬라이싱을 이용해 출력하세요.

| index | B | C | 
|--|--|--|
|00|0|1|
|01|2|1|
|02|3|0|



In [79]:
df01.loc[:"02", "B":"C"]

Unnamed: 0,B,C
0,2,3
1,2,3
2,1,0


**예제 10**

`df01`에서 아래 데이터를 암묵적 인덱스를 사용한 슬라이싱을 이용해 출력하세요.

| index | B | C | 
|--|--|--|
|00|0|1|
|01|2|1|
|02|3|0|



In [82]:
df01.iloc[:3,1:]

Unnamed: 0,B,C
0,2,3
1,2,3
2,1,0
