# Pandas 패키지의 소개

Pandas 패키지는 데이터 분석을 할 때 가장 많이 쓰이는 패키지다. 대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있는데 Pandas 패키지에서는 이러한 표 데이터를 다루기 위한 **시리즈(``Series``) 클래스**와 **데이터프레임(``DataFrame``) 클래스**를 제공한다.

## 시리즈 클래스

시리즈 클래스는 NumPy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 **인덱스(index)**를 붙일 수 있다. 데이터 자체는 **값(value)**라고 한다.

> 시리즈 = 값(value) + 인덱스(index)

### 시리즈 생성

데이터를 리스트나 1차원 배열 형식으로 ``Series`` 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다. 인덱스의 길이는 데이터의 길이와 같아야 한다. 다음 예에서 이 "서울", "부산" 등의 문자열이 인덱스의 값이다. 인덱스의 값을 **인덱스 라벨(label)**이라고도 한다. 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다.

다음 예제는 각 도시의 2015년 인구 데이터를 시리즈로 만든 것이다.

In [None]:
### dimension

In [None]:
### shape

만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 된다.

시리즈의 인덱스는 ``index`` 속성으로 접근할 수 있다. 시리즈의 값은 1차원 배열이며 ``values`` 속성으로 접근할 수 있다.

`name` 속성을 이용하여  시리즈 데이터에 이름을 붙일 수 있다. `index.name` 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있다. 

### 시리즈 연산

NumPy 배열처럼 시리즈도 **벡터화 연산**을 할 수 있다. 다만 연산은 **시리즈의 값에만 적용**되며 인덱스 값은 변하지 않는다. 예를 들어 인구 숫자를 백만 단위로 만들기 위해 시리즈 객체를 1,000,000 으로 나누어도 인덱스 라벨에는 영향을 미치지 않는 것을 볼 수 있다.

### 시리즈 인덱싱

시리즈는 NumPy 배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있다. 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능하다. 

배열 인덱싱을 하면 자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다.

**문자열 라벨을 이용한 슬라이싱**을 하는 경우에는 **콜론(:) 기호 뒤에 오는 인덱스에 해당하는 값도 결과에 포함**되므로 주의해야 한다.

만약 **라벨 값이 영문 문자열인 경우**에는 마치 속성인것처럼 **점(.)을 이용하여 접근**할 수도 있다.

###  시리즈와 딕셔너리 자료형

시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 라벨 값을 키(key)로 가지는 **딕셔너리 자료형과 같다**고 볼 수 있다. 따라서 딕셔너리 자료형에서 제공하는 **``in`` 연산도 가능**하고 **``items`` 메서드**를 사용하면 **``for`` 루프를 통해 각 원소의 키(key)와 값(value)을 접근**할 수도 있다.

또 **딕셔너리 객체에서 시리즈**를 만들 수도 있다. 이번에는 2010년의 인구 자료를 `s2`라는 이름의 시리즈로 만들어 보자. 이 데이터에는 대구의 인구 자료는 없지만 대신 대전의 인구 자료가 포함되어 있다.

In [None]:
## Dictionary를 pandas Series로

In [None]:
## Series의 이름 지정


In [None]:
# Series의 인덱스만  (판다스의 인덱스 타입)

In [None]:
# pandas의 인덱스 이름 지정

딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. 만약 **순서를 정하고 싶다면 인덱스를 리스트로 지정**해야 한다.

In [None]:
## Index로 순서 지정

### 인덱스 기반 연산

이번에는 **2015년도와 2010년의 인구 증가를 계산**해 보자. 두 개의 **시리즈의 차이**를 구하면 된다. 두 시리즈에 대해 연산을 하는 경우 **인덱스가 같은 데이터에 대해서만** 차이를 구한다.

대구와 대전의 경우에는 **2010년 자료와 2015년 자료가 모두 존재하지 않기 때문에 계산이 불가능**하므로 **``NaN``(Not a Number)** 이라는 값을 가지게 된다. 또한 ``NaN`` 값이 ``float`` 자료형에서만 가능하므로 다른 계산 결과도 모두 ``float`` 자료형이 되었다는 점에 주의한다. **``NaN``이 아닌 값**을 구하려면 **``notnull`` 메서드**를 사용한다.

마찬가지로 인구 증가율(%)은 다음과 같이 구할 수 있다.

### 데이터의 갱신, 추가, 삭제

인덱싱을 이용하면 딕셔너리처럼 데이터를 갱신(update)하거나 추가(add)할 수 있다.

데이터를 삭제할 때도 딕셔너리처럼 ``del`` 명령을 사용한다.

#### 연습 문제 1

1. 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.

2. 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

## 데이터프레임 클래스

시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것이라면 **데이터프레임(Data-Frame)** 클래스는 **2차원 행렬 데이터에 인덱스를 붙인 것과 비슷**하다. 2차원이므로 각각의 행 데이터의 이름이 되는 **행방향 인덱스(row index)** 뿐 아니라 각각의 열 데이터의 이름이 되는 **열방향 인덱스(column index)** 도 붙일 수 있다.

### 데이터프레임 생성

데이터프레임을 만드는 방법은 다양하다. 가장 간단한 방법은 다음과 같다.

1. 우선 하나의 열이 되는 데이터를 **리스트**나 **일차원 배열**을 준비한다. 
2. 이 각각의 **열에 대한 이름(라벨)을 키로 가지는 딕셔너리**를 만든다.
3. 이 데이터를 ``DataFrame`` 클래스 생성자에 넣는다. 동시에 **열방향 인덱스는 ``columns`` 인수**로, **행방향 인덱스는 ``index`` 인수**로 지정한다.

In [None]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
type(data)

In [None]:
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]

앞에서 데이터프레임은 2차원 배열 데이터를 기반으로 한다고 했지만 사실은 **공통 인덱스를 가지는 열 시리즈(column series)를 딕셔너리로 묶어놓은 것**이라고 보는 것이 더 정확하다. 2차원 배열 데이터는 모든 원소가 같은 자료형을 가져야 하지만 데이터프레임은 **각 열(column)마다 자료형이 다를 수 있기 때문**이다. 위 예제에서도 지역과 인구와 증가율은 각각 문자열, 정수, 부동소수점 실수이다.

시리즈와 마찬가지로 **데이터만 접근하려면 ``values`` 속성**을 사용한다. 열방향 인덱스와 행방향 인덱스는 각각 ``columns``, ``index`` 속성으로 접근한다.

In [None]:
### 값(value) 보기 

In [None]:
### 자료형

In [None]:
## 컬럼 인덱스

In [2]:
## 행 인덱스

시리즈에서 처럼 열방향 인덱스와 행방향 인덱스에 이름을 붙이는 것도 가능하다.

In [None]:
# 행, 열 방향 인덱스 및 테이블의 Title(제목) 지정


#### 연습 문제 2

다음 조건을 만족하는 임의의 데이터프레임을 하나 만든다.

1. 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.
1. 열에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 한다.

---

In [3]:
# 기본 데이터 
data = {
    "과목코드" : [1, 2, 3, 4, 5],
    "1차": [80, 88, 75, 90, 80],
    "2차": [40, 58, 70, 100, 99],
    "3차": [82, 82, 72, 92, 88],
    "4차": [70, 84, 75, 60, 70],
}
##columns = ["과목", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
columns = ["1차", "2차", "3차", "4차", "과목코드"]
index = ["국어", "영어", "수학", "딥러닝", "파이썬"]

In [5]:
## 데이터 프레임 만들기
df3=pd.DataFrame(dat,index=index,colums=solums)
df3

NameError: name 'pd' is not defined

데이터프레임은 전치(transpose)를 포함하여 **NumPy 2차원 배열이 가지는 대부분의 속성이나 메서드를 지원**한다.

In [None]:
df3.T

### 열 데이터의 갱신, 추가, 삭제

데이터프레임은 **열 시리즈의 딕셔너리**로 볼 수 있으므로 **열 단위로 데이터를 갱신하거나 추가, 삭제할 수 있다**.

### 열 인덱싱

데이터프레임은 열 시리즈의 딕셔너리와 비슷하다고 하였다. 따라서 데이터프레임을 인덱싱을 할 때도 **열 라벨(column label)을 키값으로 생각하여 인덱싱**을 할 수 있다. 인덱스로 **라벨 값을 하나만 넣으면 시리즈 객체가 반환**되고 **라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 반환**된다. 

In [5]:
## 열방향 인덱싱

In [6]:
## 열방향 다중 인덱싱 (라벨의 배열 또는 리스트)


만약 **하나의 열만 빼내면서 데이터프레임 자료형을 유지**하고 싶다면 원소가 하나인 리스트를 써서 인덱싱하면 된다.

In [None]:
# 열방향 인덱싱하여... 데이터프레임으로...(shape=(4,1))

---

데이터프레임의 열 인덱스가 문자열 라벨을 가지고 있는 경우에는 순서를 나타내는 정수 인덱스를 열 인덱싱에 사용할 수 없다. **정수 인덱싱**의 **슬라이스**는 뒤에서 설명하겠지만 **행(row)을 인덱싱할 때 사용**하므로 **열을 인덱싱할 때는 쓸 수 없다**. 정수 인덱스를 넣으면 `KeyError` 오류가 발생하는 것을 볼 수 있다.

 다만 원래부터 문자열이 아닌 정수형 열 인덱스를 가지는 경우에는 인덱스 값으로 정수를 사용할 수 있다.

---

### 행 인덱싱 (반드시 정수+슬라이싱만 가능)

만약 **행 단위로 인덱싱**을 하고자 하면 **항상 슬라이싱(slicing) 을 해야 한다.** 인덱스의 값이 문자 라벨이면 **라벨 슬라이싱도 가능**하다.

In [None]:
## 열 인덱싱 (키값으로 인덱싱하면 "열")

In [None]:
## 행 인덱싱 (정수의 슬라이싱=> 행인덱싱 )

In [None]:
# 행 인덱싱 (정수의 슬라이싱으로 인덱싱하면 "행")

In [None]:
## 문자열로 인덱싱하면 열 인덱싱이고... 이후에 "서울"로 인덱싱 가능
## df["열(column)인덱스"]["행(row)인덱스"] 로 개별 인덱싱 가능

In [None]:
### 행방향 이름으로 슬라이싱???
### 전치행렬 활용 가능

### 개별 데이터 인덱싱

데이터프레임에서 **열 라벨로 시리즈를 인덱싱**하면 **시리즈가 된다**. 이 시리즈를 다시 **행 라벨로 인덱싱**하면 **개별 데이터가** 나온다.

In [None]:
##  df[열인덱스][행인덱스]
## numpy에서는 array[행인덱스][열인덱스] *** 주의!!! 순서 반대!!!

지금까지의 **데이터프레임 인덱싱 방법**을 정리하면 다음과 같다.

| 인덱싱 값 | 가능 | 결과 | 자료형 | 추가사항 |
|-|-|-|-|-|
| 라벨 | O | 열 | 시리즈 | |
| 라벨 리스트 | O | 열 | 데이터프레임 | |
| 인덱스데이터(정수) | X |  |  | 열 라벨이 정수인 경우에는 라벨 인덱싱으로 인정 |
| 인덱스데이터(정수) 슬라이스 | O | 행 | 데이터프레임 | |


#### 연습 문제 3

다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.

```
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["윤기", "호석", "지민", "정국"]
df = pd.DataFrame(data, index=index, columns=columns)
```

1. 모든 학생의 수학 점수를 시리즈로 나타낸다.

In [None]:
# 기본 데이터
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}

columns = ["국어", "영어", "수학"]
index = ["윤기", "호석", "지민", "정국"]
df = pd.DataFrame(data, index=index, columns=columns)

In [None]:
#1. 모든 학생의 수학 점수를 시리즈로 나타낸다


2. 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

In [None]:
#2. 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.


3. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

In [None]:
# 3. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
## axis = 1 : 행방향 평균 (새로운 열 생성)

4. 정국의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

In [None]:
# 4. 정국의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

5. 윤기의 점수를 데이터프레임으로 나타낸다.

In [None]:
# 5. 윤기의 점수를 데이터프레임으로 나타낸다.


6. 지민의 점수를 시리즈로 나타낸다.