# Pandas

## 시리즈, 데이터프레임
- 주로 수치 데이터를 다루는 넘파이와는 달리 판다스는 문자,숫자 등 다양한 자료형을 갖는 데이터들을 한꺼번에 수정, 재배치, 연산할 수 있는 라이브러리임.
1. 시리즈 : 넘파이의 벡터와 같은 1차원 형태
2. 데이터프레임 : 넘파이의 행렬과 같은 2차원 형태

## 판다스의 역할
- 데이터를 표(테이블) 형태로 쉽게 다루는 도구: CSV, Excel 등의 파일을 읽어서 정리하고 분석할 수 있음
- 실무에서 가장 많이 쓰는 데이터 분석 라이브러리: 결측치 처리, 데이터 필터링, 통계 계산 등을 간단하게 할 수 있음

## 판다스 데이터 구조

### 시리즈
- 1차원 배열
- 넘파이의 열 벡터 형태(딕셔너리와 비슷한 구조)
- 인덱스로 데이터 저장

### 데이터프레임
- 2차원 배열
- 넘파이의 행렬 형태
- 인덱스와 칼럼으로 데이터 저장

## 판다스 vs 넘파이

- 판다스는 사용자가 index를 설정 가능한 반면 넘파이는 index가 숫자로 자동 생성된다.
- 판다스는 index 타입이 다양한 데이터 유형이 올 수 있는 반면 넘파이는 정수형만 올 수 있다.
- 판다스는 데이터 수정, 삭제, 변환 등의 기능을 가지고 있고 넘파이는 쉽고 빠르게 배열의 연산을 할 수 있다.

In [None]:
# 판다스 라이브러리를 불러와 pd라는 별명으로 사용


## 시리즈 

### 시리즈 생성

In [None]:
# 리스트를 전달하여 시리즈 생성


grandpa     60
grandma     70
grandson    12
dtype: int64

In [None]:
# 딕셔너리를 전달하여 시리즈 생성


grandpa     60
grandma     70
grandson    12
dtype: int64

### 시리즈 인덱스 설정

In [None]:
# 인덱스 명시 없이 시리즈 생성 시 인덱스는 자동으로 0부터 시작하는 정수로 설정


0    60
1    70
2    12
dtype: int64

In [None]:
# 넘파이의 arange() 함수를 사용하면 인덱스나 데이터를 한꺼번에 설정 가능
import numpy as np

0    1
1    2
2    3
dtype: int64

## 시리즈 다루기

In [None]:
# 시리즈 객체[인덱스]를 이용하면 각 데이터에 접근 가능


np.int64(60)

In [None]:
# 시리즈의 인덱스 확인


Index(['grandpa', 'grandma', 'grandson'], dtype='object')

In [None]:
# 시리즈의 값 확인


array([60, 70, 12])

### 다양한 함수

In [None]:
# 데이터 값이 없는 것을 포함한 시리즈 생성
# 'nan'은 'Not a Number'의 약자로 값이 없는 데이터를 의미함


grandpa     60.0
grandma     70.0
grandson    12.0
papa         NaN
mama        42.0
dtype: float64

In [None]:
# 시리즈의 형태


(5,)

In [None]:
# 시리즈의 데이터 개수


5

5

In [None]:
# 값이 있는 데이터의 개수


np.int64(4)

In [None]:
# 데이터의 종류 출력


array([60., 70., 12., nan, 42.])

In [None]:
# 각 데이터 값의 개수


60.0    1
70.0    1
12.0    1
42.0    1
Name: count, dtype: int64

In [None]:
# 데이터의 평균


np.float64(46.0)

In [None]:
# 앞의 5개 데이터 보기


grandpa     60.0
grandma     70.0
grandson    12.0
papa         NaN
mama        42.0
dtype: float64

In [None]:
# 뒤의 5개 데이터 보기


grandpa     60.0
grandma     70.0
grandson    12.0
papa         NaN
mama        42.0
dtype: float64

### 시리즈 데이터 연산

#### 유의할 점

- 시리즈와 시리즈 간의 연산에서는 인덱스가 일치하는 것끼리 연산, 인덱스가 일치하지 않을 때는 결과로 'NaN'을 출력
- 시리즈 간 연산과 스칼라와 시리즈간의 연산은 넘파이처럼 각 데이터별로 연산함

In [None]:
owl_age = pd.Series([60,70,12], ['grandpa', 'grandma', 'grandson'])
owl_friends = pd.Series([45,82,78], ['cousin', 'grandpa', 'grandma'])
# 시리즈 간 더하기

cousin        NaN
grandma     148.0
grandpa     142.0
grandson      NaN
dtype: float64

In [None]:
# 시리즈와 스칼라 간 곱하기

grandpa     180
grandma     210
grandson     36
dtype: int64

## 데이터프레임
- 여러 개의 시리즈를 모아서 나타낸 것으로, 데이터 분석과 머신러닝에서 데이터를 변형하기 위하여 많이 사용되는 판다스의 핵심이다.

### 데이터프레임 생성

- 판다스 객체.DataFrame(2차원 배열, index = 인덱스 배열, columns = 칼럼 배열) -> 배열 이용
- 판다스 객체.DataFrame([시리즈 리스트], [index 0, …, 인덱스 리스트n]) -> 시리즈 이용
- 판다스 객체.DataFrame(딕셔너리, [index 0, …, 인덱스 리스트n]) -> 딕셔너리 이용

In [None]:
# 2차원 배열 이용해서 데이터프레임 생성


Unnamed: 0,age,weight,height,nickname
grandpa,60,3.8,4.4,Shark
grandma,70,7.2,5.6,Audrey
grandson,2,6.3,6.4,Smurf


In [None]:
# 시리즈를 이용해서 데이터프레임 생성

# 데이터프레임 생성


In [None]:
# 딕셔너리를 이용해서 데이터프레임 생성

# 데이터프레임 생성


Unnamed: 0,age,weight,height,nickname
grandpa,60,3.8,4.4,Shark
grandma,70,7.2,5.6,Audrey
grandson,12,6.3,6.4,Smurf


## 데이터 접근
- 인덱스(행) 또는 칼럼(열) 단위로 데이터에 접근하거나 시리즈처럼 특정 데이터에 접근하는 방법이 있음.
- 칼럼 단위의 데이터에 접근하기 위해 기본적으로 대괄호([])를 사용하며 , 대괄호 안에 칼럼명을 제시함.

### 하나의 칼럼 가져오기

In [None]:
dic = {'age': [60, 70, 12],
     'weight': [3.8, 7.2, 6.3],
     'height': [4.4, 5.6, 6.4],
     'nickname': ['Shark', 'Audrey', 'Smurf']}
owl = pd.DataFrame(dic, ['grandpa', 'grandma', 'grandson'])
# 한 개의 칼럼을 시리즈로 출력


grandpa      Shark
grandma     Audrey
grandson     Smurf
Name: nickname, dtype: object

In [None]:
dic = {'age': [60, 70, 12, 45, 42],
       'weight': [3.8, 7.2, 6.3, 5.5, 4.6],
       'height': [4.4, 5.6, 6.4, 5.7, 7.8],
       'nickname': ['Shark', 'Audrey', 'Smurf', 'Tongk', 'JJ']}
owl = pd.DataFrame(dic, ['grandpa', 'grandma', 'grandson', 'papa', 'mama'])
# 다음 코드와 같이 여러 개의 칼럼을 추출하면 keyError가 발생함.


KeyError: ('height', 'nickname')

### 여러 개 칼럼 가져오기
- 데이터프레임에서 여러 개의 칼럼을 가져올 때는 [] 안에 칼럼명을 리스트 형태로 나열하여 제시함.

In [None]:
dic = {'age': [60, 70, 12, 45, 42],
       'weight': [3.8, 7.2, 6.3, 5.5, 4.6],
       'height': [4.4, 5.6, 6.4, 5.7, 7.8],
       'nickname': ['Shark', 'Audrey', 'Smurf', 'Tongk', 'JJ']}
owl = pd.DataFrame(dic, ['grandpa', 'grandma', 'grandson', 'papa', 'mama'])
# 여러 개 칼럼을 데이터프레임으로 출력


Unnamed: 0,height,nickname
grandpa,4.4,Shark
grandma,5.6,Audrey
grandson,6.4,Smurf
papa,5.7,Tongk
mama,7.8,JJ


### 인덱스(행) 단위 접근 

- loc[] : 인덱스명으로 행 접근
- iloc[] : 0부터 시작하는 정수형 인덱스로 행 접근

- 쉼표(,)를 사용하여 여러 개의 칼럼 선택 사능
- 행과 열을 동시에 선택 가능

- 행 하나만 추출할 때는 해당 행을 시리즈 형태로 추출
- 여러 개의 행을 동시에 추출할 때는 리스트 형태로 추출

In [None]:
dic = {'age': [60, 70, 12, 45, 42],
       'weight': [3.8, 7.2, 6.3, 5.5, 4.6],
       'height': [4.4, 5.6, 6.4, 5.7, 7.8],
       'nickname': ['Shark', 'Audrey', 'Smurf', 'Tongk', 'JJ']}
owl = pd.DataFrame(dic, ['grandpa', 'grandma', 'grandson', 'papa', 'mama'])
# 'grandma' 라는 인덱스의 행을 추출할 때는 loc[]을 사용


age             70
weight         7.2
height         5.6
nickname    Audrey
Name: grandma, dtype: object

In [None]:
# 시작 인덱스와 마지막 인덱스 범위를 지정하면 해당 범위의 행들을 출력


Unnamed: 0,age,weight,height,nickname
grandma,70,7.2,5.6,Audrey
grandson,12,6.3,6.4,Smurf
papa,45,5.5,5.7,Tongk


In [None]:
# 인덱스명 대신 리스트처럼 정수형 인덱스를 사용할 때는 iloc[]을 사용
# 1개 행 추출


age             70
weight         7.2
height         5.6
nickname    Audrey
Name: grandma, dtype: object

In [None]:
# 여러 개 행 추출


Unnamed: 0,age,weight,height,nickname
papa,45,5.5,5.7,Tongk
mama,42,4.6,7.8,JJ


### 인덱스(행), 칼럼(열) 단위 접근

In [None]:
# 데이터프레임에서 추출할 행과 열을 지정할 수 있음.


Unnamed: 0,weight,height
grandma,7.2,5.6
grandson,6.3,6.4


Unnamed: 0,weight,height
grandma,7.2,5.6
grandson,6.3,6.4


## 데이터프레임 다루기
- 데이터프레임에 인덱스(행) 및 칼럼(열)을 추가, 변경, 삭제하는 방법을 알아보자.

### 마지막에 칼럼 추가

In [None]:
# 데이퍼프레임에 새로운 칼럼 추가
dic = {'age': [60, 70, 12, 45, 42],
       'weight': [3.8, 7.2, 6.3, 5.5, 4.6],
       'height': [4.4, 5.6, 6.4, 5.7, 7.8],
       'nickname': ['Shark', 'Audrey', 'Smurf', 'Tongk', 'JJ']}
owl = pd.DataFrame(dic, ['grandpa', 'grandma', 'grandson', 'papa','mama'])
# hobby 칼럼 추가



Unnamed: 0,age,weight,height,nickname,sex
grandpa,60,3.8,4.4,Shark,M
grandma,70,7.2,5.6,Audrey,F
grandson,12,6.3,6.4,Smurf,M
papa,45,5.5,5.7,Tongk,M
mama,42,4.6,7.8,JJ,F


### 특정 위치에 칼럼 추가


In [None]:
# 데이퍼프레임에 새로운 칼럼 추가
dic = {'age': [60, 70, 12, 45, 42],
       'weight': [3.8, 7.2, 6.3, 5.5, 4.6],
       'height': [4.4, 5.6, 6.4, 5.7, 7.8],
       'nickname': ['Shark', 'Audrey', 'Smurf', 'Tongk', 'JJ']}
owl = pd.DataFrame(dic, ['grandpa', 'grandma', 'grandson', 'papa','mama'])

# 추가할 해당 칼럼의 위치를 지정하여 칼럼을 추가할 수 있음.
# 0부터 시작하는 칼럼 번호를 입력

Unnamed: 0,sex,age,weight,height,nickname
grandpa,M,60,3.8,4.4,Shark
grandma,F,70,7.2,5.6,Audrey
grandson,M,12,6.3,6.4,Smurf
papa,M,45,5.5,5.7,Tongk
mama,F,42,4.6,7.8,JJ


### 인덱스(행) 추가
- 데이터프레임에 새로운 인덱스를 추가할 수 있음.
- 인덱스 데이터에 접근할 때 사용했던 방법과 같이 loc[]를 사용하여 새로운 인덱스명과 추가할 데이터 리스트를 입력 가능.

In [None]:
dic = {'age': [60, 70, 12, 45, 42],
       'weight': [3.8, 7.2, 6.3, 5.5, 4.6],
       'height': [4.4, 5.6, 6.4, 5.7, 7.8],
       'nickname': ['Shark', 'Audrey', 'Smurf', 'Tongk', 'JJ']}
owl = pd.DataFrame(dic, ['grandpa', 'grandma', 'grandson', 'papa', 'mama'])
# uncle 인덱스 데이터 추가


Unnamed: 0,age,weight,height,nickname
grandpa,60,3.8,4.4,Shark
grandma,70,7.2,5.6,Audrey
grandson,12,6.3,6.4,Smurf
papa,45,5.5,5.7,Tongk
mama,42,4.6,7.8,JJ
uncle,33,8.2,7.0,DOC


### 인덱스(행)의 값 변경


In [None]:
# uncle 인덱스 데이터 값을 모두 0으로 설정


Unnamed: 0,age,weight,height,nickname
grandpa,60,3.8,4.4,Shark
grandma,70,7.2,5.6,Audrey
grandson,12,6.3,6.4,Smurf
papa,45,5.5,5.7,Tongk
mama,42,4.6,7.8,JJ
uncle,0,0.0,0.0,0


- 데이터프레임 객체.loc['인덱스명', '칼럼명'] = 새로운 값
- 데이터프레임 객체.iloc['인덱스 정수형 번호', '칼럼명 정수형 번호'] = 새로운 값
- 데이터프레임 객체.set_index('칼럼명', inplace = True/False) -> 인덱스를 다른 칼럼 데이터로 대체 가능

### 칼럼(열)의 값 번경

Unnamed: 0,age,weight,height,nickname
grandpa,60,3.8,4.4,Shark
grandma,71,7.2,5.6,Audrey
grandson,12,6.0,6.2,Smurf
papa,45,5.7,5.4,Tongk
mama,42,4.6,7.8,JJ
uncle,0,0.0,0.0,0


### 인덱스 변경

Unnamed: 0_level_0,age,weight,height
nickname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Shark,60,3.8,4.4
Audrey,71,7.2,5.6
Smurf,12,6.0,6.2
Tongk,45,5.7,5.4
JJ,42,4.6,7.8
0,0,0.0,0.0


### 인덱스명 / 칼럼명 변경

In [None]:
dic = {'age': [60, 70, 12, 45, 42],
       'weight': [3.8, 7.2, 6.3, 5.5, 4.6],
       'height': [4.4, 5.6, 6.4, 5.7, 7.8],
       'nickname': ['Shark', 'Audrey', 'Smurf', 'Tongk', 'JJ']}
owl = pd.DataFrame(dic, ['grandpa', 'grandma', 'grandson', 'papa', 'mama'])

# 인덱스명을 rename() 함수로 변경



Unnamed: 0,age,weight,height,nickname
GP,60,3.8,4.4,Shark
GM,70,7.2,5.6,Audrey
GS,12,6.3,6.4,Smurf
PP,45,5.5,5.7,Tongk
MM,42,4.6,7.8,JJ


In [None]:
dic = {'age': [60, 70, 12, 45, 42],
       'weight': [3.8, 7.2, 6.3, 5.5, 4.6],
       'height': [4.4, 5.6, 6.4, 5.7, 7.8],
       'nickname': ['Shark', 'Audrey', 'Smurf', 'Tongk', 'JJ']}
owl = pd.DataFrame(dic, ['grandpa', 'grandma', 'grandson', 'papa', 'mama'])

# 칼럼명을 rename() 함수로 번경


Unnamed: 0,A,W,H,N
grandpa,60,3.8,4.4,Shark
grandma,70,7.2,5.6,Audrey
grandson,12,6.3,6.4,Smurf
papa,45,5.5,5.7,Tongk
mama,42,4.6,7.8,JJ


### 인덱스/칼럼 삭제
- 인덱스나 칼럼을 삭제할 때는 drop() 함수를 사용
- 삭제할 인덱스명과 삭제할 칼럼명을 지정

```
데이터프레임 객체.drop(['삭제할 인덱스명'/리스트], axis = 0, inplace = True/False)
데이터프레임 객체.drop(['삭제할 칼럼명'/리스트], axis = 1, inplace = True/False)
```

- axis = 0 은 행(인덱스)를, axis = 1은 칼럼(열)을 의미
- inplace 같은 경우 inplace = False가 기본이며 이는 원본을 번경하지 않고 유지한 채 번경된 복사본을 반환, inplace = True로 할 시 원본 데이터를 번경

### 인덱스와 칼럼 맞바꾸기
- 데이터프레임의 행과 열을 맞바꾸어야 할 때는 transpose() 함수를 사용

In [None]:
dic = {'age': [60, 70, 12, 45, 42],
       'weight': [3.8, 7.2, 6.3, 5.5, 4.6],
       'height': [4.4, 5.6, 6.4, 5.7, 7.8],
       'nickname': ['Shark', 'Audrey', 'Smurf', 'Tongk', 'JJ']}
owl = pd.DataFrame(dic, ['grandpa', 'grandma', 'grandson', 'papa', 'mama'])
# 인덱스와 칼럼 맞바꾸기
