# Pandas

- 파이썬에서 사용하는 데이터분석 라이브러리
- 행과 열로 이루어진 데이터 객체를 만들 수 있음
- 크게 두가지 데이터 타입이 있음 <br>
#### Series
- Index와 Value로 이루어진 데이터 타입 <br>
#### DataFrame
- Index와 Value와 Column으로 이루어진 데이터 타입
- Column은 Series로 이루어짐
- 엑셀의 테이블 형태과 유사함

In [None]:
!pip install pandas
import numpy as np
import pandas as pd
#pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)

import warnings
warnings.filterwarnings(action='ignore')



---

## 1. Series

### 1-1. 시리즈 생성 - 2가지

#### 1) 값만 넣기

이 경우, index는 자동으로 숫자

In [None]:
series1 = pd.Series([1, 6, 7, 3])
series1

NameError: ignored

#### 2) 딕셔너리로 생성

이 경우, 인덱스도 한 번에 원하는 것으로 설정할 수 있다.

In [None]:
series2 = pd.Series({'A' : 90, 'B' : 80, 'C' : 70, 'D': 60})
series2

### 1-2. 간단한 확인 메소드

In [None]:
# 값만 확인
series1.values

In [None]:
# 인덱스 확인
series1.index

In [None]:
# 자료형 확인
series1.dtypes

In [None]:
# 시리즈 이름, 인덱스 이름 설정 가능
series2.name = '학점 기준'
series2.index.name = '학점'
series2

### 1-3. 인덱스 심화

In [None]:
# 인덱스 변경 가능
series1.index = ['W', 'X', 'Y', 'Z']
series1

In [None]:
series1.index

#### 인덱싱 방법

(1) 인덱스로 인덱싱 - 2가지 방법

In [None]:
# 1.<index 이름>
series2.A

In [None]:
# 2. ['<index 이름>']
series2['A']

In [None]:
#여러개 한꺼번에 인덱싱 가능
series2[['A', 'C']]

In [None]:
# offset index를 사용 가능
series2[0:3]

### 1-4. Data filtering

In [None]:
# 데이터 필터링
series2[series2 >= 80]

### 1-5. Series끼리 연산 가능

In [None]:
# series끼리 연산 가능
series1 = pd.Series([1, 2, 3, 4])
series2 = pd.Series([5, 6, 7, 8])

series1 / series2

---

## 2. DataFrame

column : 열(세로) / row : 행(가로)

### 2-1. 데이터프레임 생성

In [None]:
df1 = pd.DataFrame(columns=["Food", "Price"])
df1

NameError: ignored

In [None]:
# 리스트로 생성
df1["Food"] = ["마라샹궈", "마라탕"]
df1["Price"] = [15000, 8000]
df1

NameError: ignored

In [None]:
# 딕셔너리로 생성
food = ["꿔바로우", "순대국밥"]
price = [16000, 8000]
dic = {"Food": food, "Price": price}
df2 = pd.DataFrame(dic, index=['A','B'])
df2

In [None]:
# 칼럼을 인덱스로 설정
df2.set_index("Food")

NameError: ignored

### 2-2. 데이터프레임 인덱싱

In [None]:
df2

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [None]:
# loc을 통해 인덱스로 접근
df2.loc["B"]

Food     순대국밥
Price    8000
Name: B, dtype: object

In [None]:
# iloc을 통해 인덱스 자리수로 접근 (0부터 시작)
df2.iloc[1]

Food     순대국밥
Price    8000
Name: B, dtype: object

In [None]:
# 컬럼이름으로 접근
df2['Food']

A    꿔바로우
B    순대국밥
Name: Food, dtype: object

In [None]:
# 조건으로 접근
df2[df2.Price > 10000]

Unnamed: 0,Food,Price
A,꿔바로우,16000


### 2-3. 데이터프레임 추가, 삭제

#### 추가

In [None]:
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000


In [None]:
# loc을 이용해 추가
df1.loc[2] = ["양꼬치", "12000"]
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,양꼬치,12000
2,양꼬치,12000


##### Row(행) 삭제

In [None]:
# drop을 통해 삭제, default는 axis=0(행) -넘파이와 똑같!
df1_ = df1.drop(1)
df1_

Unnamed: 0,Food,Price
0,마라샹궈,15000
2,양꼬치,12000


In [None]:
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000
2,양꼬치,12000


In [None]:
df1_

Unnamed: 0,Food,Price
0,마라샹궈,15000
2,양꼬치,12000


In [None]:
# 해당 데이터프레임에서 삭제하는 방법: inplace=True
df1.drop(1, inplace=True)  
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
2,양꼬치,12000


In [None]:
# reset_index를 통해 인덱스 재정렬
# 옵션이 없을 시에는 삭제된 index도 따로 index라는 column으로 저장됨
df1__ = df1.reset_index()
df1__

Unnamed: 0,index,Food,Price
0,0,마라샹궈,15000
1,2,양꼬치,12000


In [None]:
# 다음과 같이 실행하면 저장하지 않음
df1 = df1.reset_index(drop=True)
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,양꼬치,12000


##### Column(열) 삭제

In [None]:
# axis=1 로 하면 칼럼 삭제
df1__.drop("Price", axis=1)

Unnamed: 0,index,Food
0,0,마라샹궈
1,2,양꼬치


#### Concat

In [None]:
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,양꼬치,12000


In [None]:
df2

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [None]:
# concat으로 이어붙일 수 있음
# default는 axis=0
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,양꼬치,12000
A,꿔바로우,16000
B,순대국밥,8000


In [None]:
# axis=1로 수평축으로
df4 = pd.concat([df2, df2], axis=1)
df4

Unnamed: 0,Food,Price,Food.1,Price.1
A,꿔바로우,16000,꿔바로우,16000
B,순대국밥,8000,순대국밥,8000


#### merge

In [None]:
df3

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,양꼬치,12000
A,꿔바로우,16000
B,순대국밥,8000


In [None]:
df5 = pd.DataFrame({'Food': ['마라샹궈', '초밥', '부대찌개', '순대국밥'], 
                    'Country': ['중국', '일본', '한국', '한국']})
df5

Unnamed: 0,Food,Country
0,마라샹궈,중국
1,초밥,일본
2,부대찌개,한국
3,순대국밥,한국


In [None]:
# inner로 하면 key값이 둘 다 있는 것만
pd.merge(df3, df5, how='inner', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000,중국
1,순대국밥,8000,한국


In [None]:
# outer로 하면 key값이 한 데이터프레임에만 있어도 병합
pd.merge(df3, df5, how='outer', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000.0,중국
1,양꼬치,12000.0,
2,꿔바로우,16000.0,
3,순대국밥,8000.0,한국
4,초밥,,일본
5,부대찌개,,한국


In [None]:
# left로 하면 왼쪽에 있는 데이터 프레임의 'on' 기준
pd.merge(df3, df5, how='left', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000,중국
1,양꼬치,12000,
2,꿔바로우,16000,
3,순대국밥,8000,한국


In [None]:
# right로 하면 오른쪽에 있는 데이터 프레임의 'on' 기준
pd.merge(df3, df5, how='right', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000.0,중국
1,순대국밥,8000.0,한국
2,초밥,,일본
3,부대찌개,,한국


### concat과 merge의 차이?
concat은 단순 병합/merge는 두 데이터의 공통 항목을 기준으로 병합

#### merge 종류
<img src="https://miro.medium.com/max/1400/1*9eH1_7VbTZPZd9jBiGIyNA.png" height="100px" width="300px">

### 2-5. 데이터 읽기, 저장

In [3]:
# groupby로 모은 후 .agg를 통해 다양한 통계를 낼 수 있음 (min, max, mean, sum, median)
titanic_sample.groupby("Pclass").agg((["min","max","mean"]))

# outlier, null값 등의 이상치는 EDA 과정에서 제거합니다
# EDA에 대해서도 DA팀이 토요일에 세션 진행하니 많관부!

NameError: ignored