# Pandas

## 개요

**Pandas: 데이터 분석에 특화된 파이썬 라이브러리**

판다스는 파이썬 기본 내장되어 있기에, *import*를 활용하여 불러올 수 있습니다.

1. `import pandas as pd`를 입력하여 판다스 기능 가져오기
2. 데이터 불러오기
3. 이후 원하는 대로 데이터 활용


## 데이터프레임의 분석

데이터프레임: 컴퓨터로 정보를 정리하고 저장하는 도구

### index & column

데이터프레임의 기본 구 조는 행(index)과 열(column)
* 가로로 나아가는 방향이 행, 세로로 나아가는 방향이 열
* 함수의 좌표처럼 데이터프레임 내에서 데이터의 위치를 나타낸다.
* 일반적으로 인덱스는 데이터의 순서(몇 번째 자료인지), 컬럼은 데이터의 카테고리(어떤 자료인지)를 의미한다

### Series

* 시리즈는 '값(Value)'과 '인덱스(Index)'로 구성된다.
* 데이터프레임에서 특정 컬럼 1개만 추출한다면 해당 자료구조는 시리즈라고 볼 수 있다.

1. 원하는 값들이 포함된 리스트 생성

In [1211]:
import pandas as pd

series = ['LG', 'Samsung', 'Sony', 'Panasonic', 'Vizio']

2. pd.Series() 함수를 사용하여 시리즈 객체 생성

In [1212]:
sr = pd.Series(series)

인덱스를 지정해주고 싶다면, pd.Series() 함수의 인자에 인덱스를 추가

In [1213]:
index = [1, 2, 3, 4, 5]
sr = pd.Series(series, index = index)

### DataFrame

데이터프레임은 행과 열로 이루어진 2차원 배열 구조
즉 길이가 같은 시리즈들의 집합체라고 볼 수 있습니다.

컬럼 단위로는 값들의 데이터 타입이 동일해야 하지만, 컬럼 간의 데이터타입은 달라도 괜찮다.

#### 데이터프레임 만드는 법

1. 데이터와 각 카테고리 별 네이밍을 컬럼으로 하는 딕셔너리 생성

In [1214]:
data = { 
    'Brand': ['LG', 'Samsung', 'Sony', 'Panasonic', 'Vizio'],
    'Price': [1000, 2000, 3000, 4000, 5000],
    'weight': [10, 20, 10, 10, 30]
}

2. pd.DataFrame() 함수는 사용하여 데이터프레임 구성

In [1215]:
df = pd.DataFrame(data)

인덱스, 컬럼을 직접 지정하는 것도 가능하다. (기본값은 0, 1, 2...로 진행된다.)

In [1216]:
index = [1, 2, 3, 4, 5]
columns = ['Brand', 'Price', 'weight']
df = pd.DataFrame(data, index = index, columns = columns)   

### 데이터 확인하기

* 데이터프레임의 앞, 뒤 일부만 보기

`df.head(n)`: 앞 n개의 행만 반환\
`df.tail(n)`: 뒤 n개의 행만 반환

In [1217]:
df.head(3)

Unnamed: 0,Brand,Price,weight
1,LG,1000,10
2,Samsung,2000,20
3,Sony,3000,10


In [1218]:
df.tail(3)

Unnamed: 0,Brand,Price,weight
3,Sony,3000,10
4,Panasonic,4000,10
5,Vizio,5000,30


* 데이터에 대한 정보를 확인하기

`df.shape` : (행 개수, 열 개수) 반환\
`df.dtypes` : 열들의 데이터타입 반환\
`df.describe()` : 수치형 열들의 기본적인 통계값 반환\
`df[열 이름].unique()` : 특정 열에 포함된 값들을 종류별로 1개씩만 반환\
`df.isnull()` : 데이터에 결측치(NaN)가 있는지의 여부를 반환\
`df.info()` : 여러 정보들을 종합적으로 반환\

In [1219]:
df.shape

(5, 3)

In [1220]:
df.dtypes

Brand     object
Price      int64
weight     int64
dtype: object

In [1221]:
df.describe()

Unnamed: 0,Price,weight
count,5.0,5.0
mean,3000.0,16.0
std,1581.13883,8.944272
min,1000.0,10.0
25%,2000.0,10.0
50%,3000.0,10.0
75%,4000.0,20.0
max,5000.0,30.0


In [1222]:
df['Brand'].unique()

array(['LG', 'Samsung', 'Sony', 'Panasonic', 'Vizio'], dtype=object)

In [1223]:
df.isnull()

Unnamed: 0,Brand,Price,weight
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False


In [1224]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 1 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Brand   5 non-null      object
 1   Price   5 non-null      int64 
 2   weight  5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 160.0+ bytes


* 데이터의 개수 세기

`df.count()` : 결측치의 개수를 제외한 데이터의 행 수 반환\
`df[열 이름].value_counts()` : 특정 열에 포함된 값들의 빈도수를 세어 반환

In [1225]:
df.count()

Brand     5
Price     5
weight    5
dtype: int64

In [1226]:
df['Brand'].value_counts

<bound method IndexOpsMixin.value_counts of 1           LG
2      Samsung
3         Sony
4    Panasonic
5        Vizio
Name: Brand, dtype: object>

## 데이터 추출

### 인덱싱 & 슬라이싱

*인덱싱 : 입력하는 조건이 범위가 아니라 단순 지목일 경우\
*슬라이싱 : 범위를 조건으로 할 경우

In [1227]:
df[1:3]

Unnamed: 0,Brand,Price,weight
2,Samsung,2000,20
3,Sony,3000,10


### 행단위 데이터 추출 : loc과 iloc

loc\
*기본적으로 행단위 데이터를 추출\
*열단위 혹은 특정 값만 추출할 수도 있고, 인덱싱 & 슬라이싱 모두 가능\
*loc 인자 안에는 행과 열의 이름(label)이 들어가야 함

In [1228]:
df.loc[1]

Brand       LG
Price     1000
weight      10
Name: 1, dtype: object

In [1229]:
df.loc[1:3]

Unnamed: 0,Brand,Price,weight
1,LG,1000,10
2,Samsung,2000,20
3,Sony,3000,10


In [1230]:
df.loc[[1,3]]

Unnamed: 0,Brand,Price,weight
1,LG,1000,10
3,Sony,3000,10


In [1231]:
df.loc[1, 'Brand']

'LG'

In [1232]:
df.loc[1:3, 'Brand']

1         LG
2    Samsung
3       Sony
Name: Brand, dtype: object

In [1233]:
df.loc[[1,3], ['Brand', 'Price']]

Unnamed: 0,Brand,Price
1,LG,1000
3,Sony,3000


In [1234]:
df.loc[:, 'Brand']

1           LG
2      Samsung
3         Sony
4    Panasonic
5        Vizio
Name: Brand, dtype: object

iloc
* loc과 거의 유사하지만, 인자로 행과 열의 이름이 아니라, 정수형 인덱스 번호가 와야 한다.\
* 데이터의 양이 지금보다 훨씬 많아지면 iloc이 속도 측면에서 더 유리하다.


In [1235]:
df.iloc[1:4, 0:2]

Unnamed: 0,Brand,Price
2,Samsung,2000
3,Sony,3000
4,Panasonic,4000


### 열단위 데이터 추출 : 컬럼명

* 열단위로만 데이터를 추출하고 싶으면 열 이름으로 인덱싱하는 것이 더 직관적이고 좋은 방식입니다.

In [1236]:
df['Brand']

1           LG
2      Samsung
3         Sony
4    Panasonic
5        Vizio
Name: Brand, dtype: object

In [1237]:
df[['Brand', 'Price']]

Unnamed: 0,Brand,Price
1,LG,1000
2,Samsung,2000
3,Sony,3000
4,Panasonic,4000
5,Vizio,5000


In [1238]:
df[['Brand']]

# 위와의 차이 : 데이터프레임 자료형을 유지

Unnamed: 0,Brand
1,LG
2,Samsung
3,Sony
4,Panasonic
5,Vizio


In [1239]:
df['Brand'][3] 

'Sony'

### 불리언 인덱싱

* 불리언 인덱싱: True 또는 False의 배열을 통해 데이터를 필터링하는 연산.\
* 조건문 여러 개를 논리연산자(and, or)로 묶어 사용하는 것도 가능합니다.\
다만 여기서는 and → &, or → | 로 작성해야 오류가 발생하지 않습니다.
* loc에서도 불리언 인덱싱을 쓸 수 있습니다.\
하지만 iloc은 정수형 순서 인덱스만 받을 수 있으므로 bool 타입인 불리언 인덱싱은 불가능합니다.

In [1240]:
df[df['Price'] > 3000]

Unnamed: 0,Brand,Price,weight
4,Panasonic,4000,10
5,Vizio,5000,30


In [1241]:
df[(df['Price'] > 3000) & (df['weight'] < 20)]

Unnamed: 0,Brand,Price,weight
4,Panasonic,4000,10


In [1242]:
df.loc[df['Price'] > 3000, ['Brand', 'Price']]

Unnamed: 0,Brand,Price
4,Panasonic,4000
5,Vizio,5000


### 인덱스 설정
* 인덱스는 0부터 시작하는 정수형 인덱스를 기본값으로 가지지만, **원하는 대로 변경 가능**하다.

In [1243]:
df.set_index('Brand')

Unnamed: 0_level_0,Price,weight
Brand,Unnamed: 1_level_1,Unnamed: 2_level_1
LG,1000,10
Samsung,2000,20
Sony,3000,10
Panasonic,4000,10
Vizio,5000,30


In [1244]:
df.set_index('Brand', inplace = True)

df.reset_index(inplace = True, drop = False)

df

# 'Brand' 컬럼을 인덱스로 지정하였다가, reset_index() 함수를 사용하여 인덱스를 초기화
# 인덱스를 디폴트 정수형 인덱스로 리셋했습니다.

Unnamed: 0,Brand,Price,weight
0,LG,1000,10
1,Samsung,2000,20
2,Sony,3000,10
3,Panasonic,4000,10
4,Vizio,5000,30


In [1245]:
df.reindex([2,3,4,0,1])

Unnamed: 0,Brand,Price,weight
2,Sony,3000,10
3,Panasonic,4000,10
4,Vizio,5000,30
0,LG,1000,10
1,Samsung,2000,20


## 데이터 조작

### 데이터 추가 및 삭제

In [1246]:
#특정 데이터 셋을 열로 추가할 수 있다.
df['Location'] = ['Korea', 'Korea', 'Japan', 'Japan', 'China']

df

Unnamed: 0,Brand,Price,weight,Location
0,LG,1000,10,Korea
1,Samsung,2000,20,Korea
2,Sony,3000,10,Japan
3,Panasonic,4000,10,Japan
4,Vizio,5000,30,China


In [1247]:
# 특정 데이터 열을 삭제할 수도 있다.
df.drop('Location', axis = 1, inplace = True)

df

Unnamed: 0,Brand,Price,weight
0,LG,1000,10
1,Samsung,2000,20
2,Sony,3000,10
3,Panasonic,4000,10
4,Vizio,5000,30


In [1248]:
df.drop([1], axis = 0)
# axis = 0은 행을 삭제하는 것이고, axis = 1은 열을 삭제하는 것이다.
# inplace = True를 사용하면 원본 데이터프레임이 변경된다.

df

Unnamed: 0,Brand,Price,weight
0,LG,1000,10
1,Samsung,2000,20
2,Sony,3000,10
3,Panasonic,4000,10
4,Vizio,5000,30


### 데이터 정렬

* 데이터를 새로운 방식으로 정렬할 수 있다.

In [1249]:
df.sort_index(ascending = False)

Unnamed: 0,Brand,Price,weight
4,Vizio,5000,30
3,Panasonic,4000,10
2,Sony,3000,10
1,Samsung,2000,20
0,LG,1000,10


In [1250]:
df.sort_values(by = 'weight', ascending = False)
# ascending = False는 내림차순 정렬을 의미한다.

Unnamed: 0,Brand,Price,weight
4,Vizio,5000,30
1,Samsung,2000,20
0,LG,1000,10
2,Sony,3000,10
3,Panasonic,4000,10


### 데이터 변환

* 특정 컬럼 내 데이터의 자료형 변환 가능
* 데이터의 자료형을 확인하기 위해서는 `df.dtypes`를 활용하면 된다

In [1251]:
df.dtypes

Brand     object
Price      int64
weight     int64
dtype: object

In [1252]:
df['Price'] = df['Price'].astype('float')

df.dtypes

Brand      object
Price     float64
weight      int64
dtype: object

* **데이터의 값 자체를 변환**하는 것도 가능하다.

In [1253]:
df['Location'] = ['Korea', 'Korea', 'Japan', 'Japan', 'China']


In [1254]:
df.replace('Korea', 'South Korea')

Unnamed: 0,Brand,Price,weight,Location
0,LG,1000.0,10,South Korea
1,Samsung,2000.0,20,South Korea
2,Sony,3000.0,10,Japan
3,Panasonic,4000.0,10,Japan
4,Vizio,5000.0,30,China


### 데이터프레임 병합

**concat** : 단순히 두 데이터 프레임을 이어붙이는 방식

In [1255]:
pd.concat([df, df], axis = 0)  # 행으로 데이터프레임을 합침

Unnamed: 0,Brand,Price,weight,Location
0,LG,1000.0,10,Korea
1,Samsung,2000.0,20,Korea
2,Sony,3000.0,10,Japan
3,Panasonic,4000.0,10,Japan
4,Vizio,5000.0,30,China
0,LG,1000.0,10,Korea
1,Samsung,2000.0,20,Korea
2,Sony,3000.0,10,Japan
3,Panasonic,4000.0,10,Japan
4,Vizio,5000.0,30,China


In [1256]:
pd.concat([df, df], axis = 1)  # 열로 데이터프레임을 합침

Unnamed: 0,Brand,Price,weight,Location,Brand.1,Price.1,weight.1,Location.1
0,LG,1000.0,10,Korea,LG,1000.0,10,Korea
1,Samsung,2000.0,20,Korea,Samsung,2000.0,20,Korea
2,Sony,3000.0,10,Japan,Sony,3000.0,10,Japan
3,Panasonic,4000.0,10,Japan,Panasonic,4000.0,10,Japan
4,Vizio,5000.0,30,China,Vizio,5000.0,30,China


**merge** : 공통 항목을 기준으로 병합하는 방식
* 데이터프레임 간 공통 항목(열이나 인덱스)이 있어야 합칠 수 있다.

* on 인자를 통해 기준이 될 열을 지정해주는 것이 가능하다.\
* 집합 연산과 유사하게 작동하며, how 인자에 따라 어떤 방식으로 결합할지 결정할 수 있다.

In [1257]:
df2 = pd.DataFrame({
    'Brand': ['Apple', 'Samsung', 'Sony', 'LG', 'Canon'],
    'Price': [1000, 2000, 2500, 2000, 3000],
    'weight': [10, 20, 25, 25, 20]
})

pd.merge(df, df2, on = 'Brand', how = 'inner')
# how = 'inner'는 교집합을 의미한다.
# on = 'Brand'는 Brand 열을 기준으로 합친다.

Unnamed: 0,Brand,Price_x,weight_x,Location,Price_y,weight_y
0,LG,1000.0,10,Korea,2000,25
1,Samsung,2000.0,20,Korea,2000,20
2,Sony,3000.0,10,Japan,2500,25


In [1258]:
pd.merge(df, df2, on = 'Brand', how = 'outer')
# how = 'outer'는 합집합을 의미한다.

Unnamed: 0,Brand,Price_x,weight_x,Location,Price_y,weight_y
0,Apple,,,,1000.0,10.0
1,Canon,,,,3000.0,20.0
2,LG,1000.0,10.0,Korea,2000.0,25.0
3,Panasonic,4000.0,10.0,Japan,,
4,Samsung,2000.0,20.0,Korea,2000.0,20.0
5,Sony,3000.0,10.0,Japan,2500.0,25.0
6,Vizio,5000.0,30.0,China,,
