## Pandas

Pandas(판다스)는 파이썬에서 데이터 조작과 분석을 위한 강력한 라이브러리입니다.  
Pandas는 구조화된 데이터를 쉽게 다루고 처리하기 위한 다양한 기능을 제공하며, 주로 표 형태의 데이터를 다루는 데 사용됩니다.  
이를 통해 데이터를 더 효율적으로 처리하고 분석할 수 있습니다.

In [4]:
# 라이브러리 불러오기
import pandas as pd

## pandas 데이터 불러오기

Pandas는 주로 CSV 파일을 포함한 다양한 데이터 형식을 읽고 처리하기 위해 사용됩니다.  
CSV(Comma-Separated Values) 파일은 쉼표(또는 다른 구분 기호)로 열과 행을 나누어 데이터를 저장하는 일반적인 형식입니다.  
Pandas는 CSV 파일을 불러와 DataFrame 형태로 변환하여 데이터를 쉽게 다룰 수 있도록 도와줍니다.

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/ralbu85/DataScience_2022S/master/data/auto.csv')
df

Unnamed: 0,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,mpg
0,8,307.0,130.0,3504.0,12.0,70,1,18.0
1,8,350.0,165.0,3693.0,11.5,70,1,15.0
2,8,318.0,150.0,3436.0,11.0,70,1,18.0
3,8,304.0,150.0,3433.0,12.0,70,1,16.0
4,8,302.0,140.0,3449.0,10.5,70,1,17.0
...,...,...,...,...,...,...,...,...
387,4,140.0,86.0,2790.0,15.6,82,1,27.0
388,4,97.0,52.0,2130.0,24.6,82,2,44.0
389,4,135.0,84.0,2295.0,11.6,82,1,32.0
390,4,120.0,79.0,2625.0,18.6,82,1,28.0


## 변수선택

정형데이터에서 변수 선택은 열단위로의 데이터 선택을 말한다.  
pandas에서는 열의 이름을 리스트 형태로 넣어서 특정 열을 선택한다.

In [5]:
# 단일 변수 선택
df['cylinders']

0      8
1      8
2      8
3      8
4      8
      ..
387    4
388    4
389    4
390    4
391    4
Name: cylinders, Length: 392, dtype: int64

In [6]:
## 여러 변수 선택
df[['cylinders','displacement']]

Unnamed: 0,cylinders,displacement
0,8,307.0
1,8,350.0
2,8,318.0
3,8,304.0
4,8,302.0
...,...,...
387,4,140.0
388,4,97.0
389,4,135.0
390,4,120.0


## One-hot-encoding

데이터에는 크게 수치형 데이터와 범주형 데이터가 있다.  
범주형 데이터의 경우 one-hot encodding 처리를 해야한다.
원핫 인코딩의 아이디어는 각 범주(category)를 새로운 이진 특성으로 변환하는 것이다.  
각 범주는 해당 범주일 때만 1이고 다른 범주는 0인 이진 값으로 변환된다.  
이를 통해 머신 러닝 모델은 범주 간의 순서나 관계를 인식하지 않고 처리할 수 있게 된다.

예시를 통해 원핫 인코딩을 설명해보면 다음과 같다:

원래 데이터:

과일: ["사과", "바나나", "오렌지", "바나나"]  
원핫 인코딩 후:  

사과: [1, 0, 0]  
바나나: [0, 1, 0]  
오렌지: [0, 0, 1]  
바나나: [0, 1, 0]

## Pandas의 get_dummies
pandas에서는 get_dummies라는 함수를 이용하여 원핫인코딩을 손쉽게 할 수 있다.

In [10]:
## pandas에서의 one-hot encoding
pd.get_dummies(df,columns=['origin'])

Unnamed: 0,cylinders,displacement,horsepower,weight,acceleration,model_year,mpg,origin_1,origin_2,origin_3
0,8,307.0,130.0,3504.0,12.0,70,18.0,1,0,0
1,8,350.0,165.0,3693.0,11.5,70,15.0,1,0,0
2,8,318.0,150.0,3436.0,11.0,70,18.0,1,0,0
3,8,304.0,150.0,3433.0,12.0,70,16.0,1,0,0
4,8,302.0,140.0,3449.0,10.5,70,17.0,1,0,0
...,...,...,...,...,...,...,...,...,...,...
387,4,140.0,86.0,2790.0,15.6,82,27.0,1,0,0
388,4,97.0,52.0,2130.0,24.6,82,44.0,0,1,0
389,4,135.0,84.0,2295.0,11.6,82,32.0,1,0,0
390,4,120.0,79.0,2625.0,18.6,82,28.0,1,0,0


In [12]:
pd.get_dummies(df,columns=['cylinders','origin'])

Unnamed: 0,displacement,horsepower,weight,acceleration,model_year,mpg,cylinders_3,cylinders_4,cylinders_5,cylinders_6,cylinders_8,origin_1,origin_2,origin_3
0,307.0,130.0,3504.0,12.0,70,18.0,0,0,0,0,1,1,0,0
1,350.0,165.0,3693.0,11.5,70,15.0,0,0,0,0,1,1,0,0
2,318.0,150.0,3436.0,11.0,70,18.0,0,0,0,0,1,1,0,0
3,304.0,150.0,3433.0,12.0,70,16.0,0,0,0,0,1,1,0,0
4,302.0,140.0,3449.0,10.5,70,17.0,0,0,0,0,1,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
387,140.0,86.0,2790.0,15.6,82,27.0,0,1,0,0,0,1,0,0
388,97.0,52.0,2130.0,24.6,82,44.0,0,1,0,0,0,0,1,0
389,135.0,84.0,2295.0,11.6,82,32.0,0,1,0,0,0,1,0,0
390,120.0,79.0,2625.0,18.6,82,28.0,0,1,0,0,0,1,0,0


## DataFrame에서 선택한 데이터를 numpy로 변환

In [20]:
import numpy as np
arr = np.array(df['cylinders'])
print(arr)
print(arr.ndim, arr.shape)

[8 8 8 8 8 8 8 8 8 8 8 8 8 8 4 6 6 6 4 4 4 4 4 4 6 8 8 8 8 4 4 4 6 6 6 6 6
 8 8 8 8 8 8 8 6 4 6 6 4 4 4 4 4 4 4 4 4 4 4 4 4 8 8 8 8 8 8 8 8 8 3 8 8 8
 8 4 4 4 4 4 4 4 4 4 8 8 8 8 8 8 8 8 8 8 8 8 6 6 6 6 6 4 8 8 8 8 6 4 4 4 3
 4 6 4 8 8 4 4 4 4 8 4 6 8 6 6 6 4 4 4 4 6 6 6 8 8 8 8 8 4 4 4 4 4 4 4 4 4
 4 4 6 6 6 6 8 8 8 8 6 6 6 6 6 8 8 4 4 6 4 4 4 4 6 4 6 4 4 4 4 4 4 4 4 4 4
 8 8 8 8 6 6 6 6 4 4 4 4 6 6 6 6 4 4 4 4 4 8 4 6 6 8 8 8 8 4 4 4 4 4 8 8 8
 8 6 6 6 6 8 8 8 8 4 4 4 4 4 4 4 4 6 4 3 4 4 4 4 4 8 8 8 6 6 6 4 6 6 6 6 6
 6 8 6 8 8 4 4 4 4 4 4 4 4 5 6 4 6 4 4 6 6 4 6 6 8 8 8 8 8 8 8 8 4 4 4 4 5
 8 4 8 4 4 4 4 4 6 6 4 4 4 4 4 4 4 4 6 4 4 4 4 4 4 4 4 4 4 5 4 4 4 4 6 3 4
 4 4 4 4 6 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 8 6 6 4 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 6 6 4 6 4 4 4 4 4 4 4 4]
1 (392,)


In [19]:
arr = np.array(df)
print(arr)
print(arr.ndim, arr.shape)

[[  8. 307. 130. ...  70.   1.  18.]
 [  8. 350. 165. ...  70.   1.  15.]
 [  8. 318. 150. ...  70.   1.  18.]
 ...
 [  4. 135.  84. ...  82.   1.  32.]
 [  4. 120.  79. ...  82.   1.  28.]
 [  4. 119.  82. ...  82.   1.  31.]]
2 (392, 8)
