# numpy array에서 pandas DataFrames로 데이터 옮기기
지난 notebook에서 머신러닝 모델을 트레이닝하고 실제 label 결과와 predict 된 결과를 비교했습니다.

아마도, 일부 불분명한 부분은 이 작업을 수행했을 때 **numpy array**와 **pandas DataFrame**이라는 두 개의 다른 객체로 작업했던 부분일 것입니다.

더 자세히 알아보기 위해 이전 notebook의 코드를 다시 실행해 트레이닝된 모델을 만들고 테스트 데이터에 대한 예측 값을 가져 오겠습니다.

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [3]:
# CSV 파일에서 데이터를 로드
delays_df = pd.read_csv('Lots_of_flight_data.csv') 

# null값을 제거 - null값이 있으면 트레이닝 과정에서 문제를 유발할 수 있습니다.
delays_df.dropna(inplace=True)

# Feature column들을 X DataFrame으로 이동
X = delays_df.loc[:,['DISTANCE', 'CRS_ELAPSED_TIME']]

# Labe column을 y DataFrame으로 이동
y = delays_df.loc[:,['ARR_DELAY']] 

# 데이터를 트레이닝 데이터셋과 테스트 데이터셋으로 분리 
X_train, X_test, y_train, y_test = train_test_split(
                                                    X, 
                                                    y, 
                                                    test_size=0.3, 
                                                    random_state=42
                                                   )

regressor = LinearRegression()     # scikit learn LinearRegression 개체 생성
regressor.fit(X_train, y_train)    # fit 메서드를 사용해 모델 트레이닝 실행

y_pred = regressor.predict(X_test)

마지막 노트북에서 predict(예측된) 값의 내용을 y_pred에 로드하고, 실제(label) 값을 y_test에 로드 할 때 출력이 다르게 표시되는 것을 확인했을 수 있습니다.


In [4]:
y_pred

array([[3.47739078],
       [5.89055919],
       [4.33288464],
       ...,
       [5.84678979],
       [6.05195889],
       [5.66255414]])

In [5]:
y_test

Unnamed: 0,ARR_DELAY
291483,-5.0
98997,-12.0
23454,-9.0
110802,-14.0
49449,-20.0
...,...
209898,-20.0
22210,-9.0
165727,-6.0
260838,-33.0


**type()**을 사용하여 객체의 데이터 유형을 확인할 수 있습니다.


In [6]:
type(y_pred)

numpy.ndarray

In [7]:
type(y_test)

pandas.core.frame.DataFrame

* **y_pred**는 numpy array입니다.
* **y_test**는 pandas DataFrame입니다.

**y_pred**에서 **head** 메서드를 사용하는 경우에도 이 차이를 확인할 수 있습니다.

**head**는 DataFrame 클래스의 메서드이고, numpy 배열의 메서드가 아니므로 에러가 리턴됩니다.


In [15]:
y_pred.head()

AttributeError: 'numpy.ndarray' object has no attribute 'head'

1 차원 numpy array는 pandas의 series와 유사합니다.


In [10]:
import numpy as np
airports_array = np.array(['Pearson','Changi','Narita'])
print(airports_array)
print(airports_array[2])

['Pearson' 'Changi' 'Narita']
Narita


In [11]:
airports_series = pd.Series(['Pearson','Changi','Narita'])
print(airports_series)
print(airports_series[2])

0    Pearson
1     Changi
2     Narita
dtype: object
Narita


2 차원 numpy array는 pandas DataFrame과 유사합니다.

In [12]:
airports_array = np.array([
  ['YYZ','Pearson'],
  ['SIN','Changi'],
  ['NRT','Narita']])
print(airports_array)
print(airports_array[0,0])

[['YYZ' 'Pearson']
 ['SIN' 'Changi']
 ['NRT' 'Narita']]
YYZ


In [13]:
airports_df = pd.DataFrame([['YYZ','Pearson'],['SIN','Changi'],['NRT','Narita']])
print(airports_df)
print(airports_df.iloc[0,0])

     0        1
0  YYZ  Pearson
1  SIN   Changi
2  NRT   Narita
YYZ


DataFrame의 기능이 필요한 경우, 데이터를 numpy 개체에서 pandas 개체로 또는 그 반대로 변환할 수 있습니다.

아래 예제처럼, DataFrame 생성자를 사용하여 numpy 배열 *y_pred*의 내용을 *predicted_df*라는 DataFrame으로 로드합니다.

바로 이어서, DataFrame 개체의 함수들을 사용할 수 있습니다.


In [14]:
predicted_df = pd.DataFrame(y_pred)
predicted_df.head()

Unnamed: 0,0
0,3.477391
1,5.890559
2,4.332885
3,3.447476
4,5.072394
