# numpy 배열에서 pandas DataFrame으로 데이터 옮기기
지난 notebook에서 모델을 학습하고 실제값과 예측값을 비교해보았습니다.


분명하지 않았던 것은 작업을 수행했을 때 두 가지 다른 객체로 작업하는 것입니다.: **numpy 배열**과 **pandas DataFrame**

더 자세히 알아보기 위해 이전 notebook의 코드를 다시 실행하여 훈련 된 모델을 만들고 테스트 데이터에 대한 예측 값을 가져 오겠습니다.

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [4]:
# csv 파일로부터 데이터 불러오기
delays_df = pd.read_csv('Data/Lots_of_flight_data.csv') 

# 선형 회귀 모델 학습을 방해하는 null 값을 포함한 행 제거
delays_df.dropna(inplace=True)

# X DataFrame에 특성 옮기기
X = delays_df.loc[:,['DISTANCE', 'CRS_ELAPSED_TIME']]

# y DataFrame에 레이블 값 옮기기
y = delays_df.loc[:,['ARR_DELAY']] 

# 테스트용 DataFrame과 학습용 DataFrame으로 데이터 나누기
X_train, X_test, y_train, y_test = train_test_split(
                                                    X, 
                                                    y, 
                                                    test_size=0.3, 
                                                    random_state=42
                                                   )
regressor = LinearRegression()     # scikit learn LinearRegression 객체 생성
regressor.fit(X_train, y_train)    # fit 메소드를 사용하여 훈련 데이터의 모델 학습

y_pred = regressor.predict(X_test)

마지막 notebook에서 예측 값의 내용을 y_pred에 표시하고 실제 값을 y_test에 표시 할 때 출력이 다르게 표시되는 것을 확인할 수 있었습니다.

In [5]:
y_pred

array([[3.47739078],
       [5.89055919],
       [4.33288464],
       ...,
       [5.84678979],
       [6.05195889],
       [5.66255414]])

In [6]:
y_test

Unnamed: 0,ARR_DELAY
291483,-5.0
98997,-12.0
23454,-9.0
110802,-14.0
49449,-20.0
94944,14.0
160885,-17.0
47572,-20.0
164800,20.0
62578,-9.0


** type () **을 사용하여 객체의 데이터 유형을 확인합니다.

In [7]:
type(y_pred)

numpy.ndarray

In [8]:
type(y_test)

pandas.core.frame.DataFrame

* **y_pred** 는 numpy 배열입니다.
* **y_test** 는 pandas DataFrame입니다.

타입을 확인 할 수있는 또 다른 방법은 ** y_pred **에서 ** head ** 메소드를 사용하려고하는 것입니다.

** head **는 DataFrame 클래스의 메소드이므로 numpy 배열에서는 메소드가 아니므로 오류가 반환됩니다.

In [9]:
y_pred.head()

AttributeError: 'numpy.ndarray' object has no attribute 'head'

A one dimensional numpy array is similar to a pandas Series


In [10]:
import numpy as np
airports_array = np.array(['Pearson','Changi','Narita'])
print(airports_array)
print(airports_array[2])

['Pearson' 'Changi' 'Narita']
Narita


In [11]:
airports_series = pd.Series(['Pearson','Changi','Narita'])
print(airports_series)
print(airports_series[2])

0    Pearson
1     Changi
2     Narita
dtype: object
Narita


2 차원 numpy 배열은 pandas DataFrame과 유사합니다.

In [12]:
airports_array = np.array([
  ['YYZ','Pearson'],
  ['SIN','Changi'],
  ['NRT','Narita']])
print(airports_array)
print(airports_array[0,0])

[['YYZ' 'Pearson']
 ['SIN' 'Changi']
 ['NRT' 'Narita']]
YYZ


In [13]:
airports_df = pd.DataFrame([['YYZ','Pearson'],['SIN','Changi'],['NRT','Narita']])
print(airports_df)
print(airports_df.iloc[0,0])

     0        1
0  YYZ  Pearson
1  SIN   Changi
2  NRT   Narita
YYZ


DataFrame의 기능이 필요한 경우 데이터를 numpy 객체에서 pandas 객체로 또는 그 반대로 이동할 수 있습니다.

아래 예제에서 DataFrame 생성자를 사용하여 numpy 배열 * y_pred *의 내용을 * predicted_df *라는 DataFrame으로 읽어들입니다.

그런 다음 DataFrame 객체의 기능을 사용할 수 있습니다.

In [14]:
객predicted_df = pd.DataFrame(y_pred)
predicted_df.head()

Unnamed: 0,0
0,3.477391
1,5.890559
2,4.332885
3,3.447476
4,5.072394
