In [1]:
import pandas as pd
import numpy as np

## 데이터 변환

In [2]:
n_samples = 10
height = 3*np.random.randn(n_samples).round() + 170
nationality = np.random.randint(0,3,n_samples)

In [3]:
df = pd.DataFrame(list(zip(height, nationality)), 
                  columns=["height","nationality"])
df.head()

Unnamed: 0,height,nationality
0,170.0,1
1,173.0,2
2,170.0,1
3,167.0,0
4,173.0,0


In [4]:
nat = pd.get_dummies(df['nationality'], prefix='nat_')
new_df = pd.concat([df, nat], axis=1); new_df.head()

Unnamed: 0,height,nationality,nat__0,nat__1,nat__2
0,170.0,1,0,1,0
1,173.0,2,0,0,1
2,170.0,1,0,1,0
3,167.0,0,1,0,0
4,173.0,0,1,0,0


In [5]:
new_df.drop('nationality', 1, inplace=True)

In [6]:
nat_categ = pd.Categorical(nationality)
nat_categ

[1, 2, 1, 0, 0, 2, 0, 2, 2, 1]
Categories (3, int64): [0, 1, 2]

In [7]:
# 주의: Series로 변경된다
df['categ'] = nat_categ

In [8]:
df

Unnamed: 0,height,nationality,categ
0,170.0,1,1
1,173.0,2,2
2,170.0,1,1
3,167.0,0,0
4,173.0,0,0
5,167.0,2,2
6,170.0,0,0
7,164.0,2,2
8,167.0,2,2
9,167.0,1,1


In [9]:
type(df.categ)

pandas.core.series.Series

In [10]:
type(nat_categ)

pandas.core.arrays.categorical.Categorical

## 표준 스케일링

In [11]:
height = 3*np.random.randn(n_samples).round() + 170
weight = 4*np.random.randn(n_samples).round() + 70

X = pd.DataFrame(list(zip(height, weight)));X.head()

Unnamed: 0,0,1
0,170.0,74.0
1,167.0,70.0
2,176.0,66.0
3,167.0,70.0
4,173.0,74.0


In [12]:
from sklearn.preprocessing import StandardScaler
X_std = StandardScaler().fit_transform(X);X_std

array([[-0.22941573,  0.75      ],
       [-1.3764944 , -0.5       ],
       [ 2.0647416 , -1.75      ],
       [-1.3764944 , -0.5       ],
       [ 0.91766294,  0.75      ],
       [-0.22941573, -1.75      ],
       [-0.22941573,  0.75      ],
       [-0.22941573,  0.75      ],
       [ 0.91766294,  0.75      ],
       [-0.22941573,  0.75      ]])

In [13]:
x=X.values; x

array([[170.,  74.],
       [167.,  70.],
       [176.,  66.],
       [167.,  70.],
       [173.,  74.],
       [170.,  66.],
       [170.,  74.],
       [170.,  74.],
       [173.,  74.],
       [170.,  74.]])

In [14]:
x_std = StandardScaler().fit_transform(x);x_std

array([[-0.22941573,  0.75      ],
       [-1.3764944 , -0.5       ],
       [ 2.0647416 , -1.75      ],
       [-1.3764944 , -0.5       ],
       [ 0.91766294,  0.75      ],
       [-0.22941573, -1.75      ],
       [-0.22941573,  0.75      ],
       [-0.22941573,  0.75      ],
       [ 0.91766294,  0.75      ],
       [-0.22941573,  0.75      ]])

# 연습장

In [38]:
import pandas as pd
import numpy as np

In [39]:
n_samples = 10   #샘플을 10개로, 키와 국적은 임의로
height = 3*np.random.randn(n_samples).round() +170  #램덤 넘버로 10개로,  #소수점을 끊어버리고 170을 더했다. 173 1시그마, 167은 -1시그마로 만들다
nationality = np.random.randint(0, 3, n_samples)# 국적을 0부터 2까지 랜덤으로 만드들다

In [40]:
height, nationality

(array([167., 173., 173., 170., 167., 167., 173., 170., 170., 173.]),
 array([1, 2, 1, 0, 0, 2, 0, 0, 1, 0]))

In [41]:
list(zip(height, nationality)) #zip은 데이터를 짝으로 묶다

[(167.0, 1),
 (173.0, 2),
 (173.0, 1),
 (170.0, 0),
 (167.0, 0),
 (167.0, 2),
 (173.0, 0),
 (170.0, 0),
 (170.0, 1),
 (173.0, 0)]

In [42]:
df = pd.DataFrame(list(zip(height, nationality)),  #height,list를 짝으로 만들다
                 columns=["height", "nationality"])  #columns=[]으로 컬럼 이름을 주다
df.head()

Unnamed: 0,height,nationality
0,167.0,1
1,173.0,2
2,173.0,1
3,170.0,0
4,167.0,0


In [43]:
nat = pd.get_dummies(df['nationality'], prefix='nat ') #get_bummies: 더미 변수를 만들다, prefix: 앞에 붙이는 걸 nat라고 해라

In [44]:
nat # one hot encoding 한군데만 1이 되는 12345 처럼 숫자가 커진다는 의미 보다는 1과 0으로 의미를 갖는, 양적으로 상관 없는 숫자, 변수

Unnamed: 0,nat _0,nat _1,nat _2
0,0,1,0
1,0,0,1
2,0,1,0
3,1,0,0
4,1,0,0
5,0,0,1
6,1,0,0
7,1,0,0
8,0,1,0
9,1,0,0


In [49]:
new_df = pd.concat([df, nat], axis=1) ; new_df.head()  #concat함수:df에 nat를 붙이다
#axis=1 -> 오른쪽으로 붙여라

Unnamed: 0,height,nationality,nat _0,nat _1,nat _2
0,167.0,1,0,1,0
1,173.0,2,0,0,1
2,173.0,1,0,1,0
3,170.0,0,1,0,0
4,167.0,0,1,0,0


In [51]:
new_df.drop('nationality', axis=1, inplace=True)  #nat_..와 nationality가 중복되므로
#nationality를 없애다

In [24]:
new_df

Unnamed: 0,height,nat _0,nat _1,nat _2
0,164.0,1,0,0
1,167.0,1,0,0
2,173.0,1,0,0
3,170.0,0,0,1
4,170.0,0,1,0
5,164.0,1,0,0
6,173.0,0,0,1
7,170.0,0,1,0
8,167.0,0,0,1
9,170.0,1,0,0


In [25]:
nationality  #출력하면, array 형태로 존재하다

array([0, 0, 0, 2, 1, 0, 2, 1, 2, 0])

In [26]:
nat_categ = pd.Categorical(nationality)  #
nat_categ   #Categories (3, int64): [0, 1, 2] -> categorical 변수이고, 
#3가지 값으로 구성되어 있고,각각은 int64로 코딩되어 있는데, 실제 내용은 0,1,2 3개로 존재한다

[0, 0, 0, 2, 1, 0, 2, 1, 2, 0]
Categories (3, int64): [0, 1, 2]

In [27]:
# 주의: Series로 변경된다
df['categ']= nat_categ  #컬럼을 추가하다

In [28]:
df

Unnamed: 0,height,nationality,categ
0,164.0,0,0
1,167.0,0,0
2,173.0,0,0
3,170.0,2,2
4,170.0,1,1
5,164.0,0,0
6,173.0,2,2
7,170.0,1,1
8,167.0,2,2
9,170.0,0,0


In [29]:
type(df.categ)  #categ를 df에 넣으니 Series 로 성격이 바뀌다

pandas.core.series.Series

In [30]:
type(nat_categ)  #nat_categ은 그대로 categorical로 되다

pandas.core.arrays.categorical.Categorical

In [31]:
#표준 스케일링
height = 3*np.random.randn(n_samples).round() +170  
#학생 수 (samples)만큼 랜덤 넘버를 지정하고, round해서 소수점이하 때어버리고
#3을 곱해, 표준편차가 3정도 되게끔, 170을 평균으로 하고
weight = 4*np.random.randn(n_samples).round() +70
#몸무게 70이 평균이고, 4시그마.. 4를 더하고 빼고
X = pd.DataFrame(list(zip(height, weight))) ;X.head()

Unnamed: 0,0,1
0,167.0,74.0
1,173.0,70.0
2,170.0,66.0
3,167.0,82.0
4,167.0,70.0


In [32]:
from sklearn.preprocessing import StandardScaler #sklean의 preprocessing이라는 패키지에서
#StandardScaler을 호출하고
X_std = StandardScaler().fit_transform(X); X_std
# StandardScaler()-> standardscaler을 생성자로 불러준 다음에
#.fit_transform(X) -> 결과를 fit.transform 해주면 그걸 X_std 로 해주다

array([[-0.86204366,  0.68599434],
       [ 1.05360891, -0.17149859],
       [ 0.09578263, -1.02899151],
       [-0.86204366,  2.40098019],
       [-0.86204366, -0.17149859],
       [ 2.0114352 , -1.02899151],
       [ 0.09578263, -1.02899151],
       [-0.86204366, -0.17149859],
       [-0.86204366,  0.68599434],
       [ 1.05360891, -0.17149859]])

In [33]:
x=X.values; x #X.values를 하면 안에 있는 내용값만 뽑아온다, 2차원 array로 바뀌다
# dataframe 으로 부터 안에 있는 내용만 가져오기:x=X.values

array([[167.,  74.],
       [173.,  70.],
       [170.,  66.],
       [167.,  82.],
       [167.,  70.],
       [176.,  66.],
       [170.,  66.],
       [167.,  70.],
       [167.,  74.],
       [173.,  70.]])

In [34]:
x_std = StandardScaler().fit_transform(x); x_std 
#array(x)를 넣던가  dataframe(X)을 넣던가 결과는 똑같이 array로 나온다

array([[-0.86204366,  0.68599434],
       [ 1.05360891, -0.17149859],
       [ 0.09578263, -1.02899151],
       [-0.86204366,  2.40098019],
       [-0.86204366, -0.17149859],
       [ 2.0114352 , -1.02899151],
       [ 0.09578263, -1.02899151],
       [-0.86204366, -0.17149859],
       [-0.86204366,  0.68599434],
       [ 1.05360891, -0.17149859]])