# PART 01. 파이썬과 데이터 다루기


## numpy

numpy는 과학 계산을 위한 파이썬 데이터 분석 패키지.
**다차원 배열**을 처리하는데 필요한 여러 유용한 기능을 제공.

**다차원 배열(ndarray)**
다차원 배열이란 같은 자료형의 데이터를 담을 수 있는 포괄적인 그릇.
ndarray의 모든 원소는 같은 자료형만 사용 가능.
배열의 차원을 rank라 하고, 각 차원의 크기를 튜플로 표시하는 것을 shape라고 함.

예) 행이 2, 열이 3인 2차원 배열
    rank : 2
    shape : (2,3)


**numpy + '.연산함수'**

*   numpy.abs(arr) : 절대값을 리턴, 복소수가 아닌 경우에는 빠른 연산을 위해 fabs이용
    numpy.fabs(arr)


*   numpy.sqrt(arr) : 제곱근(루트)을 계산

*   numpy.exp(arr) : 지수 계산
*   numpy.Log(arr) : 로그 계산


*   numpy.add(arr1, arr2) : 두 배열을 더한다.


*   numpy.subtract(arr1, arr2) : 첫 번째 배열에서 두 번째 배열을 뺀다.
*   numpy.multiply(arr1, arr2) : 두 배열을 곱한다.



In [None]:
# numpy 배열 기본
import numpy as np
v1 = np.array([1,2,3,4])

print(v1)

[1 2 3 4]


In [None]:
# 연속되거나 일정한 규칙을 가진 숫자
v1 = np.arange(5)
print(v1)

# 연속되거나 일정한 규칙을 가진 숫자, 데이터 형태 지정
v2 = np.arange(1,10,2, dtype = int)
v3 = np.arange(3.5, 10.5, 2, dtype=float)
print(v2)
print(v3)

# 제곱값 생성
v4 = np.arange(1,10,2)**2
print(v4)

# 세제곱값 생성
v5 = np.arange(1,10,2)**3
print(v5)

[0 1 2 3 4]
[1 3 5 7 9]
[3.5 5.5 7.5 9.5]
[ 1  9 25 49 81]
[  1  27 125 343 729]


In [None]:
# 행렬 만들기
v1 = np.arange(12)
print(v1)

v2 = v1.reshape(2,6)
print(v2)

v3 = v1.reshape(2,6, order = 'F')
print(v3)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
[[ 0  2  4  6  8 10]
 [ 1  3  5  7  9 11]]


행렬끼리 연산 가능

#### 행렬 계산 명령 구조
np.add(변수1, 변수2) # 덧셈

np.substract(변수1, 변수2) # 뺄셈

np.multiply(변수1, 변수2) # 곱셈

np.dot(변수1, 변수2) # 행렬 연산

In [None]:
# 행렬 계산
v1 = np.arange(1,5).reshape(2,2)
print(np.add(v1, v1))
print(np.subtract(v1, v1))
print(np.multiply(v1, v1))
print(np.dot(v1, v1))

[[2 4]
 [6 8]]
[[0 0]
 [0 0]]
[[ 1  4]
 [ 9 16]]
[[ 7 10]
 [15 22]]


In [None]:
# 다차원 행렬 만들기
# order를 T(디폴트)로 하는지, F로 하는지에 따라서 할당 순서가 달라짐.

v1 = np.arange(12)
print(v1)

print('\n')

v2 = v1.reshape(2,3,2, order = 'F')
print(v2)

print('\n')

v3 = v1.reshape(2,3,2)
print(v3)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


[[[ 0  6]
  [ 2  8]
  [ 4 10]]

 [[ 1  7]
  [ 3  9]
  [ 5 11]]]


[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]




*   np.amax(변수명) : 최대값

*   np.amin(변수명) : 최소값
*   변수명.dtype : 데이터 타입 확인
*   변수명.shape : (행, 열, 차원) 확인



In [None]:
# 다차원 배열에서 요소의 최대값 및 최소값 반환

v3 = np.arange(3.5, 10.5, 2, dtype = float)
print(v3)
v4 = np.arange(1,5).reshape(2,2)
print(v4)
print(np.amax(v3))
print(np.amin(v4))
print(v3.dtype)
print(v4.shape)

[3.5 5.5 7.5 9.5]
[[1 2]
 [3 4]]
9.5
1
float64
(2, 2)


## Pandas

pandas는 자료구조 및 데이터 분석.처리를 위한 파이썬의 핵심 패키지
크게 **Series**와 **DataFrame**의 형태로 나눌 수 있음

### Series

index와 value의 형태를 갖고 있는 pandas의 자료 구조

In [None]:
# pandas 함수 불러오기
import pandas as pd
from pandas import Series, DataFrame

# series 설정
a = Series([1,3,5,7])
print(a)
print(a.values)
print(a.index)

print('\n')

# index 변경
a2 = pd.Series([1,3,5,7], index = ['a', 'b', 'c', 'd'])
print(a2)

0    1
1    3
2    5
3    7
dtype: int64
[1 3 5 7]
RangeIndex(start=0, stop=4, step=1)


a    1
b    3
c    5
d    7
dtype: int64


### DataFrame

DataFrame은 2차원 행렬구조로 구성.

판다스로 행렬구조로 된 csv파일 불러오기
* CSV 파일 불러오기 : pd.read_csv('파일명.csv')

In [None]:
# csv 파일을 pandas DataFrame 형태로 불러오기
df = pd.read_csv('/content/drive/MyDrive/빅데이터분석기사실기준비/EX_GrapeData.csv')
df

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134
...,...,...,...,...,...
58,1,1,5.0,16.66,21.5
59,2,1,21.0,43.00,
60,2,2,5.0,12.00,
61,2,3,13.0,20.00,


In [None]:
# 엑셀파일을 pandas DataFrame 형태로 불러오기
df = pd.read_excel('/content/drive/MyDrive/빅데이터분석기사실기준비/EX_GrapeData.xlsx')
df

Unnamed: 0,continent,brand,size,period,price
0,2.0,2.0,10.7,47.65,144.0
1,2.0,3.0,14.0,63.13,215.0
2,2.0,2.0,9.0,58.76,105.0
3,1.0,1.0,8.0,34.88,69.0
4,2.0,2.0,10.0,55.53,134.0
...,...,...,...,...,...
58,1.0,1.0,5.0,16.66,21.5
59,2.0,1.0,21.0,43.00,
60,2.0,2.0,5.0,12.00,
61,2.0,3.0,13.0,20.00,


한글이 포함된 파일 불러올 때, 글자가 깨지는 경우가 있음.

인코딩 옵션을 'euc-kr'로 하면 한글이 잘 나타남.

In [None]:
# df = pd.read_csv('cosmetics_.csv', encoding = 'euc-kr')
# df = pd.read_excel('cosmetics_.xlsx', encoding = 'euc-kr')


In [None]:
# 데이터 프레임 처음부터 ~개의 행만 불러오기
df.head()

Unnamed: 0,continent,brand,size,period,price
0,2.0,2.0,10.7,47.65,144.0
1,2.0,3.0,14.0,63.13,215.0
2,2.0,2.0,9.0,58.76,105.0
3,1.0,1.0,8.0,34.88,69.0
4,2.0,2.0,10.0,55.53,134.0


In [None]:
# 데이터 프레임 뒤부터 ~개의 행만 불러오기
df.tail()

Unnamed: 0,continent,brand,size,period,price
58,1.0,1.0,5.0,16.66,21.5
59,2.0,1.0,21.0,43.0,
60,2.0,2.0,5.0,12.0,
61,2.0,3.0,13.0,20.0,
62,2.0,3.0,31.0,19.0,


데이터 프레임에서 특정한 연속적 행을 확인

**변수명[처음 출력할 행:마지막으로 출력할 행+1]**


In [None]:
# 1에서 4까지 출력
df[1:5]

Unnamed: 0,continent,brand,size,period,price
1,2.0,3.0,14.0,63.13,215.0
2,2.0,2.0,9.0,58.76,105.0
3,1.0,1.0,8.0,34.88,69.0
4,2.0,2.0,10.0,55.53,134.0


In [None]:
# 처음부터 2까지 출력
df[:3]

Unnamed: 0,continent,brand,size,period,price
0,2.0,2.0,10.7,47.65,144.0
1,2.0,3.0,14.0,63.13,215.0
2,2.0,2.0,9.0,58.76,105.0


In [None]:
# 60에서 끝까지 출력
df[60:]

Unnamed: 0,continent,brand,size,period,price
60,2.0,2.0,5.0,12.0,
61,2.0,3.0,13.0,20.0,
62,2.0,3.0,31.0,19.0,


**열(column)** 불러오기



*   방법 1 : 데이터셋명[['행 이름']]
*   방법 2 : 데이터셋명[데이터셋명.columns[[행 번호]]]
*   방법 3 : 데이터셋명.loc[:, 첫 행 이름: 끝 행 이름]

만약 '[[ ]]'가 아니라 '[]'이면 데이터프레임이 아닌 시리즈형태로 불러와짐.

In [None]:
# price 변수(열) 불러오기 : series 형태
df['price'] # df.price으로 대체 가능

0     144.0
1     215.0
2     105.0
3      69.0
4     134.0
      ...  
58     21.5
59      NaN
60      NaN
61      NaN
62      NaN
Name: price, Length: 63, dtype: float64

In [None]:
# price 변수(열) 불러오기 : DataFrame 형태
df[['price']]

Unnamed: 0,price
0,144.0
1,215.0
2,105.0
3,69.0
4,134.0
...,...
58,21.5
59,
60,
61,


변수명을 직접 입력하지 않고 변수의 인덱스로 불러올 수 있음.

columns라는 명령을 이용.

---


** 주의 **

데이터셋명을 두 번 사용해야 함.

**데이터셋[데이터셋.columns[[ ]]]**

In [None]:
# 0번, 2번, 4번째 열(컬럼)만 출력
df[df.columns[[0,2,4]]]

Unnamed: 0,continent,size,price
0,2.0,10.7,144.0
1,2.0,14.0,215.0
2,2.0,9.0,105.0
3,1.0,8.0,69.0
4,2.0,10.0,134.0
...,...,...,...
58,1.0,5.0,21.5
59,2.0,21.0,
60,2.0,5.0,
61,2.0,13.0,


In [None]:
# size부터 price까지 출력
df.loc[:, 'size':'price']

Unnamed: 0,size,period,price
0,10.7,47.65,144.0
1,14.0,63.13,215.0
2,9.0,58.76,105.0
3,8.0,34.88,69.0
4,10.0,55.53,134.0
...,...,...,...
58,5.0,16.66,21.5
59,21.0,43.00,
60,5.0,12.00,
61,13.0,20.00,


데이터 프레임 특정 행과 열을 모두 지정해서 불러오려면 iloc 명령어를 사용

변수명.iloc[첫 행:끝 행, 첫 열:끝 열]

                    row,       column

In [None]:
# 1 ~ 7행(케이스), 0 ~ 2열 (변수)만 불러오기
df.iloc[1:7, 0:2]

Unnamed: 0,continent,brand
1,2.0,3.0
2,2.0,2.0
3,1.0,1.0
4,2.0,2.0
5,2.0,2.0
6,2.0,2.0


특정한 하나의 값을 지정해서 불러오기

변수명.at[행 번호, '열 이름']

In [None]:
# 5행(케이스)의 price 변수 해당 값 불러오기
df.at[5, 'price']

129.0

### 복사, 추가, 삭제

판다스를 이용하여 불러온 데이터를 insert(추가), del(삭제), rename(이름 재설정) 함수를 사용하여 추가, 삭제, 수정이 가능함.

데이터 프레임 전체를 복사하여 백업하고자 한다면
* df_columns = df.copy()

데이터 프레임의 열(변수) 이름을 확인하고자 한다면
* df_columns.columns

데이터 프레임 열들 중에서 일부 열(변수)만 필터링하여 기존 혹은 새로운 데이터 셋을 구성하고자 하면
* df_columns = df_columns[['열1', '열2', '열3', '열4']]

In [None]:
# 데이터 프레임 전체 복사 (백업)
df_columns = df.copy()

In [None]:
# 데이터 프레임의 열(변수) 이름 확인
df_columns.columns

Index(['continent', 'brand', 'size', 'period', 'price'], dtype='object')

In [None]:
# 데이터 프레임 열 필터링
df_columns = df_columns[['size', 'period', 'price']]
df_columns.head()

Unnamed: 0,size,period,price
0,10.7,47.65,144.0
1,14.0,63.13,215.0
2,9.0,58.76,105.0
3,8.0,34.88,69.0
4,10.0,55.53,134.0


### 변수이름, 변경, 행추가 및 삭제

데이터 열(변수) 이름을 수정하고자 할 경우는 rename이라는 명령어를 사용.

In [None]:
# 데이터 열(변수) 이름 수정 : period -> time
df_columns.rename(columns = {'period' : 'time'}, inplace = True)
df_columns.columns

Index(['size', 'time', 'price'], dtype='object')

데이터 열(변수)들로 계산하여 새로운 변수를 만들 수 있음.

In [None]:
# size를 time으로 나누어 월별 포도크기로 계산하여 growth 변수 생성

df_columns['growth'] = df_columns['size'] / df_columns['time']
df_columns.head()

Unnamed: 0,size,time,price,growth
0,10.7,47.65,144.0,0.224554
1,14.0,63.13,215.0,0.221765
2,9.0,58.76,105.0,0.153165
3,8.0,34.88,69.0,0.229358
4,10.0,55.53,134.0,0.180083


데이터 열(변수)을 삭제하고자 할 때는 del이라는 명령어를 사용.

In [None]:
# 특정 변수 삭제 : growth 삭제
del df_columns['growth']

In [None]:
df_columns.head()

Unnamed: 0,size,time,price
0,10.7,47.65,144.0
1,14.0,63.13,215.0
2,9.0,58.76,105.0
3,8.0,34.88,69.0
4,10.0,55.53,134.0


### 데이터 케이스 추출

전체 데이터 중 특정 집단 데이터만 추출하고자 할 때는 연산자를 이용해서 조건문을 구성.

AND 조건 -> '&'

OR 조건 -> '|'

두 개 이상의 조건을 연결

#### 예시 1

대륙(continent)은 '1'이고 브랜드(brand)는 '1'인 동시 조건에 충족하는 케이스면 별도의 데이터셋을 구성하는 예

In [None]:
# 특정 케이스 선택 1 : 집단 선택
df_continent_brand = df[(df['continent'] == 1) & (df['brand'] == 1)]
df_continent_brand

Unnamed: 0,continent,brand,size,period,price
3,1.0,1.0,8.0,34.88,69.0
11,1.0,1.0,10.4,17.67,54.0
12,1.0,1.0,7.4,16.41,39.0
13,1.0,1.0,5.4,12.02,29.5
16,1.0,1.0,6.0,23.21,42.0
17,1.0,1.0,9.0,28.64,65.0
19,1.0,1.0,12.4,23.77,49.5
20,1.0,1.0,7.5,20.21,36.5
22,1.0,1.0,7.0,17.84,45.0
25,1.0,1.0,5.5,15.61,30.0


#### 예시 2

특정 기준값 이상 혹은 이해 데이터만 추출한 예
'size' 10이상, 'period' 30이상인 두 조건을 모두 충족하는 케이스만 별도로 구성

In [None]:
# 특정 케이스 선택2 : 기준값 이상 혹은 이하 선택
df_over_size_period = df[(df['size'] >= 10) & (df['period'] >= 30)]
df_over_size_period

Unnamed: 0,continent,brand,size,period,price
0,2.0,2.0,10.7,47.65,144.0
1,2.0,3.0,14.0,63.13,215.0
4,2.0,2.0,10.0,55.53,134.0
5,2.0,2.0,10.5,43.14,129.0
6,2.0,2.0,16.0,54.86,155.0
7,2.0,1.0,15.0,44.14,99.0
10,2.0,2.0,25.0,109.38,260.0
14,2.0,2.0,15.4,49.48,109.0
15,2.0,1.0,12.4,48.74,89.5
21,1.0,3.0,14.0,32.62,109.0


### 코딩 변경

데이터셋 중에서 기존의 값을 변경해야 할 경우가 있음.

예를 들어, 'brand' 1, 2, 3이라는 3개의 하위 집단을 1,2로 묶음.

(1/2 -> 1, 3 -> 2)

* 방법 1 : replace 기능
* 방법 2 : 함수로 정의

먼저 brand의 범주와 수를 확인

'데이터셋명['변수명'].value_counts()' 사용
 

In [None]:
# brand 범주 카운트
df['brand'].value_counts()

2.0    24
1.0    23
3.0    16
Name: brand, dtype: int64

방법1 : replace 기능

{ } 안에 변수명과 기존값 : 새로운 값을 매칭하여 지정한 후, 데이터셋에 적용함.

In [None]:
recode_brand = {"brand": {1: 1, 2: 1, 3: 2}}
df_recode1 = df.replace(recode_brand)
df_recode1.head()

Unnamed: 0,continent,brand,size,period,price
0,2.0,1.0,10.7,47.65,144.0
1,2.0,2.0,14.0,63.13,215.0
2,2.0,1.0,9.0,58.76,105.0
3,1.0,1.0,8.0,34.88,69.0
4,2.0,1.0,10.0,55.53,134.0


In [None]:
df_recode1['brand'].value_counts()

1.0    47
2.0    16
Name: brand, dtype: int64

방법 2 : 함수로 정의

In [None]:
# 코딩변경 함수 정의
def brand_groups(series):
    if series == 1:
        return 1
    elif series == 2:
        return 1
    elif series == 3:
        return 2

df['re_brand'] = df['brand'].apply(brand_groups)
df.head()

Unnamed: 0,continent,brand,size,period,price,re_brand
0,2.0,2.0,10.7,47.65,144.0,1
1,2.0,3.0,14.0,63.13,215.0,2
2,2.0,2.0,9.0,58.76,105.0,1
3,1.0,1.0,8.0,34.88,69.0,1
4,2.0,2.0,10.0,55.53,134.0,1


### pandas와 numpy 전환

판다스와 넘파이는 서로 매우 쉽게 변환할 수 있음. 머신러닝이나 딥러닝에서는 넘파이로 분석을 해야 빠른 연산이 가능하기 때문에 판다스로 기본적 분석을 한 후 넘파이 데이터는 눈으로 확인이 어려워 판다스로 변환하여 데이터를 살펴보기도 함.

In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/빅데이터분석기사실기준비/EX_GrapeData.csv')
df.head()

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134


numpy로 바꾸기.

'.to_numpy()'라고 선언

단점 : numpy에는 변수명이 없음. 모두 숫자로 되어 있음.

In [None]:
df_num = df.to_numpy()
df_num

array([[2, 2, 10.7, 47.65, '144'],
       [2, 3, 14.0, 63.13, '215'],
       [2, 2, 9.0, 58.76, '105'],
       [1, 1, 8.0, 34.88, '69'],
       [2, 2, 10.0, 55.53, '134'],
       [2, 2, 10.5, 43.14, '129'],
       [2, 2, 16.0, 54.86, '155'],
       [2, 1, 15.0, 44.14, '99'],
       [2, 1, 6.5, 17.46, '38.5'],
       [2, 1, 5.0, 21.04, '36.5'],
       [2, 2, 25.0, 109.38, '260'],
       [1, 1, 10.4, 17.67, '54'],
       [1, 1, 7.4, 16.41, '39'],
       [1, 1, 5.4, 12.02, '29.5'],
       [2, 2, 15.4, 49.48, '109'],
       [2, 1, 12.4, 48.74, '89.5'],
       [1, 1, 6.0, 23.21, '42'],
       [1, 1, 9.0, 28.64, '65'],
       [1, 3, 9.0, 44.95, '115'],
       [1, 1, 12.4, 23.77, '49.5'],
       [1, 1, 7.5, 20.21, '36.5'],
       [1, 3, 14.0, 32.62, '109'],
       [1, 1, 7.0, 17.84, '45'],
       [1, 2, 9.0, 22.82, '58'],
       [1, 2, 12.0, 29.48, '89'],
       [1, 1, 5.5, 15.61, '30'],
       [1, 2, 6.0, 13.25, '31'],
       [1, 3, 12.0, 45.78, '119'],
       [2, 1, 5.5, 26.53, '22'],
     

numpy를 pandas로 바꾸기

'pd.DataFrame(넘파이셋명)'

변수명은 0,1,2,3 처럼 인덱스가 됨.

In [None]:
df_pd = pd.DataFrame(df_num)
df_pd.head()

Unnamed: 0,0,1,2,3,4
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134


In [None]:
df_pd2 = pd.DataFrame(data = df_num, columns = ["continent", "brand", "size", "period", "price"])
df_pd2.head()

Unnamed: 0,continent,brand,size,period,price
0,2,2,10.7,47.65,144
1,2,3,14.0,63.13,215
2,2,2,9.0,58.76,105
3,1,1,8.0,34.88,69
4,2,2,10.0,55.53,134
