##  numpy

### Indexing

In [6]:
import numpy as np

# 일차원 배열과 이차원 배열 생성
li = list(range(1, 10))
print(li)

# list를 이용해서 ndarray 생성
ar = np.array(li)
print(ar)

matrix = np.array(li).reshape(3,3) # 1차원 배열을 생성한 후 3x3 행렬로 변경
print(matrix)

[1, 2, 3, 4, 5, 6, 7, 8, 9]
[1 2 3 4 5 6 7 8 9]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [13]:
# 인덱싱 - 데이터 1개 가져오기
data1 = ar[0]
print(data1)

# 이차원 배열에서 데이터 1개 찾아오기
data2 = matrix[0, 0]
data3 = matrix[0][0]
print(data2)
print(data3)

# 이차원 배열에서 행 하나 찾아오기
row = matrix[0,:] # matrix[0]
print(row)

# 이차원 배열에서 열 하나 찾아오기
col = matrix[:,0]
print(col)

1
1
1
[1 2 3]
[1 4 7]


In [15]:
# 일반 인덱싱한 데이터는 파이썬의 기본 데이터와 동일하게 동작을 함
# 파이썬의 scala data는 일반적으로 immutable
# scalar data는 다른 변수에 대입할 때 값을 복사해서 대입함
a = 10
b = a
b = 20
print(a)

# 파이썬의 vector data는 다른 변수에 대입할 때 참조를 복사해서 대입
ax = [1,2,3]
bx = ax
bx[0] = 100
print(ax)

10
[100, 2, 3]


In [24]:
# 파이썬에서의 데이터 복제
# copy 모듈의 copy 와 deepcopy 함수 이용
# 얕은 복사(copy)는 한 번은 복제를 하지만 재귀적으로 수행하지는 않음
# 깊은 복사는 재귀적으로 복제를 수행

import copy
li = [1,2,3]
c = li.copy() # 얕은 복사
c[0] = 100 # 1차원 list의 경우 원본에 영향을 주지 않음
print(li)

m = [[1,2,3],[4,5,6]]
c = m.copy() # 얕은 복사는 이차원 배열 이상부터 원본에 영향을 줌
c[0][0] = 100
print(m)

# deepcopy는 재귀적으로 복제를 수행하므로 데이터를 수정해도 원본에 영향을 주지 않음
m = [[1,2,3],[4,5,6]]
d = copy.deepcopy(m)
d[0][0] = 1004
print(d)
print(m)

[1, 2, 3]
[[100, 2, 3], [4, 5, 6]]
[[1004, 2, 3], [4, 5, 6]]
[[1, 2, 3], [4, 5, 6]]


In [19]:
# scalar data를 복사하는 경우 원본의 값을 복사해서 대입하므로 
# 복사본을 수정해도 원본에 영향을 주지 않음
data1 = 1000
print(data1)
print(ar)

data2 = 1000
print(data2)
print(matrix)

# row 는 vector data
# vector data를 다른 곳에 복사하면 참조가 복사됨
# 복사본을 수정하면 원본도 영향을 받음
row[0] = 1004
print(row)
print(matrix)

1000
[1 2 3 4 5 6 7 8 9]
1000
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1004    2    3]
[[1004    2    3]
 [   4    5    6]
 [   7    8    9]]


In [25]:
# 데이터 복제는 copy() 메서드 이용
clone = matrix.copy()
clone[0][0] = 45 # 복사본의 데이터를 수정해도 원본은 변하지 않음
print(matrix)

[[1004    2    3]
 [   4    5    6]
 [   7    8    9]]


### 슬라이싱

In [29]:
li = [1,2,3,4,5]
c = li[0:3] # 리스트의 슬라이싱 : 얕은 복사
# c와 li 는 앞 3개의 데이터가 동일하지만 다른 공간의 데이터
print(c)
c[0] = 100 # c의 값을 변경해도 li 의 값은 변하지 않음
print(li)

ar = np.array(li)
d = ar[0:3] # 배열에서 데이터 복사
# 참조가 복사되므로 d의 값을 수정하면 ar 의 값에 영향을 주게 됨
print(d)
d[0] = 100
print(ar)

[1, 2, 3]
[1, 2, 3, 4, 5]
[1 2 3]
[100   2   3   4   5]


### Fancy indexing

In [32]:
# 인덱싱할 때 list를 이용하는 것
# 복사본을 수정해도 원본에 영향을 주지 않음
ar = np.array([100,200,300,400,500])
f = ar[[0,2]]
print(f)
f[0] = 1004
print(ar)

[100 300]
[100 200 300 400 500]


### boolean indexing

In [50]:
# 불리언 색인 : array 의 인덱스에 bool 배열을 대입해서 True인 데이터만 골라내기

ar = np.array([1,2,3,4,5,6,7])
result = ar[[True, True, False, False,True, False, True]]
print(result)

br = np.array([11,22,33,44,55,66,77])
result = ar[(br>50) & (br <70)]
print(result)

[1 2 5 7]
[5 6]


## ndarray 의 연산

### 산술연산

In [66]:

# broadcast 연산
ar = np.array([1,2,3,4,5])
br = np.array([10,20,30,40,50])

result = ar + br
print(result)

result = ar + 4 # 적은 차원의 데이터를 큰 차원 데이터로 수정
print(result)

# 일차원 배열을 2x5 행렬로 수정해서 연산
cr = np.array(range(1,11))
cr = cr.reshape((2,5))
print(ar + cr)

[11 22 33 44 55]
[5 6 7 8 9]
[[ 2  4  6  8 10]
 [ 7  9 11 13 15]]


### 논리연산

In [67]:
# 논리연산
ar = np.array([1,2,3,4,5])
br = np.array([10,20,False,40,0])

print(ar > br)
print(np.not_equal(ar,br))
print(np.logical_xor(ar,br)) # and or xor 은 bool 로 변경해서 판정

[False False  True False  True]
[ True  True  True  True  True]
[False False  True False  True]


In [77]:
ar = np.array([1,2,3,4,5])
br = np.array([10,20,False,40,0])

ar += br
print(ar)

print(1 in ar)
print([1,2] in ar)
print([11,22] in ar)

[11 22  3 44  5]
False
False
False


  print([1,2] in ar)
  print([11,22] in ar)


### 벡터화된 함수 적용

In [81]:
# 벡터화된 함수 적용
# 매개변수에 100을 더해서 리턴하는 함수
ar = np.array([1,2,3,4,5])
def add_100(data):
    return data+100

# 벡터화된 함수로 수정
vector_f = np.vectorize(add_100)
# 배열에 벡터화된 함수 적용
print(vector_f(ar))

# 람다 함수를 이용해서 동일한 작업 수행
print(np.vectorize(lambda x : x+100)(ar))


[101 102 103 104 105]
[101 102 103 104 105]


In [90]:
matrix = np.array(range(1,11)).reshape((5,2))
print(matrix)
print(matrix.reshape((2,5))) # 행과 열을 순서대로 변경
print(matrix.T) # 행과 열을 변경 matrix.transpose() 도 같은 동작


[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
[[ 1  3  5  7  9]
 [ 2  4  6  8 10]]


### random 모듈

In [99]:
np.random.seed(seed = 42) # 시드 고정
cards = np.array(range(1,49))
print(cards)
# 배열을 섞어서 리턴
result = np.random.permutation(cards)
print(result)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48]
[28 41 27 44 25 38 13 20  5 26  9  4  7 40 34 14 18 46 16 10 17 30 33 47
  1 32 31  6 12 35  2 45 22  3 37 36 24 42 11 23 19 48 21  8 43 15 29 39]


### 기본 통계 함수

In [119]:
# 기본 통계 함수
np.random.seed(seed = 42)
matrix = np.random.randn(12).reshape((4,3))
print(matrix)
print(matrix.sum())
print(matrix.std())
print(matrix.std(ddof=1)) # 자유도 1 적용
print(np.percentile(matrix, 75)) # 75% 에 해당하는 값
# 행 단위와 열 단위 합계
print(matrix.sum(axis= 0)) # axis = 0이 열단위, 1이 행단위

print(matrix.argmin(axis= 1))
print(matrix.prod(axis = 1))

[[ 0.49671415 -0.1382643   0.64768854]
 [ 1.52302986 -0.23415337 -0.23413696]
 [ 1.57921282  0.76743473 -0.46947439]
 [ 0.54256004 -0.46341769 -0.46572975]]
3.5514636706048432
0.7125565880862972
0.7442410835391141
0.6776250858637466
[ 4.14151687 -0.06840064 -0.52165256]
[1 1 2 2]
[-0.04448185  0.08349853 -0.56897608  0.11709933]


In [121]:
a = np.array([1,2,3])
b = np.array([4,5,6])
print(a+b) # [5,7,9]

c = [1,2,3]
d = [4,5,6]
print(c+d) # [1, 2, 3, 4, 5, 6]

[5 7 9]
[1, 2, 3, 4, 5, 6]


In [122]:
help(np.sort)

Help on function sort in module numpy:

sort(a, axis=-1, kind=None, order=None)
    Return a sorted copy of an array.
    
    Parameters
    ----------
    a : array_like
        Array to be sorted.
    axis : int or None, optional
        Axis along which to sort. If None, the array is flattened before
        sorting. The default is -1, which sorts along the last axis.
    kind : {'quicksort', 'mergesort', 'heapsort', 'stable'}, optional
        Sorting algorithm. The default is 'quicksort'. Note that both 'stable'
        and 'mergesort' use timsort or radix sort under the covers and, in general,
        the actual implementation will vary with data type. The 'mergesort' option
        is retained for backwards compatibility.
    
        .. versionchanged:: 1.15.0.
           The 'stable' option was added.
    
    order : str or list of str, optional
        When `a` is an array with fields defined, this argument specifies
        which fields to compare first, second, etc.  A si

In [126]:
# 1차원 배열의 정렬
ar = np.array([20,30,10,25,27])
result = np.sort(ar)
print(result)
print(ar)   

# 2차원 배열에서 행에서의 정렬
br = np.array([[10, 60, 80], [20, 50, 30], [15, 32, 29]])
result = np.sort(br, axis = 1)
print(result)

[10 20 25 27 30]
[20 30 10 25 27]
[[10 60 80]
 [20 30 50]
 [15 29 32]]


In [158]:
x = range(1, 51)
# 위 데이터를 가지고 10x5 까지 이차원 배열 생성
matrix = np.array(x).reshape((10,5))
print(matrix)

print(matrix.shape) # 행과 열 개수 가져오기

print(type(matrix.shape))

# 데이터를 가지고 7:3 분할
np.split(x, [int(50*0.7)])

# 여기에 permutation 을 적용하면 샘플링해주는 함수가 됨


[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]
 [26 27 28 29 30]
 [31 32 33 34 35]
 [36 37 38 39 40]
 [41 42 43 44 45]
 [46 47 48 49 50]]
(10, 5)
<class 'tuple'>


[array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
        18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
        35]),
 array([36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])]

In [159]:
for i in range(10):
    print(i)

0
1
2
3
4
5
6
7
8
9


## pandas

In [160]:
import pandas as pd

### Series

In [165]:
series1 = pd.Series([10,20,30,40]) # 인덱스 없이 0,1,2,3 으로 접근하도록 생성
series2 = pd.Series([10,20,30,40], index= ['one', 'two', 'three','four']) # 인덱스와 함께 생성
print(series1)
print(series2)
# dict 를 이용해서 key는 index, value는 value 가 되도록 설정
series3 = pd.Series({'태연':'소녀시대',"수지":"미스에이","카리나":'aespa','설현':'AOA'})
print(series3)

0    10
1    20
2    30
3    40
dtype: int64
one      10
two      20
three    30
four     40
dtype: int64
태연      소녀시대
수지      미스에이
카리나    aespa
설현       AOA
dtype: object


In [168]:
# 인덱싱
print(series3[0]) # 일련번호로 접근
print(series3['태연']) # 인덱스로 접근
print(series3[0:2]) # 일련번호는 종료 위치가 포함되지 않음
print(series3['태연':'카리나']) # 인덱스는 종료 위치가 포함됨

소녀시대
소녀시대
태연    소녀시대
수지    미스에이
dtype: object
태연      소녀시대
수지      미스에이
카리나    aespa
dtype: object


In [171]:
print(series1.values) # 값들만 추출
print(series1 + 100)
# 연산은 ndarray 와 동일하게 수행되는데 values 속성의 맴버를 가지고 연산

np.sum(series1)

[10 20 30 40]
0    110
1    120
2    130
3    140
dtype: int64


100

In [179]:
s1 = pd.Series({'태연' : 81, '수지':99,'카리나':88,'설현':73})
s2 = pd.Series({'태연' : np.nan, '카리나':99,'수지':88,'민지':73})
print(s1+s2) # DataFrame 과 Series 는 인덱스를 가지고 연산을 수행

민지       NaN
설현       NaN
수지     187.0
카리나    187.0
태연       NaN
dtype: float64


### DataFrame

In [189]:
# DataFrame을 만들기 위한 딕셔너리 생성
items = {
    'code' : [1,2,3,4],
    'name' : ['수박','키위','바나나','사과'],
    'price' : [3000, 4000, 5000, 1000]
}

df = pd.DataFrame(items)
print(df)

   code name  price
0     1   수박   3000
1     2   키위   4000
2     3  바나나   5000
3     4   사과   1000


In [191]:
print(df.index)
print(df.columns)
df.index = range(1,5)
df.columns = ['코드','이름','가격']
print(df)

RangeIndex(start=0, stop=4, step=1)
Index(['code', 'name', 'price'], dtype='object')
   코드   이름    가격
1   1   수박  3000
2   2   키위  4000
3   3  바나나  5000
4   4   사과  1000


In [195]:
print(df.head())
# 데이터를 머신러닝을 하고자 하면 numpy의 ndarray로만 가능
print(type(df.values))
# 데이터 분석을 하기전에 데이터를 가져왔으면 정보를 확인
print(df.info())

   코드   이름    가격
1   1   수박  3000
2   2   키위  4000
3   3  바나나  5000
4   4   사과  1000
<class 'numpy.ndarray'>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 1 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   코드      4 non-null      int64 
 1   이름      4 non-null      object
 2   가격      4 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 228.0+ bytes
None


## pandas를 이용한 데이터 수집

In [202]:
from sklearn import datasets
digits = datasets.load_digits()
digits

{'data': array([[ 0.,  0.,  5., ...,  0.,  0.,  0.],
        [ 0.,  0.,  0., ..., 10.,  0.,  0.],
        [ 0.,  0.,  0., ..., 16.,  9.,  0.],
        ...,
        [ 0.,  0.,  1., ...,  6.,  0.,  0.],
        [ 0.,  0.,  2., ..., 12.,  0.,  0.],
        [ 0.,  0., 10., ..., 12.,  1.,  0.]]),
 'target': array([0, 1, 2, ..., 8, 9, 8]),
 'frame': None,
 'feature_names': ['pixel_0_0',
  'pixel_0_1',
  'pixel_0_2',
  'pixel_0_3',
  'pixel_0_4',
  'pixel_0_5',
  'pixel_0_6',
  'pixel_0_7',
  'pixel_1_0',
  'pixel_1_1',
  'pixel_1_2',
  'pixel_1_3',
  'pixel_1_4',
  'pixel_1_5',
  'pixel_1_6',
  'pixel_1_7',
  'pixel_2_0',
  'pixel_2_1',
  'pixel_2_2',
  'pixel_2_3',
  'pixel_2_4',
  'pixel_2_5',
  'pixel_2_6',
  'pixel_2_7',
  'pixel_3_0',
  'pixel_3_1',
  'pixel_3_2',
  'pixel_3_3',
  'pixel_3_4',
  'pixel_3_5',
  'pixel_3_6',
  'pixel_3_7',
  'pixel_4_0',
  'pixel_4_1',
  'pixel_4_2',
  'pixel_4_3',
  'pixel_4_4',
  'pixel_4_5',
  'pixel_4_6',
  'pixel_4_7',
  'pixel_5_0',
  'pixel_5_1',
 

In [206]:
import os
os.getcwd()

'c:\\Users\\USER\\Desktop\\Song\\DX school\\Python ETL'

### csv 읽기

In [208]:
pd.read_csv('/Users/USER/Downloads/data/data/item.csv')

Unnamed: 0,code,manufacture,name,price
0,1,korea,apple,1500
1,2,korea,watermelon,15000
2,3,korea,oriental melon,1000
3,4,philippines,banana,500
4,5,korea,lemon,1500
5,6,korea,mango,700


In [209]:
pd.read_csv('/Users/USER/Downloads/data/data/item.csv', index_col = 'code')

Unnamed: 0_level_0,manufacture,name,price
code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,korea,apple,1500
2,korea,watermelon,15000
3,korea,oriental melon,1000
4,philippines,banana,500
5,korea,lemon,1500
6,korea,mango,700


In [215]:
# 첫 번째 행도 일반 데이터 이므로 
# 첫 번쨰 행이 해더가 아니라고 설정하고 해더 이름을 설정
good = pd.read_csv('/Users/USER/Downloads/data/data/good.csv', header = None, names = ['제품명', '개수','가격'])
good

Unnamed: 0,제품명,개수,가격
0,apple,10,1500
1,banana,5,15000
2,melon,7,1000
3,kiwi,20,500
4,mango,30,1500
5,orange,4,700


In [221]:
good = pd.read_csv('/Users/USER/Downloads/data/data/good.csv', header = None, chunksize = 3)
df = pd.DataFrame()
for piece in good:
   df = pd.concat([df, piece])

df

Unnamed: 0,0,1,2
0,apple,10,1500
1,banana,5,15000
2,melon,7,1000
3,kiwi,20,500
4,mango,30,1500
5,orange,4,700


In [224]:
pd.read_csv('/Users/USER/Downloads/data/data/gapminder.tsv', sep = '\t')

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623
