# NUMPY 기본
- Numerical python의 약자
- 고성능 과학 계산용 패키지로 강력한 n차원 배열 객체. 벡터, 행렬 등 수학 연산에 필요한 다양한 객체 및 기능을 제공해줌
- 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
- 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
- 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
- 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음


In [2]:
import numpy as np

In [12]:
#1-D array 생성
#1-D array는 선형대수에서의 벡터로 생각할 수 있으며 array() 함수로 생성 가능.

a1 = np.array([1, 2, 3, 4, 5])
print(a1)

[1 2 3 4 5]


In [13]:
print(a1.shape)

(5,)


In [14]:
#Indexing and slicing
a1[0]

1

In [15]:
#2-D array 생성
#2-D array는 행렬로 생각하면 됨.
a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [17]:
print(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [19]:
#Indexing and slicing
a2[1,1]

5

In [20]:
#3-D array 생성
a3 = np.array([[[1,2,3],[4,5,6],[7,8,9]],
               [[1,2,3],[4,5,6],[7,8,9]],
               [[1,2,3],[4,5,6],[7,8,9]]])

In [21]:
print(a3)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


In [23]:
print(a3.shape)

(3, 3, 3)


In [24]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [25]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [26]:
np.full((3,3),1.25)

array([[1.25, 1.25, 1.25],
       [1.25, 1.25, 1.25],
       [1.25, 1.25, 1.25]])

In [30]:
a1[0]
a1[:1]
a1[-1]
a1[1:3]
a1[1:]
a1[a1>2]

5

In [60]:
a2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [63]:
a2[0]
a2[0,:]
a2[0:1,:]
a2[0:3,:]
a2[0:2, 1:3]
a2[-1,1:]
a2[a2>2]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [67]:
a3 [0,:,:]
a3 [:,0,:]
a3 [:,:,0]
a3[a3>4]

array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]])

In [77]:
x = np.random.choice(np.arange(0, 10), size = 10, replace = False)

In [78]:
x

array([4, 5, 1, 2, 0, 7, 9, 6, 3, 8])

In [79]:
np.sort(x)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

In [84]:
x = np.arange(0, 4)

In [86]:
np.reshape(x, (2, 2))

array([[0, 1],
       [2, 3]])

In [88]:
x = np.random.choice(np.arange(0, 10), size = 10, replace = False)

In [91]:
x

array([0, 2, 8, 5, 1, 9, 3, 4, 6, 7])

In [94]:
np.min(x)
x.min()

0

In [96]:
np.max(x)
x.max()

9

In [97]:
X = x.reshape(2, 5)

In [99]:
X

array([[0, 2, 8, 5, 1],
       [9, 3, 4, 6, 7]])

In [98]:
np.max(X, axis = 0)

array([9, 3, 8, 6, 7])

In [100]:
np.max(X, axis = 1)

array([8, 9])

In [101]:
np.max(X)

9

In [103]:
np.sum(x)

45

In [106]:
np.sum(X, axis = 0)
X.sum(axis = 0)

array([ 9,  5, 12, 11,  8])

In [107]:
np.sum(X, axis = 1)
X.sum(axis = 1)

array([16, 29])

In [126]:
np.repeat(X, 3, axis = 0)

array([[0, 2, 8, 5, 1],
       [0, 2, 8, 5, 1],
       [0, 2, 8, 5, 1],
       [9, 3, 4, 6, 7],
       [9, 3, 4, 6, 7],
       [9, 3, 4, 6, 7]])

In [127]:
np.repeat(X, 3, axis = 1)

array([[0, 0, 0, 2, 2, 2, 8, 8, 8, 5, 5, 5, 1, 1, 1],
       [9, 9, 9, 3, 3, 3, 4, 4, 4, 6, 6, 6, 7, 7, 7]])

In [108]:
a = np.array([[ 0.0, 0.0, 0.0],
[10.0, 10.0, 10.0],
[20.0, 20.0, 20.0],
[30.0, 30.0, 30.0]])


In [109]:
a

array([[ 0.,  0.,  0.],
       [10., 10., 10.],
       [20., 20., 20.],
       [30., 30., 30.]])

In [110]:
b = np.array([1.0, 2.0, 3.0])

In [111]:
a.shape

(4, 3)

In [112]:
b.shape

(3,)

1. 차원의 크기가 작은 array의 왼쪽 차원을 하니씩 늘리는 방식으로 차원의 크기를 동일하게 맞춤.
a.shape (4, 3) → (4, 3)
b.shape (3,) → (1, 3)
2. 차원비교는 오른쪽 차원에서 시작하여 왼쪽으로 이동함.
3. 차원을 비교해서 계산이 가능하다는 것은 값이 같거나, 둘 중 하나가 1이어야함.

가장 오른쪽 차원은 a는 3, b도 3 → 계산가능
 
다음 차원 a는 4, b는 1 → 계산가능

b.shape (1, 3) → (4, 3)으로 복사됨.

![image.png](attachment:image.png)

In [113]:
a+b

array([[ 1.,  2.,  3.],
       [11., 12., 13.],
       [21., 22., 23.],
       [31., 32., 33.]])

In [114]:
a = np.array([0.0, 10.0, 20.0, 30.0])
b = np.array([1.0, 2.0, 3.0])
a + b

ValueError: operands could not be broadcast together with shapes (4,) (3,) 

In [115]:
a[:, np.newaxis] + b

array([[ 1.,  2.,  3.],
       [11., 12., 13.],
       [21., 22., 23.],
       [31., 32., 33.]])

In [118]:
a[:, np.newaxis].shape

(4, 1)

![image.png](attachment:image.png)

In [120]:
a = np.array([[ 0.0, 0.0, 0.0],
[10.0, 10.0, 10.0],
[20.0, 20.0, 20.0],
[30.0, 30.0, 30.0]])
b = np.array([[1.0, 2.0, 3.0],
[2.0, 4.0, 6.0]])
a + b
#퀴즈 2개의 행끼리 계산해서 (4, 3) array를 만들고 싶은데 어떻게 할 수 있을까? 
array([[ 1., 2., 3.],
[12., 14., 16.],
[21., 22., 23.],
[32., 34., 36.]])

ValueError: operands could not be broadcast together with shapes (4,3) (2,3) 

In [11]:
import pandas as pd
from scipy.stats import pearsonr
data = pd.read_csv(r'C:\Users\gur75\Desktop\조교\파이썬_실습_1107.csv')
df = pd.DataFrame(data)

In [9]:
df

Unnamed: 0,지자체,빈집,범죄발생건수
0,서울특별시,100706,274830
1,부산광역시,110500,113558
2,대구광역시,43086,72339
3,인천광역시,72036,85432
4,광주광역시,39205,44610
5,대전광역시,26262,41921
6,울산광역시,29569,23463
7,세종특별자치시,12388,6147
8,경기도,262266,388004
9,강원도,80609,45398


In [14]:
corr, p_value = pearsonr(df['빈집'], df['범죄발생건수'])

print(f"피어슨 상관계수: {corr}")
print(f"p-value: {p_value}")

# 만약 p-value가 0.05보다 작으면 상관관계가 통계적으로 유의미하다고 할 수 있습니다.
if p_value < 0.05:
    print("상관관계가 통계적으로 유의미합니다.")
else:
    print("상관관계가 통계적으로 유의미하지 않습니다.")

피어슨 상관계수: 0.805713411236263
p-value: 9.456242440166547e-05
상관관계가 통계적으로 유의미합니다.


In [13]:
def remove_comma_and_convert_to_int(s):
    return int(s.replace(',', ''))

# 데이터 프레임으로 변환하면서 콤마 제거 및 정수 변환 적용
df = pd.DataFrame({
    '지자체': data['지자체'],
    '빈집': [remove_comma_and_convert_to_int(x) for x in data['빈집']],
    '범죄발생건수': [remove_comma_and_convert_to_int(x) for x in data['범죄발생건수']],
})

In [None]:
#https://hyen4110.tistory.com/38 