# numpy 
Numerical Python의 약자로, 파이썬에서 과학 계산을 위한 대표적인 라이브러리이다.  
- 주요 기능
1. 배열 연산 (ndarry) : numpy의 핵심 데이터 구조는 다차원 배열인 ndarry이다. <br> 이배열은 일반적인 파이썬 리스트보다 빠르고, 효율적인 메모리 사용을 자랑하는 특징이 있으며 이를 통해 대규모 데이터의 수치 연산을 매우 빠르게 처리할 수 있다.
2. 벡터화된 연산 : Numpy는 배열 간의 연산을 벡터화된 방식으로 처리할 수 있어, 반복문을 사용하지 않고도 빠른 수치 연산을 수행할 수 있다.
``` python
    import numpy as np
    a = np.array([1,2,3])
    b = np.array([4,5,6])
    c= a+b # 배열 요소의 덧셈
```
3. 다양한 수학 함수 제공 : Numpy는 선형대수, 푸레에 변환, 난수 생성 등 다양한 수학적 함수들을 제공하여 이를 통해 복잡한 수학적 계산을 간단하게 처리할 수 있다.
4. 고성능 : Numpy는 내부적으로 c언어로 구현되어 있어, 파이썬의 기본 자료형보다 훨씬 빠른 성능을 제공한다.

# 문제 : 적당한 주가 예측의 어려움

In [1]:
import numpy as np

In [2]:
stock_info = np.genfromtxt("../00_data/stock_daily_prices.csv", delimiter=",", skip_header=1, dtype=None, encoding=None)
stock_info

array([('2012-01-12',  60.19857 ,  75.510002, 30.120001, 12.13    ,  175.929993, 180.550003,   28.25    ,  313.644379, 1295.5     ),
       ('2012-01-13',  59.972858,  74.599998, 30.07    , 12.35    ,  178.419998, 179.160004,   22.790001,  311.328064, 1289.089966),
       ('2012-01-17',  60.671429,  75.239998, 30.25    , 12.25    ,  181.660004, 180.      ,   26.6     ,  313.116364, 1293.670044),
       ...,
       ('2020-08-07', 444.450012, 170.020004, 30.02    , 19.030001, 3167.459961, 124.959999, 1452.709961, 1494.48999 , 3351.280029),
       ('2020-08-10', 450.910004, 179.410004, 30.200001, 21.65    , 3148.159912, 127.110001, 1418.569946, 1496.099976, 3360.469971),
       ('2020-08-11', 437.5     , 180.130005, 30.200001, 21.5     , 3080.669922, 126.75    , 1374.390015, 1480.319946, 3333.689941)],
      dtype=[('f0', '<U10'), ('f1', '<f8'), ('f2', '<f8'), ('f3', '<f8'), ('f4', '<f8'), ('f5', '<f8'), ('f6', '<f8'), ('f7', '<f8'), ('f8', '<f8'), ('f9', '<f8')])

### .T 전치 사용
- 전치 사용전
    ```
    [
        ['2012-01-12', '2012-01-13', '2012-01-17', ...],  # 날짜 (f0)
        [60.19857, 59.972858, 60.671429, ...],            # AAPL (f1)
        [75.510002, 74.599998, 75.239998, ...],           # BA (f2)
    ]
    ```
- 전치 사용 후 
    ```
    [
        ['2012-01-12', 60.19857, 75.510002, ...],  # 첫 번째 날짜의 데이터
        ['2012-01-13', 59.972858, 74.599998, ...],  # 두 번째 날짜의 데이터
    ]
    ```

In [3]:
stock_info = np.vstack([stock_info["f0"],stock_info["f1"],stock_info["f2"],
                        stock_info["f3"],stock_info["f4"],stock_info["f5"],
                        stock_info["f6"],stock_info["f7"],stock_info["f8"],
                        stock_info["f9"]]).T

stock_info

array([['2012-01-12', '60.19857', '75.510002', ..., '28.25',
        '313.644379', '1295.5'],
       ['2012-01-13', '59.972857999999995', '74.599998', ...,
        '22.790001', '311.32806400000004', '1289.089966'],
       ['2012-01-17', '60.671429', '75.239998', ..., '26.6',
        '313.11636400000003', '1293.670044'],
       ...,
       ['2020-08-07', '444.450012', '170.020004', ..., '1452.709961',
        '1494.48999', '3351.280029'],
       ['2020-08-10', '450.910004', '179.41000400000001', ...,
        '1418.569946', '1496.099976', '3360.469971'],
       ['2020-08-11', '437.5', '180.130005', ..., '1374.390015',
        '1480.319946', '3333.689941']], dtype='<U32')

In [4]:
# 날짜를 제외한 주가 데이터를 추출
# [ 행에 대한 인덱스 : 열에 대한 인덱스 ]
stock_prices = stock_info[:, 1:].astype(float)
stock_prices

array([[  60.19857 ,   75.510002,   30.120001, ...,   28.25    ,
         313.644379, 1295.5     ],
       [  59.972858,   74.599998,   30.07    , ...,   22.790001,
         311.328064, 1289.089966],
       [  60.671429,   75.239998,   30.25    , ...,   26.6     ,
         313.116364, 1293.670044],
       ...,
       [ 444.450012,  170.020004,   30.02    , ..., 1452.709961,
        1494.48999 , 3351.280029],
       [ 450.910004,  179.410004,   30.200001, ..., 1418.569946,
        1496.099976, 3360.469971],
       [ 437.5     ,  180.130005,   30.200001, ..., 1374.390015,
        1480.319946, 3333.689941]])

In [5]:
# 각 종목의 평균 주가 계산하기
average_prices = np.mean(stock_prices, axis=0) # 행을 기준으로 stock_prices의 평균 주가를 도출함.
print('average_prices', average_prices)

# 각 종목의 표준편차를 계산 (변동성)
std_dev_prices = np.std(stock_prices, axis=0)
print('std_dev_prices', std_dev_prices)

# 주가 필드를 추가하기
columns = ["AAPL", "BA", "T", "MGM", "AMZN", "IBM", "TSLA", "GOOG", "SP500"]

average_array = np.vstack([columns, average_prices])
std_dev_prices = np.vstack([columns, std_dev_prices])

average_prices [ 140.81982259  189.94270029   35.16289948   23.10574339  915.66566492
  161.85300149  259.60081532  783.71251214 2218.74955406]
std_dev_prices [ 70.81119656 103.65457241   3.20674695   6.96223411 697.67727461
  25.55601725 210.93913484 334.37059358 537.19727484]


In [6]:
daily_returns = np.diff(stock_prices, axis=0) / stock_prices[:-1] * 100
print("일일 변동률 계산결과 (각 주식에 대한 % 변동 비율)")
print(daily_returns)

print(daily_returns.mean(axis=0))

일일 변동률 계산결과 (각 주식에 대한 % 변동 비율)
[[ -0.37494578  -1.20514366  -0.16600597 ... -19.32743009  -0.73851634
   -0.49479228]
 [  1.16481192   0.85790887   0.59860326 ...  16.71785359   0.57441015
    0.35529545]
 [  1.03838167  -0.23923446   0.26446281 ...   0.78946992   0.68885604
    1.1107929 ]
 ...
 [ -2.44945751  -1.26596576   0.60321716 ...  -2.47519409  -0.37397414
    0.06330295]
 [  1.45347999   5.52287953   0.5996036  ...  -2.35009162   0.10772812
    0.27422185]
 [ -2.9739868    0.40131597   0.         ...  -3.1143992   -1.05474435
   -0.79691324]]
[ 0.1077454   0.06593733  0.0081625   0.06469201  0.15119238 -0.00609394
  0.23850842  0.08443093  0.04933886]


In [7]:
# 특정날짜의 가격을 확인
# stock_info[stock_info[:,0] == "2012-01-13"] 조건을 추가
# [첫번째 행의 범위, 두번째 행의 범위]
specific_day_prices = stock_info[stock_info[:,0] == "2012-01-13"]
print(specific_day_prices)

[['2012-01-13' '59.972857999999995' '74.599998' '30.07' '12.35'
  '178.419998' '179.16000400000001' '22.790001' '311.32806400000004'
  '1289.089966']]


In [8]:
# 추출한 날에서 가장 높은 주가를 확인
max_price_index = np.argmax(specific_day_prices[0][1:].astype(float))
max_price_stock = columns[max_price_index]

print(f"2012-01-13에 가장 높은 주가를 기록한 종목: {max_price_stock}, 주가: {specific_day_prices[:, max_price_index + 1]}")

2012-01-13에 가장 높은 주가를 기록한 종목: SP500, 주가: ['1289.089966']


In [9]:
# 주식간의 상관관계 분석
correlation_matrix = np.corrcoef(stock_prices.T)
print("종목 간의 상관 관계 행렬:")
print(correlation_matrix)

종목 간의 상관 관계 행렬:
[[ 1.          0.65027533 -0.20894739  0.39091151  0.93872076 -0.7261567
   0.84405578  0.91014486  0.89258436]
 [ 0.65027533  1.         -0.13861933  0.74673119  0.77230019 -0.63694886
   0.33344548  0.82239909  0.85732917]
 [-0.20894739 -0.13861933  1.          0.25234712 -0.24308891  0.20286761
  -0.19436326 -0.0830844  -0.0565315 ]
 [ 0.39091151  0.74673119  0.25234712  1.          0.46813545 -0.47906031
   0.27163004  0.65377483  0.71308103]
 [ 0.93872076  0.77230019 -0.24308891  0.46813545  1.         -0.7724484
   0.76045103  0.95767773  0.92325878]
 [-0.7261567  -0.63694886  0.20286761 -0.47906031 -0.7724484   1.
  -0.61068594 -0.81338822 -0.79566686]
 [ 0.84405578  0.33344548 -0.19436326  0.27163004  0.76045103 -0.61068594
   1.          0.73598814  0.70430765]
 [ 0.91014486  0.82239909 -0.0830844   0.65377483  0.95767773 -0.81338822
   0.73598814  1.          0.97831538]
 [ 0.89258436  0.85732917 -0.0565315   0.71308103  0.92325878 -0.79566686
   0.70430765  0

# 상관관계가 있는 주가 및 인사이트
1. 매우 높은 양의 상관관계를 가진 종목들:
    - AAPL과 AMZN (상관계수: 0.9387): 두 종목 간에 매우 높은 양의 상관관계가 있다. 이는 두 종목의 주가가 매우 유사하게 움직인다는 의미한다. 두 회사는 기술 대기업으로, 전반적인 기술 산업 트렌드나 시장 상황에 비슷하게 반응할 가능성이 크다는 것을 알 수 있다.
    - GOOG와 sp500 (상관계수: 0.9783): 두 종목 간에도 매우 강한 양의 상관관계가 있다. 이는 GOOG가 S&P 500 지수와 거의 같은 방향으로 움직인다는 것을 의미하며, GOOG가 지수에 큰 영향을 미치고 있음을 시사할 수 있다.
    - GOOG와 AMZN (상관계수: 0.9577): 이 두 기술 대기업은 주가 움직임이 매우 유사하다. 이는 글로벌 경제나 기술 산업의 상황에 두 회사가 비슷하게 반응할 가능성이 크다.
    - AAPL과 GOOG (상관계수: 0.9101): 두 회사도 강한 상관관계를 보이며, 주가가 유사하게 움직일 가능성이 크다.
----

2. 음의 상관관계를 가진 종목들:
    - AAPL과 IBM (상관계수: -0.7261): 두 종목 간에는 강한 음의 상관관계가 있다. 이는 한 종목이 상승할 때 다른 종목은 하락하는 경향이 있다는 것을 의미하고, 두 회사는 다소 다른 기술 분야에 집중하고 있기 때문에, 특정 경제적 조건에 대해 서로 반대되는 반응을 보일 수 있다.
    - GOOG와 IBM (상관계수: -0.8133): 두 회사는 강한 음의 상관관계를 보이며, 이는 IBM의 주가가 상승할 때 GOOG의 주가는 하락할 가능성이 있음을 나타낸다.
    - AMZN과 IBM (상관계수: -0.7724): GooG와 IBM과 비슷한 패턴을 보여, AMZN과 IBM도 반대 방향으로 움직일 가능성이 높다.
----

3. 낮은 상관관계:
    - T와 GOOG (상관계수: -0.0831): 이 두 종목은 상관관계가 거의 없으며, 각 주식의 움직임이 거의 독립적임을 의미한다. 이는 통신과 기술 대기업 간의 연관성이 크지 않음을 나타낼 수 있다.
    - T와 AMZN (상관계수: -0.2431): 통신업과 기술 대기업인 AMZN 간의 상관관계가 낮으며 이는 두 산업이 서로 다르게 움직일 수 있다는 것을 의미한다.
----
4. 중간 정도의 상관관계를 가진 종목들:
    - BA와 MGM (상관계수: 0.7467): 두 종목 간에는 중간 정도의 양의 상관관계 있으며, 이는 어느 정도 비슷한 방향으로 움직이지만, 완전히 일치하지 않는다는 것을 의미한다. 항공과 레저/게임업계는 경제 상황에 따라 함께 움직일 수 있다.

----
## 종합 인사이트:
1. 기술 대기업 간의 높은 양의 상관관계:
    - AAPL, GOOG, AMZN 같은 기술 대기업들은 전반적으로 높은 양의 상관관계를 보인다. 이는 기술 산업 내의 트렌드나 글로벌 경제 상황이 이들 기업에 비슷한 영향을 미치고 있음을 시사한다.

2. IBM과 다른 기술 기업들 간의 음의 상관관계:
    - IBM은 다른 기술 대기업들과 음의 상관관계를 보이고 있다. 이는 IBM이 전통적인 IT 서비스 기업으로서의 특성과 성장 경로가 다른 기술 대기업들과 차이가 있음을 나타낼 수 있다.

3. 지수(S&P 500)와의 상관관계:
    - GOOG, AAPL, AMZN과 S&P 500 지수(sp500)의 상관관계가 높으며, 이는 이들 기술 대기업이 지수에 큰 영향을 미치고 있거나, 전체 시장 상황에 강하게 반응하고 있음을 나타낸다.