In [None]:
# 회귀분석, 상관분석
- 회귀분석 다중공선성 : 종속변수가 과하게 영향을 받을 수 있음

    - 회귀분석 자기상관성(Autocorelation)이 존재하면? => 시계열 분석을 해야
    자기상관성? 지난 데이터가 다음 데이터에 영향을 미치는 경우
    
- 시계열 분석 ARMA(Autocorelation + Moving Average)
    - 이동평균법하는 이유? => (주파수를 줄여줌 => 복잡하면 분석 불가)
        ex) 주식데이터
    - 정상성을 띈 데이터에만 가능[평균이 일정하고 분산이 일정한 데이터]
        실제로는 없
    - 그러므로 비정상성 데이터를 정상성화
    - ARIMA(Integrated 통합 => 비정상성을 띈 데이터에도 가능)
    - Pandas는 시계열 분석을 지원(시간 index를 지원)


In [None]:
import numpy as np
from statistics import *
x = np.array([7,8,9])
y = np.array([9,10,20])
print(y.mean()) # 통계 : 중위수(medians) 사용 why? 평균은 이상치에 영향을 받으나 중위수는 그렇지 않으므로

# 공분산 행렬
print("공분산 : ",np.cov(x,y))

# 상관계수행렬 ()
print("상관계수 : ", np.corrcoef(x,y))

In [None]:
import numpy as np
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
print("원본\n",arr)
print("누적합(행)\n",arr.cumsum(0))
print("누적곱(열)\n",arr.cumprod(1))
print("배열의 합계\n",arr.sum())

print("열방향으로의 합계(행평균)\n",arr.mean(axis=1))# axis = 행방향과 열방향의 구분
print("행방향으로의 합계\n",arr.sum(0))

In [None]:
# 가중치를 부여한다는 의미

a = np.array([1,2,3,4])
wts = np.array([4,3,2,1])
print(np.average(a, weights = wts)) # 수의 중요성을 부여 a0  4가중치 ,  a1 3가중치, a2 2가중치 , a3 1가중치 부여

std = np.sqrt( np.mean( abs(a-a.mean())**2 ) ) 
print(np.var([1,2,3,4])) # 분산
print(np.std([1,2,3,4])) # 표준편차

In [None]:
# 시각화
# matplotlib, seaborn, pandas.plot
- 상기 패키지는 모두 matplotlib로 구성
- 아나콘다의 경우는 %matplotlib inline을 사용해야 한다

In [None]:
%matplotlib inline
from numpy import mean,std # 메모리 낭비를 절감하기 위해 * 안쓰고
# 서브 패키지 : linalg, random, fft(패스트 푸리에 변환), poly(다차방정식)
# random : 의사난수) 데이터 출력순서 정해짐
from numpy.random import randn, seed
from matplotlib import pyplot 

seed(1) # 같은 수가 발생
data1 = 20 * randn(1000) + 100 # randn (랜드 노멀) 정규분포   ex) 최고치는 20이고 100개를
data2 = data1 + (10 * randn(1000) + 50)
print("data1 : mean=%.3f stdv=%.3f"%(mean(data1), std(data1)))
print("data2 : mean=%.3f stdv=%.3f"%(mean(data2), std(data2)))
pyplot.scatter(data1, data2) # 산포도
pyplot.show()

In [None]:
import matplotlib.pyplot as plt
print(plt.style.available)

In [None]:
plt.style.use(['classic'])
xs = np.random.normal(0,3,(100,3)) # 평균:0, 표준편차:3 100=3 데이터 생성
plt.figure(figsize=(12,4)) # figure : 모양을 결정

for i in range(0,3):
    x = xs[:,i]
    plt.plot(range(0, len(x)), x, linewidth=1, linestyle='--', label='x_{}'.format(i))
plt.legend()
plt.grid(True) # 격자선
plt.show()

In [None]:
fig = plt.figure(figsize=(12,12))
ax1 = fig.add_subplot(2,2,1) #2행, 1열, 첫번째
ax2 = fig.add_subplot(2,2,4)

x = range(0 ,100)
y = [v*v for v in x]

ax1.plot(x,y)
ax2.bar(x,y)
plt.show()

In [None]:
x1 = np.linspace(0.0, 5.0)
x2 = np.linspace(0.0, 2.0)

plt.plot(np.exp(x1), 'yo-') # 지수함수의 그래프
plt.show()

In [None]:
y1 = np.cos(2 * np.pi * x1) * np.exp(-x1)
y2 = np.cos(2 * np.pi * x2)

ax1 = plt.subplot(2, 1, 1)
plt.plot(x1, y1, 'yo-') # yellow, point marking, linetype
plt.title('subplots')
print(ax1)
ax2 = plt.subplot(2,1,2)
plt.plot(x2, y2, 'r.-')
plt.xlabel('time(s)')
print(ax2)
plt.show()

In [None]:
fig = plt.figure(figsize=(20,10))
ax1 = fig.add_subplot(121)
ax2 = fig.add_subplot(122)
# 이산형 막대그래프, 연속형 그래프 histogram
ax1.bar([1,2,3],[3,4,5],color='y')
ax2.barh([0.5,1,2.5],[0,1,2])#v : vertical , h:horizontal
ax1.axvline(0.65)
ax2.axhline(0.45)
plt.tight_layout()#여백을 줄여 표현
plt.show()

In [None]:
# boxplot
# IQR(Inter quantitle range) = 3사분위수 - 1사분위수
# IQR * ±1.5 : 상하한선

np.random.seed(19680801)

spread = np.random.rand(50) * 100 # 분포데이터
center = np.ones(25) * 50 # 중심데이터

flier_high = np.random.rand(10) * 100 + 100 # 상한선을 넘는 데이터
flier_low = np.random.rand(10)* -100 #하한선넘는데이터

data = np.concatenate((spread, center, flier_high, flier_low)) # 데이터 병합

fig1, ax1 = plt.subplots() # 형태 제어용 인스턴스, 레이어
ax1.set_title('boxplot')
ax1.boxplot(data)

In [None]:
fig2, ax2 = plt.subplots()
ax.set_title('Notched boxes')
ax2.boxplot(data, notch=True)# notch = 홈이 95% 신뢰구간

In [None]:
red_square =dict(markerfacecolor='r', marker='s') # red, square
fig5, ax5 = plt.subplots()
ax5.set_title('Horizontal')
ax5.boxplot(data, vert = False, flierprops = red_square) # 이상치 표현을 제어, vert:수평표현

In [None]:
# meshgrid 그물망 격자
# 그래프 수식표현 : latex 문법 $\와 $ 사이에 식을 기입

points = np.arange(-5,5,0.01) # 1000개
xs, ys = np.meshgrid(points, points) #1000*1000
z = np.sqrt(xs**2 + ys**2)

# 높이값을 이미지로 -> 이미지는 사각형인데 transpanent하여 보이지 않아야 할부분을 가려
plt.imshow(z, cmap=plt.cm.rainbow) # imshow : 데이터를 이미지로 출력
# cm : color mp

plt.colorbar() # 컬러별 수의 크기를 나타내는 막대 표시
plt.title(" $\sqrt{x^2+y^2}$")
plt.show()

# CNN(Convolution neural network)

In [None]:
# 3차원
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()
ax = Axes3D(fig) # 3차원 출력 도화지
X = np.arange(-16, 16, 0.25)
Y = np.arange(-16, 16, 0.25)

X, Y = np.meshgrid(X, Y)# 좌표점으로
R = np.sqrt(X**2 + Y**2)# 거리값
Z = np.sin(R)
#Z = R
ax.plot_surface(X,Y,Z, rstride=1, cstride=1, cmap='hot')
plt.show()
ax.plot_surface(X,Y,Z, rstride=1, cstride=1, cmap=plt.cm.rainbow)
plt.show()

In [None]:
from mpl_toolkits.mplot3d import Axes3D
def f(x,y) : return (1-x/2+x**5+y**3)*np.exp(-x**2-y**2)
fig = plt.figure()
ax = Axes3D(fig)
X = np.arange(-4,4,0.25)
Y = np.arange(-4,4,0.25)
X,Y = np.meshgrid(X,Y)
Z = np.sin(f(X,Y))
# row, column
ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap='hot')
plt.show()

In [None]:
plt.contourf(X, Y, f(X,Y), 8, alpha = .75, cmap='jet')
plt.colorbar()
plt.show()

In [None]:
a = [0,0,0.5,0,
    1,0,1,0,
    1,1,0.5,1,
    0,0,1,0]
np1 = np.array(a)
print(np1)
plt.imshow(np1.reshape(4,4), cmap='Greys', interpolation='nearest')
# interpolation 보간법 : 컬러값이 지정되지 않으면 보간해서 적용해라
# 컬러값 사이에 뭔가 없으면 보간..해서 넣어라
plt.show()

In [None]:
%matplotlib inline
from matplotlib import font_manager, rc
import matplotlib
import matplotlib.pyplot as plt

plt.style.use(['classic'])
font_path = "C:/Windows/Fonts/H2GTRM.TTF"
font_name = font_manager.FontProperties(fname=font_path).get_name()#폰트이름획득
matplotlib.rc('font', family = font_name)
# rc : resource configuration
plt.plot([1,2,3,4])
plt.xlabel("시간")
plt.ylabel("거리")
plt.show()

In [None]:
import matplotlib.font_manager as fm

path = 'C:\\Windows\\Fonts\\NanumBarunGothic.ttf'
fontprop = fm.FontProperties(fname=path, size=18)
data = np.random.randint(-100, 100, 50).cumsum()#cumulative sum 누적합계
data
plt.plot(range(50), data, 'r')
plt.title('가격변동 추이', fontproperties=fontprop)
plt.ylabel('가격', fontproperties=fontprop)
plt.show()

In [None]:
from pylab import plt
plt.style.use('ggplot')
import matplotlib as mpl
mpl.rcParams['font.family'] = '바탕'
def f(x):
    return np.sin(x) + 0.5 * x # 주기함수
x = np.linspace(-2 * np.pi, 2 * np.pi, 50)
plt.plot(x, f(x), 'b')
plt.grid(True)
plt.xlabel('x')
plt.ylabel('y')

In [None]:
# 최소제곱법을 이용하여 상기 그래프를 fitting -> 적합
# polyfit 다차방정식으로 fitting[적합] -> 계수를 찾아내는 것

reg = np.polyfit(x, f(x), deg=5)# 5차방정식으로 피팅하라
ry = np.polyval(reg, x) # 5차방정식으로 회귀, reg 계수값을 이용하여 ry로 출력

# 다차방정식으로 복잡한 비선형문제를 푸는 것이 딥러닝이다!

plt.plot(x, f(x), 'b', label='f(x)') # 원본데이터
plt.plot(x, ry, 'r.', label='regression') # 최소제곱법으로 피팅
plt.legend(loc=0)
plt.grid(True)
plt.xlabel('x')
plt.ylabel('f(x)')

In [1]:
import folium
# 위경도 좌표
map_1 = folium.Map(location = [37.565711, 126.978090], zoom_start=16) # 확대축소
map_1
# titles ='Stamen Terrain')
folium.Marker([37.565711, 126.978090], popup='서울시청').add_to(map_1)
folium.Marker([37.565711, 126.978090], popup='서울시청 밑', icon = folium.Icon(icon='cloud')).add_to(map_1)
map_1


In [None]:
# 숙제 : 서울 소재 10개 대학의 좌표를 출력해보시오
# 메일로 제출

In [None]:
# pandas : Series, DataFrame, Panel
# numpy가 베이스.. 그래서 numpy방식의 인덱싱이 가능, dict(중복을 허용, 순서를 보장)

In [None]:
import pandas as pd
data = {'a':0., 'b':1., 'c':2.}
s = pd.Series(data) # 1차원
print(s['a'])# 키 인덱싱
s = pd.Series(data, index=['b','c','d','a'])# index행이름
print(s['a'])
print(s['d'])# 데이터가 없을 때는 nan
list(s)

In [None]:
s = pd.Series([1,2,3,4,5], index = ['a','b','c','d','e'])
print("인덱스에 의한 출력 ", s[0]) # 순서에 의한 인덱스
print(s['a'])# 키에 의한 인덱스
print(s[:3])# numpy
print("음수",s[-3:])
s['a'] = 100
print(s['a'])
s['f']=10
print(s['f'])
print('filtering에 의한 출력 ', s[s>4])# 인덱스 : boolean index
print(s)
print(s*2)

In [None]:
import numpy as np
import pandas as pd
# range => list
# arange => ndarray
# RangeIndex => Index

data = np.array(['a','b','c','d'])# 인덱스 옵션 넣지 않으면 자동으로 RangeIndex 객체가 자동으로 생성됨
s = pd.Series(data) # ndarray를 이용해 시리즈 초기화
print("시리즈 데이터", s.values)# 값만
print("시리즈 인덱스", s.index) # RangeIndex(start = 0, stop = 4, step= 1)
print("시리즈 초기화", s)
print("시리즈 인덱스의 값", s.index.values)

print(s[0])
print(s.head()) # head() tail()
print(s.value_counts())# 도수분포표
print(s.value_counts(normalize=True)) # 상대도수분포표
print(s.describe()) # 숫자변수에 대해서만, 전체갯수, 범주 4개 
# 문자열 => object

print("데이터타입 : ", s.dtypes)
print("차원",s.ndim)
print("차수",s.shape)

In [None]:
# dict

sdata = { 'Ohio' : 35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000 }
obj3 = pd.Series(sdata)
print(obj3)
print(obj3.shape)
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states) # California : nan
print(obj4)
print("시리즈 인덱스 ", obj3.index)
print("시리즈 인덱스 ", obj4.index)
print("null이 있는가\n", pd.isnull(obj4))# 데이터가 null일때 True
print("결측치가 있는가\n", pd.notnull(obj4))# 데이터가 null일때 False
print("객체 출력")
print("obj3을 출력합니다\n", obj3)
print("obj4을 출력합니다\n", obj4)
# 짝이 맞지 않기 때문에..
# Index가 다름 -> 짝이 없으면 NaN
print("연산결과를 출력합니다\n.", obj3 + obj4)

In [None]:
s = pd.Series(['A','B', 'Aaba', 'Baca', np.nan, 'CABA', 'cat'])
s.str.count('a')# 시리즈는 str함수도 지원

In [None]:
s = pd.Series([1,2,2.5,3,3.5,4,5])
s.plot.kde() # kernel density estimate
plt.show()

In [None]:
s.plot.kde(bw_method=0.3) # bin widths 조금씩 기준을 두어 예측,.. 과적합
plt.show()

In [None]:
import pandas as pd
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

In [None]:
data['area']
data.area
# 접근방식 달리해도 결과는 같다

In [None]:
# 객체 비교 is None
data.area is data['area']

In [None]:
# 객체에서 변수를 실시간으로 추가하는 것이 가능
# 리스트에서는 append
data['density'] = data['pop'] / data['area']
data

In [None]:
data.values# 값만 가져오기 #ndarray => numpy의 함수로 처리

In [None]:
data.T # 전치도 됨

In [None]:
data.values[0]# 행값

In [None]:
data.iloc[:3, :2] # 행과 열로 입력 integer location

In [None]:
data.loc[:'Illinois', :'pop']# 키로조회할땐 loc

In [None]:
data.iloc[0,2] = 90
data

In [None]:
data['Florida':'Illinois']

In [None]:
import pandas as pd
import numpy as np

d = {'Name':pd.Series(['김하나','이하나','삼하나','사하나','오하나','육하나','칠하나', '팔하나']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

In [None]:
df = pd.DataFrame(d)
print(df)
print('축',df.axes)
print('데이터 타입', df.dtypes)
print('데이터 타입', df.get_dtype_counts) # unique(중복무)
print('비었나', df.empty)# 데이터가 비었는지
print('차원', df.ndim)
print('차수', df.shape)
print('사이즈', df.size)
print('값', df.values)
print(df.head(2))
print(df.tail(2))

In [None]:
print("합계\n", df.sum(), '\n') # 전체 데이터 합
print(df.mean(),'\n') # 숫자만적용
print(df.std(),'\n')# standard deviation 표준편차
print(df.describe(),'\n') # 숫자에만 적용됨
print('오브젝트', df.describe(include=['object']), '\n') # 
print(df.describe(include='all'))

In [None]:
import pandas as pd
data={'state': ['경기', '강원', '서울', '충북', '인천'],
      'year':[2000,2001,2002,2001,2002],
      'pop':[1.5,1.7,3.6,2.4,2.9]}

frame2=pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                 index=['one', 'two', 'three', 'four', 'five']) 

In [None]:
# 1) state만 출력하시오
# 2) debt 열을 추가하고 모든 값을 16.5로 입력하시오
# 3) debt를 pd.Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])로 수정하시오
# 4) 파생변수 'estern'에 주소가 서울인가를 따져 서울은 True 아니면 False가 입력되게 하시오

In [None]:
# 1) state만 출력하시오
frame2['state']

In [None]:
# 2) debt 열을 추가하고 모든 값을 16.5로 입력하시오
frame2['debt'] = 16.5
frame2

In [None]:
# 3) debt를 pd.Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])로 수정하시오
v = pd.Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])
frame2['debt'] = v
frame2

In [None]:
# 4) 파생변수 'estern'에 주소가 서울인가를 따져 서울은 True 아니면 False가 입력되게 하시오
frame2['estern'] = frame2.state == '서울'
frame2

# 지우고프면
#del frame2['estern']

# 열이먼저옴
print(frame2['year']['one'])
# 그러니 loc쓰자
print(frame2.loc['one', 'year'])

In [None]:
# 시간함수
# 리눅스 : timestamp 1970.1.1 이후로 경과된 mili초로 표현
# 판다스 내부에서는 timestamp로 데이터 저장됨

# pandas 에서는 nano초까지 표현
# 판다스에서는 시간인덱스 지원함 : 시계열 분석 : DateTimeIndex, PeriodIndex(주기값)
# 파이썬 : time.time() : 2000. 1. 1 부터 경과된 mili초로 표현
# datetime(날짜와 시간을 표현)

In [None]:
import time
print(time.time()) # 밀리초로 표현
print(time.localtime()) # 년월일 시분초
yesterday = time.localtime(time.time()-60*60*24) # 시간연산도 가능
yesterday
print(yesterday)
time.strftime('%Y %m %d') # 시간을 문자열로 변경해서 출력

In [None]:
from datetime import date, time, datetime, timedelta # 시간 차
now = datetime.now() # 년원일 시분초
print(now)
now.year, now.month, now.day # 시간을 년 원 일로 각각 표시
now.timestamp() # 시간을 밀리초로 표현하고플때

In [None]:
now_str = now.strftime('%Y-%m-%d %H:%M:%S') # 년월일시분초 -> 문자열
print(now_str)
print(type(now_str))

In [None]:
dd = datetime.strptime(now_str, '%Y-%m-%d %H:%M:%S')
# 날짜 형식으로 변환
print(dd)
print(type(dd))

In [None]:
delta = datetime(2015, 1, 7) - datetime(2010,6,24,8,15)
print('시간차는=',delta,delta.days, delta.seconds)

In [None]:
start = datetime(2019,1,7)
print(start + timedelta(12))# 기본이 날짜
start + timedelta(hours=-5)

In [None]:
import pandas as pd
# 판다스 에서의 타임 제어
print(pd.datetime.now())

print(pd.Timestamp('2017-03-01'))
print(pd.Timestamp(1587687255, unit='s'))

In [None]:
#DatetimeIndex
print(pd.date_range('11:00', '13:30', freq='30min'), '\n')
print("시간으로\n", pd.date_range('11:00', '13:30', freq='30min').time, '\n') # 시간만 표시
print(pd.date_range('11:00', '13:30', freq='H'))# 시간단위로

In [None]:
# 지정된 시간을 DatetimeIndex로 생성 
print(pd.to_datetime(pd.Series(['Jul 31, 2009', '2010-01-10', None])))
print(pd.to_datetime(['2005/11/23', '2010.12.31', None]))

In [None]:
print(pd.date_range('1/1/2017', periods = 5)) # 기본주기는 날짜

In [None]:
print(pd.date_range('1/1/2017', periods=5, freq='M'))

In [None]:
ts = pd.Series(np.random.randn(1000),
              index=pd.date_range('1/1/2000', periods=1000))
ts = ts.cumsum()
ts.plot()

df = pd.DataFrame(np.random.randn(1000,4), index=ts.index,
                 columns=list('ABCD'))
df = df.cumsum()
df.plot()
df.plot.bar()

In [None]:
columns = ['지역','2018','2017','2016','2015','2015-2018증가율']
index = ['서울', '부산', '인천', '대구']

In [None]:

# 문제 다음 데이터를 데이터프레임에 저장하시요
#         지역  2018     2017    2016     2015    2015-2018 증가율
# 서울 수도권  9904312 9631482 9762546 9853972    0.0283
# 부산 경상권  3448737 3393191 3512547 3655437    0.0163
# 인천 수도권  2890451 2632035 2517680 2466338    0.0982
# 대구 경상권  2466052 2431774 2456016 2473990    0.0141 

# 문제 : '2015-2018 증가율'을 %로 변경하시오

# 문제 : 2015-2017의 증가율을 구해서 변수를 추가하시오
# [ 열 이름 : 2015-2017증가율 ]


In [None]:
import pandas as pd

data = { '지역' : ['수도권', '경상권', '수도권', '경상권'],
       '2018' : [9904312, 3448737, 2890451, 2466052],
       '2017' : [9631482, 3393191, 2632035, 2431774],
       '2016' : [9762546, 3512547, 2517680, 2456016],
       '2015' : [9853972, 3655437, 2466338, 2473990],
       '2015-2018증가율':[0.0283, 0.0163, 0.0982, 0.0141] }

df = pd.DataFrame(data, columns = ['지역','2018','2017','2016','2015','2015-2018증가율'], index = ['서울', '부산', '인천', '대구'] )
df


In [None]:
# 문제 : '2015-2018 증가율'을 %로 변경하시오
df['2015-2018증가율'] = df['2015-2018증가율']*100
df

In [None]:
# 문제 : 2015-2017의 증가율을 구해서 변수를 추가하시오
# [ 열 이름 : 2015-2017증가율 ]
df['2015-2017증가율'] = ((df['2017']-df['2015']) / df['2015'])
df['2015-2017증가율'] = round(df['2015-2017증가율'] * 100, 2)
df