# 데이터분석
판다스 패키지(라이브러리)로 데이터 분석하기

## DataFrame 생성

In [7]:
%config Completer.use_jedi = False

In [8]:
import pandas as pd

# 딕셔너리 형태의 key:value로 dataframe 생성
raw_data = {'open': [11650, 11100, 11200, 11100, 11000],
            'high': [12100, 11800, 11050, 11100, 11150],
            'low': [11600, 11050, 10900, 10950, 10900],
            'close': [11900, 11600, 11000, 11100, 11050]}

# 행(row) 인덱스로 사용할 날짜 데이터 생성
date = ['20.02.29', '20.02.26', '20.02.25', '20.02.24', '20.02.23']

# dataframe 생성(row 인덱스도 설정)
df = pd.DataFrame(raw_data,
                  columns=['open', 'high', 'low', 'close'],
                  index=date)
df

Unnamed: 0,open,high,low,close
20.02.29,11650,12100,11600,11900
20.02.26,11100,11800,11050,11600
20.02.25,11200,11050,10900,11000
20.02.24,11100,11100,10950,11100
20.02.23,11000,11150,10900,11050


## 행 기준 조회하기
 - loc을 사용하여 한 행의 시, 고, 저, 종가 조회

In [9]:
print(df.loc['20.02.29'])  # loc : location

open     11650
high     12100
low      11600
close    11900
Name: 20.02.29, dtype: int64


 - loc을 사용하여 행 범위 지정하여 조회(행범위 슬라이싱)


In [10]:
print(df.loc['20.02.29' : '20.02.26'])

           open   high    low  close
20.02.29  11650  12100  11600  11900
20.02.26  11100  11800  11050  11600


 - iloc(integer Location)을 사용하여 행 인덱스 번호로 출력하기

In [11]:
print(df.iloc[0])

open     11650
high     12100
low      11600
close    11900
Name: 20.02.29, dtype: int64


- iloc(integer Location)을 사용하여 여러 행 출력하기

In [12]:
print(df.iloc[0:5])

           open   high    low  close
20.02.29  11650  12100  11600  11900
20.02.26  11100  11800  11050  11600
20.02.25  11200  11050  10900  11000
20.02.24  11100  11100  10950  11100
20.02.23  11000  11150  10900  11050


 - 컴럼 인덱스명으로 조회(다른 표기법)

In [13]:
print(df.open) # 모든 날짜의 open 칼럼 조회

20.02.29    11650
20.02.26    11100
20.02.25    11200
20.02.24    11100
20.02.23    11000
Name: open, dtype: int64


 - loc을 통해서 원하는 행과 열의 특정 컬럼 조회(특정 컬럼 지정)

In [14]:
print(df.loc[:, ['open', 'close']]) # 모든 날짜의 시가, 종가 컬럼 조회

           open  close
20.02.29  11650  11900
20.02.26  11100  11600
20.02.25  11200  11000
20.02.24  11100  11100
20.02.23  11000  11050


 - loc을 통해서 원하는 행과 열의 특정 칼럼 조회(행은 슬라이싱, 열은 각각 지정)

In [15]:
print(df.loc['20.02.29':'20.02.26', ['open','close']])

           open  close
20.02.29  11650  11900
20.02.26  11100  11600


- loc를 통해서 원하는 행과 열의 특정 칼럼 조회(범위 지정 가능)

In [16]:
print()




- 위치를 나타내는 인덱스 번호(iloc)를 이용하여 행 슬라이싱, 열 슬라이싱

In [17]:
print(df.iloc[0:2, 0:3])

           open   high    low
20.02.29  11650  12100  11600
20.02.26  11100  11800  11050


In [18]:
df2 = df.copy()
df2['yday'] = [11800, 11450, 11250, 11350, 11000]

In [19]:
print(df2)

           open   high    low  close   yday
20.02.29  11650  12100  11600  11900  11800
20.02.26  11100  11800  11050  11600  11450
20.02.25  11200  11050  10900  11000  11250
20.02.24  11100  11100  10950  11100  11350
20.02.23  11000  11150  10900  11050  11000


전날종가, 상승을 컬럼 인덱스에 추가, df.index와 loc 사용

- 당일 상승률(%) = (당일종가 - 어제종가) / 어제 종가 * 100
- df.index 행 인덱스 즉, 날짜 하나씩 꺼내면서 작업
- loc은 행인덱스, 열인덱스를 이름으로 조회


In [20]:
list = []
list_yday = []
list_close = []
for a in df2.close:
    list_close.append(a)

for a in df2.yday:
    list_yday.append(a)
    
for a in range(5):
    rate = (list_close[a] - list_yday[a]) / list_yday[a] * 100
    list.append(round(rate, 2))

print(list)

    
df2['rate'] = list
df2

[0.85, 1.31, -2.22, -2.2, 0.45]


Unnamed: 0,open,high,low,close,yday,rate
20.02.29,11650,12100,11600,11900,11800,0.85
20.02.26,11100,11800,11050,11600,11450,1.31
20.02.25,11200,11050,10900,11000,11250,-2.22
20.02.24,11100,11100,10950,11100,11350,-2.2
20.02.23,11000,11150,10900,11050,11000,0.45


In [21]:
list = []
for i in df2.index:
    close, yday = df2.loc[i, 'close'], df2.loc[i, 'yday']
    rate = round((close - yday)/yday * 100, 2)
    list.append(rate)
df2['rate'] = list
print(df2)

           open   high    low  close   yday  rate
20.02.29  11650  12100  11600  11900  11800  0.85
20.02.26  11100  11800  11050  11600  11450  1.31
20.02.25  11200  11050  10900  11000  11250 -2.22
20.02.24  11100  11100  10950  11100  11350 -2.20
20.02.23  11000  11150  10900  11050  11000  0.45


In [22]:
df2['updown'] = df2['rate'].apply(lambda x : '상승' if x > 0 else '하락')
print(df2)

           open   high    low  close   yday  rate updown
20.02.29  11650  12100  11600  11900  11800  0.85     상승
20.02.26  11100  11800  11050  11600  11450  1.31     상승
20.02.25  11200  11050  10900  11000  11250 -2.22     하락
20.02.24  11100  11100  10950  11100  11350 -2.20     하락
20.02.23  11000  11150  10900  11050  11000  0.45     상승


# CSV 저장 및 읽기
 - CSV 파일 저장하기

In [23]:
df2.to_csv('df2.csv')

In [24]:
pd.read_csv('df2.csv')

Unnamed: 0.1,Unnamed: 0,open,high,low,close,yday,rate,updown
0,20.02.29,11650,12100,11600,11900,11800,0.85,상승
1,20.02.26,11100,11800,11050,11600,11450,1.31,상승
2,20.02.25,11200,11050,10900,11000,11250,-2.22,하락
3,20.02.24,11100,11100,10950,11100,11350,-2.2,하락
4,20.02.23,11000,11150,10900,11050,11000,0.45,상승


# EXcel 파일 저장 및 읽기
- Excel 파일로 저장하기

In [30]:
df2.to_excel('stock.xlsx', sheet_name='Sheet1')

ModuleNotFoundError: No module named 'openpyxl'

In [29]:
pd.read_excel('stock.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

FileNotFoundError: [Errno 2] No such file or directory: 'stock.xlsx'