[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/finance-data-analysis/blob/main/2.2.%20KRX%20%EC%A0%84%EC%B2%B4%20%EC%A2%85%EB%AA%A9%EB%B6%84%EC%84%9D-input.ipynb)

## 한국거래소(KRX) 전체 종목 분석
* Pandas cheat sheet 를 함께 보세요! : [Pandas_Cheat_Sheet.pdf](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

* FinanceDataReader를 통한 KRX 전체 종목 수집
    * to_csv("파일명", index=False) : csv 파일로 저장하기
    * read_csv("파일명") : csv 파일 불러오기
    
* Pandas를 통한 파일 저장과 불러오기
    * shape를 통한 행과 열의 수 보기
    * head, tail, sample 을 통한 일부 데이터 가져오기
    
* DataFrame의 info(), describe() 등을 통한 요약과 기술통계 값 구하기
    * info()
    * describe()
    * nunique()
    * index
    * columns
    * values
    
* Pandas의  DataFrame과 Series의 이해
    * Series : 1차원 벡터구조
    * DataFrame : 2차원 행렬구조
    
* 색인하기
    * [컬럼]
    * .loc[행]
    * .loc[행, 열]
    * .loc[조건식, 열]
    
* DataFrame의 데이터 타입 이해하기
    * 날짜 데이터의 변환
    
* DataFrame 다루기
    * 열(column) 인덱싱
    * 행(index) 인덱싱
    * 행, 열 인덱싱
    * 정렬하기 : sort_values 사용하기
    * 조건식 사용하기

* 빈도수 구하기
    * 한 개의 변수 : series.value_counts()
    * 두 개의 변수 : pd.crosstab()

* groupby 와 pivot_table
    * 다양한 연산식의 사용


## ⚠️ 주의할 점 ⚠️
* 강좌의 분석내용과 여러분의 실습 결과는 시점의 차이로 빈도수 등의 결과값이 다르게 나옵니다.



## 라이브러리 불러오기

In [1]:
# 데이터 분석을 위해 pandas, 시각화를 위해 seaborn 불러오기
import pandas as pd
import seaborn as sns

## FinanceDataReader 로 수집한 전체 종목 불러오기

* 한국 주식 가격, 미국주식 가격, 지수, 환율, 암호화폐 가격, 종목 리스팅 등 금융 데이터 수집 라이브러리

* [FinanceDataReader 사용자 안내서 | FinanceData](https://financedata.github.io/posts/finance-data-reader-users-guide.html)
* https://pandas-datareader.readthedocs.io/en/latest/readers/index.html

<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

## <font color="red">종목명이 영문으로 표기될 때</font>

해당 수업은 실시간으로 한국거래소에서 FinanceDataReader 라는 라이브러리를 통해 데이터를 받아오고 있습니다.
아래 링크에 있는 라이브러리의 소스코드가 KRX 전체 종목을 가져오는 소스코드입니다.

[FinanceDataReader/listing.py at master · FinanceData/FinanceDataReader](https://github.com/FinanceData/FinanceDataReader/blob/master/krx/listing.py)

이 때, 전체 상장종목과 거래할 수 있는 ETF 등의 종목도 함께 가져오게 되는데,
FinanceDataReader 에서는 코스피, 코스닥, 코넥스 정보가 있는 엑셀파일과 금융상품 정보가 있는 JSON 데이터를 가져와서 병합하는 형태로 데이터를 제공하고 있습니다.
그런데 최근 JSON 데이터의 종목명이 영문으로 변경되어 제공되고 있음을 확인했습니다.
그래서 아래의 엑셀 데이터를 read_html 로 읽어오게 되면 한글로 된 종목명을 받아서 분석해 보실 수 있습니다.

In [None]:
# # 종목명이 영문으로 표기 될 때 아래의 주석을 풀고 데이터를 받아서 분석해 보세요!
# url = 'http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13'
# df_listing = pd.read_html(url, header=0)[0]
# cols_ren = {'회사명':'Name', '종목코드':'Symbol', '업종':'Sector', '주요제품':'Industry',
#                     '상장일':'ListingDate', '결산월':'SettleMonth',  '대표자명':'Representative',
#                     '홈페이지':'HomePage', '지역':'Region', }
# df = df_listing.rename(columns = cols_ren)
# df['Symbol'] = df['Symbol'].apply(lambda x: '{:06d}'.format(x))
# df['ListingDate'] = pd.to_datetime(df['ListingDate'])
# df

In [28]:
# 이전 강좌에서 to_csv로 저장해둔 krx.csv 파일을 pd.read_csv 로 불러옵니다.
# krx 파일이 없다면 아래 주석을 제거하고 csv 파일을 로드해 보세요!
df = pd.read_csv("https://raw.githubusercontent.com/corazzon/finance-data-analysis/main/krx.csv")
#df = pd.read_csv("https://raw.githubusercontent.com/neguri0235/finance-data-analysis/main/krx.csv")
df

Unnamed: 0,Symbol,Market,Name,Sector,Industry,ListingDate,SettleMonth,Representative,HomePage,Region
0,060310,KOSDAQ,3S,특수 목적용 기계 제조업,반도체 웨이퍼 캐리어,2002-04-23,03월,"박종익, 김세완 (각자 대표이사)",http://www.3sref.com,서울특별시
1,095570,KOSPI,AJ네트웍스,산업용 기계 및 장비 임대업,"렌탈(파렛트, OA장비, 건설장비)",2015-08-21,12월,이현우,http://www.ajnet.co.kr,서울특별시
2,006840,KOSPI,AK홀딩스,기타 금융업,지주사업,1999-08-11,12월,"채형석, 이석주(각자 대표이사)",http://www.aekyunggroup.co.kr,서울특별시
3,054620,KOSDAQ,APS홀딩스,기타 금융업,인터넷 트래픽 솔루션,2001-12-04,12월,정기로,http://www.apsholdings.co.kr,경기도
4,265520,KOSDAQ,AP시스템,특수 목적용 기계 제조업,디스플레이 제조 장비,2017-04-07,12월,김영주,http://www.apsystems.co.kr,경기도
...,...,...,...,...,...,...,...,...,...,...
2607,000547,KOSPI,흥국화재2우B,,,,,,,
2608,000545,KOSPI,흥국화재우,,,,,,,
2609,003280,KOSPI,흥아해운,해상 운송업,외항화물운송업(케미컬탱커),1976-06-29,12월,이환구,http://www.heung-a.com,서울특별시
2610,037440,KOSDAQ,희림,"건축기술, 엔지니어링 및 관련 기술 서비스업",설계 및 감리용역,2000-02-03,12월,"정영균, 이목운, 허철호, 염두성 (각자대표)",http://www.heerim.com,서울특별시


### 일부 데이터만 가져오기

{'회사명':'Name', '종목코드':'Symbol', '업종':'Sector', '주요제품':'Industry',
                            '상장일':'ListingDate', '결산월':'SettleMonth',  '대표자명':'Representative',
                            '홈페이지':'HomePage', '지역':'Region', }

In [3]:
# head 로 위에 있는 데이터 일부만 가져옵니다.
df.head()

Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId
0,5930,KR7005930003,삼성전자,KOSPI,,56100,1,200,0.36,55800,56300,55500,15908823,890639761200,334904801055000,5969782550,STK
1,660,KR7000660001,SK하이닉스,KOSPI,,175500,2,-600,-0.34,174400,176400,173500,3677980,643515029446,127764415057500,728002365,STK
2,373220,KR7373220003,LG에너지솔루션,KOSPI,,400000,2,-4500,-1.11,396000,400000,389500,330114,130126551500,93600000000000,234000000,STK
3,207940,KR7207940008,삼성바이오로직스,KOSPI,,986000,1,28000,2.92,959000,995000,950000,76812,75296734000,70177564000000,71174000,STK
4,5380,KR7005380001,현대차,KOSPI,,215000,1,3500,1.65,212000,216000,209000,528172,112602320500,45024481065000,209416191,STK


In [4]:
# tail 로 아래 있는 데이터 일부만 가져옵니다.
df.tail()

Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId
2852,215570,KR7215570003,크로넥스,KONEX,일반기업부,439,1,49,12.56,400,448,332,1200,502912,2229267023,5078057,KNX
2853,245450,KR7245450002,씨앤에스링크,KONEX,일반기업부,1299,2,-101,-7.21,1400,1400,1200,12,14699,2052368040,1579960,KNX
2854,288490,KR7288490006,나라소프트,KONEX,일반기업부,58,2,-3,-4.92,61,61,52,118428,6447141,1013351466,17471577,KNX
2855,308700,KR7308700004,테크엔,KONEX,일반기업부,199,0,0,0.0,0,0,0,0,0,796000000,4000000,KNX
2856,413300,KR7413300005,티엘엔지니어링,KONEX,일반기업부,550,2,-50,-8.33,589,590,550,3,1729,718033250,1305515,KNX


In [5]:
# sample을 사용하면 랜덤하게 ()안의 갯수만큼 가져옵니다.
# ()안에 값을 써주지 않으면 한 개만 가져옵니다.
df.sample(10)

Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId
269,79160,KR7079160008,CJ CGV,KOSPI,,5390,1,130,2.47,5270,5430,5260,217515,1169177780,892476598860,165580074,STK
2402,71950,KR7071950000,코아스,KOSPI,,8900,1,50,0.56,9050,9050,8800,8015,71134120,29287408000,3290720,STK
2283,290120,KR7290120005,DH오토리드,KOSDAQ,우량기업부,2325,1,10,0.43,2315,2325,2260,3937,9013535,36072695850,15515138,KSQ
1685,890,KR7000890004,보해양조,KOSPI,,529,2,-6,-1.12,525,531,503,2723475,1397510810,73594548241,139120129,STK
1879,226340,KR7226340008,본느,KOSDAQ,중견기업부,1374,1,25,1.85,1325,1375,1325,316650,431064061,57642625080,41952420,KSQ
2408,372800,KR7372800003,아이티아이즈,KOSDAQ,벤처기업부,4830,1,70,1.47,4760,4955,4750,7625,36588960,29110361700,6026990,KSQ
500,194480,KR7194480000,데브시스터즈,KOSDAQ,벤처기업부,31300,1,600,1.95,30700,32250,30700,106655,3380467700,376872345000,12040650,KSQ
822,53690,KR7053690004,한미글로벌,KOSPI,,17860,1,210,1.19,17810,18000,17600,250315,4459712580,195701843000,10957550,STK
2468,377460,KR7377460001,위니아에이드,KOSDAQ,투자주의환기종목(소속부없음),1691,0,0,0.0,0,0,0,0,0,26030247855,15393405,KSQ
2752,450940,KR7450940002,유안타제14호스팩,KOSDAQ,SPAC(소속부없음),2020,2,-15,-0.74,2010,2080,2010,13184,26779575,9170800000,4540000,KSQ


## 데이터 요약하기

In [6]:
# info 로 요약 데이터를 봅니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2857 entries, 0 to 2856
Data columns (total 17 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Code         2857 non-null   object 
 1   ISU_CD       2857 non-null   object 
 2   Name         2857 non-null   object 
 3   Market       2857 non-null   object 
 4   Dept         1898 non-null   object 
 5   Close        2857 non-null   int64  
 6   ChangeCode   2857 non-null   int64  
 7   Changes      2857 non-null   int64  
 8   ChagesRatio  2857 non-null   float64
 9   Open         2857 non-null   int64  
 10  High         2857 non-null   int64  
 11  Low          2857 non-null   int64  
 12  Volume       2857 non-null   int64  
 13  Amount       2857 non-null   int64  
 14  Marcap       2857 non-null   int64  
 15  Stocks       2857 non-null   int64  
 16  MarketId     2857 non-null   object 
dtypes: float64(1), int64(10), object(6)
memory usage: 379.6+ KB


In [7]:
# describe 로 기술통계값을 봅니다.
df.describe()

Unnamed: 0,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks
count,2857.0,2857.0,2857.0,2857.0,2857.0,2857.0,2857.0,2857.0,2857.0,2857.0,2857.0
mean,17756.79,1.303815,125.709485,1.400007,17445.81,17890.19,17147.86,518074.0,5473556000.0,837379100000.0,41856510.0
std,51041.1,0.660587,2812.919227,3.759242,51763.87,52912.57,50135.27,2545210.0,27886670000.0,7521199000000.0,132774300.0
min,58.0,0.0,-136000.0,-39.44,0.0,0.0,0.0,0.0,0.0,718033200.0,200000.0
25%,2130.0,1.0,0.0,0.0,2020.0,2070.0,2000.0,13622.0,60212580.0,43842610000.0,10168510.0
50%,5050.0,1.0,30.0,0.86,4790.0,4900.0,4700.0,61104.0,293752000.0,96260190000.0,19712800.0
75%,13280.0,2.0,140.0,2.25,12900.0,13180.0,12720.0,214224.0,1544519000.0,238503600000.0,41875290.0
max,1225000.0,5.0,28000.0,30.0,1345000.0,1372000.0,1222000.0,59321100.0,890639800000.0,334904800000000.0,5969783000.0


In [8]:
# 중복을 제외한 unique 값의 갯수를 봅니다.
df.nunique()

Unnamed: 0,0
Code,2857
ISU_CD,2857
Name,2857
Market,4
Dept,9
Close,1955
ChangeCode,6
Changes,435
ChagesRatio,953
Open,1921


In [None]:
# index 값 보기
df.index

RangeIndex(start=0, stop=2857, step=1)

In [9]:
# 컬럼값 보기
df.columns

Index(['Code', 'ISU_CD', 'Name', 'Market', 'Dept', 'Close', 'ChangeCode',
       'Changes', 'ChagesRatio', 'Open', 'High', 'Low', 'Volume', 'Amount',
       'Marcap', 'Stocks', 'MarketId'],
      dtype='object')

In [10]:
# 값만 보기
df.values

array([['005930', 'KR7005930003', '삼성전자', ..., 334904801055000,
        5969782550, 'STK'],
       ['000660', 'KR7000660001', 'SK하이닉스', ..., 127764415057500,
        728002365, 'STK'],
       ['373220', 'KR7373220003', 'LG에너지솔루션', ..., 93600000000000,
        234000000, 'STK'],
       ...,
       ['288490', 'KR7288490006', '나라소프트', ..., 1013351466, 17471577,
        'KNX'],
       ['308700', 'KR7308700004', '테크엔', ..., 796000000, 4000000, 'KNX'],
       ['413300', 'KR7413300005', '티엘엔지니어링', ..., 718033250, 1305515,
        'KNX']], dtype=object)

## 데이터 색인하기

### Series
<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg">

In [11]:
# Name 컬럼 하나만 가져옵니다.
df['Name']

Unnamed: 0,Name
0,삼성전자
1,SK하이닉스
2,LG에너지솔루션
3,삼성바이오로직스
4,현대차
...,...
2852,크로넥스
2853,씨앤에스링크
2854,나라소프트
2855,테크엔


In [12]:
# df["Name"] 의 type을 봅니다.
type(df["Name"])

In [14]:
# 0번째 행만 가져옵니다. 행인덱스를 가져올때는 .loc를 사용합니다.
# loc는 위치(locate)를 의미합니다.
df.loc[1]

Unnamed: 0,1
Code,000660
ISU_CD,KR7000660001
Name,SK하이닉스
Market,KOSPI
Dept,
Close,175500
ChangeCode,2
Changes,-600
ChagesRatio,-0.34
Open,174400


In [15]:
# df.loc[0] 의 type을 봅니다.
type(df.loc[0])

### DataFrame
<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg">

In [16]:
# df 변수의 타입을 봅니다.
type(df)

In [17]:
# 여러 컬럼을 지정할 때는 리스트 형태로 묶어주어야 합니다.
# 2차원 행렬은 대괄호가 [] 2개가 있다는 것을 기억해 주세요.
df[["Code", "Name"]]

Unnamed: 0,Code,Name
0,005930,삼성전자
1,000660,SK하이닉스
2,373220,LG에너지솔루션
3,207940,삼성바이오로직스
4,005380,현대차
...,...,...
2852,215570,크로넥스
2853,245450,씨앤에스링크
2854,288490,나라소프트
2855,308700,테크엔


In [None]:
# 여러 개의 행을 가져올 때도 [] 대괄호를 통해 리스트 형태로 묶어줍니다.
df[["Code", "Name"]].loc[[0,1,2]]

Unnamed: 0,Code,Name
0,5930,삼성전자
1,660,SK하이닉스
2,373220,LG에너지솔루션


In [None]:
# 1개의 컬럼을 가져올 때도 대괄호[] 2개를 써서 리스트 형태로 묶어주게 되면 데이터프레임 형태로 반환됩니다.
# "Name" 을 데이터프레임으로 가져옵니다.


### loc를 통한 서브셋 가져오기
<img src="https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_columns_rows.svg">

In [19]:
# 행과 열 함께 가져오기
# .loc[행, 열]
df.loc[[0,1,2,5,7]]

Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId
0,5930,KR7005930003,삼성전자,KOSPI,,56100,1,200,0.36,55800,56300,55500,15908823,890639761200,334904801055000,5969782550,STK
1,660,KR7000660001,SK하이닉스,KOSPI,,175500,2,-600,-0.34,174400,176400,173500,3677980,643515029446,127764415057500,728002365,STK
2,373220,KR7373220003,LG에너지솔루션,KOSPI,,400000,2,-4500,-1.11,396000,400000,389500,330114,130126551500,93600000000000,234000000,STK
5,68270,KR7068270008,셀트리온,KOSPI,,193400,1,8500,4.6,185600,196100,185600,1057016,203671404300,41982992343600,217078554,STK
7,5935,KR7005931001,삼성전자우,KOSPI,,46600,3,0,0.0,46800,47250,46450,1289600,60327009286,38346520220000,822886700,STK


In [20]:
# .loc[행, 열]
df.loc[1][["Code", "Name"]]

Unnamed: 0,1
Code,000660
Name,SK하이닉스


In [None]:
# %timeit


In [None]:
# %timeit


In [21]:
# 여러 개의 행과 하나의 컬럼 가져오기
# .loc[행, 열]
df.loc[[0,1,2]][["Code","Name","Close"]]

Unnamed: 0,Code,Name,Close
0,5930,삼성전자,56100
1,660,SK하이닉스,175500
2,373220,LG에너지솔루션,400000


In [None]:
# 여러개의 행과 여러 개의 컬럼 가져오기
# .loc[행, 열]


### Boolean Indexing
* 결과값이 True, False bool 형태로 반환되기 때문에 boolean indexing 이라고 부릅니다.
* boolean indexing 을 사용해 특정 조건식을 만족하는 데이터를 서브셋으로 가져옵니다.

<img src="https://pandas.pydata.org/docs/_images/03_subset_rows.svg">

In [22]:
# 카카오를 찾습니다.
df[df["Name"] == "이엠텍"]

Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId
458,91120,KR7091120006,이엠텍,KOSDAQ,우량기업부,25100,2,-700,-2.71,25650,25700,24800,113585,2859865100,430036693600,17132936,KSQ


<img src="https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_columns_rows.svg">

In [None]:
# and => &
# or => |
True and False

In [30]:
# 서울특별시에 소재지를 두고 있는 KOSPI 종목의 종목명과 심볼을 가져옵니다.
# .loc[행, 열]
# .loc[조건식, 열]
df.loc[(df["Region"] == "서울특별시") & (df["Market"] == "KOSPI"), ["Symbol", "Name"]]

#df.loc[(df["Dept"] == "우량기업부") & (df["Market"] == "KOSPI"), ["Name", "Code"]]
#df.loc[(df["Dept"] == "우량기업부"), ["Name", "Code"]]

Unnamed: 0,Symbol,Name
1,095570,AJ네트웍스
2,006840,AK홀딩스
6,027410,BGF
7,282330,BGF리테일
9,001460,BYC
...,...,...
2596,079980,휴비스
2598,005010,휴스틸
2602,069260,휴켐스
2606,000540,흥국화재


## 파생변수 만들기

In [31]:
# pd.to_datetime 을 통해 데이터의 타입을 변환합니다.
df["ListingDate"] = pd.to_datetime(df["ListingDate"])

In [None]:
# ListingYear 파생변수 만들기


In [None]:
# nan은 not a number의 약자로 결측치를 의미합니다.


## 데이터 시각화 툴 소개

### matplotlib
* [Anatomy of a figure — Matplotlib documentation](https://matplotlib.org/3.1.1/gallery/showcase/anatomy.html)

### seaborn
* [seaborn: statistical data visualization — seaborn documentation](https://seaborn.pydata.org/index.html)

### pandas
* [Visualization — pandas documentation](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)

## 데이터 시각화를 위한 폰트설정

In [None]:
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()
    # colab 사용자는 system_name이 'Linux'로 확인

    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "Malgun Gothic"
    else:
        !apt-get install fonts-nanum -qq  > /dev/null
        !fc-cache -fv

        import matplotlib as mpl
        mpl.font_manager._rebuild()
        findfont = mpl.font_manager.fontManager.findfont
        mpl.font_manager.findfont = findfont
        mpl.backends.backend_agg.findfont = findfont

        font_family = "NanumBarunGothic"
    return font_family

In [None]:
# 위에서 만든 함수를 통해 시스템 폰트를 불러옵니다.
get_font_family()

In [None]:
# 시각화를 위한 폰트설정
# 위에서 만든 함수를 통해 시스템 폰트를 불러와서 font_family 라는 변수에 할당합니다.

# 폰트설정

# 마이너스폰트 설정


# ggplot으로 그래프 스타일 설정

# 그래프에 retina display 적용


### 폰트 설정 확인하기

In [None]:
# 한글폰트 확인하기


## 한 개의 변수 빈도수 구하고 시각화 하기
* Keyword

    * Series.value_counts()
    * Series.value_counts().plot()
    * Series.value_counts().plot.bar()
    * Series.value_counts().plot.barh()
    * sns.countplot()

### Market

* KOSPI (Korea Composite Stock Price Index)
    * 우리나라의 종합주가지수(KOSPI)는 증권거래소가 1964.1.4일을 기준시점으로 다우존스식 주가평균을 지수화한 수정주가 평균지수를 산출, 발표하기 시작하였다. 다우존스식 주가지수는 주가지수를 구성하는 상장종목 중 일부 우량주만을 선정하여 산출하는 방식이다. 시가총액식 주가지수는 일정시점의 시가총액과 현재시점의 시가총액을 대비, 현재의 주가수준을 판단하는 방식이다. 즉, 지난 1980년 1월 4일 기준 상장종목 전체의 시가총액을 100으로 보고 현재 상장종목들의 시가총액이 어느 수준에 놓여 있는지를 보여주는 시스템이다.
    * 종합주가지수 = (비교시점의 시가총액 ÷ 기준시점의 시가총액) × 100
    * 출처 : [네이버 지식백과] 종합주가지수 (시사상식사전, pmg 지식엔진연구소) https://terms.naver.com/entry.nhn?docId=72147&cid=43667&categoryId=43667


* KOSDAQ (Korea Securities Dealers Automated Quotation)
    * 미국의 나스닥(NASDAQ)을 한국식으로 합성한 용어로 1996년 7월 1일 증권업협회와 증권사들이 설립한 코스닥증권(주)에 의하여 개설되었다. 코스닥의 개장으로 단순히 증권거래소 상장을 위한 예비적 단계였던 장외시장이 미국의 나스닥(NASDAQ)과 같이 자금조달 및 투자시장으로 독립적인 역할을 수행하게 되었다. 이후 2005년 1월 유가증권시장, 코스닥시장, 선물시장이 증권선물거래소(현 한국거래소)로 통합됨에 따라 코스닥시장도 거래소가 개설한 정규시장으로 편입되었다. 코스닥은 유가증권시장에 비해 진입요건이 상대적으로 덜 까다롭기 때문에 주로 중소벤처기업들이 상장되어 있다.
    * 출처 : [네이버 지식백과] KOSDAQ (매일경제, 매경닷컴) https://terms.naver.com/entry.nhn?docId=18639&cid=43659&categoryId=43659


* KONEX(Korea New Exchange) :
    * 일정 요건을 갖춘 비상장 기업에 문호를 개방하기 위해 개설하는 유가증권시장, 코스닥시장에 이은 제3의 주식시장을 일컫는다. 코넥스시장은 우수한 기술력을 보유하고 있음에도 불구하고, 짧은 경력 등을 이유로 자금 조달에 어려움을 겪는 초기 중소기업과 벤처기업이 자금을 원활하게 조달할 수 있도록 하기 위해 설립된 자본시장으로, 2013년 7월 1일 개장되었다.
    * 출처 : [네이버 지식백과] 코넥스 (시사상식사전, pmg 지식엔진연구소) https://terms.naver.com/entry.nhn?docId=1006691&cid=43667&categoryId=43667

In [None]:
# Market column에 어떤 데이터들이 있는지 unique로 확인합니다.


In [None]:
# value_counts()로 빈도수를 구합니다.


In [None]:
# 빈도수를 시각화 합니다.


In [None]:
# Seaborn countplot 활용하여 빈도수를 표현합니다.


### Sector

In [None]:
# 섹터의 빈도수를 구합니다.
# 상위 30개 섹터의 빈도수를 sector_count_top 변수에 할당합니다.
# sector_count_top


In [None]:
# df_sector_30

In [None]:
# Seaborn countplot 활용하여 빈도수를 표현합니다.


In [None]:
print(plt.colormaps())

In [None]:
# 빈도수가 가장 많은 데이터 색인하기


### Industry

In [None]:
# Industry 의 빈도수를 구합니다.
# industry_top30

In [None]:
# Industry 빈도수를 pandas 의 plot 기능을 사용해 시각화 합니다.


In [None]:
# df[df["Industry"].isin(industry_top30.index)]

In [None]:
# seaborn


### Region

In [None]:
# Region 의 빈도수를 구합니다.
# value_counts()통해 지역별 상장회사의 빈도수를 봅니다.


In [None]:
# df["Region"]


In [None]:
# Region 의 빈도수를 seaborn 의 countplot 으로 그립니다.


In [None]:
# order 기능을 통해 빈도수를 정렬합니다.
# df["Region"].value_counts().index 로 Region 의 순서를 가져와서 지정합니다.


In [None]:
# Region 을 기준으로 정렬합니다.


## 두 개의 변수 빈도수 구하고 시각화 하기
* crosstab 으로 빈도수 구하기
* seaborn의 countplot 으로 빈도수 시각화
* pandas의 plot 기능으로 시각화
    * lineplot : 연속된 데이터(숫자, 기간)
    * barplot : 비연속 데이터(범주형)
    * hist : 연속된 수치 데이터의 범주화

### 지역별 상장 시장 종목 빈도수 구하기
* pd.crosstab 을 통한 2개의 변수에 대한 빈도수 구하기

In [None]:
# pd.crosstab 을 통한 2개의 변수에 대한 빈도수 구하기
# Market 과 Region 으로 빈도수 구하기


In [None]:
# countplot : Market 과 Region 으로 빈도수 시각화 하기


### 연도별 상장 종목 빈도수 분석

In [None]:
# Market, ListingYear 빈도수 구하기
# market_year

### seaborn을 통한 빈도수 시각화

In [None]:
# Seaborn countplot 활용하여 빈도수를 표현합니다.
# hue 를 사용해 다른 변수를 함께 표현합니다. hue는 색상을 의미합니다.


### Pandas를 통한 시각화

In [None]:
# Pandas plot 기능 활용하여 기본 그래프(line)를 그립니다.
# Pandas plot으로 그릴 때 x축에 인덱스 값이 y축에는 컬럼에 있는 값이 들어갑니다.
# 컬럼이 여러개라면 다른 색상으로 그려집니다.


In [None]:
# 컬럼값을 subplots 으로 그립니다.


In [None]:
# Pandas plot 기능 활용하여 막대 그래프(bar, barh)를 그립니다.


In [None]:
# 컬럼명의 데이터 타입을 int 형태로 변경합니다.
# market_year.columns


In [None]:
# 막대(bar)그래프 그리기
# market_year


### groupby 와 pivot_table로 빈도수 구하기
<img src="https://pandas.pydata.org/pandas-docs/stable/_images/06_valuecounts.svg">

* [How to calculate summary statistics? — pandas documentation](https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/06_calculate_statistics.html)
* [Group by: split-apply-combine — pandas documentation](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html)
* [pandas.pivot_table — pandas 1.2.0 documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html)

In [None]:
# groupby([인덱스 컬럼 리스트])[연산에 사용할 컬럼].연산()
# market_year

In [None]:
# pivot_table로 같은 결과가 나오게 연산하기


In [None]:
# 위의 groupby 결과를 scatterplot으로 그립니다.
# df_market_year


In [None]:
# lineplot 그리기


In [None]:
# relplot으로 subplot 그리기 - scatter


In [None]:
# relplot으로 subplot 그리기 - line


### 구간화 binnig 과 히스토그램
* 연속된 수치 데이터를 범주형 데이터로 표현, bucketing 이라고 부르기도 함
* 히스토그램 : 도수분포를 그래프 형태로 표현한 것
* 막대그래프와 비슷해 보이지만 다른 그래프
* 참고 : [히스토그램 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%ED%9E%88%EC%8A%A4%ED%86%A0%EA%B7%B8%EB%9E%A8)

In [None]:
# bins 의 갯수에 따라 그래프의 표현 방법이 달라집니다.


## 데이터 색인

In [None]:
# 케이맨 제도에 있는 회사 찾기


In [None]:
# 1970년 이전에 상장한 기업을 찾습니다.


In [None]:
# and => &
# or  => |
True and True

In [None]:
# 2020년 상장한 서울특별시에 소재한 코스피 종목을 찾습니다.


### 지역별 섹터

In [None]:
# Sector, Region 으로 crosstab 연산을 합니다.
# df_sr


### 컬럼과 인덱스 값으로 색인하기

In [None]:
# 특정 컬럼만 가져오기


### 특정 행만 가져오기

* .loc[행]
* .loc[행, 열]
* .loc[조건식, 열]

In [None]:
# df_sr에서 "소프트웨어 개발 및 공급업" 행만 가져오기


In [None]:
# loc 로 행인덱스 가져오기
# 행에서 "소프트웨어 개발 및 공급업", "금융 지원 서비스업", "의약품 제조업" 가져오기


In [None]:
# loc 로 행, 컬럼 가져오기
# 행에서 "소프트웨어 개발 및 공급업", "금융 지원 서비스업", "의약품 제조업"
# 열에서 "서울특별시" 가져오기



In [None]:
# loc로 여러 행과 열 가져오기


In [None]:
# "소프트웨어 개발 및 공급업" 만 가져와서 막대그래프를 그립니다.


In [None]:
# "의약품 제조업" 만 가져와서 막대그래프를 그립니다.



In [None]:
# iloc[행]
# iloc[행,열]


In [None]:
# df.head 혹은 tail도 내부에서 iloc를 슬라이싱으로 사용하고 있습니다.
# df.head??

In [None]:
# df_sr.tail??