<a href="https://colab.research.google.com/github/maeng-gun/python_basic/blob/main/pandas_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터프레임(DataFrame)의 자료구조와 생성



## 1. 데이터프레임의 특징
* 2차원(행과 열) 데이터를 표현하기 위한 자료형
* 하나의 데이터프레임은 하나의 엑셀시트와 동일한데, 각 행과 열의 명칭이 별도로 붙어있다는 것이 특징


## 2. 데이터프레임의 구조
### 1) 자료값(value) 
 * 행렬 형태의 2차원 자료의 내용물
 * 행(row) : 주로 자료의 각 단위(횡단면자료는 사람/기업/국가 등, 시계열자료는 시점/기간)로 구성
 * 열(column) : 주로 자료의 각 특성(이름,금액,횟수 등)으로 구성

### 2) 인덱스(index)
 * 각 행을 구분하는 명칭을 순서대로 나열한 객체로, 자료값의 좌측에 위치되
 * 인덱스를 별도로 지정하지 않으면 0,1,2,...로 이어지는 행번호를 자동 지정
 * 로우 레이블(row label)이라고도 함

### 3) 컬럼명(columns)
 * 각 열을 구분하는 명칭을 순서대로 나열한 객체로, 자료값의 상단에 위치함
 * 컬럼명을 별도로 지정하지 않으면 0,1,2,...로 이어지는 열번호를 자동 지정
 * 칼럼 레이블(column label)이라고도 함

  
### 예시

In [1]:
import pandas as pd           # 라이브러리 불러오기

val = [['개',4,'멍멍'],       # 자료값을 변수(val)에 저장
       ['닭',2,'꼬꼬'],
       ['벌',6,'붕붕']]

df1 = pd.DataFrame(val)       # 데이터프레임 생성 후 변수(df1)에 저장
df1                           # 변수 df1 출력하기

Unnamed: 0,0,1,2
0,개,4,멍멍
1,닭,2,꼬꼬
2,벌,6,붕붕


In [2]:
val2 = [[4,'멍멍'],            
       [2,'꼬꼬'],
       [6,'붕붕']]
id  = ['개','닭','벌']
col = ['다리수','울음소리']

df2 = pd.DataFrame(val2, index=id, columns=col)
df2

Unnamed: 0,다리수,울음소리
개,4,멍멍
닭,2,꼬꼬
벌,6,붕붕


## 3. 데이터프레임의 생성

### 1) 데이터를 직접 입력하는 경우

#### a. 행 단위로 자료값 입력 (리스트 of 리스트 활용)
* 앞선 예시 참조

#### b. 열 단위로 자료값 입력 (딕셔너리 활용)

In [3]:
var3 = {'종류'     : ['개','닭','벌'],
        '다리수'   : [4,2,6],
        '울음소리' : ['멍멍','꼬꼬','붕붕']}

df3 = pd.DataFrame(var3)       # 데이터프레임 생성 후 변수(df1)에 저장
df3

Unnamed: 0,종류,다리수,울음소리
0,개,4,멍멍
1,닭,2,꼬꼬
2,벌,6,붕붕




### 2) 외부데이터를 불러오는 경우



#### a. 엑셀파일 불러오기
* 함수 : pd.read_excel(엑셀파일명, ....) => 데이터프레임
* 매개변수
 * io : 파일명(.xlsx)을 문자열로 입력. 경로가 없으면 작업중인 폴더 내에서 찾음. 경로는 PC 내의 폴더 주소이거나 인터넷 상의 주소일 수도 있음
 * sheet_name : 엑셀 파일 내 시트이름. 초기값은 첫번째 시트.
 * header : 데이터 프레임의 컬럼명을 인식할 행의 위치. 초기값은 0
 * na_values : 결측치가 있을때 채워넣을 값. 초기값은 None
 * thousands : 천단위마다 해당 특수문자가 있을 경우, 이를 숫자형으로 인식. 초기값은 None. 주로 =',' 을 붙임  

In [4]:
url = 'https://maeng-gun.github.io/data/raw_data_1.xlsx'

df4 = pd.read_excel(url, thousands=',')
df4

Unnamed: 0,지역본부,시군지부,사무소명,사무소코드,과목,상품종류,종목명,자산구분,발행일,만기일,발행금리,할인금리,이자계산구분,이자계산기간,자산유동화구분,매출일,매입일,신용등급,매입수익률,액면(좌수),장부금액,미수이자,예수법인세의제,최초장부금액,시장수익율,발행회사,거래회사,농축협예수사무소코드,평가손익,매입신용등급,계속보유여부검토대상
0,강원지역본부,강릉시지부,강릉농협,333050,채권,금융채,현대캐피탈1474,매도가능,2014-01-07,2021-01-07,3.969,0,복리채,12개월,,2014-01-07,2014-01-16,AA,3.95,2000000000,2057414292,1920391,0,2002279609,1.506,현대캐피탈(주),삼성증권(주),,57020083,AA+,
1,강원지역본부,강릉시지부,강릉농협,333050,채권,금융채,국민은행3306이표일(3)07후-24,매도가능,2013-06-24,2020-06-24,3.610,0,"이표채(FRN,전환)",3개월,,2013-06-24,2014-04-07,AA+,3.56,2000000000,2019191187,0,0,2005653261,1.210,(주)국민은행,삼성증권(주),,18721556,AA+,
2,강원지역본부,강릉시지부,강릉농협,333050,채권,금융채,현대커머셜236,매도가능,2016-04-07,2026-04-07,2.800,0,"이표채(FRN,전환)",3개월,,2016-04-07,2016-04-07,AA-,2.75,2000000000,2076297044,0,0,2008600000,2.139,현대커머셜(주),엔에이치투자증권(주),,70641649,AA-,
3,강원지역본부,강릉시지부,강릉농협,333050,채권,금융채,현대커머셜360-4,매도가능,2019-06-24,2029-06-24,2.567,0,"이표채(FRN,전환)",1개월,,2019-06-24,2019-11-08,AA-,2.75,1600000000,1590035132,0,0,1575143871,2.674,현대커머셜(주),삼성증권(주),,14556643,AA-,
4,강원지역본부,강릉시지부,강릉농협,333050,채권,금융채(특금),팬택관련 채권,만기보유,2006-05-24,2018-12-31,4.480,0,할인채,12개월,,2006-05-24,2006-05-24,,5.20,55078604,27539302,0,0,55078604,2.674,(주)팬택자산관리,농협은행(주),,0,AAA,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1670,충북지역본부,충주시지부,주덕농협,417059,채권,회사채,현대상선176-2,매도가능,2011-04-07,2021-04-07,1.000,0,"이표채(FRN,전환)",3개월,,2011-04-07,2011-04-07,,5.90,208336682,177871548,0,0,209561718,2.495,현대상선(주),엔에이치투자증권(주),,0,A,
1671,충북지역본부,충주시지부,충주농협,417015,대내외예치금,농축협예치금,남제천농협 정기예치 (남제천농협),기타유가,2019-04-24,2020-04-24,2.800,0,복리채,12개월,,0000-00-00,2019-04-24,,2.80,2000000000,2000000000,0,0,2000000000,2.495,농축협공통,농축협공통,421078.0,0,,
1672,충북지역본부,충주시지부,충주농협,417015,채권,회사채,현대상선177-2,매도가능,2011-07-07,2021-04-07,1.000,0,이표채(거치분할),3개월,,2011-07-07,2011-07-08,,5.80,102199293,87299763,0,0,102193407,2.495,현대상선(주),엔에이치투자증권(주),,0,A,
1673,충북지역본부,충주시지부,충주농협,417015,채권,회사채,동부메탈10-1,매도가능,2012-04-16,2020-02-16,2.000,0,"이표채(FRN,전환)",3개월,,2012-04-16,2012-04-17,,5.35,240000000,144888240,0,0,240660067,2.495,(주)동부메탈,엔에이치투자증권(주),,0,BBB+,


#### b. CSV 파일 불러오기
* 함수 : pd.read_csv(파일명, ....) => 데이터프레임 반환
* 매개변수
 * read_excel과 거의 비슷
 * compression : 불러오는 파일이 압축되어 있는 경우 압축을 풀어서 로딩 

In [6]:
url = 'https://maeng-gun.github.io/data/raw_data_2.csv'

df5 = pd.read_csv(url, thousands=',', compression='gzip')
df5

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0.1,Unnamed: 0,지역본부,시군지부,사무소명,사무소코드,과목,상품종류,표준코드,계좌번호,종목명,자산구분,발행일,만기일,발행금리,할인금리,이자계산구분,이자계산기간,자산유동화구분,매출일,매입일,신용등급,매입수익률,액면(좌수),장부금액,미수이자,예수법인세의제,최초장부금액,시장수익율,발행회사,거래회사,농축협예수사무소코드,평가손익,매입신용등급,계속보유여부검토대상,매입수익률*장부금액,보유일자
0,568304,서울,서울지역본부,영동농협,100012,대내외예치금,농축협예치금,DA1000120063,100012-134-000721,정기예탁금(능서농협),기타유가,2014-03-18,2015-03-18,3.25,0.0,복리채,12개월,,0000-00-00,2014-03-18,,3.25,10.000000,10.0,0.0,0.0,1.000000e+09,3.5,농축협공통,농축협공통,203049.0,0,,,32.5,2015-01-31
1,568305,서울,서울지역본부,영동농협,100012,대내외예치금,농축협예치금,DA1000120064,100012-134-000734,정기예탁금(남면농협),기타유가,2014-03-27,2015-03-27,3.20,0.0,단리채,1개월,,0000-00-00,2014-03-27,,3.20,30.000000,30.0,0.0,0.0,3.000000e+09,3.5,농축협공통,농축협공통,201162.0,0,,,96.0,2015-01-31
2,568306,서울,서울지역본부,영동농협,100012,대내외예치금,농축협예치금,DA1000120065,100012-134-000748,정기예탁금(은현농협),기타유가,2014-04-01,2015-04-01,3.20,0.0,단리채,12개월,,0000-00-00,2014-04-01,,3.20,33.000000,33.0,0.0,0.0,3.300000e+09,3.5,농축협공통,농축협공통,201173.0,0,,,105.6,2015-01-31
3,568307,서울,서울지역본부,영동농협,100012,대내외예치금,농축협예치금,DA1000120070,100012-134-000796,정기예탁금(개군농협),기타유가,2014-06-16,2015-06-16,3.10,0.0,복리채,12개월,,0000-00-00,2014-06-16,,3.10,35.000000,35.0,0.0,0.0,3.500000e+09,3.5,농축협공통,농축협공통,231046.0,0,,,108.5,2015-01-31
4,568308,서울,서울지역본부,영동농협,100012,대내외예치금,농축협예치금,DA1000120073,100012-134-000825,정기예탁금(물금농협),기타유가,2014-08-05,2015-02-05,3.10,0.0,복리채,6개월,,0000-00-00,2014-08-05,,3.10,30.000000,30.0,0.0,0.0,3.000000e+09,3.5,농축협공통,농축협공통,813060.0,0,,,93.0,2015-01-31
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229000,797304,제주,제주시지부,제주시농협,901018,대내외예치금,농축협예치금,DA9010180047,901018-134-000786,정기예탁금 (애월농협),기타유가,2020-06-12,2021-06-12,1.65,0.0,단리채,12개월,,0000-00-00,2020-06-12,,1.65,50.000000,50.0,0.0,0.0,5.000000e+09,6.5,농축협공통,농축협공통,901125.0,0,,,82.5,2020-08-31
229001,797305,제주,제주시지부,제주시농협,901018,대내외예치금,농축협예치금,DA9010180048,901018-134-000790,정기예탁금 (회천농협),기타유가,2020-07-27,2020-10-27,1.40,0.0,단리채,3개월,,0000-00-00,2020-07-27,,1.40,30.000000,30.0,0.0,0.0,3.000000e+09,6.5,농축협공통,농축협공통,621047.0,0,,,42.0,2020-08-31
229002,797306,제주,서귀포시지부,대정농협,903013,채권,회사채,KR6117931263,903013-134-000348,한진해운76-2,매도가능,2012-06-07,2017-06-07,5.90,0.0,"이표채(FRN,전환)",3개월,,2012-06-07,2012-07-13,,5.73,40.000000,0.0,0.0,0.0,4.028513e+09,6.5,(주)한진해운,유안타증권(주),,0,A-,,0.0,2020-08-31
229003,797307,제주,서귀포시지부,안덕농협,903024,유동자산,자산유동화기업어음(ABCP),CP0000021581,903024-134-000181,루카스ABCP,만기보유,2013-12-27,2015-12-31,3.77,0.0,할인채,12개월,ABCP,0000-00-00,2013-12-27,,3.77,3.247726,0.0,0.0,0.0,3.247726e+08,6.5,루카스(주),엔에이치투자증권(주),,0,A2,,0.0,2020-08-31


#### c. 클립보드에서 불러오기 (엑셀 복사 범위)
* 로컬 환경에서만 쓸 수 있고, 구글코랩에서는 에러 발생
* 활성화된 엑셀 시트에서 특정 범위를 직접 복사(Ctrl + C)한 뒤, 판다스 데이터프레임으로 변환하는 방식

In [7]:
df6 = pd.read_clipboard(thousands=',')
df6

PyperclipException: ignored