### DataFrame
- 파이썬에서 데이터를 분석할 때 사용하는 객체
- DataFrame 객체 사용을 위해서는 먼저 pandas 라이브러리 import

##### DataFrame 을 적용할 데이터

In [1]:
data = {
    '이름' : ['김자바', '이자바', '박자바', '최캐드', '정캐드']
    , '학급' : ['자바반', '자바반', '자바반', '캐드반', '캐드반']
    , '국어점수' : [90, 80, 70, 100, 90]
    , '영어점수' : [70, 80, 80, 70, 90]
    , '평균' : [80.0, 80.0, 75.0, 85.0, 90.0]
    , '취미' : ['독서', '', '', '요가', '축구']
}

##### DataFrame 객체 생성
- dictionary 데이터를 DataFrame 형태로 변화시켜 데이터 분석 실시
- 데이터 분석 및 DataFrame 객체 사용을 위해서는 pandas 라이브러리 import
- pandas 라이브러리 import 문법 : import pandas as pd
- dictionary 데이터를 DataFrame 으로 변환시키는 문법 : pd.DataFrame(딕셔너리데이터)

In [9]:
# 최초 한 번은 pandas 라이브러리를 PC에 설치
# - 터미널에서 pip install pandas 명령어 실행 시 자동 설치

In [13]:
# pandas 라이브러리 import
# as pd 는 쓰기 편하기 위해 'pandas를 pd라고 부르겠다.' 라고 별칭 주는 것이다.
import pandas as pd

In [11]:
# dictionary 데이터를 DataFrame 형태로 변환
df = pd.DataFrame(data)
df

Unnamed: 0,이름,학급,국어점수,영어점수,평균,취미
0,김자바,자바반,90,70,80.0,독서
1,이자바,자바반,80,80,80.0,
2,박자바,자바반,70,80,75.0,
3,최캐드,캐드반,100,70,85.0,요가
4,정캐드,캐드반,90,90,90.0,축구


#### DataFrame 에서 데이터 조회의 기본

In [14]:
# 하나의 컬럼의 모든 값 조회
df['이름']

0    김자바
1    이자바
2    박자바
3    최캐드
4    정캐드
Name: 이름, dtype: object

In [19]:
# 둘 이상의 컬럼의 모든 값 조회
df[['이름', '학급']]

Unnamed: 0,이름,학급
0,김자바,자바반
1,이자바,자바반
2,박자바,자바반
3,최캐드,캐드반
4,정캐드,캐드반


In [23]:
# 팁 : DataFrame 을 엑셀 파일로 만드는 법
df.to_excel('test.xlsx', index=False)

In [26]:
# 엑셀 파일을 DataFrame 으로 가져오는 법
new_df = pd.read_excel('test.xlsx')
new_df

Unnamed: 0,이름,학급,국어점수,영어점수,평균,취미
0,김자바,자바반,90,70,80,독서
1,이자바,자바반,80,80,80,
2,박자바,자바반,70,80,75,
3,최캐드,캐드반,100,70,85,요가
4,정캐드,캐드반,90,90,90,축구


In [27]:
# dictionary 데이터를 DataFrame 으로 변환 시 index 지정
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번'])
df

Unnamed: 0,이름,학급,국어점수,영어점수,평균,취미
1번,김자바,자바반,90,70,80.0,독서
2번,이자바,자바반,80,80,80.0,
3번,박자바,자바반,70,80,75.0,
4번,최캐드,캐드반,100,70,85.0,요가
5번,정캐드,캐드반,90,90,90.0,축구


In [28]:
# dictionary 데이터를 DataFrame 으로 변환 시 필요한 값만 가져오기
df = pd.DataFrame(data, columns=['이름', '학급', '국어점수', '영어점수'])
df

Unnamed: 0,이름,학급,국어점수,영어점수
0,김자바,자바반,90,70
1,이자바,자바반,80,80
2,박자바,자바반,70,80
3,최캐드,캐드반,100,70
4,정캐드,캐드반,90,90


In [29]:
movie_data = {
    '영화' : ['명량', '극한직업', '신과함께-죄와 벌', '국제시장', '괴물', '도둑들', '7번방의 선물', '암살'],
    '개봉 연도' : [2014, 2019, 2017, 2014, 2006, 2012, 2013, 2015],
    '관객 수' : [1761, 1626, 1441, 1426, 1301, 1298, 1281, 1270], # (단위 : 만 명)
    '평점' : [8.88, 9.20, 8.73, 9.16, 8.62, 7.64, 8.83, 9.10]
}

In [32]:
# Test 1
# 위의 데이터를 이용하여 아래 조건에 맞게 DataFrame 을 만드시오.
# 데이터 중 영화, 개봉 연도, 평점에 대한 데이터를 DataFrame 생성
# DataFrame의 index는 '1번', '2번'... 형태로 만든다.
# 생성된 DataFrame 데이터를 movie.xlsx의 엑셀 파일로 변환
col = ['영화', '개봉 연도', '평점']
idx = []
for i in range(1, len(movie_data['영화'])+1):
        df_index = str(i) + '번'
        idx.append(df_index)

movie_df = pd.DataFrame(movie_data,
                        columns=col,
                        index=idx)
movie_df.to_excel('test_1.xlsx')
movie_df


Unnamed: 0,영화,개봉 연도,평점
1번,명량,2014,8.88
2번,극한직업,2019,9.2
3번,신과함께-죄와 벌,2017,8.73
4번,국제시장,2014,9.16
5번,괴물,2006,8.62
6번,도둑들,2012,7.64
7번,7번방의 선물,2013,8.83
8번,암살,2015,9.1
