# DataFrame 생성하기

### 01. DataFrame의 이해

행과 열로 구성된 데이터 구조
데이터 분석에서 가장 일반적으로 사용되는 형태로 엑셀의 시트 구조와 비슷

DataFrame으로 변환 가능한 데이터 형태
1. 2차원 리스트
2. 리스트를 원소로 갖는 딕셔너리
3. 딕셔너리를 원소로 갖는 리스트
4. csv 파일로부터 가져오기
5. 엑셀 파일로부터 가져오기
6. 데이터베이스로부터 가져오기(sql)
7. 웹데이터 수집(openAPI 연동, 웹크롤링)

In [3]:
from pandas import DataFrame

### 02. DataFrame 생성하기

1) 2차원 리스트


In [5]:
# 어느 학급의 성적표를 표현한 2차원 리스트 
grade_data = [
    [1,'남자',98,77,88,14],
    [2,'여자',98,77,88,34],
    [1,'남자',48,77,81,54],
    [3,'여자',66,75,84,74],
    [4,'남자',77,17,78,44]
]
# 2차원 리스트를 데이터프레임으로 변환 (학생별 점수 표현)
df = DataFrame(grade_data)
df



Unnamed: 0,0,1,2,3,4,5
0,1,남자,98,77,88,14
1,2,여자,98,77,88,34
2,1,남자,48,77,81,54
3,3,여자,66,75,84,74
4,4,남자,77,17,78,44


In [6]:
# 인덱스와 컬럼 이름 지정하면서 데이터 프레임 생성
# 인덱스 이름으로 사용할 리스트
i_names = ['철수','영희','민철','수현','호영']
# 컬럼 이름 리스트
c_names = ['학년','성별','국어','영어','수학','과학']

# 인덱스와 컬럼 이름 지정하기
df = DataFrame(grade_data,index=i_names, columns=c_names)
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,77,88,14
영희,2,여자,98,77,88,34
민철,1,남자,48,77,81,54
수현,3,여자,66,75,84,74
호영,4,남자,77,17,78,44


2) 리스트를 원소로 갖는 딕셔너리

In [7]:
# 딕셔너리를 통한 데이터 프레임 만들기
grade_dic = {
    '학년' : [1,2,1,3,4],
    '성별' : ['남자','여자','남자','여자','남자'],
    '국어' : [98,88,95,68,15],
    '영어' : [77,90,85,88,61],
    '수학' : [98,88,95,68,15],
    '과학' : [45,81,75,67,85]
    }
# 딕셔너리의 key는 DataFrame의 컬럼(열) 이름이 된다.
df = DataFrame(grade_data)
df



Unnamed: 0,0,1,2,3,4,5
0,1,남자,98,77,88,14
1,2,여자,98,77,88,34
2,1,남자,48,77,81,54
3,3,여자,66,75,84,74
4,4,남자,77,17,78,44


In [8]:
# 인덱스 이름을 지정하면서 데이터 프레임 생성
# 인덱스 이름 지정하기
df = DataFrame(grade_dic, index=['철수','영희','민철','수현','호영'])
# 인덱스 제목 지정하기
df.index.name = '이름'
df



Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,98,45
영희,2,여자,88,90,88,81
민철,1,남자,95,85,95,75
수현,3,여자,68,88,68,67
호영,4,남자,15,61,15,85


4) csv 파일로부터 가져오기(쉽표로 구분)

In [9]:
# Pandas로부터 read_csv 함수 참조
from pandas import read_csv

In [10]:
# csv 파일을 데이터 프레임으로 가져오기
# 로컬에 위치한 파일을 상대, 절대 경로 방식으로 가져올 수 있으며 온라인상의 파일을 url 기반으로 가져올 수 있다. 

df = read_csv('https://data.hossam.kr//grade.csv',encoding='euc-kr')
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,77,88,64
1,영희,2,여자,88,90,62,72
2,민철,1,남자,92,70,83,79
3,수현,3,여자,63,60,31,70
4,호영,4,남자,120,50,90,88


In [11]:
# 로딩이 완료된 데이터프레임의 특정 열을 인덱스로 변경
# 원본에는 변화가 없고 적용된 결과가 새로운 데이터프레임으로 리턴된다. 

df2 = df.set_index('이름')
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,90,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,70
호영,4,남자,120,50,90,88


In [12]:
# 인덱스 설정을 원본에 반영하기 / 리턴값 없이 원본에 즉시 반영된다. 
df.set_index('이름',inplace=True)
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,90,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,70
호영,4,남자,120,50,90,88


In [13]:
# 데이터 로딩시 인덱스 열을 지정하기
# 데이터 파일을 가져오는 과정에서 인덱스로 사용할 열 이름을 미리 지정할 수 있다.
df = read_csv('https://data.hossam.kr//grade.csv',encoding='euc-kr',index_col='이름')
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,90,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,70
호영,4,남자,120,50,90,88


5) 엑셀 파일로부터 가져오기

In [19]:
# 인코딩을 제외하고는 read_csv()와 동일, 엑셀은 wb 파일이라 인코딩 X
from pandas import read_excel


In [18]:
df = read_excel('https://data.hossam.kr//grade.csv',index_col='이름')
df

BadZipFile: File is not a zip file