# DataFrame 생성하기

# #01. DataFrame의 이해

행과 열로 구성된 데이터 구조

데이터 분석에서 가장 일반적으로 사용되는 형태로 엑셀의 시트 구조를 생각하면 이해하기 쉽다.

### [1] DataFrame으로 변환 가능한 데이터 형태

- 2차원 리스트
- 리스트를 원소로 갖는 딕셔너리
- 딕셔너리를 원소로 갖는 리스트
- csv 파일로부터 가져오기 (쉼표로 구분)
- 엑셀 파일로부터 가져오기
- 데이터베이스로부터 가져오기 (SQL)
- 웹 데이터 수집 (OpenAPI 연동, 웹 크롤링)

> 웹에서 수집한 데이터의 경우 `리스트를 원소로 갖는 딕셔너리` 혹은 `딕셔너리를 원소로 갖는 리스트`로 정리한 후 DataFrame으로 변환한다.

## #02. 준비과정

### [1] 패키지 참조

In [25]:
from pandas import DataFrame, read_csv, read_excel 
# 시작글자가 대문자는 class, 소문자는 function

## #03. DataFrame 생성하기

### [1] 2차원 리스트를 DataFrame으로 변환

#### (1) DataFrame 생성하기

데이터프레임의 구조는 행과 열로 구성된다.

행을 `index` 혹은 `row`라고 하고, 열을 `column`혹은 `변수`라고 한다.

특별한 옵션을 지정하지 않을 경우 인덱스와 컬럼에는 각각 0부터 시작하는 일련번호가 부여된다.

In [26]:
# 어느 학급의 성적표를 표현한 2차원 리스트
grade_data = [
                [1, "남자", 98,  77,  88,  64],
                [2, "여자", 88,  90,  62,  72],
                [1, "남자", 92,  70,  83,  79],
                [3, "여자", 63,  60,  31,  70],
                [4, "남자", 75,  50,  90,  88]
            ]

# 2차원 리스트를 데이터프레임으로 변환
# -> 학생별 점수 표현
df = DataFrame(grade_data)
df

Unnamed: 0,0,1,2,3,4,5
0,1,남자,98,77,88,64
1,2,여자,88,90,62,72
2,1,남자,92,70,83,79
3,3,여자,63,60,31,70
4,4,남자,75,50,90,88


#### (2) 데이터에 접근하기

##### 일반 리스트의 경우

행을 우선 접근한다.

In [27]:
grade_data[0][1]

'남자'

##### 데이터프레임의 경우

열을 우선 접근한다.

In [28]:
df[0][1]
# df[1][0]으로 위와 같은 데이터에 접근할 수 있다.

2

#### (3) 인덱스와 컬럼 이름 지정하면서 데이터 프레임 생성

In [29]:
# 인덱스 이름으로 사용할 리스트 
i_names = ['철수', '영희', '민철', '수현', '호영']

# 컬럼 이름으로 사용할 리스트
c_names = ['학년', '성별', '국어', '영어', '수학', '과학']

# 인덱스와 컬럼이름 지정하기
df = DataFrame(grade_data, index=i_names, columns=c_names)
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,77,88,64
영희,2,여자,88,90,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,70
호영,4,남자,75,50,90,88


### [2] 리스트를 원소로 갖는 딕셔너리

#### (1) DataFrame 생성하기

딕셔너리의 key가 DataFrame의 column 이름이 된다.

In [30]:
# 딕셔너리를 통한 데이터 프레임 만들기
# 어느 학급의 성적표를 표현한 딕셔너리
grade_dic = {
    '학년': [1, 2, 1, 3, 4],
    '성별': ['남자', '여자', '남자', '여자', '남자'],
    '국어': [98, 88, 92, 63, 75],
    '영어': [77, 90, 70, 60, 50],
    '수학': [88, 62, 83, 31, 90],
    '과학': [64, 72, 79, 70, 88]
}

# -> 딕셔너리의 key는 DataFrame의 컬럼(열)이름이 된다.
df = DataFrame(grade_dic)
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
0,1,남자,98,77,88,64
1,2,여자,88,90,62,72
2,1,남자,92,70,83,79
3,3,여자,63,60,31,70
4,4,남자,75,50,90,88


#### (2) 인덱스 이름을 지정하면서 데이터 프레임 생성

In [31]:
# 인덱스 지정하기
df = DataFrame(grade_dic, index=['철수', '영희', '민철', '수현', '호영'])
# 인덱스 제목 지정하기
df.index.name = '이름' # 별 의미없는 기능으로 거의 사용되지 않음
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,90,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,70
호영,4,남자,75,50,90,88


### [3] 딕셔너리를 원로소 갖는 리스트

#### 인덱스 없이 생성하기

In [32]:
grade_list = [
    {"이름": "철수", "학년": 1, "성별": "남자", "국어": 98, "영어": 77, "수학": 88, "과학": 64},
    {"이름": "영희", "학년": 2, "성별": "여자", "국어": 88, "영어": 90, "수학": 62, "과학": 72},
    {"이름": "민철", "학년": 1, "성별": "남자", "국어": 92, "영어": 70, "수학": 83, "과학": 79},
    {"이름": "수현", "학년": 3, "성별": "여자", "국어": 63, "영어": 60, "수학": 31, "과학": 70},
    {"이름": "호영", "학년": 4, "성별": "남자", "국어": 75, "영어": 50, "수학": 90, "과학": 88}
]

df = DataFrame(grade_list)
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,77,88,64
1,영희,2,여자,88,90,62,72
2,민철,1,남자,92,70,83,79
3,수현,3,여자,63,60,31,70
4,호영,4,남자,75,50,90,88


#### (2) 생성된 데이터프레임의 인덱스 지정

특정 컬럼을 인덱스로 변경할 수 있다.

`inplace=True` 파라미터를 적용할 경우 리턴객체 없이 원본에 즉시 반영된다.

In [33]:
df2 = df.set_index('이름')
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,90,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,70
호영,4,남자,75,50,90,88


#### (3) 인덱스 해제하기

인덱스를 일반 컬럼으로 되돌린다.

일련번호 형식의 인덱스가 새롭게 생성된다.

In [34]:
df3 = df2.reset_index()
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,77,88,64
1,영희,2,여자,88,90,62,72
2,민철,1,남자,92,70,83,79
3,수현,3,여자,63,60,31,70
4,호영,4,남자,75,50,90,88


#### (4) `reset_index()` 사용시 주의사항

`reset_index()`는 기존의 인덱스를 컬럼으로 되돌리면서 일련번호 인덱스를 새롭게 만들기 때문에 df3에서 인덱스를 제거하면 오히려 새로운 컬럼이 추가되는 결과를 가져온다.

In [35]:
df3.reset_index()

Unnamed: 0,index,이름,학년,성별,국어,영어,수학,과학
0,0,철수,1,남자,98,77,88,64
1,1,영희,2,여자,88,90,62,72
2,2,민철,1,남자,92,70,83,79
3,3,수현,3,여자,63,60,31,70
4,4,호영,4,남자,75,50,90,88


#### (5) 인덱스를 해제하면서 기존 인덱스 제거하기

기존의 인덱스를 일반 컬럼으로 변환하지 않고 삭제한다.

In [36]:
df3.reset_index(drop=True)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,77,88,64
1,영희,2,여자,88,90,62,72
2,민철,1,남자,92,70,83,79
3,수현,3,여자,63,60,31,70
4,호영,4,남자,75,50,90,88


### [4] csv 파일로부터 가져오기

pandas의 `read_csv()`함수를 사용한다.

#### (1) csv 파일을 데이터 프레임으로 가져오기

로컬에 위치한 파일을 상대,절대 경로 방식으로 가져올 수 있으며 온라인상의 파일을 URL을 기반으로 가져올 수 있다.

CSV파일의 첫 행이 데이터 프레임의 컬럼 이름으로 사용된다.

> https://data.hossam.kr/pydata/grade.csv

In [37]:
df = read_csv("https://data.hossam.kr/pydata/grade.csv", encoding="euc-kr")
df

URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1000)>

#### (2) 로딩이 완료된 데이터프레임의 특정 열을 인덱스로 변경

원본에는 변화가 없으며 결과가 적용된 결과가 새로운 데이터프레임으로 리턴된다.

In [None]:
df2 = df.set_index('이름')
df2

#### (3) 데이터 로딩시 인덱스 열을 지정하기

데이터파일을 가져오는 과정에서 인덱스로 사용할 열 이름을 미리 지정할 수 있다.

In [None]:
df = read_csv("https://data.hossam.kr/pydata/grade.csv", encoding="euc-kr", 
              index_col='이름')
df

### [5] 엑셀 파일로부터 가져오기

엑셀파일은 인코딩을 지정하지 않는다.

> 이 함수가 작동하기 위해서는 `openpyxl`, `xlrd` 패키지가 미리 설치되어 있어야 한다.

In [38]:
df = read_excel("https://data.hossam.kr/pydata/grade.xlsx", index_col='이름')
df

URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1000)>