In [1]:
import pandas as pd

### 2차원 리스트를 사용한 DataFrame

In [2]:
source = [
    [1, '남자', 98, 88, 64],
    [2, '여자', 88, 90, 62, 72],
    [1, '남자', 92, 70, None, None],
    [3, '여자', 63, 60, 31, 70],
    [4, '남자', 120, 50, None, 88]
]

df = pd.DataFrame(source)
df

Unnamed: 0,0,1,2,3,4,5
0,1,남자,98,88,64.0,
1,2,여자,88,90,62.0,72.0
2,1,남자,92,70,,
3,3,여자,63,60,31.0,70.0
4,4,남자,120,50,,88.0


### 인덱스 이름과 컬럼이름을 지정한 데이터프레임 생성

In [3]:
df = pd.DataFrame(source,
                 index=['철수', '영희', '민수', '수현', '호영'],
                 columns=['학년','성별','국어','영어','수학','과학'])
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,,88.0


### 리스트를 원소로 갖는 딕셔너리를 사용한 DataFrame
- 2차원 리스트를 통한 생성 방법과 동일한 방법으로 생성할 수 있다.
- 딕셔너리의 key가 컬럼의 이름으로 사용되기 때문에 index만 추가적으로 지정한다.

In [4]:
source = {
    '학년': [1, 2, 1, 3, 4],
    '성별': ['남자', '여자', '남자', '여자', '남자'],
    '국어': [98, 88, 92, 63, 120],
    '영어': [88, 90, 70, 60, 50],
    '수학': [64, 62, None, 31, None],
    '과학': [None, 72, None, 70, 88]
}

df = pd.DataFrame(source, index=['철수', '영희', '민수', '수현', '호영'])
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,,88.0


### 동일한 구조를 갖는 딕셔너리들을 원소로 갖는 리스트를 사용한 DataFrame
딕셔너리의 key가 컬럼의 이름으로 사용되기 때문에 index만 추가적으로 지정한다.

In [5]:
source = [
    {'학년': 1, '성별': '남자', '국어': 98, '영어': 88, '수학': 64, '과학': None},
    {'학년': 2, '성별': '여자', '국어': 88, '영어': 90, '수학': 62, '과학': 72},
    {'학년': 1, '성별': '남자', '국어': 92, '영어': 70, '수학': None, '과학': None},
    {'학년': 3, '성별': '여자', '국어': 63, '영어': 60, '수학': 31, '과학': 70},
    {'학년': 4, '성별': '남자', '국어': 120, '영어': 50, '수학': None, '과학': 88}
]

df = pd.DataFrame(source, index=['철수', '영희', '민수', '수현', '호영'])
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,,88.0


### 공백으로 구분된 데이터 파일 가져오기
공백으로 구분된 데이터 파일은 엑셀 등에서 탭으로 구분된 형식으로 저장된 파일을 말한다.

R에서는 `write.table()` 함수를 사용하여 내보낸 데이터 파일이 이 형식에 해당한다.

In [6]:
# 데이터 파일을 데이터프레임으로 가져오기
# `sep='\s+'` 파라미터를 통해 한칸 이상의 공백이나 탭키를 일괄적으로 칸을 
# 구분하기 위한 값을 식별할 수 있다.

# 데이터 파일의 첫 행은 데이터 프레임의 컬럼이름으로 지정된다.
df = pd.read_table('http://itpaper.co.kr/data/grade_card.txt', encoding="euc-kr", sep='\s+')
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,88,64.0,
1,영희,2,여자,88,90,62.0,72.0
2,민수,1,남자,92,70,,
3,수현,3,여자,63,60,31.0,70.0
4,호영,4,남자,120,50,88.0,


In [7]:
# 인덱스 지정하기
# 외부에서 데이터를 가져오는 경우 index가 인식되지 않기 때문에 
# set_index(컬럼명) 메서드를 사용하여 특정 컬럼의 값들을 인덱스로 지정해야 한다.

# 이름 컬럼을 인덱스로 지정
df2 = df.set_index('이름')
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,88.0,


In [8]:
# 컬럼이름을 지정한 상태로 데이터 가져오기 

df3 = pd.read_table('http://itpaper.co.kr/data/grade_card.txt',
                encoding='euc-kr', sep='\s+',
                names=['name', 'level', 'sex', 'kor', 'eng', 'math', 'sci'])
df3

Unnamed: 0,name,level,sex,kor,eng,math,sci
0,이름,학년,성별,국어,영어,수학,과학
1,철수,1,남자,98,88,64,
2,영희,2,여자,88,90,62,72
3,민수,1,남자,92,70,,
4,수현,3,여자,63,60,31,70
5,호영,4,남자,120,50,88,


### DataFrame을 데이터 파일로 내보내기

In [9]:
# 데이터프레임의 열을 공백으로, 행을 줄바꿈으로 표현한 문자열로 변환

# 문자열로 반환받기
st = df3.to_string()
print(st)

  name level sex  kor eng math  sci
0   이름    학년  성별   국어  영어   수학   과학
1   철수     1  남자   98  88   64  NaN
2   영희     2  여자   88  90   62   72
3   민수     1  남자   92  70  NaN  NaN
4   수현     3  여자   63  60   31   70
5   호영     4  남자  120  50   88  NaN


In [10]:
# 반환된 문자열을 파일로 저장하기

# 문자열 안에서 "NaN"을 빈 문자열로 변환
st = st.replace("NaN", "")

# 반환받은 문자열을 텍스트 파일로 저장
with open('my_table.txt', 'w', encoding="utf-8") as f:
    f.write(st)

### CSV파일을 DataFrame으로 가져오기

In [11]:
# csv파일을 읽기위한 read_csv() 함수

# csv파일을 데이터프레임으로 가져오기
df = pd.read_csv('http://itpaper.co.kr/data/grade_card.csv', encoding='euc-kr')
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [12]:
# 이름 컬럼을 인덱스로 지정
# CSV 파일의 경우와 마찬가지로 xlsx 파일을 가져오는 경우 index가 인식되지 않기 때문에 
# set_index(컬럼명) 메서드를 사용하여 특정 컬럼의 값들을 인덱스로 지정하는 처리가 필요하다.

df2 = df.set_index('이름')
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 데이터프레임 엑셀파일로 저장하기

In [13]:
# 엑셀파일 저장

df.to_excel('my_excel.xlsx', sheet_name='헬로')