In [3]:
import pandas as pd

In [4]:
# pandas.read_csv('CSV파일', 옵션) : csv파일을 읽어들여 DataFrame으로 생성한다.
# encoding = 'utf-8', 'ansi', 'euckr' : 문자가 저장된 인코딩방식을 지정한다.
# sep = '구분자'                      : 값들을 구분하는 문자 지정한다. 기본값 ','
# header = 'index행'                  : 컬럼명을 갖고 있는 행 index번호. 기본값 0
# header, index_col, skiprows, names
filename = 'csv/exam1.csv'

# encoding = 'utf-8', header = 0
df = pd.read_csv(filename)
df.set_index('name', inplace = True)
df

Unnamed: 0_level_0,addr,kor,eng,math,sci,his
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
유재석,서초구,95,90,92,95,88
박명수,구로구,78,85,82,88,90
정준하,구로구,58,52,63,71,42
정형돈,종로구,88,90,85,95,82
노홍철,강남구,68,78,80,82,80
하하,강남구,78,80,80,78,75


In [5]:
filename = 'csv/exam2.csv'

# 인코딩방식이 'utf-8' 아닌 경우에는 encoding = '방식'
# index_col = 'col명'    : DataFrame 생성시 특정 column을 index(축)으로 지정한다.
#                          set_index('col명')을 생략할 수 있다.
df = pd.read_csv(filename, encoding = 'euckr', index_col = 'name')
df

Unnamed: 0_level_0,addr,kor,eng,math,sci,his
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
유재석,서초구,95,90,92,95,88
박명수,구로구,78,85,82,88,90
정준하,구로구,58,52,63,71,42
정형돈,종로구,88,90,85,95,82
노홍철,강남구,68,78,80,82,80
하하,강남구,78,80,80,78,75


In [6]:
filename = 'csv/exam3.csv'
# header = None     : 원래 파일에 columns(필드)명을 포함하지 않는 경우 생략할 수 있다.
# names = [col배열] : DataFrame 객체 생성시 별도의 columns명들을 지정할 수 있다.

# 기존 CSV파일에는 columns명으로 사용할 행이 없으므로 header = None
# 그리고, 사용자가 임의로 columns명들을 지정 names = [columns배열]
# 그중 columns(필드)들 중 '이름' 컬럼을 index(축)으로 지정했다.
df = pd.read_csv(filename, encoding = 'euckr', header = None,
                 names = ['이름', '주소', '국어', '영어', '수학', '과학', '역사'],
                 index_col = '이름')
df

Unnamed: 0_level_0,주소,국어,영어,수학,과학,역사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
유재석,서초구,95,90,92,95,88
박명수,구로구,78,85,82,88,90
정준하,구로구,58,52,63,71,42
정형돈,종로구,88,90,85,95,82
노홍철,강남구,68,78,80,82,80
하하,강남구,78,80,80,78,75


In [7]:
filename = 'csv/exam4.csv'

# skiprows = 행수  : CSV파일을 읽어들일 때, 최초로 무시하고 지나칠 행수
# csv파일 앞쪽(머리말)에 설명이나 주석이 포함되어있을 때, 이 행들을 무시한다.
df = pd.read_csv(filename, skiprows = 2, encoding = 'euckr')
df

Unnamed: 0,name,addr,kor,eng,math,sci,his
0,유재석,서초구,95,90,92,95,88
1,박명수,구로구,78,85,82,88,90
2,정준하,구로구,58,52,63,71,42
3,정형돈,종로구,88,90,85,95,82
4,노홍철,강남구,68,78,80,82,80
5,하하,강남구,78,80,80,78,75


In [8]:
filename = 'csv/exam5.tsv'

# sep = '구분자'   : 값(values)들 사이의 구분자를 지정, 기본값 ','
#   - csv (Comma Seperated Values)
#   - tsv (Tab Seperated Values)
df = pd.read_csv(filename, sep = '\t')
df

Unnamed: 0,name,add,kor,eng,math,sci,his
0,유재석,서초구,95,90,92,95,88
1,박명수,구로구,78,85,82,88,90
2,정준하,구로구,58,52,63,71,42
3,정형돈,종로구,88,90,85,95,82
4,노홍철,강남구,68,78,80,82,80
5,하하,강남구,78,80,80,78,75


In [9]:
def average(scores):
    avg = sum(scores) / len(scores)
    return avg

def grade(avg):
    if avg >= 90:   grd = 'A'
    elif avg >= 80: grd = 'B'
    elif avg >= 70: grd = 'C'
    elif avg >= 60: grd = 'D'
    else:           grd = 'F'
    return grd

In [10]:
# 아직 분석되지 않은 exam1.csv파일을 읽어들여 평균과 등급을 추가하여
# 새로운 result1.csv파일로 저장한다.
df = pd.read_csv('csv/exam1.csv')

# name 컬럼(필드)을 index(축)으로 지정하고, 모든 학생들의 국어점수~역사점수까지 조회
# df.apply(함수명, axis = 축)
df.set_index('name', inplace = True)
df['avg'] = df.loc[:, 'kor':].apply(average, axis = 'columns')
df['grd'] = df['avg'].apply(grade)
df.to_csv('csv/result1.csv', encoding = 'utf-8-sig')

In [11]:
# pandas.read_excel('Excel파일')
# encoding = 'utf-8', 'ansi', 'euckr'
# header = 0(기본값), 1, 2, None
# sheet_name = '시트명'
# names, index_col
filename = 'excel/남북한_발전전력량.xlsx'
df = pd.read_excel(filename, sheet_name = '데이터2')
df['남북한별'] = df['남북한별'].ffill()
df.set_index(['남북한별', '발전 전력별'], inplace = True)
df.iloc[:3]

Unnamed: 0_level_0,Unnamed: 1_level_0,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
남북한별,발전 전력별,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
북한,합계,194,202,190,196,206,215,225,236,255,235,...,221,216,190,239,235,249,238,239,255,264
북한,수력,102,106,106,117,125,131,126,133,141,125,...,139,130,100,128,119,128,110,128,161,166
북한,화력,92,96,84,79,81,84,99,103,114,110,...,82,86,90,111,116,121,128,112,94,98


In [13]:
filename = 'excel/students.xlsx'

for n in range(1, 4):
    df = pd.read_excel(filename, sheet_name = f'{n}반', index_col = 'name')
    df['avg'] = df.loc[:, 'kor':].apply(average, axis = 'columns')
    df['grd'] = df['avg'].apply(grade)
    df.to_excel(f'excel/{n}반_결과.xlsx')

In [26]:
df1 = pd.DataFrame([[1, 2, 3], [4, 5, 6]]   , index = ['a', 'b'],
                   columns = ['x', 'y', 'z'])
df2 = pd.DataFrame([[7, 8, 9], [10, 11, 12]], index = ['c', 'd'],
                   columns = ['x', 'y', 'z'])
df3 = pd.DataFrame([[13, 14, 15], [16, 17, 18]], index = ['e', 'f'],
                   columns = ['x', 'y', 'z'])
df_list = [df1, df2, df3]

In [49]:
df_list = []
for n in range(1, 4):
    df = pd.read_excel('excel/students.xlsx', sheet_name = f'{n}반', index_col = 'name')
    df_list.append(df)
#pd.concat(df_list)

In [57]:
df_list = []
for n in range(1, 4):
    df = pd.read_excel('excel/students.xlsx', sheet_name = f'{n}반', index_col = 'name')
    df['avg'] = df.loc[:, 'kor':].apply(average, axis = 'columns')
    df['grd'] = df['avg'].apply(grade)
    df.insert(0, 'class', n)
    df_list.append(df)
dfs = pd.concat(df_list)
dfs.to_excel('excel/students_result.xlsx', sheet_name = '전체')

## Excel파일에 여러개의 Sheet로 저장하는 방법
## 1. Excel의 워크북 객체 생성
워크북객체 = pd.ExcelWriter('파일명')

## 2. 워크북 객체에 반복적으로 여러개의 Sheet를 저장
데이터프레임1.to_excel(워크북객체, sheet_name = '시트명')<br>
데이터프레임2.to_excel(워크북객체, sheet_name = '시트명')<br>
데이터프레임3.to_excel(워크북객체, sheet_name = '시트명')

## 3. 워크북 객체를 종료
워크북객체.close()

In [64]:
# 1. Excel의 워크북 객체 생성
excelfile = pd.ExcelWriter('excel/students_result2.xlsx')

# 2. 워크북 객체에 반복적으로 여러개의 Sheet를 저장
for n in range(1, 4):
    df = pd.read_excel('excel/students.xlsx', sheet_name = f'{n}반', index_col = 'name')
    df['avg'] = df.loc[:, 'kor':].apply(average, axis = 'columns')
    df['grd'] = df['avg'].apply(grade)
    df.to_excel(excelfile, sheet_name = f'{n}반')

# 3. 워크북 객체를 종료
excelfile.close()