In [2]:
import pandas as pd

### CSV

In [3]:
df = pd.DataFrame([
    ['홍길동', 80, 90, 100],
    ['김길동', 80, 70, 90],
    ['최길동', 80, 60, 50]
], columns=['이름', '국어', '영어', '수학'])
df

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,90,100
1,김길동,80,70,90
2,최길동,80,60,50


In [7]:
# csv로 저장
df.to_csv('score.csv')  # 인덱스명 제외 (, index=False)

In [11]:
df2 = pd.read_csv('score.csv', index_col=0) # 첫번째 열을 인덱스로 지정
df2

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,90,100
1,김길동,80,70,90
2,최길동,80,60,50


In [12]:
# 한글 깨지는 문제 
# 인코딩을 ms949/cp949
df.to_csv('score2.csv', encoding='ms949') # 엑셀에선 안깨지지만, 주피터에서는 깨짐
# 메모장은 두가지 다 깨짐없이 열어볼 수 있음

In [54]:
df3 = pd.read_csv('score2.csv', encoding='ms949', index_col=0) # 유니코드가 아니면 아예 읽어오지 못함, 인코딩 옵션 줘야함

In [26]:
df3

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,90,100
1,김길동,80,70,90
2,최길동,80,60,50


In [39]:
# 합계 출력
df3.iloc[:, 1:4].sum(axis=1)

0    270
1    240
2    190
dtype: int64

In [55]:
# 평균 출력
df3.iloc[:, 1:4].mean(axis=1)

0    90.000000
1    80.000000
2    63.333333
dtype: float64

In [57]:
# 평균 열을 추가
df3['평균'] = df3.iloc[:, 1:4].mean(axis=1)

In [58]:
df3

Unnamed: 0,이름,국어,영어,수학,평균
0,홍길동,80,90,100,90.0
1,김길동,80,70,90,80.0
2,최길동,80,60,50,63.333333


In [49]:
# 과목평균
df3.iloc[:, 1:].mean(axis=0)

국어    80.000000
영어    73.333333
수학    80.000000
평균    77.777778
dtype: float64

In [75]:
# 과목 평균행 추가
df3.loc[3] = df3.iloc[:, 1:].mean(axis=0)

In [76]:
df3

Unnamed: 0,이름,국어,영어,수학,평균
0,홍길동,80.0,90.0,100.0,90.0
1,김길동,80.0,70.0,90.0,80.0
2,최길동,80.0,60.0,50.0,63.333333
3,,80.0,73.333333,80.0,77.777778


In [68]:
df3.drop('과목평균', axis=0, inplace=True)

In [77]:
df3

Unnamed: 0,이름,국어,영어,수학,평균
0,홍길동,80.0,90.0,100.0,90.0
1,김길동,80.0,70.0,90.0,80.0
2,최길동,80.0,60.0,50.0,63.333333
3,,80.0,73.333333,80.0,77.777778


In [81]:
# NaN -> 과목평균 수정
df3.loc[3,'이름'] = '과목평균'
df3

Unnamed: 0,이름,국어,영어,수학,평균
0,홍길동,80.0,90.0,100.0,90.0
1,김길동,80.0,70.0,90.0,80.0
2,최길동,80.0,60.0,50.0,63.333333
3,과목평균,80.0,73.333333,80.0,77.777778


In [83]:
df3.to_csv('score_result.csv', index=False)

### Excel

In [13]:
df = pd.read_excel('학생성적.xlsx')
df

Unnamed: 0,학생명,국어,영어,수학,평균
0,홍길동,90,80,100,90.0
1,김길동,80,90,70,80.0
2,최길동,100,90,100,96.666667
3,박길동,60,50,70,60.0
4,이길동,70,60,80,70.0


In [14]:
# 첫번째 시트
df1 = pd.read_excel('학생성적.xlsx', sheet_name=0)
df1

Unnamed: 0,학생명,국어,영어,수학,평균
0,홍길동,90,80,100,90.0
1,김길동,80,90,70,80.0
2,최길동,100,90,100,96.666667
3,박길동,60,50,70,60.0
4,이길동,70,60,80,70.0


In [15]:
# 두번째 시트
df2 = pd.read_excel('학생성적.xlsx', sheet_name=1)
df2

Unnamed: 0,학생명,국어,영어,수학,평균
0,홍길동,90,60,100,83.333333
1,김길동,90,55,70,71.666667
2,최길동,100,90,80,90.0
3,박길동,60,50,70,60.0
4,이길동,70,60,80,70.0


In [16]:

df2 = pd.read_excel('학생성적.xlsx', sheet_name='기말고사')
df2

Unnamed: 0,학생명,국어,영어,수학,평균
0,홍길동,90,60,100,83.333333
1,김길동,90,55,70,71.666667
2,최길동,100,90,80,90.0
3,박길동,60,50,70,60.0
4,이길동,70,60,80,70.0


### Excel 저장
- ExcelWriter 객체 생성
- DataFrame 객체를 지정된 시트에 쓰기
- ExcelWriter 객체 저장

In [19]:
# 객체 생성
ew = pd.ExcelWriter('학생성적2.xlsx', engine='xlsxwriter')
# 시트에 쓰기
df1.to_excel(ew, index=False)
# 저장
ew.save()

In [20]:
# 객체 생성
ew = pd.ExcelWriter('학생성적2.xlsx', engine='xlsxwriter')
# 시트에 쓰기
df1.to_excel(ew, index=False, sheet_name='중간고사') #시트명 지정
df2.to_excel(ew, index=False, sheet_name='기말고사')
# 저장
ew.save()

In [22]:
# 여러개의 엑셀 파일을 한꺼번에 열기
files = ['XX푸드_강남.xlsx', 'XX푸드_종로.xlsx', 'XX푸드_홍대.xlsx']
df = pd.DataFrame()
for file in files:
    df = df.append(pd.read_excel(file))
df

  df = df.append(pd.read_excel(file))
  df = df.append(pd.read_excel(file))
  df = df.append(pd.read_excel(file))


Unnamed: 0,지점명,일자,상품,금액
0,강남,2020-12-01,샐러드,50000
1,강남,2020-12-02,스테이크,80000
2,강남,2020-12-03,스테이크,80000
3,강남,2020-12-04,스파게티,90000
4,강남,2020-12-05,돈까스,70000
0,종로,2020-12-01,샐러드,50000
1,종로,2020-12-02,스테이크,80000
2,종로,2020-12-03,스테이크,80000
3,종로,2020-12-04,스파게티,90000
4,종로,2020-12-05,돈까스,70000


In [25]:
import glob
glob.glob('./XX푸드_*.xlsx')

['.\\XX푸드_강남.xlsx', '.\\XX푸드_종로.xlsx', '.\\XX푸드_홍대.xlsx']

In [26]:
df = pd.DataFrame()
for file in glob.glob('./XX푸드_*.xlsx'):
    df = df.append(pd.read_excel(file))
df

  df = df.append(pd.read_excel(file))
  df = df.append(pd.read_excel(file))
  df = df.append(pd.read_excel(file))


Unnamed: 0,지점명,일자,상품,금액
0,강남,2020-12-01,샐러드,50000
1,강남,2020-12-02,스테이크,80000
2,강남,2020-12-03,스테이크,80000
3,강남,2020-12-04,스파게티,90000
4,강남,2020-12-05,돈까스,70000
0,종로,2020-12-01,샐러드,50000
1,종로,2020-12-02,스테이크,80000
2,종로,2020-12-03,스테이크,80000
3,종로,2020-12-04,스파게티,90000
4,종로,2020-12-05,돈까스,70000


In [27]:
# 인덱스명이 중복
df.loc[4, :] # 정확하게는 인덱스가 아닌 레이블을 의미하기 때문에 중복됨

Unnamed: 0,지점명,일자,상품,금액
4,강남,2020-12-05,돈까스,70000
4,종로,2020-12-05,돈까스,70000
4,홍대,2020-12-05,돈까스,70000


In [28]:
df.iloc[4, :] # 숫자인덱스라서 중복되지 않음

지점명                     강남
일자     2020-12-05 00:00:00
상품                     돈까스
금액                   70000
Name: 4, dtype: object

In [31]:
# 인덱스 초기화
df.reset_index(drop=True, inplace=True)

In [32]:
df

Unnamed: 0,지점명,일자,상품,금액
0,강남,2020-12-01,샐러드,50000
1,강남,2020-12-02,스테이크,80000
2,강남,2020-12-03,스테이크,80000
3,강남,2020-12-04,스파게티,90000
4,강남,2020-12-05,돈까스,70000
5,종로,2020-12-01,샐러드,50000
6,종로,2020-12-02,스테이크,80000
7,종로,2020-12-03,스테이크,80000
8,종로,2020-12-04,스파게티,90000
9,종로,2020-12-05,돈까스,70000


In [62]:
# 스테이크만 출력
#df.loc[df['상품']=='스테이크']
#df[df['상품']=='스테이크']
df[df.loc[:,'상품'] == '스테이크']

Unnamed: 0,지점명,일자,상품,금액
1,강남,2020-12-02,스테이크,80000
2,강남,2020-12-03,스테이크,80000
6,종로,2020-12-02,스테이크,80000
7,종로,2020-12-03,스테이크,80000
11,홍대,2020-12-02,스테이크,80000
12,홍대,2020-12-03,스테이크,80000


In [66]:
# 스테이크의 판매금액 합계
# df.loc[df['상품'] == '스테이크'].loc[:, '금액'].sum()
# df.loc[df['상품'] == '스테이크'].iloc[:, 3].sum()
df.loc[df['상품'] == '스테이크']['금액'].sum()

480000

In [67]:
# 엑셀에 차트 넣기 (참고 URL)
# https://xlsxwriter.readthedocs.io/

In [74]:
# 차트 예시
# 객체 생성
ew = pd.ExcelWriter('학생성적2.xlsx', engine='xlsxwriter')
# 시트에 쓰기
df1.to_excel(ew, index=False, sheet_name='중간고사') #시트명 지정
df2.to_excel(ew, index=False, sheet_name='기말고사')

# workbook, worksheet 생성
workbook = ew.book
worksheet = ew.sheets['중간고사']

# 차트 종류
chart = workbook.add_chart({'type':'column'})

# 데이터 범위 지정
chart.add_series({'name':'=중간고사!$B$1', 'categories':'=중간고사!$A$2:$A$6', 'values':'=중간고사!$B$2:$B$6'})  
chart.add_series({'name':'=중간고사!$B$1', 'categories':'=중간고사!$A$2:$A$6', 'values':'=중간고사!$C$2:$C$6'})
chart.add_series({'name':'=중간고사!$B$1', 'categories':'=중간고사!$A$2:$A$6', 'values':'=중간고사!$D$2:$D$6'})
# 차트 삽입
worksheet.insert_chart('F2', chart)
# 저장
ew.save()