CSV

In [1]:
import pandas as pd

In [2]:
plist = [
    ['홍길동',90,80,100],
    ['김길동',70,80,60],
    ['최길동',80,60,50]
]
df = pd.DataFrame(plist, columns=['이름','국어','영어','수학'])
df

Unnamed: 0,이름,국어,영어,수학
0,홍길동,90,80,100
1,김길동,70,80,60
2,최길동,80,60,50


In [3]:
# csv로 내보내기
# 엑셀프로그램에서 한글이 나오게 하려면 encoding='ms949'
df.to_csv('student.csv', encoding='ms949')

In [7]:
# ms949는 utf-8환경에서는 한글 깨짐
# 엑셀프로그램에서 만든 csv
df2 = pd.read_csv('student.csv', encoding='ms949', index_col=0)
df2

Unnamed: 0,이름,국어,영어,수학
0,홍길동,90,80,100
1,김길동,70,80,60
2,최길동,80,60,50


In [8]:
df == df2 # __eq__ 재정의

ValueError: Can only compare identically-labeled DataFrame objects

In [9]:
# 평균열 추가
df2['평균'] = 0
df2

Unnamed: 0,이름,국어,영어,수학,평균
0,홍길동,90,80,100,0
1,김길동,70,80,60,0
2,최길동,80,60,50,0


In [10]:
# 전체 행, 1~3 인덱스의 합계 (세로)
df2.iloc[:,1:4].sum(axis=1)

0    270
1    210
2    190
dtype: int64

In [11]:
# 전체 행, 1~3 인덱스의 평균 (세로)
df2.iloc[:,1:4].mean(axis=1)

0    90.000000
1    70.000000
2    63.333333
dtype: float64

In [12]:
df2['평균'] = df2.iloc[:,1:4].mean(axis=1)
df2

Unnamed: 0,이름,국어,영어,수학,평균
0,홍길동,90,80,100,90.0
1,김길동,70,80,60,70.0
2,최길동,80,60,50,63.333333


In [13]:
# 과목평균
df2.loc[3] = df2.mean() # axis기본값 0
df2

Unnamed: 0,이름,국어,영어,수학,평균
0,홍길동,90.0,80.0,100.0,90.0
1,김길동,70.0,80.0,60.0,70.0
2,최길동,80.0,60.0,50.0,63.333333
3,,80.0,73.333333,70.0,74.444444


In [11]:
df2.loc[3,'이름'] = '과목평균'
df2

Unnamed: 0,이름,국어,영어,수학,평균
0,홍길동,90.0,80.0,100.0,90.0
1,김길동,70.0,80.0,60.0,70.0
2,최길동,80.0,60.0,50.0,63.333333
3,과목평균,80.0,73.333333,70.0,74.444444


In [14]:
df2.to_csv('student2.csv', encoding='ms949')

### 엑셀
```python
df = pd.read_excel('파일명' [, sheet_name=시트명(번호), index_col=열이름(번호)])
```

In [2]:
df = pd.read_excel('학생성적.xlsx') # 처음 시트만
df

Unnamed: 0,학생명,국어,영어,수학,평균
0,홍길동,80,100,90,90.0
1,김길동,90,60,50,66.666667
2,최길동,70,80,80,76.666667
3,박길동,100,80,60,80.0
4,이길동,60,50,70,60.0


In [3]:
df = pd.read_excel('학생성적.xlsx', sheet_name=1) # 시트 지정 (기말고사 또는 1)
df

Unnamed: 0,학생명,국어,영어,수학,평균
0,홍길동,90,85,85,86.666667
1,김길동,80,70,60,70.0
2,최길동,80,90,85,85.0
3,박길동,100,85,70,85.0
4,이길동,70,60,80,70.0


### 엑셀로 내보내기
* ExcelWriter 객체 생성
* DataFrame 객체(데이터)를 지정된 시트에 쓰기
* ExcelWriter 객체 닫기(save)

In [4]:
# ExcelWriter 객체 생성
ew = pd.ExcelWriter('학생성적2.xlsx', engine='xlsxwriter')
# df를 엑셀에 저장(처음시트)
df.to_excel(ew, index=False)
# 객체 닫기
ew.save()

In [5]:
# 시트명 지정
# ExcelWriter 객체 생성
ew = pd.ExcelWriter('학생성적3.xlsx', engine='xlsxwriter')
# df를 엑셀에 저장(처음시트)
df.to_excel(ew, index=False, sheet_name='중간고사')
# 객체 닫기
ew.save()

In [15]:
# 두개 이상의 시트에 저장
# ExcelWriter 객체 생성
ew = pd.ExcelWriter('학생성적4.xlsx', engine='xlsxwriter')
# df를 엑셀에 저장(처음시트)
df.to_excel(ew, index=False, sheet_name='중간고사')
df2.to_excel(ew, index=False, sheet_name='기말고사')
# 객체 닫기
ew.save()

In [16]:
# 여러개의 엑셀파일 한번에 읽기
# 1. 리스트로 파일명을 생성
files = [
    'XX푸드_강남.xlsx',
    'XX푸드_종로.xlsx',
    'XX푸드_홍대.xlsx'
]
# DataFrame 변수 선언
total = pd.DataFrame()
for file in files:
    df = pd.read_excel(file) # 엑셀 읽기
    total = total.append(df) # 기존 데이터프레임에 추가
total

Unnamed: 0,지점명,일자,상품,금액
0,강남,2020-12-01,샐러드,50000
1,강남,2020-12-02,스테이크,80000
2,강남,2020-12-03,스테이크,80000
3,강남,2020-12-04,스파게티,90000
4,강남,2020-12-05,돈까스,70000
0,종로,2020-12-01,샐러드,50000
1,종로,2020-12-02,스테이크,80000
2,종로,2020-12-03,스테이크,80000
3,종로,2020-12-04,스파게티,90000
4,종로,2020-12-05,돈까스,70000


In [18]:
# 특정 디렉토리에 있는 파일을 정규표현식으로 읽기
# XX푸드_[지점명].xlsx
import glob
glob.glob('./*') # 매개변수의 디렉토리 내용을 확인(리스트로 리턴)
#glob.glob('C:/python/데이터처리/엑셀처리/*')

['.\\student.csv',
 '.\\student2.csv',
 '.\\XX푸드_강남.xlsx',
 '.\\XX푸드_종로.xlsx',
 '.\\XX푸드_홍대.xlsx',
 '.\\엑셀처리.ipynb',
 '.\\학생성적.xlsx',
 '.\\학생성적2.xlsx',
 '.\\학생성적3.xlsx',
 '.\\학생성적4.xlsx']

In [19]:
files = glob.glob('./XX푸드_*.xlsx')
files

['.\\XX푸드_강남.xlsx', '.\\XX푸드_종로.xlsx', '.\\XX푸드_홍대.xlsx']

In [20]:
# DataFrame 변수 선언
total = pd.DataFrame()
for file in files:
    df = pd.read_excel(file) # 엑셀 읽기
    total = total.append(df) # 기존 데이터프레임에 추가
total

Unnamed: 0,지점명,일자,상품,금액
0,강남,2020-12-01,샐러드,50000
1,강남,2020-12-02,스테이크,80000
2,강남,2020-12-03,스테이크,80000
3,강남,2020-12-04,스파게티,90000
4,강남,2020-12-05,돈까스,70000
0,종로,2020-12-01,샐러드,50000
1,종로,2020-12-02,스테이크,80000
2,종로,2020-12-03,스테이크,80000
3,종로,2020-12-04,스파게티,90000
4,종로,2020-12-05,돈까스,70000


In [21]:
total.loc[0,:]

Unnamed: 0,지점명,일자,상품,금액
0,강남,2020-12-01,샐러드,50000
0,종로,2020-12-01,샐러드,50000
0,홍대,2020-12-01,샐러드,50000


In [22]:
# 인덱스를 초기화
# total.reset_index(inplace=True)
total = total.reset_index()

In [23]:
# 스테이크만 출력
# 열(상품)이 스테이크
total[total.loc[:,'상품']=='스테이크']

Unnamed: 0,index,지점명,일자,상품,금액
1,1,강남,2020-12-02,스테이크,80000
2,2,강남,2020-12-03,스테이크,80000
6,1,종로,2020-12-02,스테이크,80000
7,2,종로,2020-12-03,스테이크,80000
11,1,홍대,2020-12-02,스테이크,80000
12,2,홍대,2020-12-03,스테이크,80000


In [24]:
# 스테이크 금액 합계
total[total.loc[:,'상품']=='스테이크']['금액'].sum()

480000

### 엑셀에 차트 삽입
https://xlsxwriter.readthedocs.io/
* ExcelWriter 객체 생성
* DataFrame 객체 시트에 저장
    * workbook, worksheet 객체 생성
    * 차트종류 지정해서 객체 생성
    * 차트에 들어갈 데이터 범위 지정
    * worksheet에 차트 위치 지정
* ExcelWriter 객체 닫기

In [25]:
plist = [
    ['홍길동',90,80,100],
    ['김길동',70,80,60],
    ['최길동',80,60,50]
]
df = pd.DataFrame(plist, columns=['이름','국어','영어','수학'])
df

Unnamed: 0,이름,국어,영어,수학
0,홍길동,90,80,100
1,김길동,70,80,60
2,최길동,80,60,50


In [26]:
import matplotlib

# ExcelWriter
ew = pd.ExcelWriter('excel_chart.xlsx', engine='xlsxwriter')
# DataFrame을 시트 지정
df.to_excel(ew, index=False, sheet_name='중간고사')

# workbook, worksheet 생성
workbook = ew.book
worksheet = ew.sheets['중간고사']
# 차트 종류 지정
chart = workbook.add_chart({'type':'column'})
# 데이터 범위 지정
# 점수를 학생별로
# name:이름, category:x축, values:값
chart.add_series({'name':'=중간고사!$B$1', 
                  'category':'=중간고사!$A$2:$A$4', 
                  'values':'=중간고사!$B$2:$B$4'}) # 국어
chart.add_series({'name':'=중간고사!$C$1', 
                  'category':'=중간고사!$A$2:$A$4', 
                  'values':'=중간고사!$C$2:$C$4'}) # 영어
chart.add_series({'name':'=중간고사!$D$1', 
                  'category':'=중간고사!$A$2:$A$4', 
                  'values':'=중간고사!$D$2:$D$4'}) # 수학
# 차트제목, x축, y축
chart.set_title({'name':'중간고사'})
chart.set_x_axis({'name':'이름'})
chart.set_y_axis({'name':'점수'})

# 차트 삽입
worksheet.insert_chart('E2', chart) # (셀위치, 차트객체)
ew.save()