# Industry 4.0 의 중심, BigData

<div align='right'><font size=2 color='gray'>Data Processing Based Python @ <font color='blue'><a href='https://www.facebook.com/jskim.kr'>FB / jskim.kr</a></font>, 김진수</font></div>
<hr>

## <font color='brown'>Handling Excel File</font>
>  
- 엑셀파일 읽고 쓰기
- <b><font color='FFAAAA'>엑셀파일 통합    </font></b>
- <b><font color='FFAAAA'>엑셀데이터 핸들링</font></b>
- 엑셀데이터 시각화

<hr>

### <font color='#CC0000'>엑셀파일 통합</font>
> 효율적인 데이터 처리를 위한 엑셀 데이터 구조

In [1]:
import pandas as pd
import glob
import re

#### <font color='#0000CC'>여러 개의 엑셀 파일 데이터를 통합하기</font>

In [2]:
xls_file_1 = './data/담당자별_판매실적_김민향.xlsx'
xls_file_2 = './data/담당자별_판매실적_변수현.xlsx'
xls_file_3 = './data/담당자별_판매실적_유소영.xlsx'

In [3]:
excel_data_files = [ xls_file_1, xls_file_2, xls_file_3 ]

In [4]:
total_data = pd.DataFrame()

In [5]:
for f in excel_data_files:
    df = pd.read_excel(f)
    total_data = total_data.append(df)

total_data

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
1,갤럭시S20,김민향,용산구,273,241,296,217
2,애플와치5,김민향,용산구,385,316,355,331
0,아이폰XR,변수현,성동구,154,108,155,114
1,갤럭시S20,변수현,성동구,200,223,213,202
2,애플와치5,변수현,성동구,350,340,377,392
0,아이폰XR,유소영,영등포,168,102,149,174
1,갤럭시S20,유소영,영등포,231,279,277,292
2,애플와치5,유소영,영등포,365,383,308,323


In [6]:
total_data = pd.DataFrame()

for f in excel_data_files:
    df = pd.read_excel(f)
    total_data = total_data.append(df, ignore_index=True)

total_data

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
1,갤럭시S20,김민향,용산구,273,241,296,217
2,애플와치5,김민향,용산구,385,316,355,331
3,아이폰XR,변수현,성동구,154,108,155,114
4,갤럭시S20,변수현,성동구,200,223,213,202
5,애플와치5,변수현,성동구,350,340,377,392
6,아이폰XR,유소영,영등포,168,102,149,174
7,갤럭시S20,유소영,영등포,231,279,277,292
8,애플와치5,유소영,영등포,365,383,308,323


In [7]:
import glob

glob.glob("./data/담당자별_판매실적_*.xlsx")

['./data\\담당자별_판매실적_김민향.xlsx',
 './data\\담당자별_판매실적_변수현.xlsx',
 './data\\담당자별_판매실적_유소영.xlsx']

In [8]:

excel_data_files1 = glob.glob("./data/담당자별_판매실적_*.xlsx")
total_data1 = pd.DataFrame()

for f in excel_data_files1:
    df = pd.read_excel(f)
    total_data1 = total_data1.append(df, ignore_index=True)

total_data1

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
1,갤럭시S20,김민향,용산구,273,241,296,217
2,애플와치5,김민향,용산구,385,316,355,331
3,아이폰XR,변수현,성동구,154,108,155,114
4,갤럭시S20,변수현,성동구,200,223,213,202
5,애플와치5,변수현,성동구,350,340,377,392
6,아이폰XR,유소영,영등포,168,102,149,174
7,갤럭시S20,유소영,영등포,231,279,277,292
8,애플와치5,유소영,영등포,365,383,308,323


#### <font color='#0000CC'>통합 결과를 엑셀 파일로 저장하기</font>

In [9]:
excel_file_name = './data/마케팅팀_판매실적_통합.xlsx'

excel_total_file_writer = pd.ExcelWriter(excel_file_name, engine='xlsxwriter')
total_data1.to_excel(excel_total_file_writer, index=False, sheet_name='판매실적_통합')
excel_total_file_writer.save()

glob.glob(excel_file_name)

['./data/마케팅팀_판매실적_통합.xlsx']

In [10]:
# !dir data\*.xlsx

<hr>

### <font color='#CC0000'>엑셀데이터 핸들링</font>

#### <font color='#0000CC'>데이터 추가 & 변경</font>

In [11]:
df = pd.read_excel(xls_file_1)
df

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
1,갤럭시S20,김민향,용산구,273,241,296,217
2,애플와치5,김민향,용산구,385,316,355,331


In [12]:
df.loc[2, '4분기'] = 0
df

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
1,갤럭시S20,김민향,용산구,273,241,296,217
2,애플와치5,김민향,용산구,385,316,355,0


In [13]:
df.loc[3, '제품명'] = '노트10'
df.loc[3, '담당자'] = '김다영'
df.loc[3, '지역'] = '노원구'
df.loc[3, '1분기'] = 100
df.loc[3, '2분기'] = 150
df.loc[3, '3분기'] = 200
df.loc[3, '4분기'] = 250

df

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198.0,123.0,120.0,137.0
1,갤럭시S20,김민향,용산구,273.0,241.0,296.0,217.0
2,애플와치5,김민향,용산구,385.0,316.0,355.0,0.0
3,노트10,김다영,노원구,100.0,150.0,200.0,250.0


In [14]:
df['담당자'] = '김다영'
df

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김다영,용산구,198.0,123.0,120.0,137.0
1,갤럭시S20,김다영,용산구,273.0,241.0,296.0,217.0
2,애플와치5,김다영,용산구,385.0,316.0,355.0,0.0
3,노트10,김다영,노원구,100.0,150.0,200.0,250.0


In [15]:
xls_file_4 = './data/담당자별_판매실적_김다영.xlsx'

new_excel_file = pd.ExcelWriter(xls_file_4, engine='xlsxwriter')
df.to_excel(new_excel_file, index=False)
new_excel_file.save()

# glob.glob(excel_file_name)

#### <font color='#0000CC'>여러 개의 엑셀 파일에서 데이터 수정</font>

In [16]:
file_name  = './data/담당자별_판매실적_김민향.xlsx'

new_file_name = re.sub(".xlsx", "2.xlsx", file_name)
new_file_name

'./data/담당자별_판매실적_김민향2.xlsx'

In [17]:
# 원하는 문자열이 포함된 파일을 검색해 리스트를 할당
excel_data_files = glob.glob("data/담당자별_판매실적_*.xlsx")
excel_data_files

['data\\담당자별_판매실적_김민향.xlsx',
 'data\\담당자별_판매실적_변수현.xlsx',
 'data\\담당자별_판매실적_유소영.xlsx',
 'data\\담당자별_판매실적_김다영.xlsx']

In [18]:
# 리스트에 있는 엑셀 파일만큼 반복 수행한다.
for f in excel_data_files:
    # 엑셀 파일에서 DataFrame 형식으로 데이터 가져온다.
    df = pd.read_excel(f) 
    
    # 특정 열의 값을 변경한다.    
    if(df.loc[1, '담당자']=='김민향'):
        df['담당자']='김민향팀장'
    elif(df.loc[1, '담당자']=='변수현'):
        df['담당자']='변수현사원'
    elif(df.loc[1, '담당자']=='유소영'):
        df['담당자']='유소영대리' 
    elif(df.loc[1, '담당자']=='김다영'):
        df['담당자']='김다영과장'         
    
    # 엑셀 파일 이름에서 지정된 문자열 패턴을 찾아서 파일명을 변경한다.
    f_new = re.sub(".xlsx", "_v2.xlsx", f)
    print(f_new)
    
    # 수정된 데이터를 새로운 이름의 엑셀 파일로 저장한다.
    new_excel_file = pd.ExcelWriter(f_new, engine='xlsxwriter')
    df.to_excel(new_excel_file, index=False)
    new_excel_file.save()

data\담당자별_판매실적_김민향_v2.xlsx
data\담당자별_판매실적_변수현_v2.xlsx
data\담당자별_판매실적_유소영_v2.xlsx
data\담당자별_판매실적_김다영_v2.xlsx


In [19]:
glob.glob("data/담당자별_판매실적_*_v?.xlsx")

['data\\담당자별_판매실적_김민향_v2.xlsx',
 'data\\담당자별_판매실적_변수현_v2.xlsx',
 'data\\담당자별_판매실적_유소영_v2.xlsx',
 'data\\담당자별_판매실적_김다영_v2.xlsx']

#### <font color='#0000CC'>엑셀의 필터 기능 수행</font>

In [20]:
df = pd.read_excel('./data/마케팅팀_판매실적_통합.xlsx')
df

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
1,갤럭시S20,김민향,용산구,273,241,296,217
2,애플와치5,김민향,용산구,385,316,355,331
3,아이폰XR,변수현,성동구,154,108,155,114
4,갤럭시S20,변수현,성동구,200,223,213,202
5,애플와치5,변수현,성동구,350,340,377,392
6,아이폰XR,유소영,영등포,168,102,149,174
7,갤럭시S20,유소영,영등포,231,279,277,292
8,애플와치5,유소영,영등포,365,383,308,323


In [21]:
df['제품명']

0     아이폰XR
1    갤럭시S20
2     애플와치5
3     아이폰XR
4    갤럭시S20
5     애플와치5
6     아이폰XR
7    갤럭시S20
8     애플와치5
Name: 제품명, dtype: object

In [22]:
df['제품명'] == '아이폰XR'

0     True
1    False
2    False
3     True
4    False
5    False
6     True
7    False
8    False
Name: 제품명, dtype: bool

In [23]:
iPhone = df[df['제품명'] == '아이폰XR']
iPhone

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
3,아이폰XR,변수현,성동구,154,108,155,114
6,아이폰XR,유소영,영등포,168,102,149,174


In [24]:
iPhone2 = df[df['제품명'].isin(['아이폰XR'])]
iPhone2

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
3,아이폰XR,변수현,성동구,154,108,155,114
6,아이폰XR,유소영,영등포,168,102,149,174


In [25]:
apple = df[(df['제품명']== '아이폰XR') | (df['제품명']== '애플와치5')]
apple

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
2,애플와치5,김민향,용산구,385,316,355,331
3,아이폰XR,변수현,성동구,154,108,155,114
5,애플와치5,변수현,성동구,350,340,377,392
6,아이폰XR,유소영,영등포,168,102,149,174
8,애플와치5,유소영,영등포,365,383,308,323


In [26]:
apple2 = df[df['제품명'].isin(['아이폰XR', '애플와치5'])]
apple2

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
2,애플와치5,김민향,용산구,385,316,355,331
3,아이폰XR,변수현,성동구,154,108,155,114
5,애플와치5,변수현,성동구,350,340,377,392
6,아이폰XR,유소영,영등포,168,102,149,174
8,애플와치5,유소영,영등포,365,383,308,323


#### <font color='#0000CC'>조건을 설정해 원하는 행만 선택</font>

In [27]:
df[(df['3분기'] >= 250)]

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
1,갤럭시S20,김민향,용산구,273,241,296,217
2,애플와치5,김민향,용산구,385,316,355,331
5,애플와치5,변수현,성동구,350,340,377,392
7,갤럭시S20,유소영,영등포,231,279,277,292
8,애플와치5,유소영,영등포,365,383,308,323


In [28]:
df[(df['제품명'] == '갤럭시S20') & (df['3분기'] >= 250)]

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
1,갤럭시S20,김민향,용산구,273,241,296,217
7,갤럭시S20,유소영,영등포,231,279,277,292


#### <font color='#0000CC'>원하는 열만 선택</font>

In [29]:
df = pd.read_excel(xls_file_4)
df

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김다영,용산구,198,123,120,137
1,갤럭시S20,김다영,용산구,273,241,296,217
2,애플와치5,김다영,용산구,385,316,355,0
3,노트10,김다영,노원구,100,150,200,250


In [30]:
df[['제품명','1분기', '2분기','3분기', '4분기']]

Unnamed: 0,제품명,1분기,2분기,3분기,4분기
0,아이폰XR,198,123,120,137
1,갤럭시S20,273,241,296,217
2,애플와치5,385,316,355,0
3,노트10,100,150,200,250


In [31]:
df.iloc[:,[0,3,4,5,6]]

Unnamed: 0,제품명,1분기,2분기,3분기,4분기
0,아이폰XR,198,123,120,137
1,갤럭시S20,273,241,296,217
2,애플와치5,385,316,355,0
3,노트10,100,150,200,250


In [32]:
df.iloc[[0,2],:]

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김다영,용산구,198,123,120,137
2,애플와치5,김다영,용산구,385,316,355,0


#### <font color='#0000CC'>엑셀 데이터 계산</font>

In [33]:
df = pd.read_excel('./data/마케팅팀_판매실적_통합.xlsx')

iPhone = df[(df['제품명']== '아이폰XR')]
iPhone

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,아이폰XR,김민향,용산구,198,123,120,137
3,아이폰XR,변수현,성동구,154,108,155,114
6,아이폰XR,유소영,영등포,168,102,149,174


In [34]:
iPhone.sum(axis=1)

0    578
3    531
6    593
dtype: int64

In [35]:
iPhone_sum = pd.DataFrame(iPhone.sum(axis=1), columns = ['연간판매량'])
iPhone_sum

Unnamed: 0,연간판매량
0,578
3,531
6,593


In [36]:
iPhone_total = iPhone.join(iPhone_sum)
iPhone_total

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기,연간판매량
0,아이폰XR,김민향,용산구,198,123,120,137,578
3,아이폰XR,변수현,성동구,154,108,155,114,531
6,아이폰XR,유소영,영등포,168,102,149,174,593


In [37]:
iPhone_total.sort_values(by='연간판매량', ascending=True)

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기,연간판매량
3,아이폰XR,변수현,성동구,154,108,155,114,531
0,아이폰XR,김민향,용산구,198,123,120,137,578
6,아이폰XR,유소영,영등포,168,102,149,174,593


In [38]:
iPhone_total.sort_values(by='연간판매량', ascending=False)

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기,연간판매량
6,아이폰XR,유소영,영등포,168,102,149,174,593
0,아이폰XR,김민향,용산구,198,123,120,137,578
3,아이폰XR,변수현,성동구,154,108,155,114,531


#### <font color='#0000CC'>열 데이터의 합계</font>

In [39]:
iPhone_total.sum()

제품명      아이폰XR아이폰XR아이폰XR
담당자            김민향변수현유소영
지역             용산구성동구영등포
1분기                  520
2분기                  333
3분기                  424
4분기                  425
연간판매량               1702
dtype: object

In [40]:
iPhone_sum2 = pd.DataFrame(iPhone_total.sum(), columns=['합계'])
iPhone_sum2

Unnamed: 0,합계
제품명,아이폰XR아이폰XR아이폰XR
담당자,김민향변수현유소영
지역,용산구성동구영등포
1분기,520
2분기,333
3분기,424
4분기,425
연간판매량,1702


In [41]:
iPhone_total2  = iPhone_total.append(iPhone_sum2.T)
iPhone_total2

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기,연간판매량
0,아이폰XR,김민향,용산구,198,123,120,137,578
3,아이폰XR,변수현,성동구,154,108,155,114,531
6,아이폰XR,유소영,영등포,168,102,149,174,593
합계,아이폰XR아이폰XR아이폰XR,김민향변수현유소영,용산구성동구영등포,520,333,424,425,1702


In [42]:
iPhone_total2.loc['합계', '제품명'] = '아이폰XR	'
iPhone_total2.loc['합계', '담당자'] = '전체'
iPhone_total2.loc['합계', '지역']   = '전체'
iPhone_total2

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기,연간판매량
0,아이폰XR,김민향,용산구,198,123,120,137,578
3,아이폰XR,변수현,성동구,154,108,155,114,531
6,아이폰XR,유소영,영등포,168,102,149,174,593
합계,아이폰XR\t,전체,전체,520,333,424,425,1702


In [43]:
df = pd.read_excel('./data/마케팅팀_판매실적_통합.xlsx')

# 제품명 열에서 아이폰XR	이 있는 행만 선택
product_name = '아이폰XR'
iPhone = df[(df['제품명']== product_name)]

# 행별로 합계를 구하고 마지막 열 다음에 추가한다.
iPhone_sum = pd.DataFrame(iPhone.sum(axis=1), columns = ['연간판매량'])
iPhone_total = iPhone.join(iPhone_sum)

# 열별로 합해 분기별 합계와 연간판매량 합계를 구하고 마지막 행 다음에 추가한다.
iPhone_sum2 = pd.DataFrame(iPhone_total.sum(), columns=['합계'])
iPhone_total2  = iPhone_total.append(iPhone_sum2.T)

# 지정된 항목의 문자열을 변경한다.
iPhone_total2.loc['합계', '제품명'] = product_name
iPhone_total2.loc['합계', '담당자'] = '전체'
iPhone_total2.loc['합계', '지역'  ] = '전체'

# 결과를 확인한다.
iPhone_total2

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기,연간판매량
0,아이폰XR,김민향,용산구,198,123,120,137,578
3,아이폰XR,변수현,성동구,154,108,155,114,531
6,아이폰XR,유소영,영등포,168,102,149,174,593
합계,아이폰XR,전체,전체,520,333,424,425,1702


In [44]:
def get_product_total(xls_file, product_name):
    # 제품명 열에서 아이폰XR	이 있는 행만 선택
    # product_name = '아이폰XR'
    iPhone = df[(df['제품명']== product_name)]

    # 행별로 합계를 구하고 마지막 열 다음에 추가한다.
    iPhone_sum = pd.DataFrame(iPhone.sum(axis=1), columns = ['연간판매량'])
    iPhone_total = iPhone.join(iPhone_sum)

    # 열별로 합해 분기별 합계와 연간판매량 합계를 구하고 마지막 행 다음에 추가한다.
    iPhone_sum2 = pd.DataFrame(iPhone_total.sum(), columns=['합계'])
    iPhone_total2  = iPhone_total.append(iPhone_sum2.T)

    # 지정된 항목의 문자열을 변경한다.
    iPhone_total2.loc['합계', '제품명'] = product_name
    iPhone_total2.loc['합계', '담당자'] = '전체'
    iPhone_total2.loc['합계', '지역'  ] = '전체'

    # 결과를 확인한다.
    return iPhone_total2

In [45]:
xls_file = './data/마케팅팀_판매실적_통합.xlsx'
prd_name = '아이폰XR'

iPhone_total = get_product_total(xls_file, prd_name)
iPhone_total

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기,연간판매량
0,아이폰XR,김민향,용산구,198,123,120,137,578
3,아이폰XR,변수현,성동구,154,108,155,114,531
6,아이폰XR,유소영,영등포,168,102,149,174,593
합계,아이폰XR,전체,전체,520,333,424,425,1702


In [46]:
prd_name = '갤럭시S20'

galaxy_total = get_product_total(xls_file, prd_name)
galaxy_total

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기,연간판매량
1,갤럭시S20,김민향,용산구,273,241,296,217,1027
4,갤럭시S20,변수현,성동구,200,223,213,202,838
7,갤럭시S20,유소영,영등포,231,279,277,292,1079
합계,갤럭시S20,전체,전체,704,743,786,711,2944


In [47]:
prd_name = '애플와치5'

aWatch_total = get_product_total(xls_file, prd_name)
aWatch_total

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기,연간판매량
2,애플와치5,김민향,용산구,385,316,355,331,1387
5,애플와치5,변수현,성동구,350,340,377,392,1459
8,애플와치5,유소영,영등포,365,383,308,323,1379
합계,애플와치5,전체,전체,1100,1039,1040,1046,4225


<hr>
<marquee><font size=3 color='brown'>The BigpyCraft find the information to design valuable society with Technology & Craft.</font></marquee>
<div align='right'><font size=2 color='gray'> &lt; The End &gt; </font></div>