### 판다스(pandas)

In [None]:
"""
<판다스(pandas)>
 - 행렬 데이터를 처리하기 위한 다양한 함수를 제공해 주는 라이브러리 이름
 - 데이터 분석에서 데이터 처리(전처리) 시에 가장 많이 사용되는 라이브러리
 - 파일 읽어들이기, 저장하기, 행렬 데이터 처리 등을 수행
 - 데이터에 대한  시각화도 일부 지원
 - 라이브러리 사용 방법 : import pandas as pd
 - 라이브러리 설치 필요(가상환경에서 설치 > 가상환경 확인) : pip install pandas
 - 시각화 및 파일 처리 라이브러리 등 기본 라이브러리 설치 : 1day 설치 파일 참조

<데이터 분석 과정>
 (일반 도서에서 정의하는 과정)
  계획수립 > 데이터 수집 > 데이터 전처리 > 데이터 후처리 > 데이터 분석 > 데이터 시각화

 (현장에서 사용하는 과정)
  [탐색적 데이터 분석]
   사전계획(파이럿 프로젝트) > 데이터 수집 > 데이터 전처리 > 데이터 가공(후처리) > 데이터 시각화 > 인사이트 도출
  [데이터 분석 모델링]
    > 데이터 분석(머신러닝 or 딥러닝 모델 생성)
  [분석 서비스 및 결과]
    > 웹서비스 or 분석보고서

  - EDA(탐색적 데이터 분석) : 주로 데이터에서 발생되는 패턴들을 시각적으로 탐색하여 인사이트를 도출합니다.
                           : 방법론이라고도 합니다. (탐색 방법론)

<데이터의 형태 분류>
 - 정형 데이터   : 행렬 형태로 정리된 데이터(보통 엑셀 데이터)
 - 반정형 데이터 : 행렬 형태는 아니지만, 항목에 대한 정의 형태 처럼 구분이 가능한 데이터들
 - 비정형 데이터 : 행렬 또는 항목에 대한 정의 형태가 아닌, 뉴스와 같은 구분할 수 없는 내용들..
                  (뉴스, 음성, 영상 등)
"""

In [None]:
import pandas as pd

### 데이터 수집

In [None]:
"""
1. 데이터 수집 방법
 - 다운로드 방식 : 보통 파일 수집(txt, excel, csv, json 등등...)
                : 공공데이터는 data.go.kr(공공데이터 포털, 우리나라 공공기관의 일부 데이터가 공유됨-무료)
                : 각 공공기관 사이트(기상청, 연구기관 등등....)
                : 기업(유료인 경우가 많음, 주로 통신사, 카드사 데이터를 선호함)
 - 웹크롤링 방식 : 웹페이지 내에 데이터 수집(프로그래밍으로 처리 - 다소 많은 프로그램 코드를 요함)
 - Open-Api 방식 : 외부 시스템에 요청과 응답을 통해 데이터 수집(프로그래밍 방식 - 다소 적은 프로그램 코드 사용)
"""

In [None]:
### 수집한 파일 읽어들이기

# - 읽어들일 파일 경로
# 경로 : 절대 경로와 상대 경로 중 한가지 사용
#        (주로 상대 경로 사용함)
#      : 절대 경로 -> 드라이브 시작 위치부터(C:/~ 현재 위치까지 전체 작성)
#                 -> C:/Users/Administrator/pk_202503/6day/files/sample_1.xlsx
#      : 상대 경로 -> 현재 open되어있는 프로그램 파일의 위치부터(기준으로) 작성...
#                 -> ./files/sample_1.xlsx
file_path = "./files/sample_1.xlsx"

### 파일 읽어 들이기
# - 사용할 함수 : read_XXX()
# - 엑셀 : read_excel() 함수 사용
# - 확장자가 txt, csv 인 경우 : read_csv() 함수 사용
# - 데이터가 많은 경우에는 보통 txt 또는 csv로 저장되어 있습니다.
#   --> txt 또는 csv 파일은 일반적으로 메모장에서 open하시는게 좋습니다.
#   --> csv파일은 보통 MS-Excel에서 open되는 경우가 많으며,
#       csv 파일 내에 row데이터가 많은 경우 MS-Excel이 열리지 않는 경우가 많습니다.
sample_1 = pd.read_excel(file_path,
                          ### 컬럼명 위치 지정
                          header=1,
                          ### 행의 가장 하단부터 몇개를 제외할 것인지 지정
                          skipfooter=2,
                          ### 읽어들일 컬럼(열)의 영역(범위)를 지정
                          usecols="A:C"
                          )

### 데이터 수집 시 파일 데이터 중 확인할 사항 : 년/월/일 데이터 있는지 확인
#    - 파일명에 : 년월일이 표시되어 있는지?
#    - 파일 내 컬럼(항목) 중에 년월일 관련 항목이 있는지?
#    - 파일 내 제목에 년월일 관련 사항이 포함되어 있는지?

### {"국적코드" : ("A01", ..., "A18"),
#    "성별"     : ("남성",..., "여성"),
#    "입국객수" : (106320,..., 232943)}

In [None]:
### 읽어들인 데이터 확인하기
sample_1

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [None]:
### 타입 확인하기 : DataFrame(데이터프레임) 타입 -> 클래스
type(sample_1)

pandas.core.frame.DataFrame

In [None]:
### 데이터프레임에서 상위 5개 행(row)만 추출하는 함수
sample_1.head()

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912


In [None]:
### 하위 5개만 확인하고자 할 때
sample_1.tail(1)

Unnamed: 0,국적코드,성별,입국객수
5,A18,여성,232943


In [None]:
### 데이터프레임 내 데이터 정보 확인하기
sample_1.info()

# RangeIndex : 총 데이터의 행(row) 갯수
# Data columns : 총 컬럼(열, column) 갯수
# Non-Null Count : 읽어들인 각 열의 데이터 중 존재하는 데이터의 갯수(없는 데이터는 제외)
# Dtype : 데이터프레임에서 사용하는 컬럼(열) 데이터 타입을 의미함(변수 타입과 다름)
#       : 타입 -> int과 float은 기존 변수 타입과 동리하며,
#              -> 문자(str) 변수 타입을, 컬럼 데이터 타입에서는 object라고 칭함

### info()함수로 확인해야 할 사항
# * 결측치 확인 : RangeIndex == 각 컬럼의 Non-Null Count의 값과 같은지 확인
#              : 다른 컬럼이 있다면, 결측치(빈 값)가 존재한다는 의미임

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적코드    6 non-null      object
 1   성별      6 non-null      object
 2   입국객수    6 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


In [None]:
sample_1

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [None]:
### 기초 통계 데이터 확인 함수 : describe()
sample_1.describe()

### 기본적으로 기초 통계는 숫자 데이터를 가지는 컬럼에 대해서만 처리 됩니다.
# - 확인해야 하는 것 : 이상치 데이터 1차적으로 확인
#                     (min과 max값으로 확인-> 상식선에서 확인)

Unnamed: 0,입국객수
count,6.0
mean,114995.333333
std,98105.752006
min,42.0
25%,26819.25
50%,132616.0
75%,183305.0
max,232943.0


In [None]:
### 데이터프레임 내에 행(row) 갯수확인
len(sample_1)

6

### 데이터 추출하기

In [None]:
### {"국적코드" : ("A01", ..., "A18"),
#    "성별"     : ("남성",..., "여성"),
#    "입국객수" : (106320,..., 232943)}
# 데이터프레임의 컬럼명은 key로 사용됩니다.

In [None]:
### 특정 컬럼의 데이터 추출하기
s = sample_1["국적코드"]

### 타입 확인하기
# - 각 컬럼의 데이터 타입은 -> 시리즈(Series) 타입 입니다.
#                           -> 튜플 또는 리스트라고 생각하시면 됩니다.
print(type(s))
s

<class 'pandas.core.series.Series'>


0    A01
1    A01
2    A31
3    A31
4    A18
5    A18
Name: 국적코드, dtype: object

In [None]:
### 국적코드와 성별 두개 컬럼의 데이터 조회하기
# - 두개 이상의 컬럼의 데이터를 조회하고 할 때는 리스트 기호 2개 사용
# - 결과값은 데이터프레임 타입으로 그대로 출력이 됩니다.
sample_1[["국적코드", "성별"]]

Unnamed: 0,국적코드,성별
0,A01,남성
1,A01,여성
2,A31,남성
3,A31,여성
4,A18,남성
5,A18,여성


In [None]:
### 1개의 컬럼의 데이터 조회시 -> 컬럼명까지 포함해서 조회할 경우
sample_1[["국적코드"]]

Unnamed: 0,국적코드
0,A01
1,A01
2,A31
3,A31
4,A18
5,A18


### 컬럼 추가하기

In [None]:
### "기준년월"이라는 컬럼 추가
# - 사용할 데이터 값 : 엑셀 내에 제목에 작성되어 있는 내용을 인용
#                   : "2019-11"

### {"국적코드" : ("A01", ..., "A18"),
#    "성별"     : ("남성",..., "여성"),
#    "입국객수" : (106320,..., 232943)}
# 데이터프레임의 컬럼명은 key로 사용됩니다.

In [None]:
# sample_1["기준년월"] = ["2019-11"]*3 + ["2019-12"]*3
sample_1["기준년월"] = "2019-11"

In [None]:
sample_1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
2,A31,남성,319,2019-11
3,A31,여성,42,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


### 데이터 필터링(조건처리하여 조회)

##### <행단위 필터링>

In [None]:
### 행단위 필터링 : 특정 조건에 맞는 행들만 조회하는 방식
# - 조건-> 필터링 같은 의미
# - 파이썬 기본 문법에서 조건연산자 및 논리연산자를 그대로 사용합니다.
#   --> 논리연산자의 경우 -> and는 &기호로, or은 | 기호를 사용합니다.
#   --> 논리연산의 왼쪽조건과 오른쪽 조건의 각 조건은 소괄호로 묶으셔야 합니다.

In [None]:
### 성별 데이터에서 "여성"인 데이터만 필터링 하기
c = sample_1["성별"] == "여성"
c

0    False
1     True
2    False
3     True
4    False
5     True
Name: 성별, dtype: bool

In [None]:
### 필터링한 결과 중에 True인 행의 결과 조회하기
sample_1[c == True]

Unnamed: 0,국적코드,성별,입국객수,기준년월
1,A01,여성,191436,2019-11
3,A31,여성,42,2019-11
5,A18,여성,232943,2019-11


In [None]:
### 필터링한 결과 중에 False인 행의 결과 조회하기
sample_1[c == False]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
2,A31,남성,319,2019-11
4,A18,남성,158912,2019-11


In [None]:
### 필터링한 결과 중에 False인 행의 결과 조회하기
sample_1[c != True]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
2,A31,남성,319,2019-11
4,A18,남성,158912,2019-11


In [None]:
### 필터링한 결과 중에 True인 행의 결과 조회하기
# ==> 디폴트 True : 생략가능
sample_1[c]

Unnamed: 0,국적코드,성별,입국객수,기준년월
1,A01,여성,191436,2019-11
3,A31,여성,42,2019-11
5,A18,여성,232943,2019-11


In [None]:
### 필터링한 결과 중에 True인 행의 결과 조회하기
sample_1[sample_1["성별"]=="여성"]

Unnamed: 0,국적코드,성별,입국객수,기준년월
1,A01,여성,191436,2019-11
3,A31,여성,42,2019-11
5,A18,여성,232943,2019-11


In [None]:
### 입국객수가 500명 이상인 데이터 필터링하기
# - 조회 컬럼 : 전체 컬럼

In [None]:
c = sample_1["입국객수"] >= 500
sample_1[c]

sample_1[sample_1["입국객수"] >= 500]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


In [None]:
### 국적코드가 A01인 데이터를 필터링 해주세요.
# 조회 컬럼 : 국적코드, 성별

c = sample_1["국적코드"] == "A01"
c

sample_1[c][["국적코드", "성별"]]

### 필터링 조건을 이용해서 데이터 조회하면 데이터프레임 타입
#  - 변수에 담아서 사용
df1 = sample_1[c]
df1

df1[["국적코드", "성별"]]

Unnamed: 0,국적코드,성별
0,A01,남성
1,A01,여성


In [None]:
### 국적코드의 값이 A01이고, 입국객수가 150,000 이상인 데이터만 조회
# - 조회 컬럼 : 국적코드, 입국객수
c = (sample_1["국적코드"] == "A01") & (sample_1["입국객수"] >= 150000)
df1 = sample_1[c]
df1[["국적코드", "입국객수"]]

Unnamed: 0,국적코드,입국객수
1,A01,191436


In [None]:
sample_1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
2,A31,남성,319,2019-11
3,A31,여성,42,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


In [None]:
### 국적코드의 값이 A01 또는 A18 인 데이터 조회하기
# - 조회 컬럼 : 전체
c = (sample_1["국적코드"]=="A01") | (sample_1["국적코드"]=="A18")
sample_1[c]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


In [None]:
### or 조건인 경우 함수를 사용할 수 있음
# - 포함관계를 처리해 주는 함수 : isin(["조건값1", "조건값2"...])
#   --> 데이터프레임 내에 해당 조건값이 포함된 경우 해당 인덱스 행을 조회합니다.
c = sample_1["국적코드"].isin(["A01", "A18"])
sample_1[c]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


### 데이터 통합하기

In [None]:
"""
<데이터 통합 방법>
 - 다른 파일 또는 데이터프레임의 데이터를 열(Column) 또는 행(Row) 단위로
   추가하는 방식을 "통합"이라고 칭합니다.
 - 데이터 통합은 열단위통합과 행단위통합 2가지 통합을 수행합니다.

(열단위 통합)
 - 외부 파일 또는 데이터프레임에 있는 특정 열(Column)의 데이터를 원본으로 가지고 올 때 사용
 - 보통 "메타정의서"라는 파일의 데이터를 원본으로 가지고 올때 주로 사용되는 통합 방식 임
 - 원본의 행의 갯수와 통합하려는 외부 파일의 컬럼의 데이터(행)의 갯수는 같아야 가능합니다.
   또는 같지 않더라도, 특정 값이 같은 조건의 관계에 의해서 가져오는 경우에도 사용됩니다.
 - 열단위 통합에 주로 사용되는 함수 : merge()

(행단위 통합)
 - 수집한 데이터의 양이 너무 많은 경우, 여러개의 파일로 분리해서 제공하는 경우가 많습니다.
 - 이런 경우 분리된 모든 파일을 하나로 통합 할 때 사용하는 방식으로,
 - 원본과 외부 파일의 컬럼의 성격과 컬럼의 갯수가 일치해야 합니다.
 - 행단위 통합에 주로 사용되는 함수 : concat([원본, 추가])
"""

##### <열단위 통합>

In [None]:
### 원본 데이터프레임 : sample_1
sample_1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
2,A31,남성,319,2019-11
3,A31,여성,42,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


In [None]:
### 국적코드에 대한 실제 국적명 컬럼을 외부 파일에서 가져오기
# 원본 데이터프레임에 "국적명" 컬럼을 추가

In [None]:
### 국적코드에 대한 국적명이 정의된 외부 파일 읽어들이기
file_path   = "./files/sample_codemaster.xlsx"
code_master = pd.read_excel(file_path)
code_master

Unnamed: 0,국적코드,국적명
0,A01,일본
1,A02,대만
2,A03,홍콩
3,A18,중국
4,A19,이란
5,A22,우즈베키스탄
6,A23,카자흐스탄
7,A99,아시아 기타


In [None]:
### 결측데이터 확인하기
# - 데이터프레임 정보를 확인하면 결측데이터 1차적으로 확인 가능
code_master.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적코드    8 non-null      object
 1   국적명     8 non-null      object
dtypes: object(2)
memory usage: 256.0+ bytes


In [None]:
"""
 - left : 왼쪽 메모리 영역으로, 보통 원본 데이터프레임이 위치함
 - right : 오른쪽 메모리 영역으로, 보통 외부 데이터프레임이 위치함
           (가져올 데이터가 있는 곳)
 - left_on과 right_on : 왼쪽 데이터와 오른쪽 데이터를 통합 시 매핑할 컬럼명을 작성
                        (보통 코드 데이터로 되어 있는 경우가 많으며,
                         컬럼의 성격이 같은 경우 사용 가능합니다.)
 - how : 통합 방식
         -> inner : 왼쪽 및 오른쪽의 매핑 컬럼의 값이 같은 데이터의 행들만 통합하여 추출
                  : 오른쪽 데이터를 -> 왼쪽으로 통합
         -> left  : 왼쪽 전체 행을 추출(단, 매핑된 결과가 없으면 NaN으로 처리됨)
                  : 오른쪽 데이터를 -> 왼쪽으로 통합
         -> right : 오른쪽 전체 행을 추출(단, 매핑된 결과가 없으면 NaN으로 처리됨)
                  : 왼쪽 데이터를 -> 오른쪽으로 통합
"""
pd.merge(left=sample_1,
         right=code_master,
         how="inner",
         left_on="국적코드",
         right_on="국적코드")

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A18,남성,158912,2019-11,중국
3,A18,여성,232943,2019-11,중국


In [None]:
pd.merge(left=sample_1,
         right=code_master,
         how="left",
         left_on="국적코드",
         right_on="국적코드")

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국


In [None]:
pd.merge(left=sample_1,
         right=code_master,
         how="right",
         left_on="국적코드",
         right_on="국적코드")

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320.0,2019-11,일본
1,A01,여성,191436.0,2019-11,일본
2,A02,,,,대만
3,A03,,,,홍콩
4,A18,남성,158912.0,2019-11,중국
5,A18,여성,232943.0,2019-11,중국
6,A19,,,,이란
7,A22,,,,우즈베키스탄
8,A23,,,,카자흐스탄
9,A99,,,,아시아 기타


In [None]:
### 국적명 컬럼 통합하기 : 원본으로 사용
sample_1_code = pd.merge(left=sample_1,
                         right=code_master,
                         how="left",
                         left_on="국적코드",
                         right_on="국적코드")
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국


##### <행단위 통합>

In [None]:
### sample_2 엑셀 데이터 읽어들이기
file_path = "./files/sample_2.xlsx"
sample_2 = pd.read_excel(file_path,
                         header=1,
                         skipfooter=2,
                         usecols="A:C")
sample_2

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,92556
1,A01,여성,163737
2,A18,남성,155540
3,A18,여성,249023


In [None]:
### 데이터 정보 확인하기
sample_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적코드    4 non-null      object
 1   성별      4 non-null      object
 2   입국객수    4 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes


In [None]:
### 기초 통계 데이터 확인하기
sample_2.describe()

Unnamed: 0,입국객수
count,4.0
mean,165214.0
std,64288.156633
min,92556.0
25%,139794.0
50%,159638.5
75%,185058.5
max,249023.0


In [None]:
### 원본
sample_1_code.head(1)

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본


In [None]:
### 원본에 추가할 데이터
sample_2.head(1)

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,92556


In [None]:
### 추가할 sample_2의 컬럼을 원본과 동일하게 추가하기
# 기준년월 및 국적명 추가하기

In [None]:
### 기준년월 추가
sample_2["기준년월"] = "2019-12"
sample_2

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,92556,2019-12
1,A01,여성,163737,2019-12
2,A18,남성,155540,2019-12
3,A18,여성,249023,2019-12


In [None]:
### 국적명 컬럼 추가하기
sample_2_code = pd.merge(left=sample_2,
                         right=code_master,
                         how="left",
                         left_on="국적코드",
                         right_on="국적코드")
sample_2_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,92556,2019-12,일본
1,A01,여성,163737,2019-12,일본
2,A18,남성,155540,2019-12,중국
3,A18,여성,249023,2019-12,중국


In [None]:
### sample_2_code의 데이터를 sample_1_code 밑으로(행단위) 통합하기
# - ignore_index : 눈에 보이는 인덱스 값을 자동 증가 시킴(True)
sample_all = pd.concat([sample_1_code, sample_2_code], ignore_index=True)
sample_all

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국
6,A01,남성,92556,2019-12,일본
7,A01,여성,163737,2019-12,일본
8,A18,남성,155540,2019-12,중국
9,A18,여성,249023,2019-12,중국


### 통합본 파일로 저장하기

In [None]:
### 엑셀 포멧으로 저장하기
save_path = "./files/sample_all.xlsx"
### index : 저장시 인덱스 번호는 저장시 제외하기...(False)
sample_all.to_excel(save_path, index=False)