In [None]:
import pandas as pd

# 엑셀 파일 열기 --- (※1)
filename = "stats_104102.xlsx" # 파일 이름
sheet_name = "stats_104102" # 특정 시트 이름 지정할 수 있음 - 판다스 특징
book = pd.read_excel(filename, sheet_name=sheet_name, header=1, engine='openpyxl')
# header로 첫번째로 출력할 행 조건 지정

# 나중에 개인 프로젝트로 회계 데이터를 실제로 엑셀 파일에서 추출할 때를 대비해서 조건 지정하는 방법 알아두기



# 2018년 인구로 정렬 --- (※2)
book = book.sort_values(by=2018, ascending=True)
# 2018년 기준, ascending 옵션이 제대로 지정이 안 됨. False >> descending(내림차순 정렬)


print(book)

결과 출력 의도: "stats_104102.xlsx" 파일의 "stats_104102" 이름을 가진 시트에서
  헤더를 통해 b행부터 출력되도록 조건 부여하고, 엔진은 'openpyxl'을 사용하며
  book.sort_values(by=2018, ascending=True)에서 알 수 있듯이, 2018년도 기준으로
  오름차순으로 전체 표를 재정렬하여 출력한다.

하나의 값만 출력

In [7]:
import pandas as pd

filename = "stats_104102.xlsx"
sheet_name = "stats_104102"
book = pd.read_excel(filename, sheet_name=sheet_name, header=1, engine='openpyxl')
book = book.sort_values(by=2018, ascending=False)
print(book.loc[0, 2018])

51826


Q. loc 인덱서는 데이터프레임의 일부분을 가져오는 것인데, 딱히 데이터프레임 형식으로 변환하지 않고 가져온 엑셀 파일에서도 어떻게 사용이 가능한가?

A. book.loc[0, 2018] 코드는 book DataFrame에서 원하는 위치의 값을 가져오는 것인데, pandas.read_excel() 함수를 통해 자동으로 DataFrame 객체로 변환되어 loc 인덱서 사용이 가능했다.

++ Pandas의 데이터를 DataFrame 형태로 쉽게 가져와서 처리하는 것이 핵심 기능 중 하나.

DataFrame은 Pandas의 기본 데이터 구조라고 볼 수 있음. 따라서, Pandas로 파일을 읽으면 대부분의 경우 DataFrame 형태로 데이터가 로드된다고 봐야 함.

추가)
  - pd.read_csv(): CSV 파일 >> DataFrame
- pd.read_json(): JSON 파일 >> DataFrame
- pd.read_html(): HTML 웹 페이지의 테이블 >> DataFrame 목록
- pd.read_sql(): SQL 쿼리 결과 or 데이터베이스 테이블 >> DataFrame(SQLAlchemy 엔진 필요)
- pd.read_parquet(): Parquet 파일 >> DataFrame
- pd.read_feather(): Feather 파일 >> DataFrame

Q. ascending=False를 해도 ascending=True를 해도 출력값이 똑같아. 오름차순 내림차순에 따라서 결과값이 달라져야 한다고 생각하는데, 결과값은 '51826'으로 동일하게 출력됨.


A. loc 인덱서가 인덱스 라벨을 기준으로 데이터를 가져오기 때문

 book.sort_values() 함수는 DataFrame의 행들을 정렬하지만, 각 행이 가지고 있던 원래 인덱스 라벨은 그대로 유지.

 따라서 book.loc[0, 2018]는 정렬된 DataFrame에서 인덱스 라벨이 0인 행을 찾아서 해당 행의 '2018'년도 값을 출력하는 것.

 이 인덱스 라벨 0을 가진 행은 정렬 방향과 상관없이 항상 같은 행이므로, 출력값도 같게 나오게 됨.

 만약 정렬된 DataFrame에서 가장 첫 번째에 위치한 행의 '2018'년도 값을 보고 싶다면, loc 대신 위치 기반 인덱싱을 사용하는 iloc를 사용해야 함.

 iloc은 정렬된 DataFrame의 물리적 위치(0부터 시작하는 순서)를 기반으로 값을 가져온다

In [8]:
print('--- Original DataFrame (first 5 rows and 2018 column) ---')
# Display the original 2018 values and their index labels
print(book[['Unnamed: 0', 2018]].head())

# Sort by 2018 in descending order and print the value at the *first positional row*
book_desc = book.sort_values(by=2018, ascending=False)
print('\n--- After sorting descending (2018) ---')
print(f"Value at book.loc[0, 2018]: {book_desc.loc[0, 2018]} (still original row with index label 0)")
print(f"Value at book_desc.iloc[0, book_desc.columns.get_loc(2018)]: {book_desc.iloc[0, book_desc.columns.get_loc(2018)]} (topmost row after sorting)")

# Sort by 2018 in ascending order and print the value at the *first positional row*
book_asc = book.sort_values(by=2018, ascending=True)
print('\n--- After sorting ascending (2018) ---')
print(f"Value at book.loc[0, 2018]: {book_asc.loc[0, 2018]} (still original row with index label 0)")
print(f"Value at book_asc.iloc[0, book_asc.columns.get_loc(2018)]: {book_asc.iloc[0, book_asc.columns.get_loc(2018)]} (topmost row after sorting)")

--- Original DataFrame (first 5 rows and 2018 column) ---
   Unnamed: 0   2018
0           계  51826
9          경기  13077
1          서울   9766
2          부산   3441
16         경남   3374

--- After sorting descending (2018) ---
Value at book.loc[0, 2018]: 51826 (still original row with index label 0)
Value at book_desc.iloc[0, book_desc.columns.get_loc(2018)]: 51826 (topmost row after sorting)

--- After sorting ascending (2018) ---
Value at book.loc[0, 2018]: 51826 (still original row with index label 0)
Value at book_asc.iloc[0, book_asc.columns.get_loc(2018)]: 314 (topmost row after sorting)


`book.loc[0, 2018]`는 정렬 방식에 관계없이 항상 같은 값(인덱스 라벨 `0`을 가진 원래 행의 값) 출력.

반면, `iloc[0]`을 사용하면 정렬 방향에 따라 가장 큰 값 또는 가장 작은 값이 출력.

iloc 인덱서: DataFrame의 정수형 위치(position)를 사용하여 값 출력. 즉, 정렬된 DataFrame에서 가장 첫 번째(0번째) 행의 값을 얻고 싶다면 iloc[0]을 사용해야 합니다.