In [1]:
import pandas as pd

def split_dataframe_by_columns(df, num_cols_per_split):
    """
    주어진 데이터프레임을 일정한 열 간격으로 나누어 여러 개의 데이터프레임을 생성하는 함수입니다.

    매개변수:
    df (pd.DataFrame): 원본 데이터프레임
    num_cols_per_split (int): 각 데이터프레임에 포함될 열의 개수

    반환값:
    dict: 키가 'df_연도' 형식의 문자열이고 값이 나뉘어진 데이터프레임인 딕셔너리
    """
    dataframes = {}
    for i in range(0, df.shape[1], num_cols_per_split):
        start_col = i
        end_col = i + num_cols_per_split
        year = 2011 + i // num_cols_per_split
        # NaN 값만 있는 열을 제거하고 데이터프레임 생성
        df_split = df.iloc[:, start_col:end_col].dropna(how='all', axis=1)
        # 각 열을 내림차순으로 정렬
        df_split = df_split.apply(lambda x: x.sort_values(ascending=False))
        dataframes[f'df_{year}'] = df_split
    return dataframes

# 예시 데이터프레임 생성
data = {
    'Country': ['A', 'B', 'C', 'D'],
    '2011_GHG': [5, 15, 10, 20],
    '2011_CO2': [30, 25, 20, 15],
    '2012_GHG': [8, 12, 18, 22],
    '2012_CO2': [32, 28, 24, 16]
}
df = pd.DataFrame(data)
df.set_index('Country', inplace=True)

# 함수 호출
num_cols_per_split = 2
sorted_dataframes = split_dataframe_by_columns(df, num_cols_per_split)

# 결과 출력
for year, df_year in sorted_dataframes.items():
    print(f"Data for {year}:")
    print(df_year)
    print()


Data for df_2011:
         2011_GHG  2011_CO2
Country                    
A               5        30
B              15        25
C              10        20
D              20        15

Data for df_2012:
         2012_GHG  2012_CO2
Country                    
A               8        32
B              12        28
C              18        24
D              22        16



In [3]:
def split_and_sort_dataframe(df):
    """
    데이터프레임을 연도별로 나누고 각 연도별로 내림차순 정렬하는 함수.
    """
    # 각 연도별 데이터프레임을 저장할 딕셔너리
    dataframes = {}

    # 각 연도의 데이터를 추출하고 내림차순 정렬
    years = set(col.split('_')[0] for col in df.columns)
    for year in years:
        year_cols = [col for col in df.columns if col.startswith(year)]
        df_year = df[year_cols]
        # NaN 값만 있는 열을 제거합니다.
        df_year = df_year.dropna(how='all', axis=1)
        # 각 열을 내림차순으로 정렬합니다.
        df_year = df_year.apply(lambda x: x.sort_values(ascending=False).values)
        # 결과를 딕셔너리에 저장합니다.
        dataframes[f'df_{year}'] = df_year

    return dataframes




In [4]:
# 함수 호출
sorted_dataframes = split_and_sort_dataframe(df)

# 결과 출력
for year, df_year in sorted_dataframes.items():
    print(f"Data for {year}:")
    print(df_year)
    print()

Data for df_2011:
         2011_GHG  2011_CO2
Country                    
A              20        30
B              15        25
C              10        20
D               5        15

Data for df_2012:
         2012_GHG  2012_CO2
Country                    
A              22        32
B              18        28
C              12        24
D               8        16



---
csv파일로 저장

In [None]:
# 연도별 온실가스 배출량은 높은 나라부터 정렬해서 각 연도별로 저장.
def sort_ghg_by_year(df):
    """
    데이터프레임을 연도별로 나누고 각 연도별로 내림차순 정렬하는 함수.
    """
    # 각 연도별 데이터프레임을 저장할 딕셔너리
    dataframes = {}

    # 각 연도의 데이터를 추출하고 내림차순 정렬
    for year in df.columns:
        # 각 열을 내림차순으로 정렬합니다.
        # dataframes[f'rank_{year}'] = df[str(year)].sort_values(ascending=False)
        dataframes[str(year)] = df[str(year)].sort_values(ascending=False)
        # 연도별 데이터프레임 저장
        # dataframes[f'rank_{year}'].to_csv(f'Data/rank/rank_{year}.csv', index=False)
        dataframes[str(year)].to_csv(f'Data/rank/{year}.csv')

    return dataframes

In [None]:
rank_df = sort_ghg_by_year(data)

In [None]:
# 결과 출력
for key, value in rank_df.items():
    print(key, value.index, value.values)

---

In [None]:
def make_df(df):
    for year, df_year in rank_df.items():
        # new_df = pd.DataFrame(df_year)
        # new_df.set_index(year, inplace=True)
        new_data = {
            year : df_year
        }

    # print(f"Data for {year}:")
    # print(df_year.head(10))
    # print()