In [5]:
import pandas as pd

# 파일 경로 설정
old_catcher_path = "old_catcher_stats.csv"  # old_catcher 파일 경로
catcher_path = "catcher_stats.csv"         # catcher 파일 경로
output_path = "merged_catcher.csv"   # 병합된 결과 파일 경로

# CSV 파일 읽기
old_catcher = pd.read_csv(old_catcher_path)
catcher = pd.read_csv(catcher_path)

# 각 데이터프레임에 '포지션' 열 추ㅁ가
old_catcher['포지션'] = 2
catcher['포지션'] = 2
#투수 1, 포수 2, 내야수 3, 외야수 4

# 두 데이터프레임 병합
merged_df = pd.concat([old_catcher, catcher], ignore_index=True)

# 팀 이름 순, 선수 이름 순 정렬
merged_df = merged_df.sort_values(by=['현재 소속팀', '선수명']).reset_index(drop=True)

# 병합된 데이터 저장
merged_df.to_csv(output_path, index=False)

print(f"파일이 성공적으로 저장되었습니다: {output_path}")


파일이 성공적으로 저장되었습니다: merged_catcher.csv


In [6]:
import pandas as pd

# 파일 경로 설정
file_path = "merged_pitcher.csv"  # 원본 CSV 파일
output_path = "merged_pitcher_fix.csv"  # 수정된 파일 저장 경로

# CSV 파일 읽기
try:
    df = pd.read_csv(file_path)
except Exception as e:
    print(f"파일 읽기 오류: {e}")
    raise

# 연도 열 이름 설정
year_column = "연도"

if year_column in df.columns:
    # 연도 데이터를 안전하게 변환
    def clean_year(value):
        try:
            return int(str(value).split(".")[0])  # 소수점 제거 후 정수로 변환
        except:
            return None  # 변환 불가능한 값은 None으로 처리

    # '연도' 열 정리
    df[year_column] = df[year_column].apply(clean_year)

    # 변환 불가능한 값 제거
    df = df.dropna(subset=[year_column])  # None 값 제거
    df[year_column] = df[year_column].astype(int)  # 다시 정수로 변환
    print("연도 형식이 성공적으로 수정되었습니다.")
else:
    print(f"'{year_column}' 열이 데이터프레임에 없습니다. 열 이름을 확인해주세요.")

# 수정된 데이터를 새로운 파일로 저장
try:
    df.to_csv(output_path, index=False)
    print(f"수정된 파일이 저장되었습니다: {output_path}")
except Exception as e:
    print(f"파일 저장 오류: {e}")
    raise


연도 형식이 성공적으로 수정되었습니다.
수정된 파일이 저장되었습니다: merged_pitcher_fix.csv


In [7]:
import pandas as pd

# 파일 경로 설정
catcher_path = "merged_catcher.csv"
infielder_path = "merged_infielder.csv"
outfielder_path = "merged_outfielder.csv"

# 출력 파일 경로
output_2019_path = "5year.csv"
output_2021_path = "3year.csv"

# 파일 읽기
catcher = pd.read_csv(catcher_path)
infielder = pd.read_csv(infielder_path)
outfielder = pd.read_csv(outfielder_path)


# 병합
merged = pd.concat([catcher, infielder, outfielder], ignore_index=True)

# '연도' 열 이름 확인 및 데이터 필터링
year_column = "연도"

if year_column in merged.columns:
    # 연도를 정수로 변환 (소수점 제거 등 처리)
    merged[year_column] = merged[year_column].apply(lambda x: int(str(x).split(".")[0]) if not pd.isna(x) else None)

    # 조건에 따라 필터링
    merged_2019 = merged[merged[year_column] >= 2019].sort_values(by=["현재 소속팀", "선수명"])
    merged_2021 = merged[merged[year_column] >= 2021].sort_values(by=["현재 소속팀", "선수명"])

    # 결과 저장
    merged_2019.to_csv(output_2019_path, index=False)
    merged_2021.to_csv(output_2021_path, index=False)

    print(f"2019년 이상 데이터가 성공적으로 저장되었습니다: {output_2019_path}")
    print(f"2021년 이상 데이터가 성공적으로 저장되었습니다: {output_2021_path}")
else:
    print(f"'{year_column}' 열이 데이터프레임에 없습니다. 열 이름을 확인해주세요.")


2019년 이상 데이터가 성공적으로 저장되었습니다: 5year.csv
2021년 이상 데이터가 성공적으로 저장되었습니다: 3year.csv


In [15]:
import pandas as pd

# 파일 경로 설정
pitcher_path = "pitcher_5_year.csv"  

# 파일 읽기
pitcher = pd.read_csv(pitcher_path)

# '선수명', '연도', '당시 소속팀'이 같은 중복된 행 확인
duplicates = pitcher[pitcher.duplicated(subset=['선수명', '연도', '당시 소속팀'], keep=False)]

if not duplicates.empty:
    print("중복된 데이터가 있습니다:")
    print(duplicates)
else:
    print("중복된 데이터가 없습니다.")

중복된 데이터가 없습니다.
