In [2]:
import pandas as pd
from google.colab import drive

# ✅ 1. Google Drive 마운트
drive.mount('/content/drive')

# ✅ 2. 파일 경로 설정 (사용자 환경에 맞게 수정)
file_path = "/content/drive/My Drive/2024년-2025년해지DB.csv"

# ✅ 3. CSV 파일 로드
df = pd.read_csv(file_path, encoding='cp949')  # 인코딩 문제 발생 시 'utf-8-sig' 또는 'cp949' 시도

# ✅ 4. '실적최초등록일' 컬럼을 날짜 형식 변환 (DD/MM/YYYY → YYYY-MM-DD)
df["실적최초등록일"] = pd.to_datetime(df["실적최초등록일"], format="%d/%m/%Y", errors="coerce").dt.strftime("%Y-%m-%d")

# ✅ 5. 변환된 데이터 저장 (Google Drive에 새로운 파일로 저장)
output_file = "/content/drive/My Drive/2024년-2025년해지DB_변환.csv"
df.to_csv(output_file, index=False, encoding='utf-8-sig')

# ✅ 6. 데이터프레임 미리보기
import ace_tools as tools
tools.display_dataframe_to_user(name="변환된 해지DB 데이터", dataframe=df)

print(f"✅ 날짜 변환 완료! 변환된 파일이 저장되었습니다: {output_file}")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


  df = pd.read_csv(file_path, encoding='cp949')  # 인코딩 문제 발생 시 'utf-8-sig' 또는 'cp949' 시도


ModuleNotFoundError: No module named 'ace_tools'

In [3]:
import pandas as pd
from google.colab import drive

# ✅ 1. Google Drive 마운트 (강제 리마운트 옵션 추가)
drive.mount('/content/drive', force_remount=True)

# ✅ 2. 파일 경로 설정 (사용자 환경에 맞게 수정)
file_path = "/content/drive/My Drive/2024년-2025년해지DB.csv"

# ✅ 3. CSV 파일 로드 (인코딩 문제 해결, low_memory=False 옵션 추가)
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig', low_memory=False)
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='cp949', low_memory=False)

# ✅ 4. '실적최초등록일' 컬럼을 날짜 형식 변환 (DD/MM/YYYY → YYYY-MM-DD)
df["실적최초등록일"] = pd.to_datetime(df["실적최초등록일"], format="%d/%m/%Y", errors="coerce").dt.strftime("%Y-%m-%d")

# ✅ 5. 변환된 데이터 저장 (Google Drive에 새로운 파일로 저장)
output_file = "/content/drive/My Drive/2024년-2025년해지DB_변환.csv"
df.to_csv(output_file, index=False, encoding='utf-8-sig')

# ✅ 6. 데이터프레임 미리보기 (첫 5행 출력)
print("✅ 날짜 변환 완료! 변환된 데이터:")
print(df.head())

print(f"✅ 변환된 파일이 저장되었습니다: {output_file}")

Mounted at /content/drive
✅ 날짜 변환 완료! 변환된 데이터:
     관리본부명  관리지사명      계약번호           서비스(소)          상호       고객구분  \
0  강북/강원본부   중앙지사  51184112   GiGAeyes Basic     금호두산아파트       공동주택   
1  충남/충북본부   대전지사  50336136   GiGAeyes Basic       한남대학교      대학교법인   
2  부산/경남본부  동부산지사  51182361   GiGAeyes Basic  양산신도시쌍용아파트       공동주택   
3  대구/경북본부   구미지사  52066502  GiGAeyes patrol   주식회사다래파크텍  기타재단법인/협회   
4  충남/충북본부   대전지사  51928123      단독형 II 지문리더    한남대학교기숙사      대학교법인   

   KTT월정료(조정) 시설구분 요금구분     실적최초등록일  ... Unnamed: 62 Unnamed: 63 Unnamed: 64  \
0  71826000.0   제외   제외         NaN  ...         NaN         NaN         NaN   
1  69589000.0   제외   제외         NaN  ...         NaN         NaN         NaN   
2  17760000.0   제외   제외  2025-06-01  ...         NaN         NaN         NaN   
3   1000000.0   대상   대상         NaN  ...         NaN         NaN         NaN   
4    900000.0   대상   대상         NaN  ...         NaN         NaN         NaN   

  Unnamed: 65 Unnamed: 66  Unnamed: 67 Unname

In [4]:
import pandas as pd
from google.colab import drive

# ✅ 1. Google Drive 마운트
drive.mount('/content/drive', force_remount=True)

# ✅ 2. 파일 경로 설정
file_path = "/content/drive/My Drive/2024년-2025년해지DB.csv"  # 원본 파일 경로
output_file = "/content/drive/My Drive/2024년-2025년해지DB_변환.csv"  # 변환 후 저장 경로

# ✅ 3. CSV 파일 로드 (인코딩 문제 해결)
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig', low_memory=False)
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='cp949', low_memory=False)

# ✅ 4. '실적최초등록일' 컬럼 처리
# 1) 문자열 변환 및 공백 제거
df["실적최초등록일"] = df["실적최초등록일"].astype(str).str.strip()

# 2) 날짜 형식 변환 (MM/DD/YYYY → YYYY-MM-DD)
df["실적최초등록일"] = pd.to_datetime(df["실적최초등록일"], format="%m/%d/%Y", errors="coerce")

# 3) 변환 실패한 경우 '미등록' 표시
df["실적최초등록일"] = df["실적최초등록일"].dt.strftime("%Y-%m-%d")
df["실적최초등록일"] = df["실적최초등록일"].fillna("미등록")  # 빈 값에 '미등록' 표시

# ✅ 5. 변환된 데이터 저장 (Google Drive에 새로운 파일로 저장)
df.to_csv(output_file, index=False, encoding='utf-8-sig')

# ✅ 6. 변환된 데이터 확인
print("✅ 날짜 변환 완료! 변환된 데이터:")
print(df.head())

print(f"✅ 변환된 파일이 저장되었습니다: {output_file}")

Mounted at /content/drive
✅ 날짜 변환 완료! 변환된 데이터:
     관리본부명  관리지사명      계약번호           서비스(소)          상호       고객구분  \
0  강북/강원본부   중앙지사  51184112   GiGAeyes Basic     금호두산아파트       공동주택   
1  충남/충북본부   대전지사  50336136   GiGAeyes Basic       한남대학교      대학교법인   
2  부산/경남본부  동부산지사  51182361   GiGAeyes Basic  양산신도시쌍용아파트       공동주택   
3  대구/경북본부   구미지사  52066502  GiGAeyes patrol   주식회사다래파크텍  기타재단법인/협회   
4  충남/충북본부   대전지사  51928123      단독형 II 지문리더    한남대학교기숙사      대학교법인   

   KTT월정료(조정) 시설구분 요금구분     실적최초등록일  ... Unnamed: 62 Unnamed: 63 Unnamed: 64  \
0  71826000.0   제외   제외  2025-01-14  ...         NaN         NaN         NaN   
1  69589000.0   제외   제외  2025-01-31  ...         NaN         NaN         NaN   
2  17760000.0   제외   제외  2025-01-06  ...         NaN         NaN         NaN   
3   1000000.0   대상   대상  2025-01-31  ...         NaN         NaN         NaN   
4    900000.0   대상   대상  2025-01-20  ...         NaN         NaN         NaN   

  Unnamed: 65 Unnamed: 66  Unnamed: 67 Unname

In [None]:
import pandas as pd
import numpy as np
from google.colab import drive
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import DBSCAN
import re

# ✅ 1. Google Drive 마운트
drive.mount('/content/drive', force_remount=True)

# ✅ 2. 파일 경로 설정 (사용자 환경에 맞게 수정)
file_path = "/content/drive/My Drive/2024년-2025년해지DB_변환.csv"

# ✅ 3. CSV 파일 로드
df = pd.read_csv(file_path, encoding='utf-8-sig', low_memory=False)  # CSV 파일 로드

# ✅ 4. 필요한 컬럼만 선택
df = df[["상호", "월정료합계(KTT/KT)", "계약번호", "실적최초등록일"]].copy()
df["월정료합계(KTT/KT)"] = pd.to_numeric(df["월정료합계(KTT/KT)"], errors="coerce").fillna(0)

# ✅ 5. 실적최초등록일을 날짜 형식으로 변환
df["실적최초등록일"] = pd.to_datetime(df["실적최초등록일"], errors="coerce")
df["실적_년월"] = df["실적최초등록일"].dt.strftime("%Y-%m")  # YYYY-MM 형식으로 변환

# ✅ 6. 텍스트 전처리 함수
def clean_text(text):
    text = str(text).lower().strip()  # 소문자로 변환 및 공백 제거
    text = re.sub(r"[^가-힣a-zA-Z0-9\s]", "", text)  # 특수문자 제거
    return text

df["상호_정리"] = df["상호"].apply(clean_text)

# ✅ 7. TF-IDF 벡터화 및 유사도 계산
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df["상호_정리"])
similarity_matrix = cosine_similarity(X, X)

# ✅ 8. DBSCAN 클러스터링 (유사한 상호 묶기)
dbscan = DBSCAN(eps=0.5, min_samples=2, metric="precomputed")  # eps 값 조정 가능
labels = dbscan.fit_predict(1 - similarity_matrix)  # 거리 기반 (1 - 유사도)

df["그룹"] = labels

# ✅ 9. 그룹별 월정료 합산, 계약번호 병합, 실적 최초 년월 계산
grouped_df = df.groupby("그룹").agg({
    "상호": "first",  # 그룹 내 첫 번째 상호 표시
    "월정료합계(KTT/KT)": "sum",  # 그룹 내 월정료 합산
    "계약번호": lambda x: ", ".join(set(x)),  # 그룹 내 계약번호 병합
    "실적_년월": lambda x: x.min()  # 가장 이른 년월 선택
}).reset_index()

# ✅ 10. 분석 결과 확인
print("✅ 분석 완료! 데이터프레임 미리보기:")
print(grouped_df.head())

# ✅ 11. 결과 저장
output_file = "/content/drive/My Drive/2024년-2025년해지DB_분석결과.csv"
grouped_df.to_csv(output_file, index=False, encoding='utf-8-sig')

print(f"✅ 분석 결과가 저장되었습니다: {output_file}")

Mounted at /content/drive


In [1]:
output_file = "/content/drive/My Drive/2024년-2025년해지DB_분석결과.csv"

In [2]:
import os

output_file = "/content/drive/My Drive/2024년-2025년해지DB_분석결과.csv"

if os.path.exists(output_file):
    print(f"✅ 분석 결과 파일이 생성되었습니다: {output_file}")
else:
    print(f"❌ 분석 결과 파일이 생성되지 않았습니다: {output_file}")

❌ 분석 결과 파일이 생성되지 않았습니다: /content/drive/My Drive/2024년-2025년해지DB_분석결과.csv


In [4]:
print("✅ 분석 결과 미리보기:")
print(grouped_df.head())  # 데이터 확인
print(f"행 개수: {len(grouped_df)}")  # 데이터프레임의 총 행 수

✅ 분석 결과 미리보기:


NameError: name 'grouped_df' is not defined

In [5]:
print("✅ 원본 데이터프레임 미리보기:")
print(df.head())  # 데이터 미리보기
print(f"행 개수: {len(df)}")  # 총 데이터 행 개수

✅ 원본 데이터프레임 미리보기:


NameError: name 'df' is not defined

In [None]:
import pandas as pd
import numpy as np
import gspread
from google.colab import auth
from google.auth import default
from google.colab import drive
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import DBSCAN
import re

# ✅ 1. Google Drive 마운트
drive.mount('/content/drive', force_remount=True)

# ✅ 2. Google 스프레드시트 인증
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)

# ✅ 3. 스프레드시트 열기 (파일 이름 또는 URL 입력)
spreadsheet_name = "2024년-2025년해지DB_변환"  # 스프레드시트 이름
spreadsheet = gc.open(spreadsheet_name)
worksheet = spreadsheet.worksheet("Sheet1")  # 기본 시트 선택 (필요시 변경)

# ✅ 4. 스프레드시트 데이터 가져오기
data = worksheet.get_all_values()
df = pd.DataFrame(data[1:], columns=data[0])  # 첫 번째 행을 컬럼으로 설정

# ✅ 5. 필요한 컬럼만 선택
df = df[["상호", "월정료합계(KTT/KT)", "계약번호", "실적최초등록일"]].copy()
df["월정료합계(KTT/KT)"] = pd.to_numeric(df["월정료합계(KTT/KT)"], errors="coerce").fillna(0)

# ✅ 6. 실적최초등록일을 날짜 형식으로 변환
df["실적최초등록일"] = pd.to_datetime(df["실적최초등록일"], errors="coerce")
df["실적_년월"] = df["실적최초등록일"].dt.strftime("%Y-%m")  # YYYY-MM 형식으로 변환

# ✅ 7. 텍스트 전처리 함수 (상호명 정리)
def clean_text(text):
    text = str(text).lower().strip()  # 소문자로 변환 및 공백 제거
    text = re.sub(r"[^가-힣a-zA-Z0-9\s]", "", text)  # 특수문자 제거
    return text

df["상호_정리"] = df["상호"].apply(clean_text)

# ✅ 8. TF-IDF 벡터화 및 유사도 계산
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df["상호_정리"])
similarity_matrix = cosine_similarity(X, X)

# ✅ 9. DBSCAN 클러스터링 (유사한 상호 묶기)
dbscan = DBSCAN(eps=0.5, min_samples=2, metric="precomputed")  # eps 값 조정 가능
labels = dbscan.fit_predict(1 - similarity_matrix)  # 거리 기반 (1 - 유사도)

df["그룹"] = labels

# ✅ 10. 그룹별 월정료 합산, 계약번호 병합, 실적 최초 년월 계산
grouped_df = df.groupby("그룹").agg({
    "상호": "first",  # 그룹 내 대표 상호
    "월정료합계(KTT/KT)": "sum",  # 월정료 합산
    "계약번호": lambda x: ", ".join(set(x)),  # 계약번호 병합
    "실적_년월": lambda x: x.min()  # 가장 이른 년월 선택
}).reset_index()

# ✅ 11. 분석 결과를 새로운 시트에 저장
output_sheet_name = "분석결과"

try:
    output_worksheet = spreadsheet.worksheet(output_sheet_name)
    spreadsheet.del_worksheet(output_worksheet)  # 기존 시트 삭제 후 새로 생성
except:
    pass

spreadsheet.add_worksheet(title=output_sheet_name, rows="1000", cols="10")
output_worksheet = spreadsheet.worksheet(output_sheet_name)
output_worksheet.update([grouped_df.columns.values.tolist()] + grouped_df.values.tolist())

print(f"✅ 분석 완료! 결과가 Google 스프레드시트 '{spreadsheet_name}'의 '{output_sheet_name}' 시트에 저장되었습니다.")

Mounted at /content/drive


In [1]:
import pandas as pd
import numpy as np
import gspread
from google.colab import auth
from google.auth import default
from google.colab import drive
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import DBSCAN
import re

# ✅ Google Drive 마운트
drive.mount('/content/drive', force_remount=True)

# ✅ Google 스프레드시트 인증
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)

# ✅ 스프레드시트 열기
spreadsheet_name = "2024년-2025년해지DB_변환"
spreadsheet = gc.open(spreadsheet_name)
worksheet = spreadsheet.worksheet("Sheet1")

# ✅ 데이터 로드
data = worksheet.get_all_values()
df = pd.DataFrame(data[1:], columns=data[0])

# ✅ 필요한 컬럼만 선택
df = df[["상호", "월정료합계(KTT/KT)", "계약번호", "실적최초등록일"]].copy()
df["월정료합계(KTT/KT)"] = pd.to_numeric(df["월정료합계(KTT/KT)"], errors="coerce").fillna(0)

# ✅ 실적최초등록일 변환
df["실적최초등록일"] = pd.to_datetime(df["실적최초등록일"], errors="coerce")
df["실적_년월"] = df["실적최초등록일"].dt.strftime("%Y-%m")

# ✅ 텍스트 전처리 함수
def clean_text(text):
    text = str(text).lower().strip()
    text = re.sub(r"[^가-힣a-zA-Z0-9\s]", "", text)
    return text

df["상호_정리"] = df["상호"].apply(clean_text)

# ✅ 데이터 샘플링 (필요시)
df = df.sample(min(1000, len(df)))  # 최대 1000개 데이터만 처리

# ✅ TF-IDF 및 유사도 계산
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df["상호_정리"])
similarity_matrix = cosine_similarity(X, X)

# ✅ DBSCAN 클러스터링
dbscan = DBSCAN(eps=0.7, min_samples=2, metric="precomputed")
labels = dbscan.fit_predict(1 - similarity_matrix)
df["그룹"] = labels

# ✅ 그룹화 및 결과 생성
grouped_df = df.groupby("그룹").agg({
    "상호": "first",
    "월정료합계(KTT/KT)": "sum",
    "계약번호": lambda x: ", ".join(set(x)),
    "실적_년월": lambda x: x.min()
}).reset_index()

# ✅ 분석 결과 저장
output_sheet_name = "분석결과"
try:
    output_worksheet = spreadsheet.worksheet(output_sheet_name)
    spreadsheet.del_worksheet(output_worksheet)
except:
    pass

spreadsheet.add_worksheet(title=output_sheet_name, rows="1000", cols="10")
output_worksheet = spreadsheet.worksheet(output_sheet_name)
output_worksheet.update([grouped_df.columns.values.tolist()] + grouped_df.values.tolist())

print(f"✅ 분석 완료! 결과가 Google 스프레드시트 '{spreadsheet_name}'의 '{output_sheet_name}' 시트에 저장되었습니다.")

Mounted at /content/drive


ValueError: Negative values in data passed to X.

In [2]:
import pandas as pd
import numpy as np
import gspread
from google.colab import auth
from google.auth import default
from google.colab import drive
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import DBSCAN
import re

# ✅ Google Drive 마운트
drive.mount('/content/drive', force_remount=True)

# ✅ Google 스프레드시트 인증
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)

# ✅ 스프레드시트 열기
spreadsheet_name = "2024년-2025년해지DB_변환"
spreadsheet = gc.open(spreadsheet_name)
worksheet = spreadsheet.worksheet("Sheet1")

# ✅ 데이터 로드
data = worksheet.get_all_values()
df = pd.DataFrame(data[1:], columns=data[0])

# ✅ 필요한 컬럼만 선택
df = df[["상호", "월정료합계(KTT/KT)", "계약번호", "실적최초등록일"]].copy()
df["월정료합계(KTT/KT)"] = pd.to_numeric(df["월정료합계(KTT/KT)"], errors="coerce").fillna(0)

# ✅ 실적최초등록일 변환
df["실적최초등록일"] = pd.to_datetime(df["실적최초등록일"], errors="coerce")
df["실적_년월"] = df["실적최초등록일"].dt.strftime("%Y-%m")

# ✅ 텍스트 전처리 함수
def clean_text(text):
    text = str(text).lower().strip()
    text = re.sub(r"[^가-힣a-zA-Z0-9\s]", "", text)
    return text

df["상호_정리"] = df["상호"].apply(clean_text)

# ✅ 데이터 샘플링 (필요시)
df = df.sample(min(1000, len(df)))  # 최대 1000개 데이터만 처리

# ✅ TF-IDF 및 유사도 계산
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df["상호_정리"])
similarity_matrix = cosine_similarity(X, X)

# ✅ DBSCAN 클러스터링
dbscan = DBSCAN(eps=0.7, min_samples=2, metric="precomputed")
labels = dbscan.fit_predict(1 - similarity_matrix)
df["그룹"] = labels

# ✅ 그룹화 및 결과 생성
grouped_df = df.groupby("그룹").agg({
    "상호": "first",
    "월정료합계(KTT/KT)": "sum",
    "계약번호": lambda x: ", ".join(set(x)),
    "실적_년월": lambda x: x.min()
}).reset_index()

# ✅ 분석 결과 저장
output_sheet_name = "분석결과"
try:
    output_worksheet = spreadsheet.worksheet(output_sheet_name)
    spreadsheet.del_worksheet(output_worksheet)
except:
    pass

spreadsheet.add_worksheet(title=output_sheet_name, rows="1000", cols="10")
output_worksheet = spreadsheet.worksheet(output_sheet_name)
output_worksheet.update([grouped_df.columns.values.tolist()] + grouped_df.values.tolist())

print(f"✅ 분석 완료! 결과가 Google 스프레드시트 '{spreadsheet_name}'의 '{output_sheet_name}' 시트에 저장되었습니다.")

Mounted at /content/drive


ValueError: Negative values in data passed to X.