In [None]:
import os
from dotenv import load_dotenv
import boto3
from botocore.errorfactory import ClientError
import logging
import tempfile
from github import Github
from git import Repo as GitRepo
from botocore.exceptions import NoCredentialsError
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# .env 파일에서 환경 변수를 로드합니다.
# load_dotenv()는 기본적으로 현재 작업 디렉토리 또는 상위 디렉토리에서 .env 파일을 찾습니다.
# 특정 경로를 지정하려면 load_dotenv(dotenv_path='/path/to/.env') 와 같이 사용합니다.
load_dotenv()

# 환경 변수 사용
aws_access_key_id = os.getenv("AWS_ACCESS_KEY_ID")
aws_secret_access_key = os.getenv("AWS_SECRET_ACCESS_KEY")
aws_default_region = os.getenv("AWS_DEFAULT_REGION")
github_token = os.getenv("GITHUB_TOKEN") # .env 파일에 GITHUB_TOKEN이 있다면 로드됨
s3_bucket_name = os.getenv("S3_BUCKET_NAME")
# 로드된 값 확인 (실제 운영 코드에서는 민감 정보 직접 출력은 피하세요)
print(f"AWS Access Key ID: {aws_access_key_id}")
print(f"AWS Secret Access Key: {'*' * 10 if aws_secret_access_key else None}") # 시크릿 키는 직접 출력하지 않는 것이 좋습니다.
print(f"AWS Default Region: {aws_default_region}")
print(f"GitHub Token: {'*' * 10 if github_token else None}")
print(f"S3 Bucket Name: {s3_bucket_name}")



# --- AWS S3 헬퍼 함수 ---
def _get_s3_client():
    """S3 클라이언트 객체를 반환합니다.
    AWS 자격 증명은 환경 변수(AWS_ACCESS_KEY_ID, AWS_SECRET_ACCESS_KEY, AWS_DEFAULT_REGION),
    IAM 역할 등을 통해 Boto3가 자동으로 로드하도록 설정되어 있어야 합니다.
    """
    try:
        s3 = boto3.client('s3')
        # 간단한 연결 테스트 (선택 사항)
        s3.list_buckets() # 올바른 자격증명이 없으면 여기서 에러 발생
        logging.info("S3 클라이언트 생성 성공.")
        return s3
    except NoCredentialsError:
        logging.error("AWS 자격 증명을 찾을 수 없습니다. 환경 변수 또는 IAM 역할을 설정하세요.")
        raise
    except ClientError as e:
        logging.error(f"S3 클라이언트 생성 중 오류 발생: {e}")
        raise

def _upload_directory_to_s3(local_directory: str, bucket_name: str, s3_prefix: str):
    """
    로컬 디렉토리를 S3에 업로드하되, 코드 관련 파일만 필터링하여 업로드합니다.
    디렉토리 구조는 유지합니다.
    
    Args:
        local_directory (str): 업로드할 로컬 디렉토리 경로
        bucket_name (str): S3 버킷 이름
        s3_prefix (str): S3 내 저장될 경로 접두사
    """
    # 코드 관련 확장자 목록
    code_extensions = [
        '.py', '.ipynb',  # Python
        '.html', '.htm', '.css', '.js', '.jsx', '.ts', '.tsx',  # Web
        '.md', '.markdown', '.rst',  # Documentation
        '.java', '.kt', '.scala',  # JVM
        '.c', '.cpp', '.h', '.hpp',  # C/C++
        '.cs',  # C#
        '.go',  # Go
        '.rb',  # Ruby
        '.php',  # PHP
        '.swift',  # Swift
        '.rs',  # Rust
        '.sh', '.bash',  # Shell
        '.sql',  # SQL
        '.json', '.yml', '.yaml', '.xml', '.toml',  # Config
        '.txt',  # Text
    ]
    
    # 확장자 없는 특수 파일 이름 목록
    special_filenames = [
        '.gitignore', '.dockerignore',  # Git/Docker
        'Dockerfile', 'docker-compose.yml',  # Docker
        'requirements.txt', 'Pipfile', 'pyproject.toml',  # Python deps
        'package.json', 'package-lock.json', 'yarn.lock',  # JS deps
        'Gemfile', 'Gemfile.lock',  # Ruby deps
        'build.gradle', 'pom.xml',  # Java/Kotlin deps
        'Makefile', 'CMakeLists.txt',  # Build files
        'LICENSE', 'README'  # Common project files
    ]
    
    # S3 클라이언트 생성
    s3 = _get_s3_client()
    
    # 파일 수 카운트
    total_files = 0
    uploaded_files = 0
    skipped_files = 0
    
    for root, _, files in os.walk(local_directory):
        for filename in files:
            # 파일 경로 및 확장자 처리
            local_path = os.path.join(root, filename)
            relative_path = os.path.relpath(local_path, local_directory)
            s3_key = os.path.join(s3_prefix, relative_path).replace("\\", "/")
            
            # 확장자 확인 (확장자가 없는 파일도 이름을 검사)
            _, file_extension = os.path.splitext(filename)
            total_files += 1
            
            # 파일이 코드 관련 확장자를 가지거나 특수 파일명과 일치하는지 확인
            is_code_file = file_extension.lower() in code_extensions
            is_special_file = filename in special_filenames
            
            # .git 디렉토리 내 파일은 제외 
            if '.git' in relative_path:
                skipped_files += 1
                continue
                
            if is_code_file or is_special_file:
                try:
                    logging.info(f"Uploading {local_path} to s3://{bucket_name}/{s3_key}")
                    s3.upload_file(local_path, bucket_name, s3_key)
                    uploaded_files += 1
                except ClientError as e:
                    logging.warning(f"Failed to upload {local_path} to {s3_key}: {e}")
                    # 부분적 실패 시 어떻게 처리할지 결정 (예: 계속 진행)
                except FileNotFoundError:
                    logging.error(f"업로드할 로컬 파일 없음 ({local_path})")
            else:
                skipped_files += 1
                
    logging.info(f"업로드 완료. 총 {total_files}개 파일 중 {uploaded_files}개 업로드됨, {skipped_files}개 건너뜀")


# --- GitHub 및 S3 연동 도구 함수 ---

def clone_all_user_repos_to_s3(github_token: str, s3_bucket_name: str, s3_base_path: str = "user_github_repos") -> dict:
    """
    사용자의 GitHub 토큰을 사용하여 해당 사용자의 모든 (접근 가능한) 공개 및 비공개 리포지토리를
    S3의 지정된 경로에 복제(clone)합니다.

    Args:
        github_token (str): GitHub 개인용 액세스 토큰 (PAT). 'repo' 스코프 권한 필요.
        s3_bucket_name (str): 대상 S3 버킷 이름.
        s3_base_path (str, optional): S3 버킷 내 리포지토리가 저장될 기본 경로.
                                      기본값은 "user_github_repos" 입니다.
                                      최종 경로는 's3_base_path/username/repo_name' 형태가 됩니다.

    Returns:
        dict: 성공 여부, 메시지, 클론된 리포지토리의 S3 경로 목록을 포함하는 딕셔너리.
              예: {"success": True, "message": "...", "cloned_repos": ["s3://bucket/path/repo1", ...]}
    """
    cloned_s3_paths = []
    try:
        g = Github(github_token)
        user = g.get_user() # 토큰에 해당하는 사용자
        username = user.login
        logging.info(f"사용자 '{username}'의 리포지토리 목록을 가져옵니다...")

        repos_cloned_count = 0
        for repo in user.get_repos(): # 사용자의 모든 리포지토리 순회
            repo_name = repo.name
            # GitPython은 clone_url에 토큰을 직접 포함하는 것보다 SSH 키 또는 Git 자격 증명 헬퍼 사용을 권장.
            # HTTPS URL에 토큰을 포함하는 방식은 간단하지만 보안에 유의해야 함.
            clone_url_with_token = f"https://oauth2:{github_token}@github.com/{username}/{repo_name}.git"
            s3_repo_path = os.path.join(s3_base_path, username, repo_name).replace("\\", "/")

            with tempfile.TemporaryDirectory() as tmpdir:
                local_repo_path = os.path.join(tmpdir, repo_name)
                logging.info(f"'{repo_name}' 리포지토리를 로컬에 복제 중... ({repo.clone_url})")
                try:
                    GitRepo.clone_from(clone_url_with_token, local_repo_path)
                    logging.info(f"'{repo_name}' 복제 완료. S3에 업로드 중... (s3://{s3_bucket_name}/{s3_repo_path})")
                    _upload_directory_to_s3(local_repo_path, s3_bucket_name, s3_repo_path)
                    cloned_s3_paths.append(f"s3://{s3_bucket_name}/{s3_repo_path}")
                    repos_cloned_count += 1
                except Exception as e: # git.exc.GitCommandError 등
                    logging.warning(f"'{repo_name}' 처리 중 오류 발생: {e}")
                    # 특정 리포지토리 실패 시 계속 진행

        if repos_cloned_count > 0:
            msg = f"{repos_cloned_count}개의 리포지토리를 S3에 성공적으로 복제했습니다."
            logging.info(msg)
            return {"success": True, "message": msg, "cloned_repos": cloned_s3_paths}
        else:
            msg = "복제할 수 있는 리포지토리가 없거나 모든 리포지토리 복제에 실패했습니다."
            logging.info(msg)
            return {"success": False, "message": msg, "cloned_repos": []}

    except Exception as e:
        logging.error(f"모든 리포지토리 복제 중 오류 발생: {e}")
        return {"success": False, "message": f"오류 발생: {e}", "cloned_repos": []}

def clone_specific_repo_to_s3(github_token: str, repo_identifier: str, s3_bucket_name: str, s3_base_path: str = "user_github_repos") -> dict:
    """
    지정된 GitHub 리포지토리를 S3의 지정된 경로에 복제합니다.
    repo_identifier는 'username/repo_name' 형식입니다.

    Args:
        github_token (str): GitHub 개인용 액세스 토큰 (비공개 리포지토리 접근 시 필요).
        repo_identifier (str): 복제할 GitHub 리포지토리 식별자 ("username/repo_name" 형식).
        s3_bucket_name (str): 대상 S3 버킷 이름.
        s3_base_path (str, optional): S3 버킷 내 리포지토리가 저장될 기본 경로.
                                      기본값은 "user_github_repos" 입니다.

    Returns:
        dict: 성공 여부, 메시지, 복제된 리포지토리의 S3 경로를 포함하는 딕셔너리.
              예: {"success": True, "message": "...", "s3_path": "s3://bucket/path/repo_name"}
    """
    try:
        if '/' not in repo_identifier:
            raise ValueError("잘못된 repo_identifier 형식입니다. 'username/repo_name' 형식을 사용하세요.")

        username, repo_name = repo_identifier.split('/', 1)
        clone_url_with_token = f"https://oauth2:{github_token}@github.com/{username}/{repo_name}.git"
        s3_repo_path = os.path.join(s3_base_path, username, repo_name).replace("\\", "/")

        with tempfile.TemporaryDirectory() as tmpdir:
            local_repo_path = os.path.join(tmpdir, repo_name)
            logging.info(f"'{repo_identifier}' 리포지토리를 로컬에 복제 중... ({clone_url_with_token.replace(github_token, '****')})")
            GitRepo.clone_from(clone_url_with_token, local_repo_path)
            logging.info(f"'{repo_identifier}' 복제 완료. S3에 업로드 중... (s3://{s3_bucket_name}/{s3_repo_path})")
            _upload_directory_to_s3(local_repo_path, s3_bucket_name, s3_repo_path)
            s3_full_path = f"s3://{s3_bucket_name}/{s3_repo_path}"
            msg = f"'{repo_identifier}' 리포지토리를 S3에 성공적으로 복제했습니다."
            logging.info(msg)
            return {"success": True, "message": msg, "s3_path": s3_full_path}

    except ValueError as ve:
        logging.error(f"입력값 오류: {ve}")
        return {"success": False, "message": f"입력값 오류: {ve}", "s3_path": None}
    except Exception as e: # git.exc.GitCommandError, ClientError 등
        logging.error(f"특정 리포지토리({repo_identifier}) 복제 중 오류 발생: {e}")
        return {"success": False, "message": f"오류 발생: {e}", "s3_path": None}

def search_code_in_s3_repos(s3_bucket_name: str, s3_search_prefix: str, search_keyword: str, max_results: int = 10) -> dict:
    """
    S3의 지정된 경로(prefix)에 저장된 파일들 내에서 특정 코드 내용을 검색하고,
    해당 키워드가 포함된 파일의 S3 경로 목록을 반환합니다.
    주의: 매우 큰 파일이나 많은 파일이 있는 경우 성능에 영향을 줄 수 있습니다.

    Args:
        s3_bucket_name (str): 검색할 S3 버킷 이름.
        s3_search_prefix (str): 리포지토리 또는 파일들이 저장된 S3 내 검색 대상 경로 (prefix).
                                예: "user_github_repos/username/repo_name/" 또는 "user_github_repos/username/"
        search_keyword (str): 검색할 코드 문자열.
        max_results (int, optional): 반환할 최대 결과 수. 기본값은 10.

    Returns:
        dict: 성공 여부, 메시지, 검색된 파일의 S3 경로 목록을 포함하는 딕셔너리.
              예: {"success": True, "message": "...", "found_files": ["s3://bucket/path/file1.py", ...]}
    """
    s3 = _get_s3_client()
    found_files_s3_paths = []
    files_processed_count = 0
    search_keyword_lower = search_keyword.lower() # 대소문자 구분 없는 검색

    try:
        paginator = s3.get_paginator('list_objects_v2')
        page_iterator = paginator.paginate(Bucket=s3_bucket_name, Prefix=s3_search_prefix)

        logging.info(f"S3 경로 's3://{s3_bucket_name}/{s3_search_prefix}'에서 '{search_keyword}' 검색 시작...")
        for page in page_iterator:
            if 'Contents' not in page:
                continue
            for obj in page['Contents']:
                s3_object_key = obj['Key']
                if obj['Size'] == 0 or s3_object_key.endswith('/'): # 디렉토리 또는 빈 파일 건너뛰기
                    continue

                files_processed_count += 1
                # logging.debug(f"Searching in s3://{s3_bucket_name}/{s3_object_key}...")
                try:
                    file_obj = s3.get_object(Bucket=s3_bucket_name, Key=s3_object_key)
                    file_content_bytes = file_obj['Body'].read()

                    # 다양한 인코딩 시도
                    encodings_to_try = ['utf-8', 'euc-kr', 'cp949', 'latin-1', 'iso-8859-1']
                    decoded_content = None
                    for enc in encodings_to_try:
                        try:
                            decoded_content = file_content_bytes.decode(enc)
                            break
                        except UnicodeDecodeError:
                            continue
                    
                    if decoded_content is None:
                        # logging.warning(f"파일 {s3_object_key} 디코딩 실패. 건너뜁니다.")
                        continue

                    if search_keyword_lower in decoded_content.lower():
                        s3_full_path = f"s3://{s3_bucket_name}/{s3_object_key}"
                        found_files_s3_paths.append(s3_full_path)
                        # logging.info(f"키워드 '{search_keyword}' 발견: {s3_full_path}")
                        if len(found_files_s3_paths) >= max_results:
                            msg = f"{len(found_files_s3_paths)}개의 파일을 찾았습니다 (최대 결과 {max_results} 도달)."
                            logging.info(msg)
                            return {"success": True, "message": msg, "found_files": found_files_s3_paths}
                except ClientError as e:
                    logging.warning(f"S3 객체 ({s3_object_key}) 접근 중 오류: {e}")
                except Exception as e:
                    logging.warning(f"파일 ({s3_object_key}) 처리 중 오류: {e}")
        
        if found_files_s3_paths:
            msg = f"총 {files_processed_count}개 파일 검색, {len(found_files_s3_paths)}개의 파일에서 키워드 발견."
            logging.info(msg)
            return {"success": True, "message": msg, "found_files": found_files_s3_paths}
        else:
            msg = f"총 {files_processed_count}개 파일 검색, 키워드 '{search_keyword}'를 포함하는 파일을 찾지 못했습니다."
            logging.info(msg)
            return {"success": True, "message": msg, "found_files": []}

    except Exception as e:
        logging.error(f"코드 검색 중 오류 발생: {e}")
        return {"success": False, "message": f"코드 검색 중 오류 발생: {e}", "found_files": []}

def get_code_from_s3_path(s3_full_path: str) -> dict:
    """
    S3 파일 경로 (s3://bucket_name/path/to/object_key)를 입력받아
    해당 파일의 전체 내용을 문자열로 반환합니다.

    Args:
        s3_full_path (str): S3 파일의 전체 경로 (예: "s3://my-bucket/user_repos/username/repo/file.py").

    Returns:
        dict: 성공 여부, 메시지, 파일 내용(문자열), 감지된 인코딩, S3 경로를 포함하는 딕셔너리.
              예: {"success": True, "message":"...", "content": "코드 내용...", "encoding":"utf-8", "s3_path": "..."}
    """
    if not s3_full_path.startswith("s3://"):
        msg = "잘못된 S3 경로 형식입니다. 's3://bucket_name/object_key' 형식으로 입력해주세요."
        logging.warning(msg)
        return {"success": False, "message": msg, "content": None}

    try:
        path_parts = s3_full_path.replace("s3://", "").split("/", 1)
        if len(path_parts) < 2: # 버킷 이름만 있고 키가 없는 경우
            msg = "S3 경로에 객체 키(파일 경로)가 누락되었습니다."
            logging.warning(msg)
            return {"success": False, "message": msg, "content": None}
        s3_bucket_name, s3_object_key = path_parts

        s3 = _get_s3_client()
        logging.info(f"S3에서 파일 가져오는 중: s3://{s3_bucket_name}/{s3_object_key}")
        file_obj = s3.get_object(Bucket=s3_bucket_name, Key=s3_object_key)
        file_content_bytes = file_obj['Body'].read()

        encodings_to_try = ['utf-8', 'euc-kr', 'cp949', 'latin-1', 'iso-8859-1']
        decoded_content = None
        detected_encoding = None
        for enc in encodings_to_try:
            try:
                decoded_content = file_content_bytes.decode(enc)
                detected_encoding = enc
                break
            except UnicodeDecodeError:
                continue
        
        if decoded_content is None:
            msg = f"파일 내용을 일반적인 인코딩으로 디코딩할 수 없습니다: {s3_full_path}. 원본 바이트를 반환 시도할 수 있으나, 여기서는 오류로 처리합니다."
            logging.warning(msg)
            # 필요시 file_content_bytes.hex() 또는 base64 인코딩된 문자열 반환 고려
            return {"success": False, "message": msg, "content": None, "s3_path": s3_full_path}

        msg = f"파일 내용 가져오기 성공 (감지된 인코딩: {detected_encoding})."
        logging.info(msg)
        return {"success": True, "message": msg, "content": decoded_content, "encoding": detected_encoding, "s3_path": s3_full_path}

    except ClientError as e:
        error_code = e.response.get('Error', {}).get('Code')
        if error_code == 'NoSuchKey':
            msg = f"S3에서 파일을 찾을 수 없습니다: {s3_full_path}"
            logging.warning(msg)
            return {"success": False, "message": msg, "content": None}
        elif error_code == 'NoSuchBucket':
            msg = f"S3 버킷 '{s3_bucket_name}'을 찾을 수 없습니다."
            logging.error(msg)
            return {"success": False, "message": msg, "content": None}
        else:
            logging.error(f"S3에서 파일 가져오는 중 ClientError 발생 ({s3_full_path}): {e}")
            return {"success": False, "message": f"S3 파일 접근 오류: {e}", "content": None}
    except Exception as e:
        logging.error(f"S3 파일 내용 가져오는 중 예외 발생 ({s3_full_path}): {e}")
        return {"success": False, "message": f"파일 내용 처리 중 오류: {e}", "content": None}

AWS Access Key ID: AKIAQVXVSODU425T62G4
AWS Secret Access Key: **********
AWS Default Region: us-east-1
GitHub Token: **********
S3 Bucket Name: code-agent


In [2]:
import os
from dotenv import load_dotenv

load_dotenv()

github_token = os.getenv("GITHUB_TOKEN", "")
s3_bucket_name = os.getenv("S3_BUCKET_NAME", "")
s3_base_path = os.getenv("S3_BASE_PATH", "user_github_repos")

clone_all_user_repos_to_s3(
    github_token=github_token,
    s3_bucket_name=s3_bucket_name,
    s3_base_path=s3_base_path
)
upload_directory_to_s3()

2025-06-05 18:30:55,422 - INFO - 사용자 'HIHO999'의 리포지토리 목록을 가져옵니다...
2025-06-05 18:30:56,412 - INFO - '-' 리포지토리를 로컬에 복제 중... (https://github.com/HIHO999/-.git)
2025-06-05 18:30:57,872 - INFO - '-' 복제 완료. S3에 업로드 중... (s3://code-agent/user_github_repos/HIHO999/-)
2025-06-05 18:30:57,881 - INFO - Found credentials in environment variables.
2025-06-05 18:30:58,945 - INFO - S3 클라이언트 생성 성공.
2025-06-05 18:30:58,946 - INFO - Uploading C:\Users\in904\AppData\Local\Temp\tmpwbvsp6fa\-\README.md to s3://code-agent/user_github_repos/HIHO999/-/README.md
2025-06-05 18:31:00,008 - INFO - Uploading C:\Users\in904\AppData\Local\Temp\tmpwbvsp6fa\-\.git\config to s3://code-agent/user_github_repos/HIHO999/-/.git/config
2025-06-05 18:31:00,484 - INFO - Uploading C:\Users\in904\AppData\Local\Temp\tmpwbvsp6fa\-\.git\description to s3://code-agent/user_github_repos/HIHO999/-/.git/description
2025-06-05 18:31:00,936 - INFO - Uploading C:\Users\in904\AppData\Local\Temp\tmpwbvsp6fa\-\.git\HEAD to s3://code-agent/u

KeyboardInterrupt: 

In [6]:
import boto3
import os

# Print the available environment variables for AWS (without showing actual secrets)
aws_env_vars = [key for key in os.environ.keys() if 'AWS' in key]
print(f"AWS environment variables present: {aws_env_vars}")

# Test if your credentials can list buckets (requires minimal permissions)
try:
    s3 = boto3.client('s3')
    buckets = s3.list_buckets()
    print(f"Successfully connected to S3. Available buckets: {[b['Name'] for b in buckets['Buckets']]}")
except Exception as e:
    print(f"S3 connection test failed: {e}")

AWS environment variables present: ['AWS_ACCESS_KEY_ID', 'AWS_SECRET_ACCESS_KEY', 'AWS_DEFAULT_REGION']
Successfully connected to S3. Available buckets: ['code-agent']


In [4]:
# Add this to your script to check specific bucket permissions
import boto3
from botocore.exceptions import ClientError

bucket_name = "code-agent"
s3_client = boto3.client('s3')

# Check if bucket exists and is accessible
try:
    s3_client.head_bucket(Bucket=bucket_name)
    print(f"Bucket '{bucket_name}' exists and is accessible")
except ClientError as e:
    error_code = e.response['Error']['Code']
    if error_code == '404':
        print(f"Bucket '{bucket_name}' does not exist")
    elif error_code == '403':
        print(f"You don't have access to bucket '{bucket_name}'")
    else:
        print(f"Error checking bucket: {e}")

Bucket 'code-agent' exists and is accessible
