In [12]:
from openai import OpenAI
from dotenv import load_dotenv
import os
import json
import pandas as pd
from tqdm import tqdm
from pathlib import Path

load_dotenv()

API_KEY = os.getenv("OPENAI_API_KEY")
MODEL = "gpt-4o-mini"
DATA_PATH = Path("data/Y-combinator-portfolio.csv")
OUTPUT_PATH = "results/" + DATA_PATH.stem + ".json"
client = OpenAI(api_key=API_KEY)


In [13]:
def load_csv(file_path):
    data = pd.read_csv(file_path)
    return data.to_dict(orient="records")


def load_json(file_path):
    with open(file_path, "r", encoding="utf-8") as json_file:
        data = json.load(json_file)
    return data


# data = load_json(DATA_PATH)
data = load_csv(DATA_PATH)



In [39]:

OUTPUT_FORMAT = """
json
{
"이름": "회사 이름 type: str", 
"현상": "현재 회사에서 풀고있는 문제의 현상 type: list",
"문제": "현재 풀고 있는 회사의 문제 정의 type: list",
"솔루션": "현재 회사에서 제시하는 해결방안 type: str",
"서비스": "현재 회사에서 제공하는 서비스 type: list",
"시장크기": "현재 회사가 목표로 하는 시장의 크기 (단위 1000 달러) type: int",
"한국의 비슷한 서비스": "한국에서 비슷한 서비스를 제공하는 회사들 type: list",
"매출액": "현재 회사 매출액 (단위 1000 달러) type: int",
"시가총액": "현재 회사 시가총액 (단위 1000 달러) type: int",
}
"""

INPUT_PROMPT= f"""
너는 전문 기업 분석가야. 내가 Y-combinator의 포트폴리오 데이터를 입력하면 아래의 OUTPUT FORMAT에 맞는 키워드들을 분석해서 추출해줘.
OUTPUT FORMAT: \n{OUTPUT_FORMAT}
"""

In [42]:
results = []

for item in tqdm(data[:]):
    
    item_str = json.dumps(item, ensure_ascii=False)
    response = client.chat.completions.create(
        model=MODEL,
        response_format={"type": "json_object"},
        messages=[
            {
                "role": "system",
                "content": INPUT_PROMPT,
            },
            {"role": "user", "content": item_str},
        ],
    )

    message = response.choices[0].message.content
    parsed_message = json.loads(message)
    results.append(parsed_message)
    
    print(parsed_message)


  0%|          | 1/4687 [00:02<3:38:10,  2.79s/it]

{'이름': 'Airbnb', '현상': ['전 세계에서 숙소 예약의 어려움', '여행지 선택의 제약', '가격 비교의 복잡함'], '문제': ['숙소 예약 플랫폼의 부족', '전통적인 호텔의 높은 가격', '개인 숙소 이용의 불편함'], '솔루션': 'Airbnb는 개인과 호스트를 연결하여 다양한 가격대의 숙소를 제공하며, 편리한 예약 시스템을 통해 여행자에게 저렴하고 다양한 옵션을 만날 수 있게 한다.', '서비스': ['숙소 예약', '호스트와 게스트 매칭', '여행지 추천'], '시장크기': 100000, '한국의 비슷한 서비스': ['에어비앤비', '망고부킹', '여기어때'], '매출액': 100000, '시가총액': 8000000}


  0%|          | 2/4687 [00:05<3:26:30,  2.64s/it]

{'이름': 'Instacart', '현상': ['소비자들이 편리하게 식료품을 구매할 수 있는 방법 부족', '바쁜 생활 속에서 장을 볼 시간 부족'], '문제': ['가정에서 식료품 구매의 번거로움', '온라인 식료품 배송 서비스의 접근성과 효율성 부족'], '솔루션': 'Instacart는 소비자들이 온라인으로 식료품을 쉽게 주문하고 빠르게 배송받을 수 있는 플랫폼을 제공하여 이 문제를 해결하고 있습니다.', '서비스': ['식료품 배달 서비스', '픽업 서비스'], '시장크기': 30000, '한국의 비슷한 서비스': ['쿠팡', '마켓컬리', '배달의민족'], '매출액': 5000, '시가총액': 150000}


  0%|          | 3/4687 [00:08<3:43:15,  2.86s/it]

{'이름': 'DoorDash', '현상': ['음식 배달의 편의성 부족', '식당과 소비자 간의 연결 부족'], '문제': ['음식 주문 및 배달 과정의 비효율성', '식당의 고객 도달 한계'], '솔루션': 'DoorDash는 식당과 소비자를 연결하는 온라인 플랫폼을 통해 신속하고 효율적인 음식 배달 서비스를 제공합니다.', '서비스': ['음식 배달', '온라인 주문', '레스토랑 목록 제공'], '시장크기': 100000, '한국의 비슷한 서비스': ['배달의민족', '요기요'], '매출액': 300000, '시가총액': 1500000}


  0%|          | 4/4687 [00:11<3:58:38,  3.06s/it]

{'이름': 'Coinbase', '현상': ['암호화폐 거래의 증가', '사용자 친화적인 거래 플랫폼에 대한 수요'], '문제': ['암호화폐 구매 및 판매의 복잡성', '보안 문제', '규제 환경'], '솔루션': 'Coinbase는 사용자가 쉽고 안전하게 암호화폐를 구매하고 판매할 수 있는 플랫폼을 제공합니다.', '서비스': ['암호화폐 거래', '지갑 관리', '스테이킹 서비스'], '시장크기': 500000, '한국의 비슷한 서비스': ['업비트', '빗썸', '코인원'], '매출액': 100000, '시가총액': 900000}


  0%|          | 5/4687 [00:14<3:59:41,  3.07s/it]

{'이름': 'Dropbox', '현상': ['파일 백업 및 공유의 번거로움', '데이터 접근성의 부족'], '문제': ['사용자들이 안전하고 효율적으로 파일을 저장하고 공유할 수 있는 방법 부족', '다양한 디바이스에서 데이터에 접근하기 어려움'], '솔루션': 'Dropbox는 클라우드에서 파일을 안전하게 백업하고 쉽게 공유할 수 있는 서비스를 제공합니다.', '서비스': ['파일 저장', '파일 공유', '협업 도구'], '시장크기': 2500000, '한국의 비슷한 서비스': ['네이버 클라우드', '구글 드라이브', '다음 클라우드'], '매출액': 2300000, '시가총액': 10000000}


  0%|          | 6/4687 [00:17<3:48:30,  2.93s/it]

{'이름': 'GitLab', '현상': ['DevOps 도구들이 여러 플랫폼에 분산되어 있어 효율성이 떨어짐'], '문제': ['개발 프로세스의 비효율성', '툴 간의 통합 부족'], '솔루션': 'GitLab은 모든 DevOps 기능을 단일 애플리케이션으로 제공하여 통합된 개발 환경을 조성합니다.', '서비스': ['코드 호스팅', 'CI/CD', '프로젝트 관리', '보안 기능', '모니터링'], '시장크기': 200000, '한국의 비슷한 서비스': ['네카라쿠배', '젠딧', '팀스'], '매출액': 100000, '시가총액': 1500000}


  0%|          | 7/4687 [00:20<3:47:02,  2.91s/it]

{'이름': 'Ginkgo Bioworks', '현상': ['바이오 공학의 복잡성', '생물학적 시스템의 최적화 필요성'], '문제': ['생물 공학 프로세스의 비효율성', '생물학적 데이터의 활용 부족'], '솔루션': '생물학을 더 쉽게 엔지니어링할 수 있도록 하는 플랫폼을 제공', '서비스': ['생물학적 시스템 설계', '유전자 합성 서비스', '미생물 설계 및 운영'], '시장크기': 500000, '한국의 비슷한 서비스': ['LG화학', '한미약품'], '매출액': 100000, '시가총액': 300000}


  0%|          | 8/4687 [00:24<4:24:06,  3.39s/it]

{'이름': 'PagerDuty', '현상': ['실시간으로 중요 앱과 서비스에 대한 가시성이 부족함'], '문제': ['비즈니스 운영에 필수적인 시스템의 모니터링 필요', '장애 발생 시 신속한 대응 부족'], '솔루션': '모든 중요 앱과 서비스에 대한 실시간 가시성을 제공하는 플랫폼.', '서비스': ['모니터링', '알림', '신속 대응 시스템'], '시장크기': 1000000, '한국의 비슷한 서비스': ['재택발송', '모바일 알림 서비스'], '매출액': 80000, '시가총액': 800000}


  0%|          | 9/4687 [00:27<4:06:16,  3.16s/it]

{'이름': 'Amplitude', '현상': ['디지털 분석의 필요성 증가', '데이터 기반 의사결정의 중요성'], '문제': ['데이터의 분산과 활용의 어려움', '정확한 사용자 행동 분석의 부족'], '솔루션': 'Amplitude는 사용자가 데이터를 쉽게 분석하고 이해할 수 있도록 도와주는 디지털 분석 플랫폼을 제공합니다.', '서비스': ['데이터 분석', '사용자 행동 추적', '리포팅 및 대시보드 제공'], '시장크기': 1000000, '한국의 비슷한 서비스': ['네이버 데이터랩', '구글 애널리틱스', '카카오 분석 플랫폼'], '매출액': 9000, '시가총액': 90000}


  0%|          | 10/4687 [00:30<3:57:55,  3.05s/it]

{'이름': 'Matterport', '현상': ['물리적 객체와 환경을 3D 모델로 변환하는 과정의 복잡성', '빠르고 효율적인 3D 모델링 요구 증가'], '문제': ['3D 모델링에 필요한 시간과 자원의 낭비', '정확하고 전문적인 3D 렌더링 기술의 부족'], '솔루션': 'Matterport는 물리적 객체와 환경을 몇 초 만에 3D 모델로 변환하는 기술을 제공합니다.', '서비스': ['3D 스캔 서비스', '가상 투어 제작', '부동산 및 건축 모델링'], '시장크기': 1000000, '한국의 비슷한 서비스': ['인스페이스', '가상부동산', '3DIMENSION'], '매출액': 10000, '시가총액': 1000000}


  0%|          | 11/4687 [00:33<3:57:12,  3.04s/it]

{'이름': 'Weave', '현상': ['고객과의 원활한 소통 부족', '지불 과정에서의 복잡성'], '문제': ['효율적인 고객 소통 방안을 마련하는 것', '간편한 결제 시스템을 제공하는 것'], '솔루션': 'Weave는 고객 소통과 결제를 통합한 플랫폼을 제공하여 기업들이 고객과의 관계를 개선하고 지불 과정을 간소화할 수 있도록 돕습니다.', '서비스': ['고객 소통 플랫폼', '결제 시스템', '피드백 관리', '리뷰 요청'], '시장크기': 500000, '한국의 비슷한 서비스': ['카카오톡 비즈니스', '티몬', '위메프'], '매출액': 100000, '시가총액': 2000000}


  0%|          | 12/4687 [00:35<3:47:36,  2.92s/it]

{'이름': 'Momentus', '현상': ['우주 인프라 서비스 부족', '우주 임무 수행의 복잡성', '기술 발전에 따라 변화하는 우주 환경'], '문제': ['효율적이고 신뢰할 수 있는 우주 인프라 부족', '비용 높은 우주 탐사 및 운송'], '솔루션': '우주 인프라 서비스 제공을 통해 비용 절감 및 효율성 향상', '서비스': ['우주 임무 지원', '위성 배치 서비스', '우주 운송 서비스'], '시장크기': 500000, '한국의 비슷한 서비스': ['인스페이스', '한화 에어로스페이스'], '매출액': 12000, '시가총액': 170000}


  0%|          | 13/4687 [00:38<3:47:47,  2.92s/it]

{'이름': 'Lucira Health', '현상': ['감염성 질병의 빠르고 정확한 진단 필요성 증가', '기존 진단 키트의 시간과 비용 문제'], '문제': ['빠르고 쉽게 사용할 수 있는 진단 키트 부족', '기존 진단 방법의 불편함'], '솔루션': '차세대 감염성 질병 진단 키트를 통해 신속하고 간편한 진단을 제공', '서비스': ['감염성 질병 진단 키트'], '시장크기': 500000, '한국의 비슷한 서비스': ['진단 키트 전문업체'], '매출액': 13000, '시가총액': 18000}


  0%|          | 14/4687 [00:42<4:05:10,  3.15s/it]

{'이름': 'Stripe', '현상': ['인터넷 경제를 위한 기반 시설 부족'], '문제': ['온라인 결제 시스템의 비효율성', '중소기업의 금융 접근성 문제'], '솔루션': 'Stripe는 온라인 결제를 위한 간편한 인프라를 제공하여 기업들이 쉽게 결제를 처리할 수 있도록 돕습니다.', '서비스': ['온라인 결제 처리', '구독 관리', '사기 방지 솔루션'], '시장크기': 1500000, '한국의 비슷한 서비스': ['토스', '카카오페이', '다날'], '매출액': 150000, '시가총액': 2000000}


  0%|          | 15/4687 [00:44<3:47:11,  2.92s/it]

{'이름': 'OpenSea', '현상': ['NFT 거래의 투명성과 안전성 부족', '사용자 친화적인 플랫폼 부족'], '문제': ['NFT 구매 및 판매의 복잡한 프로세스', 'NFT 시장에서의 가격 변동성'], '솔루션': 'OpenSea는 사용자 친화적인 NFT 마켓플레이스를 제공하여 안전하고 간편한 거래를 가능하게 합니다.', '서비스': ['NFT 구매 및 판매', '지갑 통합', 'NFT 전시 및 커뮤니티 기능'], '시장크기': 1000000000, '한국의 비슷한 서비스': ['업비트', '카카오 NFT 플랫폼', '네이버의 클로버 NFT'], '매출액': 150000, '시가총액': 210000}


  0%|          | 16/4687 [00:47<3:37:16,  2.79s/it]

{'이름': 'Faire', '현상': ['독립 소매업체의 어려운 운영 및 관리', '온라인 판매 채널 부족'], '문제': ['독립 소매업체가 온라인에서 경쟁하기 어려움', '대형 소매업체와의 경쟁에서 불리함'], '솔루션': '전세계 독립 소매업체를 위한 온라인 플랫폼 제공', '서비스': ['제품 판매 플랫폼', '소매업체와 제조업체 연결', '온라인 리테일 솔루션'], '시장크기': 100000, '한국의 비슷한 서비스': ['오늘의 집', '쿠팡', '위메프'], '매출액': 50000, '시가총액': 200000}


  0%|          | 17/4687 [00:50<3:37:05,  2.79s/it]

{'이름': 'Brex', '현상': ['기업 고객의 금융 관리 문제', '복잡한 지출 관리 시스템'], '문제': ['기업이 효율적으로 자금을 관리하는 데 어려움', '신용 카드 사용의 복잡성과 수수료 문제'], '솔루션': 'Brex는 기업에 적합한 비즈니스 계좌, 법인 카드 및 지출 관리 소프트웨어를 제공하여 문제를 해결합니다.', '서비스': ['비즈니스 계좌', '법인 카드', '지출 관리 소프트웨어'], '시장크기': 1000000, '한국의 비슷한 서비스': ['토스', '삼성카드 기업 카드', '카카오뱅크 기업 계좌'], '매출액': 10000, '시가총액': 300000}


  0%|          | 18/4687 [00:53<3:50:44,  2.97s/it]

{'이름': 'Deel', '현상': ['세계적인 팀 관리의 복잡성', '인사 관리의 비효율성'], '문제': ['글로벌 팀을 위한 HR 관리의 어려움', '다양한 국가의 법적 요구사항 충족'], '솔루션': 'Deel은 전 세계 팀을 위한 통합 HR 플랫폼을 제공하여, 복잡한 인사 관리 과정을 간소화하고 법적 요구사항을 준수할 수 있도록 지원합니다.', '서비스': ['인사 관리', '급여 지급', '세금 관리'], '시장크기': 100000, '한국의 비슷한 서비스': ['칼퇴', '잡코리아', '사람인'], '매출액': 50000, '시가총액': 300000}


  0%|          | 19/4687 [00:56<3:43:35,  2.87s/it]

{'이름': 'Rippling', '현상': ['HR, IT, and Finance 통합 관리의 필요성', '글로벌 비즈니스 환경에서의 인사 관리의 복잡성'], '문제': ['불필요한 여러 시스템과 프로세스의 사용으로 인한 비효율성', '인사 정보와 IT 서비스 간의 연계 부족'], '솔루션': '모든 HR, IT, 재무 관련 작업을 하나의 플랫폼에서 통합적으로 관리할 수 있도록 지원하는 솔루션을 제공', '서비스': ['HR 관리', 'IT 관리', '재무 관리'], '시장크기': 200000, '한국의 비슷한 서비스': ['사람인', '잡코리아', '이력서 카페'], '매출액': 50000, '시가총액': 750000}


  0%|          | 20/4687 [00:59<3:50:37,  2.96s/it]

{'이름': 'Reddit', '현상': ['소셜 미디어의 정보 과부하', '사용자 생성 콘텐츠의 품질 관리', '온라인 커뮤니티의 안전성 문제'], '문제': ['사용자가 원하는 콘텐츠를 찾기 어려움', '악성 댓글 및 스팸 문제', '유용한 정보와 무의미한 콘텐츠의 혼재'], '솔루션': 'Reddit은 사용자들이 관여할 수 있는 다양한 서브레딧을 통해 특정 관심사에 대한 콘텐츠를 제공하고, 커뮤니티 규칙을 통해 품질을 관리합니다.', '서비스': ['커뮤니티 기반의 뉴스 사이트', '사용자 생성 콘텐츠', '토론 및 의견 공유 플랫폼'], '시장크기': 1000000, '한국의 비슷한 서비스': ['디시인사이드', '웃긴대학', 'Naver Cafe'], '매출액': 300000, '시가총액': 4000000}


  0%|          | 21/4687 [01:01<3:36:01,  2.78s/it]

{'이름': 'Gusto', '현상': ['성장하는 기업들이 팀을 관리하는 데 필요한 모든 것을 제공해야 하는 상황'], '문제': ['중소기업이 인사 관리를 효율적으로 수행하는 데 어려움', '급여, 복리후생 및 직원 관리의 복잡성'], '솔루션': 'Gusto는 인사 관리와 급여 처리를 위한 통합 솔루션을 제공합니다.', '서비스': ['급여 관리', '복리후생 관리', '인사 관리', '세무 서비스'], '시장크기': 100000, '한국의 비슷한 서비스': ['직방', '스마트HR'], '매출액': 95000, '시가총액': 450000}


  0%|          | 22/4687 [01:04<3:35:55,  2.78s/it]

{'이름': 'Flexport', '현상': ['글로벌 물류 관리의 복잡성', '비효율적인 공급망 프로세스'], '문제': ['물류 및 공급망 관리에서의 비효율성', '정보의 단절로 인한 지연'], '솔루션': 'Flexport는 통합 플랫폼을 통해 물류 및 공급망 프로세스를 간소화하고 투명하게 관리할 수 있도록 도와줍니다.', '서비스': ['수출입 서류 준비', '운송 및 물류 추적', '물류 비즈니스 분석'], '시장크기': 500000, '한국의 비슷한 서비스': ['CJ대한통운', '한진택배', '로젠택배'], '매출액': 1000, '시가총액': 50000}


  0%|          | 23/4687 [01:07<3:45:08,  2.90s/it]

{'이름': 'Scale AI', '현상': ['AI 개발을 가속화하기 위한 데이터 중심 인프라 부족', 'AI 모델 훈련과 관련된 데이터 처리의 비효율성'], '문제': ['대량의 데이터 라벨링과 관리의 어려움', 'AI 모델의 품질 개선을 위한 데이터의 필요성'], '솔루션': 'Scale AI는 데이터 라벨링을 자동화하고, 고품질 데이터를 제공하여 AI 모델 개발을 신속하게 지원하는 인프라를 제공합니다.', '서비스': ['데이터 라벨링', '고속 데이터 처리', 'AI 모델 훈련 지원'], '시장크기': 500000, '한국의 비슷한 서비스': ['루닛', '플런트', '아프리카TV'], '매출액': 150000, '시가총액': 500000}


  1%|          | 24/4687 [01:10<3:46:44,  2.92s/it]

{'이름': 'Benchling', '현상': ['생명과학 연구의 비효율성', '구식 소프트웨어 사용으로 인한 데이터 관리 문제'], '문제': ['생명공학 분야에서 실험과 데이터를 효과적으로 관리할 수 있는 툴 부족', '복잡한 협업 과정에서의 정보 공유 및 통합의 어려움'], '솔루션': '생명과학 연구자들을 위해 현대적인 소프트웨어를 제공하여 실험과 데이터를 더 효율적으로 관리할 수 있도록 지원하는 플랫폼.', '서비스': ['생명과학 데이터 관리 솔루션', '실험실 정보 관리 시스템', '협업 및 데이터 공유 플랫폼'], '시장크기': 100000, '한국의 비슷한 서비스': ['이노비즈', '바이오니아', '메디톡스'], '매출액': 50000, '시가총액': 300000}


  1%|          | 25/4687 [01:13<3:41:25,  2.85s/it]

{'이름': 'Rappi', '현상': ['온디맨드 배달 서비스의 수요 증가', '금융 서비스에 대한 접근성 부족'], '문제': ['소비자들이 필요한 상품과 서비스를 신속하게 받지 못함', '라틴 아메리카에서의 금융 서비스 이용 제한'], '솔루션': '온디맨드 배달 서비스와 금융 서비스를 통합하여 제공', '서비스': ['식료품 배달', '음식 배달', '금융 서비스 제공'], '시장크기': 100000, '한국의 비슷한 서비스': ['배달의민족', '요기요', '쿠팡'], '매출액': 50000, '시가총액': 150000}


  1%|          | 25/4687 [01:16<3:57:38,  3.06s/it]


KeyboardInterrupt: 

In [41]:

with open(OUTPUT_PATH, "w", encoding="utf-8") as json_file:
    json.dump(results, json_file, ensure_ascii=False, indent=4)
