# 회사 정보 분석

In [2]:
company_summary = '''
이 회사는 기업을 위한 SaaS(Software as a Service) 솔루션을 제공하는 IT 기업으로, 주로 경영 지원 시스템의 비효율성을 해결하는 데 중점을 두고 있습니다. 회사의 주요 제품과 서비스는 다음과 같습니다:

### 문제점
1. **비효율적인 경영 지원 시스템**: 많은 기업들이 여전히 수작업으로 반복적인 업무를 처리하고 있으며, 이는 전체 업무 시간의 40% 이상을 차지합니다.
2. **커뮤니케이션 오버헤드**: 팀 간의 비효율적인 커뮤니케이션으로 인해 추가적인 시간과 비용이 발생합니다.
3. **자산 관리의 어려움**: 유형 자산 및 무형 자산의 관리가 비효율적으로 이루어지고 있습니다.

### 솔루션
1. **SaaS 기반 경영 지원 시스템**: 
   - **자동화**: 반복적인 업무를 자동화하여 효율성을 높입니다.
   - **AI 에이전트**: AI 기반의 에이전트를 통해 실시간으로 데이터를 분석하고 인사이트를 제공합니다.
   - **자산 관리**: QR 코드 기반의 자산 관리 시스템을 통해 자산의 효율적인 관리가 가능합니다.

2. **커뮤니케이션 효율화**:
   - **통합 커뮤니케이션 플랫폼**: 다양한 커뮤니케이션 도구를 통합하여 오버헤드를 줄입니다.
   - **데이터 기반 인사이트**: 커뮤니케이션 데이터를 분석하여 효율성을 높이는 전략을 제안합니다.

3. **데이터 인사이트 제공**:
   - **실시간 데이터 분석**: 기업 데이터를 실시간으로 분석하여 경영 인사이트를 제공합니다.
   - **리스크 및 유효 기간 관리**: 자산의 유효 기간을 관리하고 만료 알림을 제공합니다.

### 비즈니스 모델
- **서비스 제공**: 국내 기업에 SaaS 및 솔루션을 제공하며, 임직원 서비스도 함께 제공합니다.
- **수익 모델**: 월 사용료 및 라이선스 비용을 통해 수익을 창출합니다. 다양한 플랜(베이직, 비즈니스, 엔터프라이즈)을 통해 고객의 필요에 맞춘 서비스를 제공합니다.

### 시장 및 목표
- **시장 확장**: 글로벌 빅데이터 및 분석 솔루션 시장으로의 확장을 목표로 하고 있습니다.
- **매출 목표**: 2030년까지 매출 11000억 원 달성을 목표로 하고 있습니다.

### 팀 구성
- **CEO**: 유민재
- **CTO**: 김종민
- **개발자**: 이승현

이 회사는 IT 자산 관리 및 데이터 분석 솔루션을 통해 기업의 경영 효율성을 높이고, 글로벌 시장으로의 확장을 목표로 하고 있습니다.
'''

In [6]:
import os
import json
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv

load_dotenv()
OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

llm = ChatOpenAI(
    model="gpt-4.1-mini",
    temperature=0.1,
    api_key=OPENAI_API_KEY,
    model_kwargs={"response_format": {"type": "json_object"}}
)

# 회사 정보 분석 함수 정의
def analyze_company_info(company_summary):
    prompt = f"""
    당신은 기업 분석 전문가입니다. 다음 회사 소개서를 분석하여, 아래의 항목에 맞추어 정보를 요약하세요.

    [분석할 항목]
    - 제공하는 주요 서비스 및 솔루션
    - 해결하려는 핵심 문제들
    - 비즈니스 모델 (수익 모델과 고객군 중심)
    - 시장 목표 (확장 목표 시장 및 구체적 매출 목표)
    - 주요 팀 구성원 이름과 직책

    [회사 소개서]
    {company_summary}

    반드시 다음의 JSON 형식으로만 응답하세요:
    {{
    "provided_services": ["서비스1", "서비스2", "..."],
    "core_problems": ["문제1", "문제2", "..."],
    "business_model": {{
        "revenue_streams": ["수익 모델1", "..."],
        "customer_segments": ["고객군1", "..."]
    }},
    "market_goals": {{
        "target_market": "목표 시장",
        "revenue_goal": "매출 목표"
    }},
    "key_team_members": ["이름 (직책)", "..."]
    }}
    """

    messages = [{"role": "user", "content": prompt}]
    ai_response = llm.invoke(messages)
    response_json = json.loads(ai_response.content)

    return response_json

In [7]:
result = analyze_company_info(company_summary)
print(json.dumps(result, ensure_ascii=False, indent=4))

{
    "provided_services": [
        "SaaS 기반 경영 지원 시스템 자동화",
        "AI 에이전트를 통한 실시간 데이터 분석 및 인사이트 제공",
        "QR 코드 기반 자산 관리 시스템",
        "통합 커뮤니케이션 플랫폼",
        "데이터 기반 커뮤니케이션 효율화 전략 제공",
        "실시간 데이터 분석 및 리스크, 유효 기간 관리"
    ],
    "core_problems": [
        "비효율적인 경영 지원 시스템으로 인한 반복 업무 과다",
        "팀 간 비효율적인 커뮤니케이션으로 인한 시간 및 비용 낭비",
        "비효율적인 유형 및 무형 자산 관리"
    ],
    "business_model": {
        "revenue_streams": [
            "월 사용료",
            "라이선스 비용"
        ],
        "customer_segments": [
            "국내 기업",
            "임직원 서비스 이용 고객"
        ]
    },
    "market_goals": {
        "target_market": "글로벌 빅데이터 및 분석 솔루션 시장",
        "revenue_goal": "2030년까지 매출 11000억 원 달성"
    },
    "key_team_members": [
        "유민재 (CEO)",
        "김종민 (CTO)",
        "이승현 (개발자)"
    ]
}


# 검색 전략 설정

In [32]:
def create_search_plan(analysis_result):
    prompt = f"""
    당신은 B2B 세일즈 전문가이자 웹 검색 전략가입니다.
    아래 회사 분석 결과를 바탕으로, **이 회사의 서비스가 필요한 기업들을 찾을 수 있는 검색 쿼리**를 생성해 주세요.

    검색의 목적은 "실제로 어떤 기업이 이런 서비스를 도입하려는지"를 찾아내는 것입니다.
    따라서 검색 쿼리는 다음 조건을 반영해야 합니다:

    - 한국에서 활동하는 기업
    - 2024년 또는 2025년에 실제로 회사 분석 결과를 참고한 provided_services 등을 도입할 예정인 기업
    - 검색 결과에 **기업명이 직접 등장할 수 있는 기사, 보도자료, 케이스 스터디**가 나올 수 있도록 구성
    - 키워드 중심의 검색어가 아니라 **기업 도입 사례 중심의 쿼리**로 구성
    - "도입", "사례", "기업", "경영지원", "도입예정", "필요" 같은 단어를 포함하는 게 좋음
    - 반드시 '2024년', '2025년', '최신' 등의 키워드를 포함해 최신 검색이 되도록 유도
    - tavily api가 잘 작동할 수 있도록 쿼리를 구성

    회사 분석 정보:
    {json.dumps(analysis_result, ensure_ascii=False)}

    아래 JSON 형식으로만 응답하세요:
    {{
        "search_query": "검색에 사용할 최적의 웹 검색어",
        "overall_strategy": "왜 이 검색어가 적절한지에 대한 전략 설명",
        "additional_keywords": ["키워드1", "키워드2", "키워드3"]
    }}
    """

    messages = [{"role": "user", "content": prompt}]
    ai_response = llm.invoke(messages)
    response_json = json.loads(ai_response.content)

    return response_json

# 실제 실행 예시 (이전 단계의 result 사용)
search_plan = create_search_plan(result)
print(json.dumps(search_plan, ensure_ascii=False, indent=4))


{
    "search_query": "\"경영지원 시스템 도입 사례\" OR \"경영지원 시스템 도입 예정\" OR \"경영지원 자동화 도입\" OR \"AI 에이전트 도입 사례\" OR \"QR 코드 자산 관리 도입\" OR \"통합 커뮤니케이션 플랫폼 도입\" OR \"데이터 기반 커뮤니케이션 도입\" AND (기업 OR 회사) AND (2024년 OR 2025년 OR 최신) AND (필요 OR 사례 OR 도입예정)",
    "overall_strategy": "이 검색어는 2024년과 2025년에 한국 내 기업들이 경영지원 시스템 자동화, AI 기반 데이터 분석, QR 코드 자산 관리, 통합 커뮤니케이션 플랫폼 등 회사 분석 결과의 제공 서비스와 직접 연관된 솔루션을 도입하거나 도입 예정임을 명확히 드러내는 기사, 보도자료, 케이스 스터디를 찾도록 설계되었습니다. '도입', '사례', '기업', '필요', '도입예정' 등의 단어를 포함해 실제 기업명이 등장하는 콘텐츠를 우선적으로 검색하며, 최신성을 보장하기 위해 '2024년', '2025년', '최신' 키워드를 포함해 최신 도입 사례를 집중적으로 탐색할 수 있습니다. 또한 OR 연산자를 활용해 다양한 서비스별 도입 사례를 폭넓게 포착할 수 있도록 하여 tavily API가 관련 기업을 효과적으로 식별할 수 있게 합니다.",
    "additional_keywords": [
        "경영지원 자동화",
        "AI 데이터 분석 도입",
        "자산 관리 시스템 사례"
    ]
}


In [33]:
from tavily import TavilyClient

# Tavily API 키를 환경변수에서 불러오기
TAVILY_API_KEY = os.getenv('TAVILY_API_KEY')
tavily_client = TavilyClient(api_key=TAVILY_API_KEY)

# Tavily API 호출 함수 정의
def search_tavily(query, max_results=10):
    response = tavily_client.search(query=query, max_results=max_results)
    results = response['results']
    
    simplified_results = []
    for item in results:
        simplified_results.append({
            "title": item['title'],
            "url": item['url'],
            "content": item['content']
        })
    
    return simplified_results

# 실제 실행 예시 (이전 단계의 search_plan 사용)
search_results = search_tavily(search_plan["search_query"], max_results=10)

# 결과 확인
print(json.dumps(search_results, ensure_ascii=False, indent=4))

[
    {
        "title": "경영정보시스템(Mis) 성공사례 조사- 사례대상 기업소개, Mis 도입배경, 구축 및 발전 과정, 도입성과, 과제후기 등의 ...",
        "url": "https://m.blog.naver.com/cheek31235/223234373835",
        "content": "사례대상 기업소개: 기업 이름: 아마존 (Amazon.com, Inc.) 설립 연도: 1994년. 본사 위치: 미국 시애틀. 사업 분야: 전자 상거래, 클라우드 컴퓨팅, 디지털 스트리밍, 인공 지능, 로그인 기술, 로봇 공학, 생물 정보학, 음식 배달 등 다양한 분야에서 사업을 운영. MIS 도입"
    },
    {
        "title": "경영지원 업무 비효율성과 Ai 에이전트를 활용한 생산성 향상 방법",
        "url": "https://landing.sellease.io/post/inefficiency-in-business-support-ai-agent-productivity-boost",
        "content": "셀리즈 ai에이전트. ‍. 3. ai 에이전트 도입 후 기대 효과. 업무 처리 속도 향상: ai 챗봇은 직원들의 반복적인 질문에 즉각 응답할 수 있어, 경영지원 부서의 업무 처리 속도를 크게 높일 수 있습니다. 이는 전체 조직의 효율성을 높이고 불필요한 지연을 방지합니다."
    },
    {
        "title": "경영정보시스템을 성공적으로 도입한 다양한 기업 사례",
        "url": "https://mkblog2.tistory.com/8",
        "content": "경영정보시스템 경영정보시스템을 성공적으로 도입한 다양한 기업 사례를 알아보도록 하겠습니다. 아마존은 온라인 쇼핑 업계에서 세계 최대의 기업으로, 고객 관계 관리 시스템을 효과적으로 활용하여 많은 성공 사례를 보여주고 있습니다. 미국항공우주공화국(NASA)은 기업이 아닌 공공기관이지만

## 정보 보강

In [34]:
from bs4 import BeautifulSoup
import requests
from langchain_core.messages import HumanMessage

def scrape_url(url):
    try:
        response = requests.get(url, timeout=5)

        # 자동 인코딩 설정 (euc-kr, cp949 등 대응)
        if response.encoding is None:
            response.encoding = response.apparent_encoding

        soup = BeautifulSoup(response.text, 'html.parser')
        texts = soup.stripped_strings
        content = ' '.join(texts)
        if len(content) > 4000:
            content = content[:4000]
        return content

    except Exception as e:
        return f"[ERROR] {str(e)}"

# 검색 결과 리스트 예시
# [{'title': ..., 'url': ..., 'content': ...}, ...]
def scrape_all_results(tavily_results):
    enriched_results = []
    for result in tavily_results:
        full_text = scrape_url(result['url'])
        enriched_results.append({
            "title": result["title"],
            "url": result["url"],
            "short_snippet": result.get("content", ""),
            "full_content": full_text
        })
    return enriched_results

In [35]:

def extract_company_names(enriched_results, llm):
    results = []
    
    for article in enriched_results:
        content = article.get("full_content", "")
        if not content.strip():
            continue  # 내용이 비어있다면 건너뜀

        content = content[:2000]  # 길이 제한

        prompt = f"""
        다음 기사 본문에서 등장하는 실제 회사명(기업명)만 리스트로 추출해줘.
        회사 이름이 명확히 언급된 경우만 포함하고, 브랜드/서비스명, 국가명, 기관명, 일반 명사는 제외해줘.

        기사 제목: {article.get("title")}
        기사 본문:
        {content}

        반드시 아래 JSON 형식으로만 응답해줘:
        {{
        "mentioned_companies": ["회사명1", "회사명2", ...]
        }}
        """

        messages = [{"role": "user", "content": prompt}]
        try:
            response = llm.invoke(messages)
            json_data = json.loads(response.content)
            results.append({
                "source_url": article["url"],
                "source_title": article["title"],
                "mentioned_companies": json_data.get("mentioned_companies", [])
            })
        except Exception as e:
            results.append({
                "source_url": article["url"],
                "source_title": article["title"],
                "mentioned_companies": [],
                "error": str(e)
            })

    return results


In [36]:
company_mentions = extract_company_names(enriched_results, llm)

import pandas as pd
df_mentions = pd.DataFrame(company_mentions)
df_mentions.to_csv("기업명_추출결과.csv", index=False)

In [37]:
# 중복 제거된 기업 리스트 만들기
all_company_names = set()

for row in company_mentions:
    for company in row.get("mentioned_companies", []):
        all_company_names.add(company.strip())

unique_companies = sorted(all_company_names)

print(f"총 추출된 고유 기업 수: {len(unique_companies)}")
print(unique_companies[:10])  # 상위 10개 미리보기

총 추출된 고유 기업 수: 18
['AWS', 'Azure', 'GCP', 'Jira', 'LS그룹', 'Mossland', 'PwC컨설팅', 'Salesforce', '더존비즈온', '데이터독']
