IT 분야로 전환한 비전공자로서, 대용량 데이터 파이프라인 설계와 분산 시스템 운영에 강점을 가진 데이터 엔지니어입니다.
🔹 Data Engineer
🔹 관심 분야
- 실시간 데이터 파이프라인 (Kafka, Apache Flink, Stream Processing)
- 대규모 데이터 처리 (BigQuery, Spark, ETL/ELT)
- 클라우드 데이터 인프라 (GCP, AWS, Data Warehouse 설계)
- 머신러닝 파이프라인 (Feature Engineering, BigQuery ML, Vertex AI AutoML)
SK Shieldus 부트캠프 최종 프로젝트 | 팀 3인 / 아키텍처 설계 · 인프라 · Kafka · Flink 담당 | 2025.03 ~ 2025.06
프랜차이즈 매장의 실시간 영수증 데이터를 수집, 처리, 분석하는 End-to-End 데이터 파이프라인
🔧 기술 스택
- Message Queue: Confluent Kafka (KRaft 모드, 11개 노드)
- Stream Processing: Apache Flink (3개 병렬 Job)
- Data Format: Avro + Schema Registry (JSON 대비 40% 압축)
- Backend: Spring Boot Producer, Kafka Connect
- Infrastructure: AWS EC2 (11개 인스턴스)
📊 주요 성과
- ✅ 22시간+ 무중단 안정 가동 (Exactly-Once 보장)
- ✅ 실시간 매출 모니터링 (초 단위 업데이트)
- ✅ 중복 결제 이상 거래 탐지 (CEP Pattern)
- ✅ TOP 3 매장 실시간 랭킹 (Sliding Window)
- ✅ 분산 환경 트러블슈팅 5건 직접 해결
📂 관련 레포지토리
- 🔹 purchase - Kafka Producer & 영수증 데이터 수집
- 🔹 sales_total_realtime - Flink 실시간 누적 매출
- 🔹 duplicate-payment-detector - Flink 중복 결제 탐지
- 🔹 franchise-top-store - Flink TOP 3 매장 랭킹
- 🔹 KFC-KafkaFriedCoders - 팀 프로젝트 원본
Google Cloud 실무 프로젝트 | 2025.12
YouTube Data API로 수집한 68,497개 영상 메타데이터 기반 조회수 예측 ML 파이프라인
🔧 기술 스택
- 데이터 수집: Python, YouTube Data API v3
- Data Warehouse: Google BigQuery
- 데이터 분석: SQL, BigQuery ML
- ML 모델: Vertex AI AutoML, Boosted Tree
- 배포: Vertex AI Endpoint (REST API)
📊 주요 성과
- ✅ R² 0.28 → 0.80 달성 (186% 향상)
- ✅ 원시 15개 컬럼 → 17개 Feature Engineering
- ✅ Data Leakage 직접 탐지 및 해결 (R² 0.95 → 0.74 → 0.80)
- ✅ Vertex AI Endpoint REST API 배포
💡 핵심 인사이트
- 채널 파워(45%) > 콘텐츠 특성(25%) > 제목 키워드(15%)
- 대형 채널(100만 구독) vs 소형 채널(1만 구독) 간 45배 조회수 차이
- 키워드 최적화는 소형 채널에서만 약 9% 효과
📧 Email: gkdlfn579@gmail.com
🔗 GitHub: @Yongmin222
- AWS Certified Cloud Practitioner (2026.01.28)

