# Fastcampus
## 환경관리 툴
### 정의
소프트웨어 개발에서 특정 프로젝트의 종속성과 설정을 관리하는데 사용되는 도구  
프로젝트별로 격리된 개발 환경을 설정하고 유지하는데 중점을 두며, 이를 통해 다양한 프로젝트 간의 종속성 충돌을 방지하고 일관된 개발 환경을 보장

### 주요기능
1. 환경 격리 : 각 프로젝트에 대해 독립도니 개발 환경 제공
2. 종속성 관리: 종속성 목록을 통해 필요한 모든 팩키지를 쉽게 설치하고 업데이트할 수 있음
3. 환경 재현성: 동일한 환경 설정을 다른 시스템에서도 쉽게 재현 가능
4. 버전 호환성: 서로 다른 버전의 패키지 간의 호환성 문제를 해결 가능

### 환경관리 툴 종류
#### conda
1. 정의 
- 오픈 소스 패키지 관리 시스템 및 환경 관리 시스템
- Python 및 R과 같은 프로그래밍 언어를 위한 소프트웨어 패키지, 종속성 및 환경을 관리하는데 사용
2. 주요특징
- 언어 독립적: 주로 Python 프로젝트에 사용되지만, 다른 언어에도 사용할 수 있음
- 크로스 플랫폼 : Linux, Windows, macOS에서 작동
- 환경관리: 프로젝트별로 격리된 환경을 생성하여 서로 다른 종속성를 가진 여러 프로젝트를 동시에 관리할 수 있음
- 다양한 패키지: Anaconda Repository 혹은 Conda-Forge와 같은 채널을 통해 수천개의 패키지에 접근할 수 있음
3. 활용
- 패키지 설치 : 필요한 라이브러리 및 도구를 쉽게 설치할 수 있음
- 환경관리 : 프로젝트별로 별도의 가상환경을 만들어 종속성 충돌 문제를 방지할 수 있음
- 버전관리 : 특정 버전의 패키지륵ㄽ 설치하여 호환성 문제를 해결할 수 있음\
4. 장점
- 패키지 호환성 : 패키지간의 종속성을 관리하여 호환성 문제를 최소화
- 재현성 : 동일한 환경을 쉽게 재생성할 수 있어, 다른 시스템에서도 동일한 결과를 얻을 수 있음
- 효율성 : 필요한 도구와 라이브러리르 빠르게 설ㄹ치하고 관리할 수 있어 개발에 더 집중할 수 있음

#### Virtualenv
1. 정의
- Python의 가상환경을 생성하는 도구
- 각 환경은 독립적으로 관리되며, 서로 다른 프로젝트에 대해 서로 다른 python 및 패키지 세트를 사용할 수 있음
2. 주요특징
- 환경격리: 각 프로젝트에 대해 독립된 Python환경을 제공
- 간편한 사용: 명려어 한 줄로 새로운 환경을 생성하고 관리
- 패키지 관리: pip와 함께 사용하여 필요한 패키지를 설치

#### Pipenv
1. 정의
- Pip와 Virtualevn의 기능을 결합한 Python개발을 위한 도구
- Pipfile과 Pipfile.lock를 사용해 프로젝트 종속성 관리
2. 주요 특징
- 종속성관리: Pipfile을 통해 명확하고 일관된 종속성 관리를 제공
- 가상환경 통합: 자동으로 가상 환경을 생성하고 관리
- 보안강화: Pipfile.lock를 통해 종속성의 일관성과 보안을 강화

## Container
### 정의
1. 기본정의: 애플리케이션과 그 필요한 모든 것(코드, 런타임, 시스템 도구, 시스템 라이브러리 등)을 포함하는 표준화된 단위. 애플리케이션은 어떤 컴퓨팅 환경에서도 일관되게 실행될 수 있음
2. 작동원리: Container는 운영체제의 커널을 공유하며, 각 컨테이너는 서로 격리된 공간에서 실행. 이는 각 Containger가 자체 파일 시스템을 가지고 있는 가벼운 '가상환경'과 유사하다고 볼수 있음.
### Virtual Machine 차이
1. Containter와 Virtual Machine은 리소스 격리와 할당의 이점은 비슷하지만 Container가 하드웨어 대신 운영체제를 가상화 하기 때문에 기능이 다름. Container는 더 휴대가 쉽고 효율적
- Virtual machine: 전체 가상화를 통해 각 VM에는 전체 운영체제와 물리적 하드웨어 구조도 포함. 이는 추가적인 오버헤드를 발생시키며 리소스 사용이 많음
- Container: 컨테이너는 운영체제 수준의 가상화를 사용하여 훨씬 가볍고, 필요한 컴포넌트만 포함(하드웨어 구조는 가상화하지 않음)
### Container 특징
1. 독립된 실행 환경: 애플리케이션과 그 종속성을 담은 격리된 환경
2. 경량화 : 전체 Os를 가상화하지 않고 필요한 컴포넌트만 포함
3. 이미지 기반 : 애플리케이션 실행에 필요한 모든 파일을 포함하는 이미지 기반

### Container 주요 구성 요소
#### Image
1. Container Image는 애플리케이션과 그 실행에 필요한 모든 파일ㅇ르 포함한 불변의 템플릿
2. 예시 : Docker 이미지는 Dockerfile로 정의되며, 애플리케이션의 코드/라이브러리/종속성/'환경 설정 등을 포함
#### Registry
1. Container Image가 저장되고 공유되는 곳
2. Docker Hub, Google Container Registry 등이 있으며, 이곳에서 Image를 다운로드하거나 업로드 할 수 있음
#### Container Rungime
1. Container를 실행하기 위한 환경을 제공
2. Docker, rkt등이 있으며, 일를 통해 Container Image 실행

#### 필요성
1. 환경 일관성 제공: 개발, 테스트, 생산 환경에서 동일한 소프트웨어 환경을 유지할 수 있게 해줌. 이는 애플리케이션의 이식성을 증가시키고 환경에 따른 문제를 줄임.
2. 자원 효율성 증가: Container는 VM 보다 적은 리소스를 사용하여 더 많은 애플리케이션을 호스트할 수 있게 해줌. 이는 하드웨어 비용을 줄이고 자원 사용률을 최적화함.
3. 배포 및 확장 용이성: Container는 배호와 확장이 요이하며, 빠른 시작과 중단이 가능. 이는 CI/CD 파이프라인과 잘 통합되어 빠른 개발 및 배포를 가능하게 함.

#### 장점
1. 경량성 및 빠른 시작: 
- 운영체제 전체를 부팅할 필요가 없어서 빠르게 시작할 수 있음.
- Linux, Windows, Mac 등의 운영체제를 가리지 않고, 가상머신/물리적 서버/ 개발자 컴퓨터 등의 사실상 어느 환경에서나 구동가능
2. 일관된 환경
- 개발부터 운영까지 동일한 환경을 유지하여 '개발에서는 잘 되는데, 운영환경에서는 안된다'는 문제를 해결
3. 효율적인 자원사용
- Container는 운영체제의 커널을 공유하므로, 가상머신에 비해 더 적은 양의 메모리와 CPU를 사용
4. 격리와 분리
- 책임을 깔끔하게 분리. 개발자는 애플리케이션의 로직과 종속 항목에 집중하고. IT 운영팀은 배포 및 관리에 집중
- 다른 애플리케이션으로부터 논리적으로 격리된 OS 환경 제공

#### 단점
1. 보안 취약성
- VM 보다 격리 수준이 낮을 수 있으므로 보안 취약성이 있을 수 있음
2. 관리 복잡성
- 다수의 컨테이너를 효과적으로 관리하기 위해서는 복잡성이 증가 => Orchestration 도구 필요

### Container 활용 사례
#### 멀티 클라우드 및 하이브리드 클라우드 환경에서의 활용
1. 사례 : 다양한 클라우드 환경에서 머신러닝 모델을 운영하기 위한 Container 사용
2. 구체적 내용
- 문제상황: 다양한 클라우드 제공업체의 서비스를 사용하여 머신러닝 모델을 배포 및 관리하는 복잡성
- 해결방법 Docker와 같은 Container를 사용하여 여러 클라우드 환경에서의 일관된 운영 및 관리.
- 결과: 클라우드 제공업체에 관계없이 일관된 방식으로 머신러닝 모델을 배포 및 관리, 운영 비용 절감 및 확장성 향상
#### 대규모 머신러닝 파이프라인 최적화
1. 대규모 데이터 처리와 머신러닝 모델 학습을 위한 파이프라인에서 Container 사용
2. 구체적 내용
- 문제 상황: 복잡한 데이터 파이프라인과 다양한 머신러닝 모델이 다수의 서버와 환경에서 관리되어야 하는 상황.
- 해결방법: Docker 컨테이너를 사용하여 모든 데이터 파이프라인 구성요소와 머신러닝 모델을 표준화된 환경에 배치
- 결과: 개발자와 데이터 과학자들이 동일한 환경에서 작업 가능해지며, 모델 학습 및 배포과정이 효율적으로 운영됨.
#### 지속적 통합 및 배포(CI/CD)를 위한 활용
1. 사례: MLOps 프로세스의 일환으로 Ci/CD 파이프라인에 컨테이너 도입.
2. 구체적 내용
- 문제상황: 머신러닝 모델의 빠른 개발, 테스트, 배포가 필요한 상황
- 해결방법: Jenkins,Travis CI 와 같은 CI/CD 도구와 함께 Docker Container를 사용하여 코드의 빠른 테스트 및 배포 구현
- 결과: 머신러닝 모델의 개발에서 배포까지의 시간 단축과 프로세스 자동화

### MLOps에서 Container인프라
#### 중요성
1. 컨테이너는 MLOps의 핵심 구성요소로 자리잡음. 데이터 과학자와 엔지니어가 동일한 환경에서 작업할 수 있으며, 모델의 개발, 테스트 배포 과정을 효율적으로 만듦
2. 컨테이너는 머신러닝 파이프라인의 효율성을 증가시키며, 클라우드 환경에서의 확장성을 제공. 이는 MLOps의 유연성과 속도를 증가시키는데 기여
3. 켄터이너 기술은 계속해서 발전하고 있으며, MLOps의 미래에 큰 영향을 미침. 특히, 멀티 클라우드 및 하이브리드 클라우드 환경에서의 활용도가 증가할 것으로 예상

### Docker
1. 정의: 컨테이너화 기술을 사용하여 애플리케이션을 패키징하고 배포하는데 사용되는 오픈 소스 플랫폼. 이를 통해 애플리케이션을 쉽게 배포하고 실행할 수 있음.
2. 특징: 경량화된 컨테이너를 제공하며, 이는 독립적이고, 이식성이 뛰어나며, 환경에 구애받지 않는 방식으로 애플리케이션을 실행
#### 주요 구성요소
1. Image : 실행하는데 필요한 파일과 설정을 포함하는 템플릿
2. Container: Image를 기반으로 실행되는 실행 Instance
3. Daemon: Image와 Container를 관리하는 background service
4. Registry: 외부 Image 저장소, 다른 사람들이 공유한 이미지를 사용하거나 private하게 저장
5. Client: 사용자가 Docker Daemon과 상호작용하는 Interface
#### 네트워킹과 볼륨 관리
1. Container간 외부 네트워크와의 통신을 위한 다양한 네트워킹 옵션을 제공
2. 볼륨을 사용하여 데이터를 저장할 수 있음.
#### Compose
여러 Container를 정의하고 실행하기 위한 도구로 복잡한 애플리케이션을 간단하게 정의하고 관리할 수 있게 도와줌.

## Orchestarator
1. 정의: 다수의 Container를 조정하고 관리하는 시스템. 컨테이너의 배포, 스케일링 및 네트워킹을 자동화
2. 목적: 높은 가용서으 확장성 및 신뢰성을 가진 시스템을 구축. 애플리케이션의 복잡한 작업을 간소화
3. 종요성
- 복잡성 관리
- 자동화
- 확장성
- 고가용성 
4. 주요기능
- 자동배포 및 관리: 사용자가 정의한 설정에 따라 Container를 자동으로 배포, 실행
- 스케일링 및 로드 밸런싱 : 트래픽의 증가나 감소에 따라 자동으로 컨테이너 수를 조절
- 자동 복구 및 장애 대응 : 오류가 발생한 컨테이너를 자동으로 감지하고, 필요한 경우 복구 조치를 취함
- 서비스 발견 및 네트워킹 : 컨테이너 간의 통신 및 서비스 발견을 관리
- 업데이트 및 롤백 관리 : 애플리케이션 업데이트를 안전하게 관리하고, 필요한 경우 이전 버전으로 롤백

### 예시 및 MLOps에서의 활용
1. 대규모 머신러닝 파이프라인 관리
- 배경: 대형 기술 회사가 다양한 소스에서 수집된 대량의 데이터를 처리하고, 여러 머신러닝 모델을 효유ㅜㄹ적으로 트레이닝 하고 배포하기 위한 파이프라인을 구축할 필요성이 있음
- 결과: 모델 개발 시간 단축, 효율적인 리소스 관리 및 배포, 높은 가용성 및 확장성 달성
2. 실시간 데이터 처리 및 분석
- 배경: 금융 서비스 회사가 실시간으로 금융 시장 데이터를 분석하고, 이를 통해 트레이딩 결정을 지원하는 머신러닝 기반 시스템을 구축할 필요성
- 결과: 데이터 처리 지연 시간 감소, 높은 처리량 및 시스템의 안정적인 운영을 달성
3. 다양한 머신러닝 모델의 동시 트레이닝 및 배포
- 배경 E-Ccommerce 플랫폼이 사용자의 해동을 기반으로 개인화된 추천을 제공하기 위해 여러 머신러닝 모델을 개발 및 유지보수 필요
- 결과: 높은 확장성과 유연성을 가진 모델 트레이닝 및 배포 환경 구축
4. 대규모 분산 모델 트레이닝
- 배경: 의료 연구 기관이 복잡한 의료 이미지를 분석하는데 사용되는 딥러닝 모델을 대규모 데이터셋에서 트레이닝 필요 
- 결과: 높은 성능의 모델 트레이닝, 리소스 활용 최적화 및 시간 단축 달성

### MLOps에서의 중요성
1. 복잡한 워크플로우 관리
2. 고가용성 및 복구 메커니즘
3. CI/CD

### 주요 기능
### Appendix : YAML