모듈, 패키지, 라이브러리

이번 유닛에서는 파이썬의 모듈, 패키지, 라이브러리의 개념을 명확히 구분하고 이해합
니다.
각 개념의 관계와 차이점을 학습하고, 데이터 분석과 인공지능 분야에서 자주 사용되는
주요 라이브러리의 기본적인 사용법을 배웁니다.

모듈, 패키지, 라이브러리의 개념과 관계

파이썬에서 코드를 구조화하고 재사용하는 방법에는 여러 가지가 있습니다.
모듈, 패키지, 라이브러리는 이러한 방법들을 나타내는 용어입니다.

모듈(Module)


특징: 변수, 함수, 클래스 등을 포함할 수 있음
예시: math , random

패키지(Package)


정의: 여러 모듈을 묶어놓은 디렉토리
특징: 관련된 모듈들을 체계적으로 관리할 수 있음

라이브러리(Library)

정의: 특정 기능을 수행하기 위한 모듈과 패키지의 모음
특징: 보통 여러 패키지로 구성되며, 큰 규모의 기능을 제공
주의: 패키지와 라이브러리는 종종 혼용되어 사용됨

관계


여러 모듈이 모여 하나의 패키지를 형성할 수 있습니다.
하나 또는 여러 개의 패키지가 모여 라이브러리를 구성할 수 있습니다.
큰 규모의 라이브러리는 여러 패키지로 구성되지만, 작은 규모의 경우 하나의 패키
지로 이루어질 수 있습니다.


예

NumPy , Pandas , Matplotlib 은 모두 파이썬 라이브러리입니다.
이들은 각각 여러 모듈로 구성된 패키지 구조를 가지고 있습니다.
따라서 이들을 패키지라고 부르기도 하고 라이브러리라고 부르기도 합니다.

주요 라이브러리 소개


파이썬에는 데이터 분석과 인공지능 분야에서 널리 사용되는 몇 가지 핵심 라이브러리가
있습니다.
이들 라이브러리는 복잡한 작업을 간단하게 수행할 수 있게 해주며, 효율적인 데이터 처
리와 분석을 가능하게 합니다.


라이브러리 설치 및 Google Colab에서의 사용

Google Colab은 이미 대부분의 데이터 과학 라이브러리가 설치되어 있는 환경을 제
공합니다.
따라서 NumPy , Pandas , Matplotlib 등은 별도의 설치 없이 바로 사용할 수 있
습니다.
만약 Colab에 설치되어 있지 않은 라이브러리를 사용해야 한다면, 노트북 셀에서 다
음과 같이 설치할 수 있습니다:

!pip install 라이브러리이름

NumPy
수치 계산을 위한 라이브러리
Colab에서 NumPy 라이브러리를 사용하려면 다음과 같이 import 문만 작성하면
됩니다.


import numpy as np

In [None]:
import numpy as np

In [None]:
arr = np.array([1, 2, 3, 4, 5]) # 배열 생성
arr

In [None]:
np.mean(arr) # 배열의 평균

In [None]:
np.sum(arr) # 배열의 합계

In [None]:
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # 2차원 배열(행렬) 생성
matrix

Pandas
데이터 분석을 위한 라이브러리
Colab에서 Pandas 라이브러리를 사용하려면 다음과 같이 import 문만 작성하면
됩니다.

In [None]:
import pandas as pd


In [None]:
data = {
'이름': ['Alice', 'Bob', 'Charlie'],
'나이': [25, 30, 35],
'도시': ['서울', '부산', '인천']
}
df = pd.DataFrame(data) # 데이터프레임 생성
df

In [None]:
ages = df['나이'] # 특정 열 선택
ages

In [None]:
young_people = df[df['나이'] < 30] # 조건에 맞는 데이터 선택
young_people

Matplotlib
데이터 시각화를 위한 라이브러리
Colab에서 Matplotlib 라이브러리를 사용하려면 다음과 같이 import 문만 작
성하면 됩니다

import matplotlib.pyplot as plt

In [None]:
import matplotlib.pyplot as plt

In [None]:
# 간단한 막대 그래프
categories = ['A', 'B', 'C', 'D']
values = [3, 7, 2, 5]
plt.bar(categories, values)
plt.title('Bar Plot')
plt.xlabel('Categories')
plt.ylabel('Values')
plt.show()

데이터 분석과 인공지능에서의 활용

모듈과 패키지, 라이브러리는 데이터 분석과 인공지능 분야에서 다양하게 활용됩니다.
math 와 random 은 기본적인 수학 연산과 난수 생성에 사용되며, NumPy , Pandas ,
Matplotlib 은 대규모 데이터 처리, 분석, 시각화에 필수적입니다.
이러한 도구들은 데이터 전처리, 통계 분석, 머신러닝 모델 구축 등 다양한 작업에서 중요
한 역할을 합니다.

예) 학생 성적 데이터 분

이 예제는 pandas 를 사용하여 학생들의 성적 데이터를 관리하고 분석합니다.
학생별/과목별로 matplotlib 를 사용하여 이를 시각화합니다.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# 학생 성적 데이터 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Math': [85, 76, 92, 88, 95],
    'Science': [92, 88, 95, 80, 85],
    'Literature': [78, 92, 86, 85, 91]
}


In [None]:
df = pd.DataFrame(data) # DataFrame 생성
df

In [None]:
# 막대 그래프로 학생별/과목별 점수 표시
df.plot(kind = 'bar') # pandas의 DataFrame을 사용한 그래프 그리기
plt.title('Scores of Students')
plt.xlabel('Students')
plt.ylabel('Scores')
plt.ylim(0, 100)
plt.show()