In [1]:
# Pandas
# 데이터 분석에 필수적인 패키지.
# 데이터 조작을 용이하게 하기 위해 다차원 배열에 인덱스를 지정한 자료구조를 정의 및 정렬, 변환, 삭제 등을 할 수 있는 method를 제공.

In [2]:
# Series와 DataFrame
# Series: 1차원 데이터 구조
# Dataframe: 2차원 데이터 구조

# NumPy와 Pandas의 차이점
# NumPy의 ndArray는 다차원 데이터를 효율적으로 제어할 수 있지만, 데이터 위치를 숫자 인덱스로만 접근해야 하므로 복잡한 형태의 데이터를 다루기에는 한계 존재.
# Pandas의 Series와 Dataframe은 각 자료구조에 의미 있는 이름 정의 가능.
# 그리고 인덱스 역시 원하는 값으로 지정할 수 있어 사람이 데이터를 이해 및 처리하는데 훨씬 수월.

In [3]:
# Dataframe
# Dataframe은 여러 개의 Series가 모여 있는 형태.
# 기본 구조는 '행(row)'과 '열(column)'임.

# 주요 특징
# 01. 각각의 row 및 column은 하나의 Series로 볼 수 있음.
# column의 경우 같은 형태의 데이터가 들어 있어 동일한 데이터 타입 유지.
# Dataframe 내의 모든 필드에는 값이 들어 있어야 함.
# 값이 비어있는 경우 데이터 분석 이전에 채우거나 삭제해야 함.

In [4]:
# Pandas 패키지 사용
# import pandas as pd를 제일 흔하게 사용. (naming convention)
# Series 생성 예제 코드
import pandas as pd

temp = pd.Series([23.5, 25.1, 19.8, 30.2],
                 index = ['월', '화', '수', '목'],
                 name = '온도')

print(temp)

월    23.5
화    25.1
수    19.8
목    30.2
Name: 온도, dtype: float64


In [5]:
# Dataframe 기본 예제 코드
weather_data = pd.DataFrame({'온도': [23.5, 25.1, 19.8, 30.2],
                             '습도': [60, 65, 70, 55],
                             '강수량': [0, 0, 5.2, 0]},
                             index =['월', '화', '수', '목'])

print(weather_data)

     온도  습도  강수량
월  23.5  60  0.0
화  25.1  65  0.0
수  19.8  70  5.2
목  30.2  55  0.0


In [8]:
# NumPy Array와 Dataframe 비교
# Numpy Array
import numpy as np

# NumPy의 array는 숫자 인덱스만 사용 가능함.
data_array = np.array([
    [23.5, 60, 0],
    [25.1, 65, 0],
    [19.8, 70, 5.2],
    [30.2, 55, 0]
])

# data 접근이 직관적이지 못함.
print(data_array[0][0])

# Dataframe
print(f"\n{weather_data.loc['월', '온도']}")
print(f"\n{weather_data['온도']}")
print(f"\n{weather_data.loc['수']}")

23.5

23.5

월    23.5
화    25.1
수    19.8
목    30.2
Name: 온도, dtype: float64

온도     19.8
습도     70.0
강수량     5.2
Name: 수, dtype: float64


In [9]:
# Dataframe의 특징
# 01. 컬럼명과 인덱스명을 사용해 데이터에 직관적으로 쉽게 접근할 수 있음.
# 02. 한 Dataframe 내에서 서로 다른 데이터 타입이 공존 가능.
# 03. 데이터 필터링, 그룹화, 집계, 결합 등 다양한 분석 기능 사용 가능.
# 04. 숫자뿐만 아니라 문자, 날짜 등 다양한 타입의 인덱스 사용 가능.
# 05. NaN 값을 자동으로 처리하는 다양한 method 제공.
# 06. CSV, Excel, DB 등 다양한 데이터 소스와 연동 가능.