# 판다스의 개념

- 판다스
  - 파이썬의 데이터 분석 라이브러리
  - 데이터 테이블(data table)을 다루는 도구
  - 기본적으로 넘파이를 사용
- 넘파이
  - 파이썬에서 배열을 다루는 최적의 라이브러리
- 판다스는 넘파이를 효율적으로 사용하기 위해 인덱싱, 연산, 전처리 등 다양한 함수 제공


- 데이터 프레임(DataFrame)
  - 데이터 테이블 전체 객체
- 시리즈
  - 각 열 데이터를 다루는 객체


# 시리즈 객체

- 시리즈 객체
  - 피쳐 벡터(feature vector)와 같은 개념
  - 일반적으로 하나의 피쳐 데이터를 포함하는 형태
  - 생성된 데이터프레임(DataFrame)안에 포함될 수 있음
  - list, dict, ndarray 등 다양한 데이터 타입이 시리즈 객체 형태로 변환되기도 함
- 시리즈 객체를 생성하면 세 가지 요소(property) 생성
  - 데이터(data)
    - 기존 다른 객체처럼 값을 저장하는 요소
  - 인덱스(index)
    - 항상 0부터 시작하고, 숫자로만 할당하는 값
    - 시리즈 객체에서는 숫자, 문자열, 0 외의 값으로 시작하는 숫자, 순서가 일정하지 않은 숫자를 입력할 수도 있음
    - 시리즈 객체에서는 인덱스 값의 중복을 허용
  - 데이터 타입(data type)
    - 넘파이의 데이터 타입과 일치
    - 판다스는 넘파이의 래퍼(wrapper) 라이브러리
    - 넘파이의 모든 기능 지원하고 데이터 타입도 그대로 적용


- 시리즈(Series) 객체는 넘파이 배열(ndarray)의 하위 클래스
- 넘파이가 지원하는 어떠한 데이터 타입도 지원
- 인덱스와 반드시 정렬되어 있을 필요는 없음
- 인덱스 값은 중복을 허용


In [1]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

In [2]:
list_data = [1, 2, 3, 4, 5]
list_name = ["a", "b", "c", "d", "e"]
example_obj = Series(data=list_data, index=list_name)
example_obj

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [3]:
example_obj.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

- 데이터 값을 보기 위해서는 values를 사용
- 실제 생성된 values는 넘파이 배열(numpy.ndarray) 타입
- dtype은 데이터 타입을 나타냄
- 넘파이의 데이터 타입과 동일


In [4]:
example_obj.values

array([1, 2, 3, 4, 5])

In [5]:
type(example_obj.values)

numpy.ndarray

In [6]:
example_obj.dtype

dtype('int64')

- 시리즈 객체는 객체의 이름을 변경할 수 있음
  - 열의 이름을 지정해주는 방식
  - 인덱스 이름도 추가로 지정 가능


In [7]:
example_obj.name = "number"
example_obj.index.name = "id"
example_obj

id
a    1
b    2
c    3
d    4
e    5
Name: number, dtype: int64

- 시리즈 객체 생성하기
  - 데이터프레임 객체를 먼저 생성하고 각 열에서 시리즈 객체를 뽑는 것이 일반적인 방법
  - 다양한 시퀀스형 데이터 타입으로 저장 가능


In [8]:
dict_data = {"a": 1, "b": 2, "c": 3, "d": 4, "e": 5}
example_obj = Series(dict_data, dtype=np.float32, name="example_data")
example_obj

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: example_data, dtype: float32

- 판다스의 모든 객체는 인덱스 값을 기준으로 생성
  - 기존 데이터에 인덱스 값을 추가하면 NaN 값이 출력됨


In [11]:
dict_data_1 = {"a": 1, "b": 2, "c": 3, "d": 4, "e": 5}
indexes = ["a", "b", "c", "d", "e", "f", "g", "h"]
series_obj_1 = Series(dict_data_1, index=indexes)
series_obj_1

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
f    NaN
g    NaN
h    NaN
dtype: float64