# Pandas

- 데이터 처리 및 분석을 위한 라이브러리
- 대용량 데이터를 안정적이면서도 간편하게 처리
- 서로 다른 데이터타입으로 열을 구성할 수 있음 <br>
(참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한
- 주요 기능
    - 데이터 입출력 : csv, excel, RDB, JSON 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용
    - 데이터 가공 : 분리, 결합, 계층, 피봇 등
    - 통계 분석 처리

## 자료형
- Series <br>
    - 1차원 배열과 유사한 자료형
    - 색인(index) : 행 번호
        - 각각의 데이터에 부여하는 속성으로 기본값은 0부터 1씩 증가하는 숫자 지정
        - index 파라미터를 통해 새로운 값으로 변경 가능
        - 리스트, 튜플 타입으로 새로운 값을 전달해야하며 다차원 자료형은 사용할 수 없음
        - 전달하는 색인의 개수와 데이터의 개수가 일치해야 함
    - 각각의 색인과 데이터가 매핑되어 있으므로 dictionary 자료형과 유사
    - 여러 가지 데이터 타입 사용 가능

<img src="img/series_example.png" width="250" align="center">

In [7]:
import pandas as pd
pd.__version__

'1.4.2'

## Series 생성
- 하나의 값(숫자, 문자) 또는 자료형(리스트, 튜플, np 배열)으로 데이터 전달

### Series 속성
- 속성은 소괄호를 붙이지 않음
- index : series 객체의 인덱스 배열을 반환
- values : series 객체의 데이터(값) 배열을 반환
- name : series 객체의 이름을 반환
- dtype : series 객체의 데이터 타입을 반환
- size : series 객체의 데이터 개수(길이)를 반환
- shape : series 객체의 구조(행, 열, 차원)를 반환

In [10]:
# Series 생성
# 왼쪽 0 : 자동으로 생성되는 인덱스(0부터 시작)
# 오른쪽 : 데이터

s1 = pd.Series(10)
s1

0    10
dtype: int64

판다스 개발자가 쓴 책: 판다스 라이브러리를 활용한 데이터 분석
온라인 공개: https://wesmckinney.com/book/

In [12]:
# 인덱싱과 슬라이실 활용
s1[0]

10

In [13]:
# 데이터 내부에 저장된 값 확인
s1.values

array([10])

In [14]:
# 인덱스 번호 확인
# RangeIndex : 기본적으로 생성되는 인덱스를 사용하는 경우 부여

s1.index

RangeIndex(start=0, stop=1, step=1)

In [15]:
# 리스트 자료형 입력
s3 = pd.Series([10,20,30])
s3

0    10
1    20
2    30
dtype: int64

In [16]:
s3.index, s3.values

(RangeIndex(start=0, stop=3, step=1), array([10, 20, 30]))

In [17]:
# 데이터 타입이 서로 다른 리스트 자료형 입력 시
s4 = pd.Series([10.3, 'test', 200, [1,2,3]])
s4

0         10.3
1         test
2          200
3    [1, 2, 3]
dtype: object

In [18]:
# 딕셔너리 입력(자동으로 라벨 부여, key -> index, value -> data)

s5 = pd.Series({'a': 10, 'b':20, 'c':30})
s5

a    10
b    20
c    30
dtype: int64

In [19]:
s5.index

Index(['a', 'b', 'c'], dtype='object')

In [21]:
# 숫자 인덱스로 사용 가능
s5[0], s5['a']

(10, 10)