# 판다스 자료구조
- 분석을 위해 수집하는 데이터는 형태나 속성이 매우 다양함
  - 서로 다른 형식을 갖는 여러 종류의 데이터를 컴퓨터가 이해할 수 있도록 동일한 형식을 갖는 구조로 통합할 필요가 있음 
- 판다스 데이터의 형식
  - 시리즈(Series)
    - 1차원 배열
  - 데이터프레임(DataFrame)
    - 2차원 배열

## 시리즈(Series)
- 데이터가 순차적으로 나열된 1차원 배열
- 각 인덱스(index)와 값(value)이 1:1 대응이 됨
  - 키와 값이 짝을 이루는 딕셔너리와 비슷한 구조
  - 시리즈에서 인덱스는 데이터 값의 위치를 나타내는 이름표 역할을 수행

## 데이터프레임(DataFrame)
- 행과 열로 이루어진 2차원 배열
  - 데이터프레임의 열은 각각 시리즈 객체
  - 여러 개의 시리즈들이 같은 행 인덱스를 기준으로 결합된 2차원 행렬

- 행과 열을 나타내기 위해 두 가지 종류의 주소를 사용
  - 행 인덱스
    - 개별 관측대상에 대한 다양한 속성 데이터들의 모음
      - 레코드(record)
  - 열 이름
    - 공통의 속성을 갖는 일련의 데이터
   


  - 예시) 주식 종목 데이터
    - 행 : 각 주식 종목에 대한 관측값
    - 열 : 회사 이름, 총 주식 수, 액면가 등등

### 시리즈 생성

In [1]:
# 라이브러리 로드
import pandas as pd

In [2]:
pd.__version__

'2.3.2'

In [3]:
# 딕셔너리 생성
dict_data = {"이름" : "이상해씨", "진화형" : "이상해풀", "타입" : "풀"}

In [4]:
# 딕셔너리를 판다스 시리즈로 변환
sr = pd.Series(dict_data)

In [5]:
print(type(sr))
print()
print(sr)

<class 'pandas.core.series.Series'>

이름     이상해씨
진화형    이상해풀
타입        풀
dtype: object


In [7]:
# 시리즈를 구성하는 데이터 값의 자료형 확인
sr.dtypes
# 'O' object

dtype('O')

In [8]:
# 시리즈의 인덱스 배열
sr.index

Index(['이름', '진화형', '타입'], dtype='object')

In [9]:
# 시리즈의 값 배열
sr.values

array(['이상해씨', '이상해풀', '풀'], dtype=object)

In [10]:
dict_data = {"a" : 1, "b" : 2, "c" : 3}

In [11]:
sr = pd.Series(dict_data)

In [12]:
print(type(sr))
print()
print(sr)

<class 'pandas.core.series.Series'>

a    1
b    2
c    3
dtype: int64


In [13]:
sr.dtypes

dtype('int64')

In [14]:
sr.index

Index(['a', 'b', 'c'], dtype='object')

In [15]:
sr.values

array([1, 2, 3])

- 파이썬 리스트를 시리즈로 변환
  - 리스트를 시리즈로 변환하면 인덱스로 변환될 값이 없음
    - 인덱스가 별도로 정의되지 않으면 정수형 위치 인덱스(0, 1, 2, ..)가 자동으로 저장

In [16]:
#리스트를 시리즈로 변환
list_data = ["이상해씨", "이상해풀", 45, True]

In [17]:
sr = pd.Series(list_data)

In [18]:
print(sr)

0    이상해씨
1    이상해풀
2      45
3    True
dtype: object


In [19]:
sr.index

RangeIndex(start=0, stop=4, step=1)

In [20]:
sr.values

array(['이상해씨', '이상해풀', 45, True], dtype=object)

In [21]:
sr.dtypes

dtype('O')

In [25]:
# 튜플을 시리즈로 변환
tup_data = ("이상해씨", "이상해풀", "풀", 45)

In [28]:
sr = pd.Series(tup_data, index = ["이름", "진화형", "타입", "체력"])

In [29]:
sr

이름     이상해씨
진화형    이상해풀
타입        풀
체력       45
dtype: object

### 원소 선택
- 인덱스를 이용하여 원소를 선택할 수 있음
  - 하나의 원소를 선택
  - 여러 원소를 한꺼번에 선택
  - 인덱스 범위를 지정하여 원소를 선택

- 정수형 위치 인덱스는 대괄호 안에 위치를 나타내는 숫자를 입력
- 인덱스 이름은 ""와 함께 입력


In [35]:
# 원소 1개 선택
print(sr.iloc[0])
print(sr.loc["이름"])
# sr.iloc 정수를 사용하여 위치를 선택
# sr.loc 문자열을 사용하여 위치를 선택

이상해씨
이상해씨


In [46]:
# 여러 원소 선택(인덱스 리스트 활용)
print(sr.iloc[[1,2]]) # 인덱스가 하나의 덩어리가 되야 때문에 [[ ]] 로 해야함
print(sr.loc[["진화형","타입"]])

진화형    이상해풀
타입        풀
dtype: object
진화형    이상해풀
타입        풀
dtype: object


In [44]:
# 여러 원소 선택(인덱스 범위 지정)
print(sr.iloc[1:2]) # 범위 지정은 [ ]
print()
print(sr.loc["진화형" : "타입"])

진화형    이상해풀
dtype: object

진화형    이상해풀
타입        풀
dtype: object
