#### * 데이터 분석을 한다고 하면 팬더스를 자유자재로 다룰 수 있어야함

### Pandas

- 데이터 처리 및 분석을 위한 라이브러리
- 대용량 데이터를 안정적이면서도 간편하게 처리
- 서로 다른 데이터타입으로 열을 구성할 수 있음 <br>
(참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한
- 주요 기능
    - 데이터 입출력 : csv, excel, RDB, JSON 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용
    - 데이터 가공 : 분리, 결합, 계층, 피봇 등
    - 통계 분석 처리

#### 자료형
- Series <br>

    - 1차원 배열과 유사한 자료형
    - 색인(index) : 행 번호
        - 각각의 데이터에 부여하는 속성으로 기본값은 0부터 1씩 증가하는 숫자 지정
        - index 파라미터를 통해 새로운 값으로 변경 가능
        - 리스트, 튜플 타입으로 새로운 값을 전달해야하며 다차원 자료형은 사용할 수 없음
        - 전달하는 색인의 개수와 데이터의 개수가 일치해야 함
    - 각각의 색인과 데이터가 매핑되어 있으므로 dictionary 자료형과 유사
    - 여러 가지 데이터 타입 사용 가능

<img src="img/series_example.png" width="250" align="center">

In [1]:
# pandas 라이브러리 및 Series, DataFrame 네임스페이스 불러오기
import pandas as pd

In [2]:
# Series 생성
pd.Series()

  pd.Series()


Series([], dtype: float64)

### Series 생성

- 하나의 값(숫자, 문자) 또는 자료형(리스트, 튜플, np 배열)으로 데이터 전달

### Series 속성

- 속성은 소괄호를 붙이지 않음
- index : series 객체의 인덱스 배열을 반환
- values : series 객체의 데이터(값) 배열을 반환
- name : series 객체의 이름을 반환 
- dtype : series 객체의 데이터 타입을 반환
- size : series 객체의 데이터 개수(길이)를 반환
- shape : series 객체의 구조(행, 열, 차원)를 반환

In [3]:
# 숫자 10을 데이터로 가지고 있는 Series
# 결과 해석
# 왼쪽 0 : 자동으로 생성되는 기본 인덱스번호(0번부터 시작)
# 오른쪽 10 : 입력한 데이터 값
s1 = pd.Series(10)
s1

0    10
dtype: int64

In [4]:
# 데이터 내부에 저장된 값 확인
s1.values

array([10], dtype=int64)

In [5]:
# 인덱스 번호 확인 
# RangeIndex : 기본적으로 부여되는 인덱스번호가 사용되고 있을때 지정되는 자료형
s1.index

RangeIndex(start=0, stop=1, step=1)

In [6]:
# 문자
s2 = pd.Series('abc')
s2

0    abc
dtype: object

In [7]:
# 인덱스 확인
s2.index

RangeIndex(start=0, stop=1, step=1)

In [8]:
# 리스트 자료형
s3 = pd.Series([10, 20, 30])
s3

0    10
1    20
2    30
dtype: int64

In [9]:
# 데이터타입이 서로 다른 리스트 자료형
s4 = pd.Series([10.3, 'test', 200, [1, 2, 3]])
s4

0         10.3
1         test
2          200
3    [1, 2, 3]
dtype: object

In [10]:
# 데이터 확인 
s4.values

array([10.3, 'test', 200, list([1, 2, 3])], dtype=object)

In [11]:
# 인덱스 확인 
s4.index

RangeIndex(start=0, stop=4, step=1)

In [14]:
# 튜플도 리스트처럼 1차원 자료로 주면 각각 내부자료를 풀어서 집어넣습니다.
s5 = pd.Series((1, 2, 3, 4, 5.0))
s5 # 정수, 정수,.., 실수 형태로 주면 실수로 통일해서 자료가 들어감

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [15]:
# 데이터 확인 
s5.values

array([1., 2., 3., 4., 5.])

In [16]:
# 인덱스 확인 
s5.index

RangeIndex(start=0, stop=5, step=1)

In [20]:
# 딕셔너리 자료형(자동으로 라벨 부여, key가 inde, value가 실제 데이터)
s6 = pd.Series({'a':10, 'b':20, 'c':30}) # 인덱스도 부여됐고 라벨도 부여된 상황임
s6['b']

20

In [21]:
# 인덱스 새롭게 지정하기
# 인덱스 속성(길이)를 참조하여 리스트, 튜플 타입으로 전달 
# 라벨 인덱스가 없던 경우 => 새롭게 라벨 인덱스 부여
# 라벨 인덱스가 있던 경우 => 기존에 있던 라벨 인덱스에 덮어씌우기
s5

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [22]:
# 인덱스를 새롭게 지정할때는 RangeIndex이 범위만큼 길이를 가지는 리스트를 대입해줍니다.
# 행 개수(데이터 개수)와 동일한 길이의 리스트를 전달해야 합니다.
s5.index = [2020, 2021, 2022, 2023, 2024]

In [24]:
s5 # 인덱스 번호가 바뀌어서 새롭게 주어지는 것을 볼 수 있음

2020    1.0
2021    2.0
2022    3.0
2023    4.0
2024    5.0
dtype: float64

In [25]:
# 인덱스를 지정하여 객체 생성
# 인덱스 객체에 대해서 아이템 참조는 가능
s5.index

Int64Index([2020, 2021, 2022, 2023, 2024], dtype='int64')

In [26]:
# 인덱스 객체 내부의 단일 라벨 인덱스만 하나 딱 잘라서 변경하는것은 불가능
s5.index[-1] = 2025

TypeError: Index does not support mutable operations

In [27]:
# 인덱스 라벨링 수정시 바꿀 부분만 변경한 전체 인덱스 자료를 대입해야합니다.
s5.index=[2020, 2021, 2022, 2023, 2025]
s5

2020    1.0
2021    2.0
2022    3.0
2023    4.0
2025    5.0
dtype: float64

In [30]:
# Series 함수의 index 파라미터를 이용해 생성과 동시에 인덱스 라벨 부여 가능
# pd.Series(data, index=[.....])
s7 = pd.Series([10, 20, 30, 40], index=['mon', 'tue', 'wed', 'thu'])
s7

mon    10
tue    20
wed    30
thu    40
dtype: int64

In [32]:
# 데이터 확인 
s7.values

array([10, 20, 30, 40], dtype=int64)

In [33]:
# 인덱스 확인 
s7.index

Index(['mon', 'tue', 'wed', 'thu'], dtype='object')

### dictionary 자료형과 유사한 Series 자료형

In [34]:
# dictionary 자료형으로 Series 생성
data = {'서울':100, '경기':200, '강원':300, '부산':400}
sample = pd.Series(data)
print(data)
print(sample)

{'서울': 100, '경기': 200, '강원': 300, '부산': 400}
서울    100
경기    200
강원    300
부산    400
dtype: int64


In [35]:
# Series 객체와 in 연산자
# dictionary와 유사 : in 연산자를 사용해 내부 요소 검사시
# key값에 해당하는 라벨을 이용해 해당 요소가 있는지 없는지 여부를 True, False로 출력
print('서울' in data)
print('서울' in sample)

True
True


In [36]:
# value에 해당하는 값들은 수행이 되지 않음
print(100 in data)
print(100 in sample)

False
False


In [37]:
# for문에서 in 연산자로 접근 : Series의 value값을 참조
for key in data:
    print(key)
print("-----------------------")
for index in sample.values:
    print(index)

서울
경기
강원
부산
-----------------------
100
200
300
400


In [38]:
# sample의 인덱스 : 서울, 경기, 강원, 부산 => 서울, 경기, 강원, 제주로 변경해주세요.
# 지정한 index 기준으로 Series 생성
# 사용하는 인덱스에 없는 값은 Series에 NaN으로 저장
# NaN : Not a Number(결측치) -> numpy에서 해당 위치에 값이 없음을 나타낼때 사용하는 자료
# None : 파이썬 기본자료형에서 null처럼 쓰이는 자료
sample.index = ['서울', '경기', '강원', '제주']

In [39]:
sample

서울    100
경기    200
강원    300
제주    400
dtype: int64