#### pandas 라이브러리 : 파이썬에서 데이터 분석과 처리를 쉽게 처리할 수 있게 도와줌.
- pandas 는 numpy를 기반으로 만들어 졌지만 좀 더 복잡한 데이터 분석에 특화.
- numpy가 같은 데이터 타입의 배열만 처리할 수 있는데 반해 pandas 는 데이터 타입이 다양하게 섞여 있을 떄도 처리 가능.

> 공식 홈페이지 : https://pandas.pydata.org/

In [None]:
# 1. 구조적 데이터 생성하기

# 1) Series를 활용한 데이터 생성
import pandas as pd
# import numpy as np

- pandas 에서 데이터를 생성하는 가장 기본적인 방법은 Series() 를 이용하는 것임.
- Series() 를 이용하면 Series 형식의 구조적 데이터(라벨을 갖는 1차원 데이터)를 생성할 수 있음.
- 다음은 Series() 를 이용해 Series 형식의 데이터를 생성하는 방법.
- s = pd.Series(seq_data)
- Series() 의 인자로는 시퀀스 데이터가 들어감
- 시퀀스 데이터로는 리스트와 튜플 타입의 데이터를 모두 사용할 수 있지만 주로 리스트 데이터를 이용.

In [1]:
# 예시1
import pandas as pd

s1 = pd.Series([10, 20, 30, 40, 50])
print(s1)
#0    10
# 1    20
# 2    30
# 3    40
# 4    50
# dtype: int64


0    10
1    20
2    30
3    40
4    50
dtype: int64


In [4]:
s1 = pd.Series([10, 20, 30, 40, 50])
s1  #<-- 마지막에 print할려는 경우 생략하면 아래와 같이 출력이됨.
# 자동으로 인덱싱이 되는데 기본은 정수지만 다른 타입으로도 가능함

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [5]:
#열 단위로 출력.
# 자동으로 데이터에 라벨이 부여되고, 세로축 라벨을 index 라 하고, 입력한 시퀀스 데이터는 values 라고 부름.

# Series 데이터는 index와 value를 분리해서 가져 올 수 있음.
# Series 데이터를 s라고 할 때 index는 s.index 로, values 는 s.values 로 가져 올 수 있음.
s1.index  # index 만 가져오기


RangeIndex(start=0, stop=5, step=1)

In [7]:
s1.values  # values 만 가져오기

array([10, 20, 30, 40, 50], dtype=int64)

In [ ]:
# numpy의 경우 배열의 모든 원소가 데이터 타입이 같아야 했지만,
# pandas 의 경우에는 원소의 데이터 타입이 달라도 저장 가능.

In [9]:
s2 = pd.Series(['a', 'b', 'c', 1, 2, 3])  # 넘파이였다면 모두를 문자열로 저장
print(s2)  # 판다스는 서로 다른 타입으로 저장이 가능한데 이렇게 되는 이유가 object 타입으로 저장되기 떄문
# 변수 s2에는 문자열과 숫자가 혼합이 되어 있어서 타입이 object

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object


0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

파이썬에서 Pandas 라이브러리의 `Series` 객체는 다양한 데이터 타입의 요소를 포함할 수 있습니다. 이는 Pandas가 내부적으로 `object` 타입을 사용하여 다양한 데이터 타입의 요소를 저장하기 때문입니다. `object` 타입은 파이썬의 기본 객체를 가리키는 일반적인 타입으로, 문자열, 숫자, 또는 다른 파이썬 객체 등 어떤 파이썬 객체도 저장할 수 있습니다.

이와 달리, NumPy 배열은 동일한 데이터 타입의 요소만 저장할 수 있습니다. 만약 다른 데이터 타입의 요소를 NumPy 배열에 저장하려고 시도한다면, NumPy는 가능한 한 동일한 데이터 타입으로 요소들을 변환(캐스팅)하려고 시도합니다. 예를 들어, 정수와 문자열이 혼합된 배열을 생성하려고 하면, 모든 요소가 문자열 타입으로 변환되어 저장될 것입니다.

`pd.Series(['a', 'b', 'c', 1, 2, 3])` 예제에서는 문자열과 정수가 혼합되어 있지만, Pandas는 각 요소를 파이썬 객체로 처리하기 때문에 각 요소의 원래 데이터 타입을 보존합니다. 결과적으로, 이 `Series` 객체는 다양한 데이터 타입의 요소를 포함할 수 있으며, 각 요소는 원래의 데이터 타입(`str` 또는 `int`)을 유지합니다.

이러한 특성 덕분에 Pandas는 다양한 데이터 타입으로 구성된 복잡한 데이터 세트를 쉽게 처리할 수 있으며, 데이터 분석과 처리에 있어 매우 강력한 도구가 됩니다. 하지만, 모든 요소를 `object` 타입으로 처리하는 것은 성능상의 비용을 초래할 수 있기 때문에, 가능하다면 동일한 타입의 데이터를 사용하는 것이 좋습니다.

In [11]:
# 데이터가 없으면 numpy를 임포트 한 후에 np.npn으로 데이터가 없음을 표시 할 수 있음.

import numpy as np


In [18]:

s3 = pd.Series([np.nan, 10, 30])
print(s3)

0     NaN
1    10.0
2    30.0
dtype: float64


In [13]:
# 데이터를 위한 자리 index는 있지만 실제 값이 없음

# Series 데이터를 생성할 때 다음과 같이 인자로 index 추가 가능.
# s = pd.Series(seq_data, index = index_seq)
# 인자로 index 를 명시적으로 입력하면 Series 변수(s)의 index 에는 자동생성되는 index 대신 index_seq 가 들어가게 됨.
# index_seq 도 리스트와 튜플 타입의 데이터를 모두 사용가능하지만 주로 리스트를 사용.
# 주의할 점은 seq_data 의 항목 개수와 index_seq의 항목 개수가 같아야 함


In [19]:
# 어느 가게의 날짜별 판매량을 pandas 의 Series 형식으로 입력. 하루는 데이터가 없어서 np.npn 을 입력.
index_data = ['2018-10-07','2018-10-08','2018-10-09','2018-10-10']
s4 = pd.Series([200,195,np.nan,205] , index=index_data)
s4

2018-10-07    200.0
2018-10-08    195.0
2018-10-09      NaN
2018-10-10    205.0
dtype: float64

In [20]:
s4.index

Index(['2018-10-07', '2018-10-08', '2018-10-09', '2018-10-10'], dtype='object')

In [ ]:
# 파이썬의 딕셔너리를 사용하면 데이터와 index를 함께 입력할 수 있음.
# s = pd.Series(dict_data)
# 입력 인자로 딕셔너리 데이터를 입력하면 딕셔너리 데이터의 키 Key 와 값 value 이 각각
# Series 데이터의 index와 values 로 들어감.

In [21]:
s5 = pd.Series({'국어':100,'영어':95,'수학':90})
s5

국어    100
영어     95
수학     90
dtype: int64