# pandas 모듈: 데이터구조 Series

## Python: 데이터 분석을 위한 기본 모듈
- pandas: dataframe 구조 생성 및 조작
- matplotlib: 시각화
- scipy: 과학 및 공학 연산 -> 통계 분석
- numpy: 다차원 행렬 구조 생성 및 연산

In [None]:
#!pip install pandas numpy matplotlib scipy




[notice] A new release of pip is available: 24.0 -> 25.2
[notice] To update, run: C:\Users\yunji\AppData\Local\Programs\Python\Python311\python.exe -m pip install --upgrade pip


## 1차원 데이터 구조 Series: 기본 특성
values 층위는 numpy.ndarray로 구성되어 있다.<br>
index 층위는 RangeIndex로 구성되어 있다.<br>
series = numpy.ndarray + RangeIndex

In [1]:
import pandas as pd
S = pd.Series([11, 28, 72, 3, 5, 8])
S

0    11
1    28
2    72
3     3
4     5
5     8
dtype: int64

In [2]:
type(S)

pandas.core.series.Series

In [3]:
S.values

array([11, 28, 72,  3,  5,  8])

In [4]:
type(S.values)

numpy.ndarray

In [5]:
S.index

RangeIndex(start=0, stop=6, step=1)

In [6]:
type(S.index)

pandas.core.indexes.range.RangeIndex

각 series는 dtype이 있다.<br>
dtype은 통계적(척도) 타입을 의미한다.<br>
척도(명목, 서열, 구간, 비율)를 대신하는 느낌으로 dtype

하나의 series는 하나의 dtype만 가진다.<br>
(list가 여러 타입을 가질 수 있던 것과 비교해보자)

In [7]:
pd.Series((11.5, 28))

0    11.5
1    28.0
dtype: float64

In [8]:
pd.Series((True, 10))

0    True
1      10
dtype: object

In [9]:
pd.Series(('ab', 20))

0    ab
1    20
dtype: object

## 숫자 인덱싱, 슬라이싱

- 인덱싱은 데이터 값만 가져온다.
- 슬라이싱은 데이터의 차원이 바꾸지 못한다.

In [10]:
a = pd.Series([11, 28, 72], index=range(1, 6, 2))
a

1    11
3    28
5    72
dtype: int64

In [11]:
a.index

RangeIndex(start=1, stop=6, step=2)

In [12]:
a[1]

np.int64(11)

In [13]:
# a[0]
# 오류가 뜬다! 지금 인덱스가 1, 3, 5라서

In [14]:
a[0:1]

1    11
dtype: int64

In [15]:
a[1:3]

3    28
5    72
dtype: int64

## missing data
NaN: 결측치, not a data<br>
NaN이 하나라도 포함되면 dtype이 모두 **float64**로 바뀐다.<br>
int64도 float64가 되어 소수점 표기로 뜬다.

In [16]:
a

1    11
3    28
5    72
dtype: int64

In [17]:
a[3]

np.int64(28)

In [18]:
type(a[3])

numpy.int64

In [19]:
a[1] = None; a

1     NaN
3    28.0
5    72.0
dtype: float64

In [20]:
a[1]

np.float64(nan)

In [21]:
type(a[1])

numpy.float64

series에서 데이터를 바꿀 땐, 무조건 바꾸려는 데이터의 개수가 동일해야 한다.

In [22]:
import numpy as np
a[1:3] = [10, np.nan]; a

1     NaN
3    10.0
5     NaN
dtype: float64

In [23]:
a[2:3]

5   NaN
dtype: float64

In [24]:
a[5]

np.float64(nan)

In [25]:
type(a[5])

numpy.float64

**np.nan**과 **None**은 다른 자료형이다.

In [26]:
print(type(np.nan))
print(type(None))

<class 'float'>
<class 'NoneType'>


In [27]:
# a.astype('int')
# IntCastingNaNError가 뜬다. NaN이 존재하기 때문에 타입을 전환할 수 없음.

In [28]:
a.fillna(0)

1     0.0
3    10.0
5     0.0
dtype: float64

In [29]:
a.fillna(0).astype('int')

1     0
3    10
5     0
dtype: int64

In [30]:
a

1     NaN
3    10.0
5     NaN
dtype: float64

## 문자열 인덱싱, 슬라이싱

In [None]:
b = pd.Series([11, 28, 72, 1], index=list('abca')); b

a    11
b    28
c    72
a     1
dtype: int64

FutureWarning은 향후 버전에서 정수 인덱싱을 사용할 수 없게 만들 거라는 것이다.

In [32]:
b[0]

  b[0]


np.int64(11)

In [33]:
b['b'] # 차원이 없는 개별 값을 출력한다.

np.int64(28)

In [34]:
b['b':'c'] # 두 개의 범위가 둘 다 출력된다.

b    28
c    72
dtype: int64

인덱스가 같은 게 여러 개 있을 땐 시리즈로 출력되는데, 이건 인덱싱인지 슬라이싱인지?


In [36]:
b.index

Index(['a', 'b', 'c', 'a'], dtype='object')

In [37]:
b.values

array([11, 28, 72,  1])

## 인덱스 자격

In [39]:
b = pd.Series([11, 28, 72], index=list('abc')); b

a    11
b    28
c    72
dtype: int64

In [41]:
b.index = range(3); b

0    11
1    28
2    72
dtype: int64

In [42]:
b.index = [('a',), ('b',), ('c',)]; b

(a,)    11
(b,)    28
(c,)    72
dtype: int64

In [44]:
# b.index = [['a'], ['b'], ['c']]; b

## Fancy indexing

In [46]:
c = pd.Series([11, 28, 72], index=['a', 'b', 'b']); c

a    11
b    28
b    72
dtype: int64

In [47]:
c['b']

b    28
b    72
dtype: int64

In [None]:
c['b'] = 3; c # 모두 바뀐다.

a    11
b     3
b     3
dtype: int64

In [50]:
c[['b', 'a']]

b     3
b     3
a    11
dtype: int64

In [51]:
c[['b', 'a', 'b']]

b     3
b     3
a    11
b     3
b     3
dtype: int64

## Series: 연산

In [55]:
a = pd.Series([3, 10, np.nan], index=np.arange(1, 6, 2)); a

1     3.0
3    10.0
5     NaN
dtype: float64

In [56]:
1 in a

True

In [57]:
a.values

array([ 3., 10., nan])

In [60]:
10 in a.values

True

In [61]:
np.nan in a.values

False

In [62]:
a.isnull()

1    False
3    False
5     True
dtype: bool

In [63]:
a

1     3.0
3    10.0
5     NaN
dtype: float64

In [64]:
a + 10

1    13.0
3    20.0
5     NaN
dtype: float64

In [65]:
a + [1,2,3]

1     4.0
3    12.0
5     NaN
dtype: float64

In [66]:
a + a

1     6.0
3    20.0
5     NaN
dtype: float64

In [68]:
# a + [1, 2]

In [69]:
0 < a

1     True
3     True
5    False
dtype: bool

In [70]:
a[0 < a]

1     3.0
3    10.0
dtype: float64

In [72]:
a[(0 < a) | (a < 10)]

1     3.0
3    10.0
dtype: float64

In [73]:
a[(0 < a) & (a < 10)]

1    3.0
dtype: float64