# Series
- pandas에서 사용하는 1차원 배열
- index를 사용할 수 있습니다.

In [4]:
import pandas as pd
import numpy as np

In [5]:
arr = np.arange(100, 110)
print(arr)

[100 101 102 103 104 105 106 107 108 109]


In [6]:
s = pd.Series(arr)
# Series는 데이터가 위에서부터 아래로 쌓임
# 정수는 기본적으로 int64
print(s)

0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int64


In [7]:
s = pd.Series(arr, dtype='float32')
print(s)

0    100.0
1    101.0
2    102.0
3    103.0
4    104.0
5    105.0
6    106.0
7    107.0
8    108.0
9    109.0
dtype: float32


In [8]:
s = pd.Series(['kim', 'lee', 'park'])
print(s)
# dtype = object (pandas 내부에서는 스트링을 object라고 함)

0     kim
1     lee
2    park
dtype: object


In [9]:
s = pd.Series([1, 2, 3, '1', '2', 'hello'])
print(s)
# 이 전체의 타입은? = 포괄적인 답변을 해줌

0        1
1        2
2        3
3        1
4        2
5    hello
dtype: object


In [10]:
s[5]
# s[-1]

'hello'

In [11]:
s.index
# 인덱스의 시작점과 끝점, 어떤 간격으로 인덱스가 되어있는지 알려줌

RangeIndex(start=0, stop=6, step=1)

In [12]:
# 데이터 프레임에서 인덱스(칼럼)를 지정할 수 있음
pd.Series(['kim', 'lee', 'park'], index=['a', 'b', 'c'])

a     kim
b     lee
c    park
dtype: object

In [13]:
names = pd.Series(['kim', 'lee', 'park'], index=['a', 'b', 'c'])

In [14]:
names[0]
# 내가 인덱스를 지정했다면 지정한 인덱스로 값을 불러오는 것이 좋음
# (오류남, .iloc를 통해서 숫자 인덱싱 오류없이 출력 가능)

  names[0]


'kim'

In [15]:
names.iloc[0]

'kim'

In [16]:
names['a']

'kim'

In [17]:
names.index

Index(['a', 'b', 'c'], dtype='object')

In [18]:
names.values

array(['kim', 'lee', 'park'], dtype=object)

In [19]:
names.ndim  # 차원 정보

1

In [20]:
names.shape 

(3,)

# NaN(Not a Number)

In [21]:
s = pd.Series([1, 2, 3, np.nan])
print(s)

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64


# fancy indexing
- 특정값만 뽑아 슬라이싱 원할 경우

In [22]:
f = ['banana', 'apple', 'grape', np.nan]
s = pd.Series(f, index=list('abcd'))
# s = pd.Series(f, index=['a', 'b'...])
print(s)

a    banana
b     apple
c     grape
d       NaN
dtype: object


In [23]:
s['a']

'banana'

In [73]:
s[['d', 'a']]
# 인덱싱하려는 곳에 리스트를 넣어주기

d       NaN
a    banana
dtype: object

In [24]:
s[[3, 1]]

  s[[3, 1]]


d      NaN
b    apple
dtype: object

In [25]:
s.iloc[[3, 1]]

d      NaN
b    apple
dtype: object

## bool indexing

In [26]:
s

a    banana
b     apple
c     grape
d       NaN
dtype: object

In [27]:
s[[True, False, True, False]]

a    banana
c     grape
dtype: object

In [28]:
s == 'banana'

a     True
b    False
c    False
d    False
dtype: bool

In [31]:
s[s == 'banana']
# 컨디션(조건)을 따로 만들고 컨디션에 따라 필터링을 해야할 때

Series([], dtype: int64)

In [32]:
s = pd.Series([1, 2, 3, 4, 5, 6])

In [33]:
s > 3

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool

In [34]:
s[s > 3] # True인 값만 출력, 값의 앞에서부터 뽑혀나옴(정렬X)

3    4
4    5
5    6
dtype: int64

## 결측치(NaN) 처리

In [93]:
# 결측치가 포함되어 있는 자료 만들기
s = pd.Series([1, 3, np.nan, 10, 11, np.nan])
print(s)

0     1.0
1     3.0
2     NaN
3    10.0
4    11.0
5     NaN
dtype: float64


In [96]:
s.isnull()
# 내가 가지고 있는 리스트 중 nan값이 있나용

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

In [101]:
s.isna()
# = isnull과 같음

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

In [99]:
s[s.isnull()] # null값만 뽑기

2   NaN
5   NaN
dtype: float64

In [98]:
s[s.notnull()] # null값이 아닌 값만 뽑기

0     1.0
1     3.0
3    10.0
4    11.0
dtype: float64

In [105]:
s[s.notna()]
# s.notnull과 같음

0     1.0
1     3.0
3    10.0
4    11.0
dtype: float64

# slicing

In [111]:
s[1:3] # 슬라이싱

1    3.0
2    NaN
dtype: float64

In [38]:
s = pd.Series([1, 2, 3], index=list(('abc')))
s[1:2]
s['a':'b']

a    1
b    2
dtype: int64

# DataFrame
- 2차원 데이터 구조 (excel, sheet와 유사)
- 행(row), 열(calumn)

In [120]:
d = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
d

# jupyter에서 판다스를 이용하는 경우 print를 써서 출력하는 것보다
# 바로 값을 출력하는 편이 인덱스에 음영처리 되어서 편리

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [130]:
d = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
], columns=['가', '나', '다'])
d

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [41]:
info = {
    'name': ['kim', 'lee', 'park'],
    'age': [10, 20, 30]
}

info_df = pd.DataFrame(info)

info_df

Unnamed: 0,name,age
0,kim,10
1,lee,20
2,park,30


In [40]:
info_df.index
# 인덱스 접근

RangeIndex(start=0, stop=3, step=1)

In [143]:
info_df.columns
# 칼럼 접근

Index(['name', 'age'], dtype='object')

In [142]:
info_df.values
# 데이터 접근

array([['kim', 10],
       ['lee', 20],
       ['park', 30]], dtype=object)

In [146]:
info_df.dtypes

name    object
age      int64
dtype: object

In [149]:
info_df.T  # 대칭...

Unnamed: 0,0,1,2
name,kim,lee,park
age,10,20,30


## index 지정

In [150]:
info_df

Unnamed: 0,name,age
0,kim,10
1,lee,20
2,park,30


In [152]:
info_df.index

RangeIndex(start=0, stop=3, step=1)

In [155]:
info_df.index = list('abc')
# 내가 원하는 인덱스로 변경하기

In [154]:
info_df

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


## column 다루기

In [161]:
info_df.columns

Index(['name', 'age'], dtype='object')

In [164]:
info_df['name']

a     kim
b     lee
c    park
Name: name, dtype: object

In [167]:
print(type(info_df['name']))
# 칼럼으로 뽑아온 한 줄의 정보를 = 시리즈라고 부르기로 함
# 시리즈들의 조합이 데이터프레임

<class 'pandas.core.series.Series'>


In [175]:
info_df[['age', 'name']]
# 대괄호 안에 대괄호로 원하는 컬럼들만 가지고 오기! = fancy indexing(원하는 컬럼만 뽑아서 가져오기)

Unnamed: 0,age,name
a,10,kim
b,20,lee
c,30,park


In [177]:
info_df.rename(columns={'name': '이름'}) # 컬럼 인덱스 변경하기

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30


In [180]:
info_df
# 원본은 name으로 그대로 있음
# 저장하고 싶다면 info_df로 값 재할당해줘야 함

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


In [182]:
info_df = info_df.rename(columns={'name': '이름'})
info_df

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30


In [186]:
info_df.rename(columns={'이름': 'last_name'}, inplace=True)
info_df
# inplace 함수를 쓰면 강제로 원본 값을 변경해줌

Unnamed: 0,last_name,age
a,kim,10
b,lee,20
c,park,30
