## Series
- pandas에서 사용하는 1차원 배열
- index 사용 가능

In [1]:
import pandas as pd
import numpy as np

In [5]:
arr = np.arange(100, 110)
print(arr)

[100 101 102 103 104 105 106 107 108 109]


In [7]:
s = pd.Series(arr) # S 대문자 -> Class라는 의미
print(s) # 위에서 아래로 데이터가 쌓임 / 왼쪽에 데이터의 인덱스가 적혀있음

0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int64


In [8]:
s = pd.Series(arr, dtype='int32')
print(s)

0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int32


In [9]:
s = pd.Series(arr, dtype='float32')
print(s)

0    100.0
1    101.0
2    102.0
3    103.0
4    104.0
5    105.0
6    106.0
7    107.0
8    108.0
9    109.0
dtype: float32


In [10]:
s = pd.Series(['kim', 'lee', 'park'])
print(s)

0     kim
1     lee
2    park
dtype: object


In [11]:
s = pd.Series([1, 2, 3, '1', '2', 'hello'])
print(s)
# 여러 데이터 타입 작성하면 object로 형변환됨

0        1
1        2
2        3
3        1
4        2
5    hello
dtype: object


In [12]:
s[5]

'hello'

In [13]:
s[-1] # Series는 음수 인덱싱 적용 불가능

KeyError: -1

In [15]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [19]:
names = pd.Series(['kim', 'lee', 'park'], index=['a', 'b', 'c'])

In [20]:
names[0]

  names[0]


'kim'

In [21]:
names['a']

'kim'

In [22]:
names.index

Index(['a', 'b', 'c'], dtype='object')

In [23]:
names.iloc[0]

'kim'

In [25]:
names.ndim #차원

1

In [27]:
names.shape

(3,)

### NaN (Not a Number)

In [29]:
s = pd.Series([1, 2, 3, np.nan])
print(s)

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64


### fancy indexing

In [32]:
f = ['banana', 'apple', 'grape', np.nan]
s = pd.Series(f, index=list('abcd'))
print(s)


a    banana
b     apple
c     grape
d       NaN
dtype: object


In [34]:
s['a']

'banana'

In [35]:
s[['d', 'a']] # 인덱싱하려는 것을 리스트 안에 넣어줌

d       NaN
a    banana
dtype: object

In [36]:
s.iloc[[3, 1]]

d      NaN
b    apple
dtype: object

In [38]:
s[[True, False, True, False]]

a    banana
c     grape
dtype: object

In [41]:
s = pd.Series([1, 2, 3, 4, 5, 6])
s[s > 3] # True만 나오는 값만 골라줌

3    4
4    5
5    6
dtype: int64

### 결측치(NaN) 처리

In [49]:
s = pd.Series([1, 3, np.nan, 10, 11, np.nan])
print(s)

s.isnull()
s.isna()


s[s.isnull()]
s[s.isna()]

# null 값을 빼고 가져오고 싶다면?
s[s.notnull()]
s[s.notna()]

0     1.0
1     3.0
2     NaN
3    10.0
4    11.0
5     NaN
dtype: float64


0     1.0
1     3.0
3    10.0
4    11.0
dtype: float64

### slicing

In [50]:
s[1:3]

1    3.0
2    NaN
dtype: float64

In [51]:
s = pd.Series([1, 2, 3], index=list('abc'))
s[1:2]
s['a':'b'] # 숫자와 달리 글자일 경우 b 미만이 아니라 b도 포함됨 -> a부터 b까지

a    1
b    2
dtype: int64

## Dataframe
- 2차원 데이터 구조(excel, sheet와 유사)
- 행(row), 열(column) 구조


In [57]:
d = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
d

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [60]:
d = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
], columns=['가', '나', '다'])
d

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [62]:
info = {
    'name': ['kim', 'lee', 'park'],
    'age': [10, 20, 30]
}

In [64]:
pd.DataFrame(info)
# 알아서 column의 이름을 name이나 age의 키값으로 지정해 만들어줌

Unnamed: 0,name,age
0,kim,10
1,lee,20
2,park,30


In [66]:
info_df = pd.DataFrame(info)

In [67]:
info_df.index # 열과 행의 개수

RangeIndex(start=0, stop=3, step=1)

In [68]:
info_df.columns # 세로 열

Index(['name', 'age'], dtype='object')

In [69]:
info_df.values # 내부 실제 데이터에 접근

array([['kim', 10],
       ['lee', 20],
       ['park', 30]], dtype=object)

In [70]:
info_df.dtypes

name    object
age      int64
dtype: object

In [71]:
info_df.T

Unnamed: 0,0,1,2
name,kim,lee,park
age,10,20,30


In [72]:
info_df

Unnamed: 0,name,age
0,kim,10
1,lee,20
2,park,30


### index 지정

In [74]:
info_df.index

RangeIndex(start=0, stop=3, step=1)

In [77]:
info_df.index = list('abc')
info_df

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


### column 다루기

In [78]:
info_df.columns

Index(['name', 'age'], dtype='object')

In [81]:
print(info_df['name'])
print(type(info_df['name']))
# 하나의 column을 기준으로 다 가져오면 series

a     kim
b     lee
c    park
Name: name, dtype: object
<class 'pandas.core.series.Series'>


In [82]:
# fancy indexing해서 여러 개 column 가져온다면?
# 대괄호 안 대괄호

info_df[['age' ,'name']]


Unnamed: 0,age,name
a,10,kim
b,20,lee
c,30,park


In [83]:
info_df.rename(columns={'name': '이름'})

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30


In [84]:
info_df

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


In [85]:
info_df = info_df.rename(columns={'name': '이름'})
info_df

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30


In [86]:
# 혹은 옵션을 주는 방법

In [87]:
info_df.rename(columns={'이름': 'last_name'}, inplace=True)

In [88]:
info_df

Unnamed: 0,last_name,age
a,kim,10
b,lee,20
c,park,30
