# Series

- pandas에서 사용하는 1차원 배열
- index를 사용 할 수 있음
- 

In [2]:
import pandas as pd
import numpy as np

In [5]:
arr = np.arange(100, 110)
print(arr)

[100 101 102 103 104 105 106 107 108 109]


In [7]:
s = pd.Series(arr) # Series는 class
# 인덱스 접근을 하게 만들어줌


print(s)

0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int64


In [12]:
s = pd.Series(arr, dtype='int32')
print(s)

0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int32


In [14]:
s = pd.Series(['kim', 'lee', 'park'])
print(s)

0     kim
1     lee
2    park
dtype: object


In [18]:
s = pd.Series([1, 2, 3, '1', '2', 'hello'])
print(s)
# 여러가지 데이터를 섞으면 object로 바뀐다. 여기서 object는 글자를 의미함 전체를 섞으면 데이터 타입은 object지만 개별적인 1은 int로 출력

0        1
1        2
2        3
3        1
4        2
5    hello
dtype: object


In [20]:
s[5]

'hello'

In [23]:
s[-1] # series는 음수 인덱스는 적용되지 않음

KeyError: -1

In [25]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [31]:
names = pd.Series(['kim', 'lee', 'park'], index=['a', 'b', 'c']) # 인덱스가 숫자가 아니여도 됨 

In [38]:
# names[0] # 작동은 하지만 경고문이 뜸
names.iloc[0]

'kim'

In [35]:
names['a']

'kim'

In [37]:
names.index

Index(['a', 'b', 'c'], dtype='object')

In [40]:
names.values

array(['kim', 'lee', 'park'], dtype=object)

In [43]:
names.ndim # 몇차원인지

1

In [45]:
names.shape # 1차원이여서 총 데이터 개수만 보여줌

(3,)

## NaN(Not a Number)

In [49]:
s = pd.Series([1, 2, 3, np.nan]) # nan을 직접적으로 넣을려면 np.nan을 쓰면 됨
print(s)

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64


## fancy indexing

In [53]:
f = ['banana', 'apple', 'grape', np.nan]
s = pd.Series(f, index=list('abcd'))
print(s)

a    banana
b     apple
c     grape
d       NaN
dtype: object


In [56]:
s[['d', 'a']] # []안에 []해서 [[]] 특정한 값만 얻고싶을떄

d       NaN
a    banana
dtype: object

In [61]:
# s[[3, 1]]
s.iloc[[3, 1]]

d      NaN
b    apple
dtype: object

## bool indexing

In [64]:
s

a    banana
b     apple
c     grape
d       NaN
dtype: object

In [67]:
s[[True, False, True, False]] # True인 애들만 나옴

a    banana
c     grape
dtype: object

In [69]:
s == 'banana'

a     True
b    False
c    False
d    False
dtype: bool

In [72]:
s[s == 'banana']

a    banana
dtype: object

In [75]:
s = pd.Series([1, 2, 3, 4, 5, 6])
s[s > 3]

3    4
4    5
5    6
dtype: int64

## 결측치(NaN) 처리

In [79]:
s = pd.Series([1, 3, np.nan, 10, 11, np.nan])
print(s)

0     1.0
1     3.0
2     NaN
3    10.0
4    11.0
5     NaN
dtype: float64


In [82]:
s.isnull() # nan이 포함되면 True

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

In [84]:
s[s.isnull()]

2   NaN
5   NaN
dtype: float64

In [87]:
s[s.notnull()]

0     1.0
1     3.0
3    10.0
4    11.0
dtype: float64

In [89]:
s.isna() # s.isnull()과 똑같은 코드

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

In [93]:
s.notna() # s.notnull과 같은 코드

0     True
1     True
2    False
3     True
4     True
5    False
dtype: bool

## slicing

In [95]:
s

0     1.0
1     3.0
2     NaN
3    10.0
4    11.0
5     NaN
dtype: float64

In [97]:
s[1:3]

1    3.0
2    NaN
dtype: float64

In [100]:
s = pd.Series([1, 2, 3], index = list('abc'))
s[1:2]
s['a':'b'] # 글자로 된걸 indexing 할 떄는 a이상 b미만이 안됨 a에서 b까지로 됨

a    1
b    2
dtype: int64

# DataFrame
- 2차원 데이터 구조(excel, sheet와 유사)
- 행(row), 열(column) 구조

In [109]:
d = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
# print(d)
d # dataframe에서만 print하기보단 변수로 출력

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [112]:
d = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
], columns=['가', '나','다'])
d

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [119]:
# dict형태는 바로 데이터프레임으로 바꿀 수 있음
info = {
    'name': ['kim', 'lee', 'park'],
    'age': [10, 20 ,30]
    
}

In [120]:
pd.DataFrame(info)

Unnamed: 0,name,age
0,kim,10
1,lee,20
2,park,30


In [122]:
info_df = pd.DataFrame(info)

In [129]:
info_df.index # 위에 표를 기준으로 왼쪽이 인덱스

RangeIndex(start=0, stop=3, step=1)

In [128]:
info_df.columns # 위에 이름을 기준으로 name, age

Index(['name', 'age'], dtype='object')

In [131]:
info_df.dtypes

name    object
age      int64
dtype: object

In [133]:
info_df.T

Unnamed: 0,0,1,2
name,kim,lee,park
age,10,20,30


# index 지정

In [136]:
info_df

Unnamed: 0,name,age
0,kim,10
1,lee,20
2,park,30


In [138]:
info_df.index

RangeIndex(start=0, stop=3, step=1)

In [140]:
info_df.index = list('abc')

In [142]:
info_df

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


# column 다루기

In [147]:
info_df.columns

Index(['name', 'age'], dtype='object')

In [150]:
print(info_df['name'])
print(type(info_df['name'])) # 

a     kim
b     lee
c    park
Name: name, dtype: object
<class 'pandas.core.series.Series'>


In [154]:
info_df[          ['age', 'name']       ] # 내가 필요한 column만 고를 수 있음 column에 fancy indexing을 함

Unnamed: 0,age,name
a,10,kim
b,20,lee
c,30,park


In [156]:
info_df.rename(columns={'name': '이름'})

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30


In [160]:
info_df # 위에서 rename을 해서 name > 이름으로 바꿨는데 원본데이터는 그대로 남아있음 > 재할당을 해줘야함 info_df = info_df.rename 이런식으로

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


In [164]:
info_df.rename(columns = {'name': 'last_name'}, inplace = True)

In [167]:
info_df # 위에는 아예 원본까지 바꾸는 코드

Unnamed: 0,last_name,age
a,kim,10
b,lee,20
c,park,30
