# Seies
- pandas에서 사용하는 1차원 배열.
- index를 사용할 수 있습니다.

In [2]:
import pandas as pd
import numpy as np

In [6]:
arr = np.arange(100,110)
print(arr)

[100 101 102 103 104 105 106 107 108 109]


In [7]:
s = pd.Series(arr)
print(s)

0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int64


In [10]:
s = pd.Series(arr, dtype = 'float32')
print(s)

0    100.0
1    101.0
2    102.0
3    103.0
4    104.0
5    105.0
6    106.0
7    107.0
8    108.0
9    109.0
dtype: float32


In [14]:
s= pd.Series(['kim', 'lee', 'park'])  #string은 object라고 부른다
print(s)

0     kim
1     lee
2    park
dtype: object


In [17]:
s = pd.Series([1,2,3,'1','2','hello']) #여러개의 데이터가 섞여있으면 object로 출력
# int를 object로 형변환하는건 아님
print(s)

0        1
1        2
2        3
3        1
4        2
5    hello
dtype: object


In [19]:
s[5]

'hello'

In [23]:
#series는 음수 인덱싱이 적용되지 않는다
# s[-1]

In [24]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [26]:
names = pd.Series(['kim','lee','park'], index=['a','b','c'])

In [30]:
#names[0] =>에러가 나옴
names.iloc[0]

'kim'

In [28]:
names['a']

'kim'

In [29]:
names.index

Index(['a', 'b', 'c'], dtype='object')

In [31]:
names.values

array(['kim', 'lee', 'park'], dtype=object)

In [32]:
names.ndim

1

In [34]:
names.shape

(3,)

## NaN (Not a Number)

In [36]:
s = pd.Series([1,2,3,np.nan])
print(s)

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64


## fancy indexing

In [39]:
f = ['banana','apple','grape', np.nan]
s = pd.Series(f, index=list('abcd'))
print(s)

a    banana
b     apple
c     grape
d       NaN
dtype: object


In [41]:
s[['d','a']]  #fancy indexing : 인덱싱할때 대괄호 사용

d       NaN
a    banana
dtype: object

In [43]:
#s[[3,1]]
s.iloc[[3,1]]

d      NaN
b    apple
dtype: object

## bool indexing

In [44]:
s

a    banana
b     apple
c     grape
d       NaN
dtype: object

In [46]:
s[[True, False, True, False]]  #해당 위치에 True인 애들만 출력

a    banana
c     grape
dtype: object

In [47]:
s == 'banana'

a     True
b    False
c    False
d    False
dtype: bool

In [48]:
s[s=='banana']

a    banana
dtype: object

In [51]:
s = pd.Series([1,5,3,4,2,6])
s[s > 3]  #내가 원하는 조건이 True인 애들만 출력

1    5
3    4
5    6
dtype: int64

## 결측치(NaN) 처리

In [52]:
s = pd.Series([1, 3, np.nan, 10, 11, np.nan])
print(s)

0     1.0
1     3.0
2     NaN
3    10.0
4    11.0
5     NaN
dtype: float64


In [58]:
#s.isnull()  #Nan이 포함되어있으면 True
s.isna()

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

In [59]:
#s[s.isnull()]
s[s.isna()]

2   NaN
5   NaN
dtype: float64

In [60]:
#s[s.notnull()]
s[s.notna()]

0     1.0
1     3.0
3    10.0
4    11.0
dtype: float64

## slicing

In [62]:
s[1:3]

1    3.0
2    NaN
dtype: float64

In [66]:
# 인덱스가 글자인 경우
s=pd.Series([1,2,3], index = list('abc'))
s[1:2] # 1이상 2미만
s['a':'b'] # a부터 b까지

a    1
b    2
dtype: int64

# Dataframe
- 2차원 데이터 구조 (excel, sheet와 유사)
- 행 (row), 열 (column) 구조

In [69]:
d = pd.DataFrame([
    [1,2,3],
    [4,5,6],
    [7,8,9]
])
d

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [70]:
d = pd.DataFrame([
    [1,2,3],
    [4,5,6],
    [7,8,9]
], columns = ['가', '나', '다'])
d


Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [75]:
info = {
    'name' : ['kim','lee','park'],
    'age' : [10, 20, 30]
}

In [77]:
info_df = pd.DataFrame(info)

In [78]:
info_df.index 

RangeIndex(start=0, stop=3, step=1)

In [79]:
info_df.columns

Index(['name', 'age'], dtype='object')

In [81]:
info_df.values

array([['kim', 10],
       ['lee', 20],
       ['park', 30]], dtype=object)

In [83]:
info_df.dtypes

name    object
age      int64
dtype: object

In [84]:
info_df.T

Unnamed: 0,0,1,2
name,kim,lee,park
age,10,20,30


## Index 지정

In [87]:
info_df.index = list('abc')

In [88]:
info_df

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


## column 다루기

In [90]:
info_df.columns

Index(['name', 'age'], dtype='object')

In [93]:
print(info_df['name'])
print(type(info_df['name']))  #Dataframe에서 하나의 column만 가져오면 Series

a     kim
b     lee
c    park
Name: name, dtype: object
<class 'pandas.core.series.Series'>


In [96]:
info_df[['age', 'name']] #내가 필요한 column만 가져오기, fancy indexing

Unnamed: 0,age,name
a,10,kim
b,20,lee
c,30,park


In [98]:
info_df.rename(columns = {'name' : '이름'})  #name이라는 column 이름을 '이름'으로 바꿔줌

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30


In [99]:
info_df #원본을 바꾸지 않는다

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


In [101]:
info_df = info_df.rename(columns = {'name' : '이름'})  #재할당을 해줘야 바뀐다
info_df

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30


In [104]:
info_df.rename(columns={'이름' : 'last_name'}, inplace= True) #재할당하지 않고도 원본데이터를 바꾸는 법
#inplace = True

In [103]:
info_df

Unnamed: 0,last_name,age
a,kim,10
b,lee,20
c,park,30
