# Series

- pandas에서 사용하는 1차원 배열.
- index를 사용 할 수 있습니다. 

In [1]:
import pandas as pd
import numpy as np

In [6]:
arr = np.arange(100)
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]


In [8]:
arr = np.arange(100, 110)
print(arr)

[100 101 102 103 104 105 106 107 108 109]


In [9]:
s = pd.Series(arr)
#S가 대문자이라는 말은 => 클래스 이다. 
print(s)

0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int64


In [11]:
s = pd.Series(arr, dtype = 'float32')
print(s)

0    100.0
1    101.0
2    102.0
3    103.0
4    104.0
5    105.0
6    106.0
7    107.0
8    108.0
9    109.0
dtype: float32


In [13]:
s = pd.Series(['kim', 'lee', 'park'])
print(s)

#dtype: object - 스트링은 판다스에서 'object'라고 표현한다. 

0     kim
1     lee
2    park
dtype: object


In [15]:
s = pd.Series([1, 2, 3, 'Hello'])
print(s)
# 전체를 표현할 때 좀 더 포괄적인 정보를 '데이터 타입'으로 출력해준다. 
# 위의 경우에도 1, 2, 3 이라는 int 타입의 정보가 들어있으나, 'object' 라고 데이터 타입이 출력 됐듯이

0        1
1        2
2        3
3    Hello
dtype: object


In [None]:
#Series의 경우 음수 인덱싱은 적용 할 수 없다. 
#e.g. s[-1] 은 불가하다. 

In [16]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [19]:
names = pd.Series(['kim', 'lee', 'park'], index = ['a', 'b', 'c'])
# index가 숫자가 아니어도 된다!

In [23]:
names[0]
names.iloc[0]
# 나중에는 `iloc[순번]` 이렇게 => 인덱스를 글자로 설정 했을 때 -> 숫자 형태로 인덱스 접근을 시도하는 경우가 많을 것이다.

  names[0]


'kim'

In [21]:
names['a']

'kim'

In [22]:
names.index

Index(['a', 'b', 'c'], dtype='object')

In [24]:
names.values

array(['kim', 'lee', 'park'], dtype=object)

In [26]:
names.ndim
# Series는 당연하게도 1차원의 데이터를 다루기에

1

In [27]:
names.shape

(3,)

## NaN (Not a Number)

In [30]:
s = pd.Series([1, 2, 3, np.nan])
print(s)

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64


## fancy indexing

In [32]:
f = ['banana', 'apple', 'grape', np.nan]
s = pd.Series(f, index = list('abcd'))
#인덱스를 강제로 abcd로 바꾸려고 list로 바꾼 것이다. 
# index = list('a', 'b', 'c', d) => 와 같은 의미
print(s)

a    banana
b     apple
c     grape
d       NaN
dtype: object


In [33]:
s[['d', 'a']]
#특정한 요소 하나를 내가 정한 인덱스 순서로 뽑아 올 때 사용한다. 

d       NaN
a    banana
dtype: object

In [36]:
#s[[3, 1]]
s.iloc[[3, 1]]

d      NaN
b    apple
dtype: object

## bool indexing
- 내가 원하는 값만을 불러낼때

In [38]:
s

a    banana
b     apple
c     grape
d       NaN
dtype: object

In [40]:
s[[True, False, True, False]]
# 해당 위치에 True인 친구들만 출력이 되게된다. 

a    banana
c     grape
dtype: object

In [41]:
# banana 데이터만을 가져오고 싶다면?
s == 'banana'

a     True
b    False
c    False
d    False
dtype: bool

In [42]:
s[s == 'banana']

a    banana
dtype: object

In [44]:
s = pd.Series([1, 2, 3, 4, 5, 6])
s > 3
s[s > 3]

3    4
4    5
5    6
dtype: int64

## 결측치 (NaN) 처리

In [46]:
s = pd.Series([1, 3, np.nan, 10, 11, np.nan])
print(s)

0     1.0
1     3.0
2     NaN
3    10.0
4    11.0
5     NaN
dtype: float64


In [47]:
#NaN 을 제외하고 숫자만 보고 싶다면? 
#먼저 NaN이 목록에 포함되어있는지를 확인해야한다. 

s.isnull()

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

In [51]:
# s[s.isnull()] => 똑같음. 
#NaN인 값만을 불러오자. 
#몇 번째 행에 NaN이 들어 있는지를 확인하고 싶을 때
s[s.isna()]

2   NaN
5   NaN
dtype: float64

In [52]:
# s[s.notnull()]
s[s.notna()]

0     1.0
1     3.0
3    10.0
4    11.0
dtype: float64

## slicing

In [54]:
s[1:3]
# 1부터 3미만까지를 slicing 해주오~

1    3.0
2    NaN
dtype: float64

In [55]:
#만일, 인덱스가 숫자가 아닌, '글자'일 때, s['a':'b'] 라면, 
#a 인덱스부터 b 인덱스 까지를 보여 줄 것이다. 

# Dataframe
- 2차원 데이터 구조 (excel, sheet 와 유사)
- 행 (row), 열 (column) 구조

In [58]:
d = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
d
# jupyter notebook 환경에서 pandas의 dataframe을 다룰 때는, print없이 출력하는 경우가 많을 것임. 
# 위와 아래 모두에 인덱스가 붙어 있는 구조를, dataframe이라고 생각하자. 

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [61]:
d = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
], columns = ['가', '나', '다']) # column의 이름을 직접적으로 지정 해줄 때
d

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [63]:
# dictionary를 활용해서 dataframe 만들기
info = {
    'name': ['kim', 'lee', 'park'],
    'age' : [10, 20, 30]
}

pd.DataFrame(info) # dictionary는 바로 dataframe으로 만들 수 있다. 

Unnamed: 0,name,age
0,kim,10
1,lee,20
2,park,30


In [64]:
info_df = pd.DataFrame(info)

In [66]:
info_df.index
#가로 행에 대한 정보

RangeIndex(start=0, stop=3, step=1)

In [67]:
info_df.columns
#세로 열에 대한 정보

Index(['name', 'age'], dtype='object')

In [68]:
info_df.values
#안에 있는 실제 데이터

array([['kim', 10],
       ['lee', 20],
       ['park', 30]], dtype=object)

In [69]:
info_df.dtypes

name    object
age      int64
dtype: object

In [70]:
info_df.T

Unnamed: 0,0,1,2
name,kim,lee,park
age,10,20,30


## index 지정

In [73]:
info_df.index = list('abc') #index에 내가 원하는 리스트를 지정한다면

In [74]:
info_df

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


## column 다루기

In [79]:
info_df.columns

Index(['name', 'age'], dtype='object')

In [83]:
print(info_df['name']) # => 똑같은 유형의 정보만 불러오고 싶다면 -> 그 열에 있는 정보들이 Series로 만들어져 불러와지게 된다. 
print(type(info_df['name']))

a     kim
b     lee
c    park
Name: name, dtype: object
<class 'pandas.core.series.Series'>


In [81]:
info_df[['age', 'name']] #list안의 list --> column의 fancy indexing => 이렇게 하는 경우가 대부분 일 것이다. 

Unnamed: 0,age,name
a,10,kim
b,20,lee
c,30,park


In [85]:
info_df.rename(columns={'name': '이름'})
#컬럼의 이름을 지정해서 바꾸고 싶을때, `rename`이라는 함수를 이용해서 바꾸면 된다. 

Unnamed: 0,이름,age
a,kim,10
b,lee,20
c,park,30


In [86]:
info_df # => 원본은 그대로 'name'이라고 표현되는 걸 알 수가 있다. 

Unnamed: 0,name,age
a,kim,10
b,lee,20
c,park,30


In [87]:
# 만일, 원본 그 자체를 바꾸고 싶다면, 재할당을 해줘야한다. 

In [90]:
info_df.rename(columns={'name': 'last_name'}, inplace=True)
info_df
#강제로 inplace를 통해 정보를 last_name으로 바꿔주게된다. 

Unnamed: 0,last_name,age
a,kim,10
b,lee,20
c,park,30
