# 01. 자료구조

 #### 요약 
- array (np) : 행렬자료 벡터 -> 개별 자료의 타입이 같아야 함 
- list (pd) : 자료를 모아놓은 것 -> 개별 자료 타입이 달라도 됨

In [69]:
import pandas as pd 
import numpy as np 

#### Series 
- 속성: values, ndim, shape

In [70]:
arr = np.arange(100, 105, 1)
arr

array([100, 101, 102, 103, 104])

In [71]:
s = pd.Series(arr)
s

0    100
1    101
2    102
3    103
4    104
dtype: int64

In [72]:
s = pd.Series([1,2,3,'python'])
s

0         1
1         2
2         3
3    python
dtype: object

In [73]:
s = pd.Series([1,2,3])
s

0    1
1    2
2    3
dtype: int64

In [74]:
s = pd.Series(['i','need','A','FINE','job','!'],index = ['a','b','c','d','e','f'])
s

a       i
b    need
c       A
d    FINE
e     job
f       !
dtype: object

In [75]:
s['d'] 

'FINE'

In [76]:
s[-1]

'!'

In [77]:
s[3]

'FINE'

In [78]:
s.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [79]:
s.values

array(['i', 'need', 'A', 'FINE', 'job', '!'], dtype=object)

In [80]:
s.ndim

1

In [81]:
s.shape

(6,)

#### 결측치 
- NaN (Not a Number)
- 임의로 비어있는 값 대입하고자 할 때는 np.nan 입력하면 된다.


In [82]:
list = ['가','나','다','라',np.nan]
s = pd.Series(list)
s

0      가
1      나
2      다
3      라
4    NaN
dtype: object

#### 연습문제
- s1 변수에 Series 생성한다. 
- dtype은 'float32' 출력되도록 한다.

In [59]:
s1 = pd.Series(range(50,55,1), dtype = 'float32') 
# 50 이상 55 미만, 1씩 증가
s1

0    50.0
1    51.0
2    52.0
3    53.0
4    54.0
dtype: float32

In [60]:
s2 = pd.Series(['apple',np.nan,'banana','kiwi','gubong',np.nan])
s2

0     apple
1       NaN
2    banana
3      kiwi
4    gubong
5       NaN
dtype: object

#### Indexing

In [61]:
s3 = pd.Series(['손흥민','김연아','박세리','박찬호','김연경'], index = ['a','b','c','d','e'])
s3.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [62]:
s3[1]

'김연아'

In [63]:
s3['b']

'김연아'

##### fancy indexing, boolean indexing 
- fancy: index를 선택하여 list로 정의하고, 선택한 index list로 인덱싱
- boolean: list에서 True인 인덱스만 선택 (주의할 점: 불리언 인덱스 리스트 갯수와 Series 갯수가 맞아야 함)
- 조건을 걸어서 boolean index list를 먼저 만들어준 뒤 대입할 수 있음

In [64]:
# fancy
s3[['a','c']]
fi = ['a','c'] ; s3[fi]

a    손흥민
c    박세리
dtype: object

In [65]:
# boolean
s3[[True,True,False,False,True]]
bi = [True,True,False,False,True] ; s3[bi]

a    손흥민
b    김연아
e    김연경
dtype: object

In [85]:
# 조건을 걸어서 boolean index list를 먼저 만들어준 뒤 대입할 수 있음
s = pd.Series([29,99,np.nan,11,56], index = ['a','b','c','d','e'])
s

a    29.0
b    99.0
c     NaN
d    11.0
e    56.0
dtype: float64

In [67]:
cond = s > 50 ; s[cond]

b    99.0
e    56.0
dtype: float64

In [68]:
cond2 = (s > 50) & (s > 80) ; s[cond2]

b    99.0
dtype: float64

In [86]:
cond3 = (s < 20) | (s > 90) ; s[cond3]

b    99.0
d    11.0
dtype: float64

#### 결측치 (NaN) 처리
- NaN 찾는 함수: isnull()과 isna() <=> notnull(), notna()
- 둘은 결과가 동일하다. 

In [89]:
s.isnull()

a    False
b    False
c     True
d    False
e    False
dtype: bool

In [90]:
s.isna()

a    False
b    False
c     True
d    False
e    False
dtype: bool

In [91]:
# 이를 불리언 인덱싱에 이용 가능 
s[s.isna()]

c   NaN
dtype: float64

In [92]:
s[s.notna()]

a    29.0
b    99.0
d    11.0
e    56.0
dtype: float64

#### Slicing (범위추출)  
- 주의: 숫자형 인덱스로 접근할 때 뒷 인덱스가 포함되지 않음!
- 반댈호, 문자형 인덱스는 뒷 인덱스 포함함!

In [103]:
print('s.size',s.size,'/ s.ndim',s.ndim,'/ len(s)',len(s))  

s.size 5 / s.ndim 1 / len(s) 5


In [110]:
s[1:3] # 인덱스가 1 "이상", 3 "미만" (즉, 3-1 = 2까지)


b    99.0
c     NaN
dtype: float64

In [115]:
s[0] # ':' 없으면 그냥 그 인덱스 해당 값 나옴 

29.0

In [119]:
s[4] # 마지막 값 추출 
print(s[len(s) - 1])
print(s[s.size - 1])

56.0
56.0


In [120]:
s['b':'c'] # 문자형 인덱스는 뒤에 것 포함됨

b    99.0
c     NaN
dtype: float64

#### DataFrame
- 행,열로 구성: 
- 각 열은 각각의 데이터 타입을 가지고 있음
- 속성
    - index: index (기본 값으로 RangeIndex)
    - columns: 컬럼명
    - values: np array형식의 데이터값 (즉, 행렬자료인 벡터)
    - dtypes: 컬럼 별 데이터 타입
    - T: 전치 (Transpose)
* cf. 속성값에는 (함수값과 달리) 괄호가 붙지 않습니다~!

In [123]:
pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], columns = ['가','나','다'])

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [124]:
# dictionary 통한 생성도 가능
data = {
    'name' : ['Kim','Lee','Park'],
    'age' : [24,26,29],
    'children' : [2,1,0]
}

In [126]:
df = pd.DataFrame(data)
df

Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,26,1
2,Park,29,0


In [127]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [128]:
df.columns

Index(['name', 'age', 'children'], dtype='object')

In [129]:
df.values

array([['Kim', 24, 2],
       ['Lee', 26, 1],
       ['Park', 29, 0]], dtype=object)

In [130]:
df.dtypes

name        object
age          int64
children     int64
dtype: object

In [131]:
df.T

Unnamed: 0,0,1,2
name,Kim,Lee,Park
age,24,26,29
children,2,1,0


#### 인덱스와 컬럼

In [144]:
# 인덱스 지정 
type(['a','b','c']) # list 
df.index = ['a','b','c']
df

Unnamed: 0,name,age,children
a,Kim,24,2
b,Lee,26,1
c,Park,29,0


In [155]:
# 컬럼 다루기 
print(df['name'])
print(df['name'].values)
print(df['name'].values.size) # = len(df['name'].values)
print(df['name'].values.ndim) 

a     Kim
b     Lee
c    Park
Name: name, dtype: object
['Kim' 'Lee' 'Park']
3
1


In [157]:
type(df['name']) # pandas.core.series.Series

pandas.core.series.Series

In [161]:
# fancy indexing 도 가능
df[['name','age']] #.values.ndim

Unnamed: 0,name,age
a,Kim,24
b,Lee,26
c,Park,29


In [165]:
# 컬럼명 바꾸기 - rename()
df.rename(columns = {'name' : 'full_name'})
df # 원본에는 적용되지 않았음 
    # -> Pandas는 변경사항을 바로 원본에 적용하지 않는다. 
    # -> inplace = True 라는 옵션으로 지정해 줘야 한다. 
df.rename(columns = {'name' : 'full_name'}, inplace = True)
df

Unnamed: 0,full_name,age,children
a,Kim,24,2
b,Lee,26,1
c,Park,29,0


#### 연습문제

In [166]:
# 1
data1 = {
    'food' : ['KFC','McDon','SFood'],
    'price' : [1000,2000,2500],
    'rating' : [4.5, 3.9, 4.2]
}

In [169]:
type(data1)

dict

In [172]:
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,food,price,rating
0,KFC,1000,4.5
1,McDon,2000,3.9
2,SFood,2500,4.2


In [173]:
# 2
df1[['food','rating']] 

Unnamed: 0,food,rating
0,KFC,4.5
1,McDon,3.9
2,SFood,4.2


In [174]:
# 3
df1.rename(columns = {'food' : 'place_name'}, inplace = 1)

In [175]:
df1

Unnamed: 0,place_name,price,rating
0,KFC,1000,4.5
1,McDon,2000,3.9
2,SFood,2500,4.2


$E.O.D.$