# 데이터 접근

- 데이터 접근 인덱싱 방법
  - 정수형 인덱싱 
    - `arr[2,1]`
  - 슬라이싱 
    - `arr[:, 1:5]`
  - 마스킹 
    - `arr[arr>0]`
  - 팬시 인덱싱 
    - `arr[0, [1,5]]`
  - 조합 
    - `arr[ : , [1,5]]`  

In [1]:
import pandas as pd
import numpy as np

print("pandas ver : ",pd.__version__)
print("numpy ver : ",np.__version__)

pandas ver :  0.24.2
numpy ver :  1.16.4


### [ Series 데이터 접근 ]

In [36]:
# Series 데이터 선언
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=['a','b','c','d'])
print("data series : \n",data)

data series : 
 a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


- **Dictionary 처럼 접근**

In [37]:
# index(key) 로 데이터 접근
print("data['a'] : ", data['a'])

data['a'] :  0.25


- **Series의 키 조회**

In [38]:
print(data.index)
print(type(data.index))
print(data.keys())
print(type(data.keys()))

Index(['a', 'b', 'c', 'd'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
Index(['a', 'b', 'c', 'd'], dtype='object')
<class 'pandas.core.indexes.base.Index'>


In [39]:
# 키 값이 있는지 확인 하는 방법
print('a' in data.index)

True


######  예) 키값 있는지 확인하고 데이터 접근

In [40]:
# 데이터 접근을 위한 키 선언
key = 'e'


if key in data.keys():
    print(data[key])
else: 
    print("key error")

key error


- seires.items()
  - (index, value)형태의 튜플형태의 zip을 반환

In [41]:
result = data.items()
print(type(result))
print(list(result))

<class 'zip'>
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]


- **Series 1차원 배열 인덱싱**
  - 슬라이싱
  - 인덱스 번호를 이용한 슬라이싱
  - 마스킹
  - 팬시 인덱싱

In [42]:
# 슬라이싱
print(data,"\n")
print(data['a':'c'])

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64 

a    0.25
b    0.50
c    0.75
dtype: float64


In [43]:
# 인덱스 번호(정수)를 이용한 슬라이싱
print(data[0:3])
print(type(data[0:3]))

a    0.25
b    0.50
c    0.75
dtype: float64
<class 'pandas.core.series.Series'>


In [44]:
# 마스킹
print(data[ (data>0.5) & (data<1.0)])

c    0.75
dtype: float64


In [45]:
# 팬시 인덱싱
print( data[['a','d']] )

a    0.25
d    1.00
dtype: float64


- **인덱서(Indexers)** : _lic_, _iloc_, _ix_
  - 암묵적 인덱스(정수형 인덱스 0,1,2,3,....)를 사용할 수 있음
  - 하지만, index를 특정 정수형으로 지정한 경우 암묵적 인덱스를 사용하면 에러가 발생 할 수 있음
  - **그래서 loc, iloc 속성을 이용하여 암묵적인 파이썬 인덱스를 참조 할 수 있음**
  - ix : Starting in 0.20.0, the .ix indexer is deprecated, in favor of the more strict .iloc and .loc indexers.

In [46]:
sampleData = pd.Series(['a', 'b', 'c'], index=[1,3,5])
print(sampleData)
print("\n")

1    a
3    b
5    c
dtype: object




In [47]:
# 암묵적 인덱스 사용 
print(sampleData[1])
print(sampleData[2])

a


KeyError: 2

- 안묵적 인덱스 2를 사용할 경우 sampleData(Series객체)의 index에 없기 때문에 KeyError가 발생함

- **loc, iloc 속성을 이용하여 데이터에 접근 할 수 있음**

- **``Series.loc``**
  - Access a group of rows and columns by label(s) or a boolean array.
  - .loc[] is primarily label based, but may also be used with a boolean array.

- **``Series.iloc``** : **Location based indexing**
  - Purely integer-location based indexing for selection by position.
  - .iloc[] is primarily integer position based (from 0 to length-1 of the axis), but may also be used with a boolean array.

In [48]:
print(sampleData)

1    a
3    b
5    c
dtype: object


In [54]:
# 실제 인덱스의 값을 가져오는 명시적인 인덱싱
print("sampleData.loc[1] : \n",sampleData.loc[1])  # 인덱스 1 의 값을 가져옴
print("\n")
print("sampleData.loc[1:3] : \n",sampleData.loc[1:3])   # 인덱스 1, 인덱스 3 의 값을 가져옴

sampleData.loc[1] : 
 a


sampleData.loc[1:3] : 
 1    a
3    b
dtype: object


In [55]:
# 암묵적인 파이썬 스타일의 암묵적 인덱싱
print("sampleData.iloc[1] : \n",sampleData.iloc[1])  # 1번째 순서의 값을 가져옴
print("\n")
print("sampleData.iloc[1:3] : \n",sampleData.iloc[1:3])# 1번째, 2번째 순서의 값을 가져옴 

sampleData.iloc[1] : 
 b


sampleData.iloc[1:3] : 
 3    b
5    c
dtype: object


###### 암묵적인 것보다 명시적인 인덱싱이 가독성이 좋음!!!  iloc보다 loc 사용 하는것이 가독성이 더 좋음

### [ Dataframe 데이터 접근 ]

In [51]:
# Dataframe 데이터 선언
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


- **Dictionary 처럼 접근**

- Dataframe의 열(column)을 이루는 각각의 Series는 열 이름으로 된 Dictionary 방식의 인덱싱을 통해 접근

In [52]:
# Series 데이터 이름인 'area'를 인덱스로 사용하여 해당 Series 값을 가져옴
print(data['area'])

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


- **속성 스타일로 접근**

In [53]:
# Dataframe의 속성을 가져오는 스타일 " Dataframe.'열(column)이름' " 으로 접근 가능
print(data.area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


- 속성 스타일로 데이터를 접근 하는 것은 위험함
  - 열 이름이 Dataframe의 attribute(property)이름과 동일하면 사용 할 수 없음
  - 열 이름이 문자열이 아닐경우 사용 할 수 없음

In [54]:
print("data['pop'] : \n",data['pop'])
print("\n")
print("data['area'] : \n",data['area'])

data['pop'] : 
 California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: pop, dtype: int64


data['area'] : 
 California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


In [55]:
# pop는 열 이름 이기도 하고 Dataframe의 메소드 이름과 동일함
print("data.pop is data['pop'] : ",data.pop is data['pop'])
print("data.pop type : ",type(data.pop))

data.pop is data['pop'] :  False
data.pop type :  <class 'method'>


In [56]:
print("data.area is data['area'] : ",data.area is data['area'])
print("data.area type : ",type(data.area))

data.area is data['area'] :  True
data.area type :  <class 'pandas.core.series.Series'>


- Dataframe에 열 추가( Dictionary 스타일로 추가)

In [57]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


- **Dataframe 2차원 배열 인덱싱**

- **`Dataframe.values`** 를 이용한 배열의 데이터 확인
  - 배열 객체로 반환됨

In [58]:
result = data.values
print(result)
print(type(result))

[[4.23967000e+05 3.83325210e+07 9.04139261e+01]
 [6.95662000e+05 2.64481930e+07 3.80187404e+01]
 [1.41297000e+05 1.96511270e+07 1.39076746e+02]
 [1.70312000e+05 1.95528600e+07 1.14806121e+02]
 [1.49995000e+05 1.28821350e+07 8.58837628e+01]]
<class 'numpy.ndarray'>


In [59]:
# 암묵적 인덱스로 값에 접근
print(result[0])
print(result[-1])

[4.23967000e+05 3.83325210e+07 9.04139261e+01]
[1.49995000e+05 1.28821350e+07 8.58837628e+01]


- **열(col)과 행(row)을 바꿈**
  - `Dataframe.T` : Transpose index and columns.

In [60]:
# 기존 shape
print("data :\n",data)
print("data shape : ",data.shape)
print("\n")
# 열과 행을 바꿈 (Dataframe.T)
T_data = data.T
print("T_data :\n",T_data)
print("T_data shape : ",T_data.shape)

data :
               area       pop     density
California  423967  38332521   90.413926
Texas       695662  26448193   38.018740
New York    141297  19651127  139.076746
Florida     170312  19552860  114.806121
Illinois    149995  12882135   85.883763
data shape :  (5, 3)


T_data :
            California         Texas      New York       Florida      Illinois
area     4.239670e+05  6.956620e+05  1.412970e+05  1.703120e+05  1.499950e+05
pop      3.833252e+07  2.644819e+07  1.965113e+07  1.955286e+07  1.288214e+07
density  9.041393e+01  3.801874e+01  1.390767e+02  1.148061e+02  8.588376e+01
T_data shape :  (3, 5)


- Dataframe 열이름으로 인덱싱 하면 Series 타입으로 리턴 

In [61]:
result = data['area']
print(result)
print(type(result))

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64
<class 'pandas.core.series.Series'>


- **인덱서(Indexers)**를 통한 접근 : _lic_, _iloc_, .ix indexer is deprecated(ver 0.20 부터)_

In [62]:
print("data : \n",data)

data : 
               area       pop     density
California  423967  38332521   90.413926
Texas       695662  26448193   38.018740
New York    141297  19651127  139.076746
Florida     170312  19552860  114.806121
Illinois    149995  12882135   85.883763


- **`.loc`** : 명시적 인덱싱

In [65]:
result = data.loc['Texas']
print(result)
print(type(result))

area       6.956620e+05
pop        2.644819e+07
density    3.801874e+01
Name: Texas, dtype: float64
<class 'pandas.core.series.Series'>


In [68]:
print(result[1])
print(result['pop'])

26448193.0
26448193.0


- **`.iloc`** : 암묵적 인덱싱

In [75]:
# 1차원으로 인덱싱 하면 Series로 반환됨
result = data.iloc[1]
print(result)
print(type(result))

area       6.956620e+05
pop        2.644819e+07
density    3.801874e+01
Name: Texas, dtype: float64
<class 'pandas.core.series.Series'>


In [72]:
print(result[1])
print(result['pop'])

26448193.0
26448193.0


In [74]:
# 2차원으로 인덱싱 하면 Dataframe으로 반환됨
result = data.iloc[:2, :2]
print(result)
print(type(result))

              area       pop
California  423967  38332521
Texas       695662  26448193
<class 'pandas.core.frame.DataFrame'>


###### 예)  desity 100 보다 큰 데이터의 pop, density 접근
  - 마스팅, 팬시 인덱싱 사용

In [76]:
result = data.loc[data.density > 100, ['pop','density']]
print(result)
print(type(result))

               pop     density
New York  19651127  139.076746
Florida   19552860  114.806121
<class 'pandas.core.frame.DataFrame'>


In [78]:
# .iloc 는 Location based indexing 을 하기 때문에 에러 발생
result = data.iloc[data.density > 100, ['pop','density']]
print(result)
print(type(result))

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types