In [1]:
import numpy as np
import pandas as pd 
data = {'name': ['dongyo', 'ara', 'hoon', 'jameng', 'hoon'],
       'year': [2014, 2015, 2016, 2017, 2018],
       'point': [1.5, 1.7, 3.6, 2.4, 2.9]}

df = pd.DataFrame(data, columns = ['name', 'year', 'point', 'penalty'], index = ['one', 'two', 'threes', 'four', 'five'])


In [2]:
df


Unnamed: 0,name,year,point,penalty
one,dongyo,2014,1.5,
two,ara,2015,1.7,
threes,hoon,2016,3.6,
four,jameng,2017,2.4,
five,hoon,2018,2.9,


#### DataFrame의 열을 선택(인덱싱)하고 조작하기

In [3]:
df['year'] #df["컬럼이름"]

one       2014
two       2015
threes    2016
four      2017
five      2018
Name: year, dtype: int64

In [4]:
df.year # df.컬럼이름 

one       2014
two       2015
threes    2016
four      2017
five      2018
Name: year, dtype: int64

`하나의 열`을 가져온 결과는 **Series의 모양**

#### 2개 이상의 열을 가져오는 방법

In [5]:
df[['year', 'name']] # df[['컬럼이름1', '컬럼이름2']]

Unnamed: 0,year,name
one,2014,dongyo
two,2015,ara
threes,2016,hoon
four,2017,jameng
five,2018,hoon


`2개 이상의 열`을 가져온 결과는 **DataFrame 형태**로 가져온다.  
**대괄호가 2개라는 것을 명심**

---
**선택된 열의 모든 성분에, 일괄적으로 값을 대입할 수 있다.**  
성분이 비어있던 'penalty'에다가 0.5를 넣어보자

In [6]:
df['penalty'] = 0.5

In [7]:
df

Unnamed: 0,name,year,point,penalty
one,dongyo,2014,1.5,0.5
two,ara,2015,1.7,0.5
threes,hoon,2016,3.6,0.5
four,jameng,2017,2.4,0.5
five,hoon,2018,2.9,0.5


일관적인 값이 아니라, 선택된 열에다가 행에 따라 각각 어떤 값을 대입하고 싶다면  
python의 리스트 형태로 만들어서 대입하면 된다.   
numpy의 1차원 array도 대입 가능   

In [8]:
df['penalty'] = [0.1, 0.2, 0.3, 0.4, 0.5]

In [9]:
df

Unnamed: 0,name,year,point,penalty
one,dongyo,2014,1.5,0.1
two,ara,2015,1.7,0.2
threes,hoon,2016,3.6,0.3
four,jameng,2017,2.4,0.4
five,hoon,2018,2.9,0.5


---
#### 새로운 열을 생성과 동시에 대입도 가능하다
cf) np.arrange(n)은 0부터 총 n개, 즉, n-1까지 1차원 배열을 생성한다는 뜻 

In [10]:
df['zeros'] = np.arange(5)

In [11]:
df

Unnamed: 0,name,year,point,penalty,zeros
one,dongyo,2014,1.5,0.1,0
two,ara,2015,1.7,0.2,1
threes,hoon,2016,3.6,0.3,2
four,jameng,2017,2.4,0.4,3
five,hoon,2018,2.9,0.5,4


---
새로운 열을 입력할 때도, 리스트가 아닌 `Series`를 대입할 수 있다 

In [12]:
val = pd.Series([-1.2, -1.5, -1.7], index = ['one', 'threes', 'five'])

In [13]:
df['debt'] = val

In [14]:
df

Unnamed: 0,name,year,point,penalty,zeros,debt
one,dongyo,2014,1.5,0.1,0,-1.2
two,ara,2015,1.7,0.2,1,
threes,hoon,2016,3.6,0.3,2,-1.5
four,jameng,2017,2.4,0.4,3,
five,hoon,2018,2.9,0.5,4,-1.7


Series를 만들어서 대입하는 이유는, Series를 정의할 때, 리스트 형식으로 values를 넣고  
뒤 인자에 index를 정의해 줄 수 있고, **기존의 행index와 동일한 이름으로 주면, 맞춰서 끼워 들어가는 특징**을 이용할 수 있다.

---
#### 새로운 열을 추가할 때, 기존 dataFrame 열의 값을 연산한 것도 대입할 수 있다.

In [15]:
df['net_point'] = df['point'] - df['penalty']

In [16]:
df

Unnamed: 0,name,year,point,penalty,zeros,debt,net_point
one,dongyo,2014,1.5,0.1,0,-1.2,1.4
two,ara,2015,1.7,0.2,1,,1.5
threes,hoon,2016,3.6,0.3,2,-1.5,3.3
four,jameng,2017,2.4,0.4,3,,2.0
five,hoon,2018,2.9,0.5,4,-1.7,2.4


---
비슷하게 **조건문을 통해 True 혹은 False가 대입**되도록 할 수도 있다.

In [17]:
df['high_point'] = df['net_point'] > 2.0

In [18]:
df

Unnamed: 0,name,year,point,penalty,zeros,debt,net_point,high_point
one,dongyo,2014,1.5,0.1,0,-1.2,1.4,False
two,ara,2015,1.7,0.2,1,,1.5,False
threes,hoon,2016,3.6,0.3,2,-1.5,3.3,True
four,jameng,2017,2.4,0.4,3,,2.0,False
five,hoon,2018,2.9,0.5,4,-1.7,2.4,True


---
기존의 열을 삭제하는 방법은, `del 키워드`와 함께 일반적인 열 선택코드를 입력하면 된다

In [19]:
del df['zeros']
del df['debt']
del df['net_point']
del df['high_point']

In [20]:
df

Unnamed: 0,name,year,point,penalty
one,dongyo,2014,1.5,0.1
two,ara,2015,1.7,0.2
threes,hoon,2016,3.6,0.3
four,jameng,2017,2.4,0.4
five,hoon,2018,2.9,0.5


dataframe의 index와 columns에 이름을 정해주자

In [21]:
df.index.name = 'Order'
df.columns.name = 'Info'


In [22]:
df

Info,name,year,point,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
one,dongyo,2014,1.5,0.1
two,ara,2015,1.7,0.2
threes,hoon,2016,3.6,0.3
four,jameng,2017,2.4,0.4
five,hoon,2018,2.9,0.5


---
#### DataFrame의 행을 선택하고 조작하기

**.loc[] 와 .iloc[] 함수를 사용해서 행을 인덱싱**하는 방법을 추천

In [23]:
df.loc['two']

Info
name        ara
year       2015
point       1.7
penalty     0.2
Name: two, dtype: object

---
df.loc["index 명"]을 통해 가져온 값은, 열을 인덱싱 했을 때와 마찬가지로 **Series 형태로 가져온다.**  
**행의 범위 인덱싱도 마찬가지**

In [24]:
df.loc[['two', 'four']]

Info,name,year,point,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
two,ara,2015,1.7,0.2
four,jameng,2017,2.4,0.4


In [25]:
df.loc['two': 'four']

Info,name,year,point,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
two,ara,2015,1.7,0.2
threes,hoon,2016,3.6,0.3
four,jameng,2017,2.4,0.4


.log[]함수의 재밌는 점은, 행을 인덱싱하면서 동시에 **열도 인덱싱 할 수 있다.**  
df.loc['two': 'four', '컬럼명']

In [26]:
df.loc['two': 'four', 'point']

Order
two       1.7
threes    3.6
four      2.4
Name: point, dtype: float64

이를 응용하면, 행익덱스 자리에 전체를 의미하는 **콜론(:)을** 넣고, 가져올 칼럼명을 입력하면,  
**열을 인덱싱하는 것**과 같아진다.  
즉, loc[:, "칼럼명"] = df["칼럼명"]

In [27]:
df.loc[:, "point"]

Order
one       1.5
two       1.7
threes    3.6
four      2.4
five      2.9
Name: point, dtype: float64

In [28]:
df.loc[:, ['year', 'name']]

Info,year,name
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,2014,dongyo
two,2015,ara
threes,2016,hoon
four,2017,jameng
five,2018,hoon


In [29]:
df[['year', 'name']]

Info,year,name
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,2014,dongyo
two,2015,ara
threes,2016,hoon
four,2017,jameng
five,2018,hoon


---
loc[] 함수를 이용해서 행과 열에 동시에 범위 인덱싱도 할 수 있다.

In [30]:
df.loc["threes": "five", "year": "penalty"]

Info,year,point,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
threes,2016,3.6,0.3
four,2017,2.4,0.4
five,2018,2.9,0.5


loc[] 함수를 이용한 인덱싱은 행을 우선순위로 하여 무조건 입력되어야 되고  
뒤에 인자를 추가해서 칼럼명을 자유롭게 익뎅싱 할 수 있다.

---
새로운 행을 추가하는 방법도 열과 마찬가지로  
일반적인 행을 선택하는 방식에 대입해주는 식 

In [43]:
df.loc['seven'] = ['Cho', 2017, 4.0, 1]

In [44]:
df

Info,name,year,point,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
one,dongyo,2014,1.5,0.1
two,ara,2015,1.7,0.2
threes,hoon,2016,3.6,0.3
four,jameng,2017,2.4,0.4
five,hoon,2018,2.9,0.5
seven,Cho,2017,4.0,1.0


---
__.iloc__함수는 numpy의 array 인덱싱 방식으로 가져올 때 쓰는 것이다.  
즉, 칼럼명이 아니라 **index숫자로서** 가져올 때 쓴다

리스트를 인덱싱하는 것과 비슷하게 숫자로 인덱싱한다고 생각하면 쉬움 

In [45]:
df.iloc[3] # iloc[3]은 4번째 행을 가져온다. array 인덱싱과 유사 

Info
name       jameng
year         2017
point         2.4
penalty       0.4
Name: four, dtype: object

범위 인덱싱도 가능함 

In [46]:
df.iloc[3:5, 0:2]

Info,name,year
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
four,jameng,2017
five,hoon,2018


간격을 띄엄띄엄으로 행과 열을 가져오고 싶다면

In [47]:
df.iloc[[0, 1, 3], [1, 2]] # 1,2,4 번째 행 / 2, 3번째 열을 가져옴 

Info,year,point
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,2014,1.5
two,2015,1.7
four,2017,2.4


특정값 하나만 가져오고 싶다면 

In [48]:
df.iloc[1, 2]

1.7

### Booleam 인덱싱 하기

In [52]:
df['year'] > 2014 # series 형태로 마스크가 얻어짐

Order
one       False
two        True
threes     True
four       True
five       True
seven      True
Name: year, dtype: bool

**마스크 :전체 데이터 중 기준이 되는 열과 그 가운데 특정 성분을 비교한 조건문**  
마스크를 인덱스 자리에 넣은 .loc함수를 이용하면 원하는 행을 선택할 수 있음 


In [53]:
df.loc[df['year'] > 2014, :]

Info,name,year,point,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
two,ara,2015,1.7,0.2
threes,hoon,2016,3.6,0.3
four,jameng,2017,2.4,0.4
five,hoon,2018,2.9,0.5
seven,Cho,2017,4.0,1.0


In [56]:
df.loc[df['name'] == 'jameng', ['name', 'point']]

Info,name,point
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
four,jameng,2.4


만약 조건이 여러개라면 **&**을 사용 

In [57]:
df.loc[(df['point'] > 2) & (df['point'] < 3 ), : ]

Info,name,year,point,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
four,jameng,2017,2.4,0.4
five,hoon,2018,2.9,0.5


#### 조건에 맞게 사용해서 인덱싱 한 행의 특정칼럼에 특정값을 입력할 수 있다!

In [58]:
df.loc[df['point'] > 3, 'penalty'] = 0

In [59]:
df

Info,name,year,point,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
one,dongyo,2014,1.5,0.1
two,ara,2015,1.7,0.2
threes,hoon,2016,3.6,0.0
four,jameng,2017,2.4,0.4
five,hoon,2018,2.9,0.5
seven,Cho,2017,4.0,0.0


---
# #끄읕