In [3]:
import numpy as np
import pandas as pd

In [4]:
myindex = ['이순신', '김유신', '강감찬', '광해군', '연산군']
mycolumns = ['서울', '부산', '광주', '목포', '경주']
mylist = list(10 * onedata for onedata in range(1, 26))
mylist

[10,
 20,
 30,
 40,
 50,
 60,
 70,
 80,
 90,
 100,
 110,
 120,
 130,
 140,
 150,
 160,
 170,
 180,
 190,
 200,
 210,
 220,
 230,
 240,
 250]

In [5]:
mydf = pd.DataFrame(np.reshape(mylist, (5, 5)), index=myindex, columns=mycolumns)
mydf

Unnamed: 0,서울,부산,광주,목포,경주
이순신,10,20,30,40,50
김유신,60,70,80,90,100
강감찬,110,120,130,140,150
광해군,160,170,180,190,200
연산군,210,220,230,240,250


### iloc 함수는 행 인덱스 번호를 기준으로 행을 추출 

In [6]:
result = mydf.iloc[1] # 행의 인덱스 번호이기 때문에 대괄호 1개 안에. series를 반환. iloc 함수에서 series를 반환
result

서울     60
부산     70
광주     80
목포     90
경주    100
Name: 김유신, dtype: int32

In [7]:
result = mydf.iloc[[1]] # iloc함수에서 대괄호를 두개 사용하면 데이터프레임 형태로 반환.
result

Unnamed: 0,서울,부산,광주,목포,경주
김유신,60,70,80,90,100


In [8]:
# result = mydf.iloc['이순신'] 
# 행 인덱스 번호를 사용하는 함수이기 때문에 이렇게 하면 에러 발생. 라벨을 이용하는 것은 loc 함수.


In [9]:
result = mydf.iloc[[1, 3]] # 서로 떨어져 있는 행 정보를 추출하여 데이터프레임으로 반환.
result

Unnamed: 0,서울,부산,광주,목포,경주
김유신,60,70,80,90,100
광해군,160,170,180,190,200


In [10]:
result = mydf.iloc[0::2] # 콜론을 사용해서 슬라이싱을 하는 식으로 사용하면 대괄호 하나여도 데이터프레임 반환
result

Unnamed: 0,서울,부산,광주,목포,경주
이순신,10,20,30,40,50
강감찬,110,120,130,140,150
연산군,210,220,230,240,250


### loc 함수는 라벨(변수명)을 이용하여 행을 추출한다. 

In [11]:
result = mydf.loc['이순신']
type(result) # 대괄호를 하나만 사용하면 반환되는 타입은 series 인 것을 알 수 있음.

pandas.core.series.Series

In [12]:
result

서울    10
부산    20
광주    30
목포    40
경주    50
Name: 이순신, dtype: int32

In [13]:
result = mydf.loc[['이순신', '강감찬']]
type(result)

pandas.core.frame.DataFrame

In [14]:
result # 대괄호 두 개 사용하면 데이터 프레임 반환

Unnamed: 0,서울,부산,광주,목포,경주
이순신,10,20,30,40,50
강감찬,110,120,130,140,150


### index 추출과 np.random.choice() 함수 

In [15]:
mydf.index

Index(['이순신', '김유신', '강감찬', '광해군', '연산군'], dtype='object')

In [16]:
mytarget = np.random.choice(mydf.index, 3) # 인덱스 리스트에서 몇 개를 임의로 추출할지 
mytarget

array(['이순신', '연산군', '광해군'], dtype=object)

### loc 함수로 행과 열 입력하여 데이터 가져오기 

In [17]:
result = mydf.loc[['강감찬'], ['광주']]
result

Unnamed: 0,광주
강감찬,130


In [18]:
result = mydf.loc['이순신':'강감찬', '부산'] # 일반적인 파이썬 슬라이싱과 달리 loc함수에서는 시작과 끝 모두 포함함. 주의!
type(result) # series로 반환. 왜?? 열이 []를 사용하지 않아서 데이터프레임으로 반환되지 않음. 

pandas.core.series.Series

In [19]:
result

이순신     20
김유신     70
강감찬    120
Name: 부산, dtype: int32

In [20]:
result = mydf.loc[['이순신':'강감찬'], '부산']
# 이거는 안됨. 슬라이싱은 리스트에 대한 슬라이싱을 하는 것이기 때문에. 
# 슬라이싱 자체가 1차원 배열, 리스트에만 가능한 것 https://python-reference.readthedocs.io/en/latest/docs/brackets/slicing.html


SyntaxError: invalid syntax (<ipython-input-20-cd3d35a5c600>, line 1)

In [21]:
result = mydf.loc[['연산군', '강감찬'], ['광주', '목포']] # 행과 열의 라벨들을 각각 리스트로 입력해야함. 
result

Unnamed: 0,광주,목포
연산군,230,240
강감찬,130,140


In [22]:
result = mydf.loc['김유신':'광해군', '광주':'목포'] # 데이터프레임으로 출력. 행과 열 모두 슬라이싱 되어 있어서.
result # 열이 두 개 이상이므로 시리즈가 아니라 데이터프레임??

Unnamed: 0,광주,목포
김유신,80,90
강감찬,130,140
광해군,180,190


In [23]:
result = mydf.loc['김유신':'광해군', ['부산']]
result # 행은 리스트에 대한 슬라이싱을 한 것. 열은 대괄호를 써서 데이터프레임으로 

Unnamed: 0,부산
김유신,70
강감찬,120
광해군,170


In [24]:
result = mydf.loc[[False, True, True, False, True]] # 각 인덱스에 대한 Boolean 값으로도 데이터를 읽어올 수 있음. 
result

Unnamed: 0,서울,부산,광주,목포,경주
김유신,60,70,80,90,100
강감찬,110,120,130,140,150
연산군,210,220,230,240,250


In [25]:
result = mydf.loc[ mydf['부산'] <= 100] # 관계연산자를 사용할 수 있음. 부산 열이 100이하인 조건에 맞는 행만 조회 
result

Unnamed: 0,서울,부산,광주,목포,경주
이순신,10,20,30,40,50
김유신,60,70,80,90,100


In [26]:
result = mydf.loc[ mydf['목포'] == 140] 
result

Unnamed: 0,서울,부산,광주,목포,경주
강감찬,110,120,130,140,150


In [30]:
cond1 = mydf['부산'] >= 70
cond2 = mydf['목포'] >= 140
# 조건식이니까 이 조건에 맞는 행에 대해서 bool type으로 return

In [31]:
cond1

이순신    False
김유신     True
강감찬     True
광해군     True
연산군     True
Name: 부산, dtype: bool

In [32]:
cond2

이순신    False
김유신    False
강감찬     True
광해군     True
연산군     True
Name: 목포, dtype: bool

In [33]:
type(cond2)

pandas.core.series.Series

In [34]:
df = pd.DataFrame([cond1, cond2])
df

Unnamed: 0,이순신,김유신,강감찬,광해군,연산군
부산,False,True,True,True,True
목포,False,False,True,True,True


all()과 any()는 논리 연산에서 사용. all()은 둘다 True인 경우에만 True. any()는 둘 중 하나만 True라도 True

In [37]:
df.all() 

이순신    False
김유신    False
강감찬     True
광해군     True
연산군     True
dtype: bool

In [38]:
df.any()

이순신    False
김유신     True
강감찬     True
광해군     True
연산군     True
dtype: bool

In [39]:
result = mydf.loc[df.all()]
result

Unnamed: 0,서울,부산,광주,목포,경주
강감찬,110,120,130,140,150
광해군,160,170,180,190,200
연산군,210,220,230,240,250


In [40]:
type(result)

pandas.core.frame.DataFrame

In [41]:
result = mydf.loc[df.any()]
result

Unnamed: 0,서울,부산,광주,목포,경주
김유신,60,70,80,90,100
강감찬,110,120,130,140,150
광해군,160,170,180,190,200
연산군,210,220,230,240,250


람다 함수 사용

In [42]:
result = mydf.loc[lambda df : df['광주'] >= 130] # lambda는 익명함수인데 안에 있는 변수도 지역 변수와 같음. 
result

Unnamed: 0,서울,부산,광주,목포,경주
강감찬,110,120,130,140,150
광해군,160,170,180,190,200
연산군,210,220,230,240,250


특정 행과 열의 값 변경하기 

In [43]:
mydf

Unnamed: 0,서울,부산,광주,목포,경주
이순신,10,20,30,40,50
김유신,60,70,80,90,100
강감찬,110,120,130,140,150
광해군,160,170,180,190,200
연산군,210,220,230,240,250


In [44]:
mydf.loc[['이순신','김유신'], ['서울']] = 30
mydf

Unnamed: 0,서울,부산,광주,목포,경주
이순신,30,20,30,40,50
김유신,30,70,80,90,100
강감찬,110,120,130,140,150
광해군,160,170,180,190,200
연산군,210,220,230,240,250


In [46]:
mydf.loc['김유신': '광해군', ['목포']] = 100
mydf

Unnamed: 0,서울,부산,광주,목포,경주
이순신,30,20,30,40,50
김유신,30,70,80,100,100
강감찬,110,120,130,100,150
광해군,160,170,180,100,200
연산군,210,220,230,240,250


In [47]:
mydf.loc['연산군'] = 50
mydf

Unnamed: 0,서울,부산,광주,목포,경주
이순신,30,20,30,40,50
김유신,30,70,80,100,100
강감찬,110,120,130,100,150
광해군,160,170,180,100,200
연산군,50,50,50,50,50


In [48]:
mydf.loc[['연산군'], :] = 60 # : 는 모든 행 또는 모든 열을 의미함.
mydf

Unnamed: 0,서울,부산,광주,목포,경주
이순신,30,20,30,40,50
김유신,30,70,80,100,100
강감찬,110,120,130,100,150
광해군,160,170,180,100,200
연산군,60,60,60,60,60


In [50]:
mydf.loc[mydf['부산'] >= 100, ['광주','목포']] = 0 # 행의 조건에 따라서 특정 열의 값을 변경할 수도 있음. 
mydf

Unnamed: 0,서울,부산,광주,목포,경주
이순신,30,20,30,40,50
김유신,30,70,80,100,100
강감찬,110,120,0,0,150
광해군,160,170,0,0,200
연산군,60,60,60,60,60
