In [1]:
import numpy as np
import pandas as pd

# DataFrame 고급 인덱싱

In [2]:
#DataFrame에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 합니다. 
#앞 절에서는 column에 대해 label, label list 인덱싱을, row에 대해 index(정수) 슬라이스 
#총 3가지 방식을 사용하여 데이터를 추출하는 방법을 살펴봤습니다. 

#그런데 Pandas는 NumPy 배열과 같이 콤마(,)를 사용한 (row 인덱스, column 인덱스) 형식의 
#2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공합니다.

In [3]:
"""
# loc : label 기반의 2차원 인덱싱
# df.loc[row 인덱싱 값]
# df.loc[row 인덱싱 값, column 인덱싱 값]

# iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱
# df.iloc[0]
# df.iloc[0,1], df.iloc[:2. -1], ...
"""

'\n# loc : label 기반의 2차원 인덱싱\n# df.loc[row 인덱싱 값]\n# df.loc[row 인덱싱 값, column 인덱싱 값]\n\n# iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱\n# df.iloc[0]\n# df.iloc[0,1], df.iloc[:2. -1], ...\n'

## loc 인덱서 

In [4]:
## loc 인덱서 

# row 인덱싱 값은 정수 또는 정수 index데이터이고,
# column 인덱싱 값은 label 문자열

df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index = ['a', 'b', 'c'],
                  columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [5]:
# 인덱스를 콤마 없이 하나만 넣으면 row 선택
# 선택된 row를 Series로 반환
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [6]:
# 슬라이싱도 가능하지만 loc을 안 쓰는 것과 결과는 동일
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [7]:
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [8]:
### 인덱스 데이터의 리스트 인덱싱

df.loc[["b","c"]]
#  loc을 안 쓰면 KeyError 발생

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [9]:
#Boolean Series로 row를 기준으로 인덱싱할 수 있습니다.
#아래 예제에서는 df.A(영어 문자열은 속성처럼 접근 가능)의 값 중
#15 초과인 결과를 Boolean Series 값을 얻을 수 있습니다. 
#이 Boolean Series를 활용해 인덱싱하고 있습니다. 
#이는 데이터베이스와 같이 인덱스를 가지는 Boolean Series도 row를 선택하는 인덱싱 값으로 쓸 수 있습니다.

df.A > 15 # 영어 문자열을 속성처럼 접근 가능

a    False
b    False
c     True
Name: A, dtype: bool

In [10]:
df.loc[df.A>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [11]:
### callable한 함수의 인덱싱
#다음 함수는 A열의 값이 10보다 큰 row만 선택합니다.


def select_rows(df, num):
    return df.A > num

In [12]:
select_rows(df, 10)

a    False
b     True
c     True
Name: A, dtype: bool

In [13]:
df.loc[select_rows(df, 10)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [14]:
## loc 인덱서의 주의사항

# loc 인덱서는 column label 인덱싱이나
# column label 리스트 인덱싱은 불가능

# df.loc["A"] # KeyError 발생

# df.loc[["A", "B"]] # KeyError 발셍

# 원래 row index 값이 정수인 경우 마지막 값이 포함됨
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4),
                   columns = ["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [15]:
df2.loc[1:2] # 끝값 2가 포함됨
# 원래 정수형 index이므로 끝값 포함

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [16]:
# loc과 iloc의 차이
# iloc은 label 인덱스가 아닌 숫자로된 인덱스로 접근하기
# 때문에 끝값 포함이 안 됨

df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [17]:
df2.iloc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


In [18]:
loc = {
    "가능" : ["O", "O", "O", "O", "O", "X", "X"],
    "결과" : ["행", "행", "행", "행", "행", "", ""],
    "자료형" : ["Series", "DataFrame", 
             "DataFrame", "DataFrame", 
             "DataFrame", "", ""],
    "추가사항" : ["",
             "loc가 없는 경우와 같음",
             "",
             "Series의 인덱스가 DataFrame의 행 인덱스와 같아야 한다.",
             "",
             "loc가 없는 경우에만 쓸 수 있다.",
             "loc가 없는 경우에만 쓸 수 있다."]
}

index = ["row 인덱스값(정수)",
         "row 인덱스값(정수) 슬라이스",
         "row 인덱스값(정수) 리스트",
         "Boolean Series",
         "Boolean Series를 반환하는 함수",
         "column label",
         "column label 리스트"]

loc_index = pd.DataFrame(loc, index = index)
loc_index.index.name = "인덱싱 값"
loc_index

Unnamed: 0_level_0,가능,결과,자료형,추가사항
인덱싱 값,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row 인덱스값(정수),O,행,Series,
row 인덱스값(정수) 슬라이스,O,행,DataFrame,loc가 없는 경우와 같음
row 인덱스값(정수) 리스트,O,행,DataFrame,
Boolean Series,O,행,DataFrame,Series의 인덱스가 DataFrame의 행 인덱스와 같아야 한다.
Boolean Series를 반환하는 함수,O,행,DataFrame,
column label,X,,,loc가 없는 경우에만 쓸 수 있다.
column label 리스트,X,,,loc가 없는 경우에만 쓸 수 있다.


In [19]:
## row와 column의 loc 인덱서

df.loc["a", "A"]
# row index 값이 a, label 값이 A인 위치의 결과

10

In [20]:
df.at["a", "A"]
#loc와 같은 값을 출력하지만 속도가 조금 더 빠름

10

In [21]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [23]:
# 슬라이싱
df.loc["b":,"A"]

b    14
c    18
Name: A, dtype: int32

In [24]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [25]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [26]:
### Boolean indexing

df.loc[df.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


In [33]:
## iloc 인덱서

# iloc 인덱서는 loc 인덱서와 달리 label이 아닌 정수 인덱스만 받는다.
# 다른 부분은 loc 인덱서와 동일
# iloc는 정수만 받음 <-> loc는 문자만 받음

df.iloc[0, 1]

11

In [28]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [29]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [30]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [34]:
# 인덱스가 하나만 들어가면 loc과 마찬가지로 행을 선택

df.iloc[-1]

A    36
B    38
C    40
D    42
Name: c, dtype: int32

In [32]:
df.iloc[-1] = df.iloc[-1] * 2 # 마지막 행 값 * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


In [35]:
#연습문제

In [36]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [44]:
#답1
titanic.T.loc["age"].mean().round(2)

29.7

In [71]:
#답1-1
round(titanic["age"].mean(),1)

29.7

In [58]:
#답2
round(titanic[titanic["sex"] == "female"]["age"].mean(), 1)

27.9

In [72]:
#답3
round(titanic[(titanic["sex"] == "female") & (titanic["pclass"] == 1 )]["age"].mean(), 1)

34.6

In [73]:
##titanic.T.loc["age"]*(titanic.T.loc["sex"] == "female").mean().round(1)

In [86]:
#연습문제

In [None]:
#teams.csv를 읽어들여서 dataframe으로 만듭니다. 
#우리 반은 총 28명입니다. 4명씩 짝을 지어 팀을 구성합니다. 
#1팀부터 7팀까지 배정을 하는데 팀 배정방법은 랜덤하게 배정합니다. 
#team이라는 이름의 column을 하나 추가합니다. int형으로 해당하는 팀의 숫자값을 저장합니다. 
#teams_result.csv파일로 저장합니다.

In [81]:
team = {np.random.randint(
np.random.seed(0)
teams_path = './../datas/teams.csv'
team = [1,2,3,4,5,6]
index = ["이름", "성별"]
teams = pd.read_csv(teams_path, parse_dates = ["성별"])
teams

Unnamed: 0,성명,성별
0,강예림,여
1,강호정,남
2,고유리,여
3,김정인,여
4,김지성,남
5,김지오,여
6,노재승,남
7,박기영,남
8,박수현,여
9,배선화,여


In [102]:
teams_path = 'C:/python/datas/teams.csv'
teams_cols = ["성명","성별"]
teams = pd.read_csv(teams_path)
df = teams.sample(28)
df["team"] = for i in range(1,7):
                  for j in range(1,7):
            

SyntaxError: invalid syntax (1085552012.py, line 5)

In [95]:
import pandas as pd
import random

teams_path = 'C:/python/datas/teams.csv'
teams_cols = ["teams"]
teams = pd.read_csv(teams_path)
teams

# randomly shuffle the order of rows in the dataframe
df = teams.sample(frac=1)

# create a list of team numbers
teams = [i for i in range(1, 8)]

# create a list of pairs of students
pairs = [(df.iloc[i:i+2]['Name'].tolist()) for i in range(0, len(df), 2)]

# create a list of teams with 4 pairs each
team_assignments = [pairs[i:i+4] for i in range(0, len(pairs), 4)]

# randomly assign the team number to each team
for i in range(len(team_assignments)):
    team_number = random.choice(teams)
    teams.remove(team_number)
    for j in range(len(team_assignments[i])):
        for k in range(len(team_assignments[i][j])):
            df.loc[df['Name'] == team_assignments[i][j][k], 'Team'] = team_number

# convert the team column to int type
df['Team'] = df['Team'].astype(int)

# save the dataframe as a csv file
df.to_csv('teams_result.csv', index=False)


KeyError: 'Name'