- DataFrame은 행과 열이 있는 2차원 데이터 테이블(참조점: 인덱스 레이블, 인덱스 위치)

# DataFrame의 개요
- DataFrame 클래스 생성자는 판다스의 최상위 수준에서 사용 가능
- pd.DataFrame() 로 인스턴스화

In [1]:
import pandas as pd
import numpy as np

## 딕셔너리에서 DataFrame 생성
- DataFrame 생성자의 첫번째 매개변수 data

In [2]:
city_data = {
    "City": ["New York City", "Paris", "Barcelona", "Rome"],
    "Country": ["United States", "France", "Spain", "Italy"],
    "Population": pd.Series([8600000, 2141000, 5515000, 2874000])
}

cities = pd.DataFrame(city_data)
cities

Unnamed: 0,City,Country,Population
0,New York City,United States,8600000
1,Paris,France,2141000
2,Barcelona,Spain,5515000
3,Rome,Italy,2874000


- DataFrame은 행 레이블의 인덱스를 가짐.
- DataFrame은 여러 열을 가짐->열 헤더를 두번째 인덱스로 생각
- 열헤더 <-> 인덱스 레이블: transpose 메서드 호출 or T 속성에 접근
- 판다스는 서로 다른 데이터 유형의 인덱스 레이블을 저장 가능

In [3]:
cities.transpose()

Unnamed: 0,0,1,2,3
City,New York City,Paris,Barcelona,Rome
Country,United States,France,Spain,Italy
Population,8600000,2141000,5515000,2874000


In [4]:
cities.T

Unnamed: 0,0,1,2,3
City,New York City,Paris,Barcelona,Rome
Country,United States,France,Spain,Italy
Population,8600000,2141000,5515000,2874000


## 넘파이 ndarray로 DataFrame 생성

In [5]:
#넘파이의 random 모듈에 있는 randint 함수를 사용하여 ndarray 생성
random_data = np.random.randint(1, 101, [3, 5])
random_data

array([[ 12,  92,  41,  73,  62],
       [ 89,  83,  73, 100,  27],
       [ 50,  92,  26,  85,  64]])

In [6]:
pd.DataFrame(data = random_data)

Unnamed: 0,0,1,2,3,4
0,12,92,41,73,62
1,89,83,73,100,27
2,50,92,26,85,64


In [7]:
#DataFrame 생성자의 index 매개변수에 리스트/튜플/ndarray 같은 반복 가능한 객체를 전달 가능->행 레이블 설정
row_labels = ["Morning", "Afternoon", "Evening"]
temperatures = pd.DataFrame(
    data = random_data, index = row_labels
)
temperatures

Unnamed: 0,0,1,2,3,4
Morning,12,92,41,73,62
Afternoon,89,83,73,100,27
Evening,50,92,26,85,64


In [8]:
#DataFrame 생성자의 columns 매개변수에 반복 가능한 객체를 전달하여 열 이름 설정
row_labels = ["Morning", "Afternoon", "Evening"]
column_labels = (
    "Monday",
    "Tuesday",
    "Wednesday",
    "Thursday",
    "Friday"
)
pd.DataFrame(
    data = random_data,
    index = row_labels,
    columns = column_labels,
)

Unnamed: 0,Monday,Tuesday,Wednesday,Thursday,Friday
Morning,12,92,41,73,62
Afternoon,89,83,73,100,27
Evening,50,92,26,85,64


In [9]:
#판다스의 DataFrame은 중복된 행과 열 인덱스를 허용
#;인덱스는 가능한 한 고유한 값을 가지는 것이 좋음. 그래야 쉬운 추출이 가능.
row_labels = ["Morning", "Afternoon", "Morning"]
column_labels = (
    "Monday",
    "Tuesday",
    "Wednesday",
    "Tuesday",
    "Friday"
)
pd.DataFrame(
    data = random_data,
    index = row_labels,
    columns = column_labels,
)

Unnamed: 0,Monday,Tuesday,Wednesday,Tuesday.1,Friday
Morning,12,92,41,73,62
Afternoon,89,83,73,100,27
Morning,50,92,26,85,64


# Series와 DataFrame의 유사점
- Series의 속성, 메서드을 DataFrame에서도 사용 가능
- 다중 열과 2개의 분리된 축을 다루기 때문에 구현 내용이 다름

## read_csv 함수로 DataFrame 가져오기

In [10]:
nba = pd.read_csv("nba.csv", parse_dates = ["Birthday"])
nba

Unnamed: 0,Name,Team,Position,Birthday,Salary
0,Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697
1,Christian Wood,Detroit Pistons,PF,1995-09-27,1645357
2,PJ Washington,Charlotte Hornets,PF,1998-08-23,3831840
3,Derrick Rose,Detroit Pistons,PG,1988-10-04,7317074
4,Marial Shayok,Philadelphia 76ers,G,1995-07-26,79568
...,...,...,...,...,...
445,Austin Rivers,Houston Rockets,PG,1992-08-01,2174310
446,Harry Giles,Sacramento Kings,PF,1998-04-22,2578800
447,Robin Lopez,Milwaukee Bucks,C,1988-04-01,4767000
448,Collin Sexton,Cleveland Cavaliers,PG,1999-01-04,4764960


- DataFrame = 공통 인덱스를 가지는 Series 객체의 컬렉션
  - n개의 열이 같은 행 인덱스를 공유

## Series와 DataFrame 속성의 유사점과 차이점

In [11]:
#Series의 dtype 속성은 이름이 단수형(dtype), 값이 하나
pd.Series([1, 2, 3]).dtype

dtype('int64')

In [12]:
#DataFrame의 dtype 속성은 여러 유형의 데이터를 담을 수 있음(복수형 이름 dtypes)
#DataFrame의 열을 인덱스 레이블로, 데이터 유형을 값으로 가지는 Series를 반환
nba.dtypes

Name                object
Team                object
Position            object
Birthday    datetime64[ns]
Salary               int64
dtype: object

In [13]:
#각 데이터 유형에 몇 개의 열이 속하는지 확인
nba.dtypes.value_counts()

object            3
datetime64[ns]    1
int64             1
dtype: int64

- DataFrame은 몇 가지 작은 객체로 구성됨
  - 행 레이블을 담은 인덱스
  - 열 레이블을 담은 인덱스
  - 값을 담은 데이터 컨테이너

In [14]:
nba.index

RangeIndex(start=0, stop=450, step=1)

- RangeIndex 객체의 속성
  - start: 하한
  - stop: 범위에 포함되지 않는 상한
  - step: 인접한 값 사이의 간격/단계 시퀀스

In [15]:
#판다스는 DataFrame의 열을 저장하기 위해 별도의 Index 객체를 사용(columns 속성으로 열 인덱스에 접근)
nba.columns

Index(['Name', 'Team', 'Position', 'Birthday', 'Salary'], dtype='object')

In [16]:
#ndim 속성: 판다스 객체의 차원 수를 반환
nba.ndim

2

In [17]:
#shape 속성: DataFrame의 차원을 튜플 형태로 반환
nba.shape

(450, 5)

In [18]:
#size 속성: 데이터셋에 있는 값의 전체 개수(NaN과 같은 결측값 포함)
nba.size

2250

In [19]:
#count 메서드: 결측값을 제외한 데이터셋에 있는 값의 개수
nba.count()

Name        450
Team        450
Position    450
Birthday    450
Salary      450
dtype: int64

In [20]:
#sum 메서드: 모든 값의 개수를 더함
#결측값이 없는 경우 size 속성과 같은 결과를 냄
nba.count().sum()

2250

In [21]:
#size 속성과 count 메서드의 차이
data = {
    "A": [1, np.nan],
    "B":[2, 3]
}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1.0,2
1,,3


In [22]:
df.size

4

In [23]:
df.count().sum()

3

## Series와 DataFrame의 공통 메서드

In [24]:
#head 메서드 (기본 인수 = 5)
nba.head(2)

Unnamed: 0,Name,Team,Position,Birthday,Salary
0,Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697
1,Christian Wood,Detroit Pistons,PF,1995-09-27,1645357


In [25]:
#tail 메서드 (기본 인수=5)
nba.tail(n = 3)

Unnamed: 0,Name,Team,Position,Birthday,Salary
447,Robin Lopez,Milwaukee Bucks,C,1988-04-01,4767000
448,Collin Sexton,Cleveland Cavaliers,PG,1999-01-04,4764960
449,Ricky Rubio,Phoenix Suns,PG,1990-10-21,16200000


In [26]:
#sample 메서드: 임의의 행 추출(첫번째 매개변수는 반환할 행의 개수)
nba.sample(3)

Unnamed: 0,Name,Team,Position,Birthday,Salary
352,Jonas Valanciunas,Memphis Grizzlies,C,1992-05-06,16000000
61,Wesley Iwundu,Orlando Magic,SF,1994-12-20,1618520
52,Aaron Gordon,Orlando Magic,PF,1995-09-16,19863636


In [27]:
#nunique 메서드: 열별로 고유한 값의 개수를 나타내는 Series를 반환
nba.nunique()

Name        450
Team         30
Position      9
Birthday    430
Salary      269
dtype: int64

In [28]:
#max 메서드: 각 열에 있는 최댓값을 나타내는 Series를 반환
nba.max()

Name             Zylan Cheatham
Team         Washington Wizards
Position                     SG
Birthday    2000-12-23 00:00:00
Salary                 40231758
dtype: object

In [29]:
#min 메서드: 각 열의 최솟값을 나타내는 Series를 반환
nba.min()

Name               Aaron Gordon
Team              Atlanta Hawks
Position                      C
Birthday    1977-01-26 00:00:00
Salary                    79568
dtype: object

In [30]:
#nlargest 메서드: 주어진 열에서 가장 큰 값을 가지는 행의 집합을 반환
#n 매개변수로 행의 개수 지정, columns 매개변수로 정렬할 열 선택
nba.nlargest(n = 4, columns = "Salary")

Unnamed: 0,Name,Team,Position,Birthday,Salary
205,Stephen Curry,Golden State Warriors,PG,1988-03-14,40231758
38,Chris Paul,Oklahoma City Thunder,PG,1985-05-06,38506482
219,Russell Westbrook,Houston Rockets,PG,1988-11-12,38506482
251,John Wall,Washington Wizards,PG,1990-09-06,38199000


In [31]:
#nsmallest 메서드: 주어진 열에서 가장 작은 값을 가지는 행의 집합을 반환
#nlargest, nsmallest 메서드는 숫자, 날짜/시간 열에서만 작동
nba.nsmallest(n = 3, columns = ["Birthday"])

Unnamed: 0,Name,Team,Position,Birthday,Salary
98,Vince Carter,Atlanta Hawks,PF,1977-01-26,2564753
196,Udonis Haslem,Miami Heat,C,1980-06-09,2564753
262,Kyle Korver,Milwaukee Bucks,PF,1981-03-17,6004753


In [32]:
#sum 메서드
nba.sum()

  nba.sum()


Name        Shake MiltonChristian WoodPJ WashingtonDerrick...
Team        Philadelphia 76ersDetroit PistonsCharlotte Hor...
Position    SGPFPFPGGPFSGSFCSFPGPGFCPGSGPFCCPFPFSGPFPGSGSF...
Salary                                             3444112694
dtype: object

In [33]:
#sum 메서드에서 숫자만 합한 결과
nba.sum(numeric_only = True)

Salary    3444112694
dtype: int64

In [34]:
#mean 메서드
nba.mean(numeric_only = True)

Salary    7.653584e+06
dtype: float64

In [35]:
#median 메서드(중앙값)
nba.median(numeric_only = True)

Salary    3303074.5
dtype: float64

In [36]:
#mode 메서드(최빈값)
nba.mode(numeric_only = True)

Unnamed: 0,Salary
0,79568


In [37]:
#std 메서드(표준편차)
nba.std(numeric_only = True)

Salary    9.288810e+06
dtype: float64

# DataFrame 정렬

## 단일 열 기준으로 정렬
- sort_values 메서드의 첫번째 매개변수 by로 기준이 되는 열을 설정

In [38]:
nba.sort_values(by = "Name") #nba.sort_values("Name")

Unnamed: 0,Name,Team,Position,Birthday,Salary
52,Aaron Gordon,Orlando Magic,PF,1995-09-16,19863636
101,Aaron Holiday,Indiana Pacers,PG,1996-09-30,2239200
437,Abdel Nader,Oklahoma City Thunder,SF,1993-09-25,1618520
81,Adam Mokoka,Chicago Bulls,G,1998-07-18,79568
399,Admiral Schofield,Washington Wizards,SF,1997-03-30,1000000
...,...,...,...,...,...
159,Zach LaVine,Chicago Bulls,PG,1995-03-10,19500000
302,Zach Norvell,Los Angeles Lakers,SG,1997-12-09,79568
312,Zhaire Smith,Philadelphia 76ers,SG,1999-06-04,3058800
137,Zion Williamson,New Orleans Pelicans,F,2000-07-06,9757440


In [39]:
#기본인수는 오름차순(ascending = True)
nba.sort_values("Name", ascending = False).head()

Unnamed: 0,Name,Team,Position,Birthday,Salary
248,Zylan Cheatham,New Orleans Pelicans,SF,1995-11-17,79568
137,Zion Williamson,New Orleans Pelicans,F,2000-07-06,9757440
312,Zhaire Smith,Philadelphia 76ers,SG,1999-06-04,3058800
302,Zach Norvell,Los Angeles Lakers,SG,1997-12-09,79568
159,Zach LaVine,Chicago Bulls,PG,1995-03-10,19500000


In [40]:
nba.sort_values("Birthday", ascending =False).head()

Unnamed: 0,Name,Team,Position,Birthday,Salary
136,Sekou Doumbouya,Detroit Pistons,SF,2000-12-23,3285120
432,Talen Horton-Tucker,Los Angeles Lakers,GF,2000-11-25,898310
137,Zion Williamson,New Orleans Pelicans,F,2000-07-06,9757440
313,RJ Barrett,New York Knicks,SG,2000-06-14,7839960
392,Jalen Lecque,Phoenix Suns,G,2000-06-13,898310


## 다중 열 기준으로 정렬
- sort_values 메서드의 by 매개변수에 리스트를 전달하여 다중 열 기준 정렬 가능
  - 리스트에 나타나는 순서대로 연속적으로 정렬
  - 판다스의 정렬 기본값: 오름차순
    - ascending 매개변수에 부울값 리스트를 전달하여 변경 가능

In [41]:
nba.sort_values(by = ["Team", "Name"])

Unnamed: 0,Name,Team,Position,Birthday,Salary
359,Alex Len,Atlanta Hawks,C,1993-06-16,4160000
167,Allen Crabbe,Atlanta Hawks,SG,1992-04-09,18500000
276,Brandon Goodwin,Atlanta Hawks,PG,1995-10-02,79568
438,Bruno Fernando,Atlanta Hawks,C,1998-08-15,1400000
194,Cam Reddish,Atlanta Hawks,SF,1999-09-01,4245720
...,...,...,...,...,...
418,Jordan McRae,Washington Wizards,PG,1991-03-28,1645357
273,Justin Robinson,Washington Wizards,PG,1997-10-12,898310
428,Moritz Wagner,Washington Wizards,C,1997-04-26,2063520
21,Rui Hachimura,Washington Wizards,PF,1998-02-08,4469160


In [42]:
nba.sort_values(["Team", "Name"], ascending = False)

Unnamed: 0,Name,Team,Position,Birthday,Salary
36,Thomas Bryant,Washington Wizards,C,1997-07-31,8000000
21,Rui Hachimura,Washington Wizards,PF,1998-02-08,4469160
428,Moritz Wagner,Washington Wizards,C,1997-04-26,2063520
273,Justin Robinson,Washington Wizards,PG,1997-10-12,898310
418,Jordan McRae,Washington Wizards,PG,1991-03-28,1645357
...,...,...,...,...,...
194,Cam Reddish,Atlanta Hawks,SF,1999-09-01,4245720
438,Bruno Fernando,Atlanta Hawks,C,1998-08-15,1400000
276,Brandon Goodwin,Atlanta Hawks,PG,1995-10-02,79568
167,Allen Crabbe,Atlanta Hawks,SG,1992-04-09,18500000


In [43]:
nba = nba.sort_values(["Team", "Name"], ascending = [True, False])
nba

Unnamed: 0,Name,Team,Position,Birthday,Salary
98,Vince Carter,Atlanta Hawks,PF,1977-01-26,2564753
290,Tyrone Wallace,Atlanta Hawks,PG,1994-06-10,1620564
20,Kevin Huerter,Atlanta Hawks,SG,1998-08-27,2636280
84,John Collins,Atlanta Hawks,PF,1997-09-23,2686560
339,Jabari Parker,Atlanta Hawks,PF,1995-03-15,6500000
...,...,...,...,...,...
283,Garrison Mathews,Washington Wizards,SG,1996-10-24,79568
226,Davis Bertans,Washington Wizards,PF,1992-11-12,7000000
353,Chris Chiozza,Washington Wizards,PG,1995-11-21,79568
35,Bradley Beal,Washington Wizards,SG,1993-06-28,27093018


# 인덱스별 정렬
- 영구 정렬을 적용 시 DataFrame은 처음 상태와 다른 순서로 정렬됨
->원본 형태로 돌리기 위해서 인덱스별 정렬 이용

## 행 인덱스 기준으로 정렬
- 열 값이 아닌 인덱스 위치를 기준으로 데이터셋을 정렬 가능하다면 원본 형태로 되돌릴 수 있음

In [44]:
nba.sort_index().head() #nba.sort_index(ascending = True).head()

Unnamed: 0,Name,Team,Position,Birthday,Salary
0,Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697
1,Christian Wood,Detroit Pistons,PF,1995-09-27,1645357
2,PJ Washington,Charlotte Hornets,PF,1998-08-23,3831840
3,Derrick Rose,Detroit Pistons,PG,1988-10-04,7317074
4,Marial Shayok,Philadelphia 76ers,G,1995-07-26,79568


In [45]:
nba.sort_index(ascending = False).head()

Unnamed: 0,Name,Team,Position,Birthday,Salary
449,Ricky Rubio,Phoenix Suns,PG,1990-10-21,16200000
448,Collin Sexton,Cleveland Cavaliers,PG,1999-01-04,4764960
447,Robin Lopez,Milwaukee Bucks,C,1988-04-01,4767000
446,Harry Giles,Sacramento Kings,PF,1998-04-22,2578800
445,Austin Rivers,Houston Rockets,PG,1992-08-01,2174310


In [46]:
nba = nba.sort_index()

## 열 인덱스 기준으로 정렬

In [47]:
#sort_index 메서드를 사용하되 axis 매개변수를 추가 후 인수를 전달
nba.sort_index(axis = "columns").head()
#nba.sort_index(axis = 1).head()

Unnamed: 0,Birthday,Name,Position,Salary,Team
0,1996-09-26,Shake Milton,SG,1445697,Philadelphia 76ers
1,1995-09-27,Christian Wood,PF,1645357,Detroit Pistons
2,1998-08-23,PJ Washington,PF,3831840,Charlotte Hornets
3,1988-10-04,Derrick Rose,PG,7317074,Detroit Pistons
4,1995-07-26,Marial Shayok,G,79568,Philadelphia 76ers


In [48]:
nba.sort_index(axis = "columns", ascending = False).head()

Unnamed: 0,Team,Salary,Position,Name,Birthday
0,Philadelphia 76ers,1445697,SG,Shake Milton,1996-09-26
1,Detroit Pistons,1645357,PF,Christian Wood,1995-09-27
2,Charlotte Hornets,3831840,PF,PJ Washington,1998-08-23
3,Detroit Pistons,7317074,PG,Derrick Rose,1988-10-04
4,Philadelphia 76ers,79568,G,Marial Shayok,1995-07-26


# 새 인덱스 설정

In [49]:
#set_index 메서드는 지정된 열이 인덱스로 설정된 새 DataFrame을 반환
nba.set_index(keys = "Name")
#nba.set_index("Name")

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697
Christian Wood,Detroit Pistons,PF,1995-09-27,1645357
PJ Washington,Charlotte Hornets,PF,1998-08-23,3831840
Derrick Rose,Detroit Pistons,PG,1988-10-04,7317074
Marial Shayok,Philadelphia 76ers,G,1995-07-26,79568
...,...,...,...,...
Austin Rivers,Houston Rockets,PG,1992-08-01,2174310
Harry Giles,Sacramento Kings,PF,1998-04-22,2578800
Robin Lopez,Milwaukee Bucks,C,1988-04-01,4767000
Collin Sexton,Cleveland Cavaliers,PG,1999-01-04,4764960


In [50]:
nba = nba.set_index(keys = "Name")

In [51]:
#csv 파일을 가져올때 인덱스열을 바꾸어 설정하는 방법
nba = pd.read_csv(
    "nba.csv", parse_dates = ["Birthday"], index_col = "Name"
)

# DataFrame에서 열과 행 선택

## DataFrame에서 단일 열 선택
- 각 Series 열은 DataFrame의 속성으로 선택 가능
- 객체 속성에 접근하기 위해 점(.)구문을 사용

In [52]:
#Salary 열을 추출 - 점 구문 사용
nba.Salary

Name
Shake Milton       1445697
Christian Wood     1645357
PJ Washington      3831840
Derrick Rose       7317074
Marial Shayok        79568
                    ...   
Austin Rivers      2174310
Harry Giles        2578800
Robin Lopez        4767000
Collin Sexton      4764960
Ricky Rubio       16200000
Name: Salary, Length: 450, dtype: int64

In [53]:
#Salary 열을 추출 - 대괄호 구문 사용(**공백이 있는 열 이름을 지원**)
nba["Position"]

Name
Shake Milton      SG
Christian Wood    PF
PJ Washington     PF
Derrick Rose      PG
Marial Shayok      G
                  ..
Austin Rivers     PG
Harry Giles       PF
Robin Lopez        C
Collin Sexton     PG
Ricky Rubio       PG
Name: Position, Length: 450, dtype: object

## DataFrame에서 다중 열 선택
- DataFrame에서 여러 개의 열을 추출하려면 대괄호를 두번 감싸서 사용(리스트로 열 이름을 전달)

In [54]:
nba[["Salary", "Birthday"]].head()

Unnamed: 0_level_0,Salary,Birthday
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Shake Milton,1445697,1996-09-26
Christian Wood,1645357,1995-09-27
PJ Washington,3831840,1998-08-23
Derrick Rose,7317074,1988-10-04
Marial Shayok,79568,1995-07-26


In [55]:
nba[["Birthday", "Salary"]].head()

Unnamed: 0_level_0,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Shake Milton,1996-09-26,1445697
Christian Wood,1995-09-27,1645357
PJ Washington,1998-08-23,3831840
Derrick Rose,1988-10-04,7317074
Marial Shayok,1995-07-26,79568


- select_dtype: 데이터 유형에 따라 열을 선택 
  - include: 선택할 열 유형을 나타내는 단일 문자열 또는 리스트
  - exclude: 버려야 할 열 유형을 나타내는 단일 문자열 또는 리스트
- 각 열의 데이터 유형을 보기 위해선 dtype 속성에 접근

In [56]:
nba.select_dtypes(include = "object")

Unnamed: 0_level_0,Team,Position
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Shake Milton,Philadelphia 76ers,SG
Christian Wood,Detroit Pistons,PF
PJ Washington,Charlotte Hornets,PF
Derrick Rose,Detroit Pistons,PG
Marial Shayok,Philadelphia 76ers,G
...,...,...
Austin Rivers,Houston Rockets,PG
Harry Giles,Sacramento Kings,PF
Robin Lopez,Milwaukee Bucks,C
Collin Sexton,Cleveland Cavaliers,PG


In [57]:
nba.select_dtypes(exclude = ["object", "int"])

Unnamed: 0_level_0,Birthday
Name,Unnamed: 1_level_1
Shake Milton,1996-09-26
Christian Wood,1995-09-27
PJ Washington,1998-08-23
Derrick Rose,1988-10-04
Marial Shayok,1995-07-26
...,...
Austin Rivers,1992-08-01
Harry Giles,1998-04-22
Robin Lopez,1988-04-01
Collin Sexton,1999-01-04


# DataFrame에서 행 선택

## 인덱스 레이블로 행 추출
- loc 속성: 레이블별로 행을 추출
  - loc 접근자가 데이터 조각에 접근하기 때문에 이와 같은 속성을 호출하여 행을 추출
  - loc 바로 뒤에 한 쌍의 대괄호를 입력하고 추출하고자 하는 인덱스 레이블을 전달

In [58]:
nba.loc["LeBron James"]

Team         Los Angeles Lakers
Position                     PF
Birthday    1984-12-30 00:00:00
Salary                 37436858
Name: LeBron James, dtype: object

In [59]:
#여러 행을 추출하려면 대괄호 사이에 리스트 전달
nba.loc[["Kawhi Leonard", "Paul George"]]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kawhi Leonard,Los Angeles Clippers,SF,1991-06-29,32742000
Paul George,Los Angeles Clippers,SF,1990-05-02,33005556


In [60]:
#인덱스 레이블이 리스트에 나타나는 순서대로 행을 구성
nba.loc[["Paul George", "Kawhi Leonard"]]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Paul George,Los Angeles Clippers,SF,1990-05-02,33005556
Kawhi Leonard,Los Angeles Clippers,SF,1991-06-29,32742000


In [61]:
#loc을 사용하여 인덱스 레이블 시퀀스를 추출 가능[하한:상한]
#파이썬의 슬라이싱과 유사하지만 상한을 범위에 포함.
#추출 전에 인덱스를 먼저 정렬하기
nba.sort_index().loc["Otto Porter":"Patrick Beverley"]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Otto Porter,Chicago Bulls,SF,1993-06-03,27250576
PJ Dozier,Denver Nuggets,PG,1996-10-25,79568
PJ Washington,Charlotte Hornets,PF,1998-08-23,3831840
Pascal Siakam,Toronto Raptors,PF,1994-04-02,2351838
Pat Connaughton,Milwaukee Bucks,SG,1993-01-06,1723050
Patrick Beverley,Los Angeles Clippers,PG,1988-07-12,12345680


In [62]:
nba.sort_index().loc["Zach Collins":]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Zach Collins,Portland Trail Blazers,C,1997-11-19,4240200
Zach LaVine,Chicago Bulls,PG,1995-03-10,19500000
Zach Norvell,Los Angeles Lakers,SG,1997-12-09,79568
Zhaire Smith,Philadelphia 76ers,SG,1999-06-04,3058800
Zion Williamson,New Orleans Pelicans,F,2000-07-06,9757440
Zylan Cheatham,New Orleans Pelicans,SF,1995-11-17,79568


In [63]:
nba.sort_index().loc[:"Al Horford"]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Aaron Gordon,Orlando Magic,PF,1995-09-16,19863636
Aaron Holiday,Indiana Pacers,PG,1996-09-30,2239200
Abdel Nader,Oklahoma City Thunder,SF,1993-09-25,1618520
Adam Mokoka,Chicago Bulls,G,1998-07-18,79568
Admiral Schofield,Washington Wizards,SF,1997-03-30,1000000
Al Horford,Philadelphia 76ers,C,1986-06-03,28000000


In [64]:
#인덱스 레이블이 DataFrame에 존재하지 않는 경우 예외 발생
nba.loc["Bugs Bunny"]

KeyError: 'Bugs Bunny'

## 인덱스 위치로 행 추출
- iloc(index location) 접근자: 인덱스 위치별로 행을 추출
- iloc 뒤에 한 쌍의 대괄호 입력, 그 사이에 정수(행)를 전달

In [65]:
nba.iloc[300]

Team             Denver Nuggets
Position                     PF
Birthday    1999-04-03 00:00:00
Salary                  1416852
Name: Jarred Vanderbilt, dtype: object

In [66]:
#여러 레코드를 담은 인덱스 위치 리스트도 허용
nba.iloc[[100, 200, 300, 400]]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Brian Bowen,Indiana Pacers,SG,1998-10-02,79568
Marco Belinelli,San Antonio Spurs,SF,1986-03-25,5846154
Jarred Vanderbilt,Denver Nuggets,PF,1999-04-03,1416852
Louis King,Detroit Pistons,F,1999-04-06,79568


In [67]:
#슬라이싱 구문을 함께 사용, 콜론 뒤의 인덱스 위치를 범위에서 제외
nba.iloc[400:404] #400, 401, 402, 403

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Louis King,Detroit Pistons,F,1999-04-06,79568
Kostas Antetokounmpo,Los Angeles Lakers,PF,1997-11-20,79568
Rodions Kurucs,Brooklyn Nets,PF,1998-02-05,1699236
Spencer Dinwiddie,Brooklyn Nets,PG,1993-04-06,10605600


In [70]:
#콜론 앞을 생략하여 처음부터 행을 가져옴
nba.iloc[:2]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697
Christian Wood,Detroit Pistons,PF,1995-09-27,1645357


In [71]:
#콜론 뒤를 생략하여 마지막까지 행을 가져옴
nba.iloc[447:]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Robin Lopez,Milwaukee Bucks,C,1988-04-01,4767000
Collin Sexton,Cleveland Cavaliers,PG,1999-01-04,4764960
Ricky Rubio,Phoenix Suns,PG,1990-10-21,16200000


In [72]:
#인덱스 슬라이싱에 음수 사용 가능
nba.iloc[-10:-6]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jared Dudley,Los Angeles Lakers,PF,1985-07-10,2564753
Max Strus,Chicago Bulls,SG,1996-03-28,79568
Kevon Looney,Golden State Warriors,C,1996-02-06,4464286
Willy Hernangomez,Charlotte Hornets,C,1994-05-27,1557250


In [73]:
#대괄호 안에 세 번째 숫자->단계 시퀀스를 지정
nba.iloc[0:10:2]

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697
PJ Washington,Charlotte Hornets,PF,1998-08-23,3831840
Marial Shayok,Philadelphia 76ers,G,1995-07-26,79568
Kendrick Nunn,Miami Heat,SG,1995-08-03,1416852
Brook Lopez,Milwaukee Bucks,C,1988-04-01,12093024


## 특정 열에서 값 추출
- loc, iloc 속성은 모두 두 번째 인수로 추출할 열을 받음
   - loc은 열 이름
   - iloc은 열 위치

In [74]:
#Giannis Antetokounmpo행과 Team열의 교차점에 있는 값 가져오기
nba.loc["Giannis Antetokounmpo", "Team"]

'Milwaukee Bucks'

- 여러 개의 값을 추출하려면 loc접근자에 2개 이하의 리스트를 전달

In [77]:
#행 하나, 열 여러개 -> 리스트 1개 전달
nba.loc["James Harden", ["Position", "Birthday"]]

Position                     PG
Birthday    1989-08-26 00:00:00
Name: James Harden, dtype: object

In [78]:
#행 여러개, 열 여러개 -> 리스트 2개 전달
nba.loc[
    ["Russell Westbrook", "Anthony Davis"],
    ["Team", "Salary"]
]

Unnamed: 0_level_0,Team,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Russell Westbrook,Houston Rockets,38506482
Anthony Davis,Los Angeles Lakers,27093019


- 리스트 슬라이싱 구문을 사용하면 열의 이름을 명시한 리스트를 전달하지 않고도 여러 개의 열 추출 가능

In [83]:
#리스트 슬라이싱 구문 사용
nba.loc["Joel Embiid", "Position":"Salary"]

Position                      C
Birthday    1994-03-16 00:00:00
Salary                 27504630
Name: Joel Embiid, dtype: object

In [84]:
#DataFrame에서 보여지는 순서에 맞춰 열의 이름을 전달하지 않으면 식별 못함.
nba.loc["Joel Embiid", "Salary":"Position"]

Series([], Name: Joel Embiid, dtype: object)

- 열의 순서에 따라 추출할 열을 선택 -> iloc

In [85]:
nba.iloc[57, 3]

796806

In [86]:
nba.iloc[100:104, :3]

Unnamed: 0_level_0,Team,Position,Birthday
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Brian Bowen,Indiana Pacers,SG,1998-10-02
Aaron Holiday,Indiana Pacers,PG,1996-09-30
Troy Daniels,Los Angeles Lakers,SG,1991-07-15
Buddy Hield,Sacramento Kings,SG,1992-12-17


- iloc, loc 접근자의 대괄호에는 단일 값, 값 리스트, 리스트 슬라이스 등을 사용 가능 -> 유연하지만 추가 오버헤드가 필요
- 따라서 DataFrame에서 단일 값을 추출할때는 검색 알고리즘이 단일 값에 최적화된 at, iat이라는 속성을 사용

In [87]:
nba.at["Austin Rivers", "Birthday"]

Timestamp('1992-08-01 00:00:00')

In [88]:
nba.iat[263, 1]

'PF'

- 주피터 노트북의 %%접두사를 사용한 매직 메서드를 활용
  - %%timeit: 셀에서 코드를 실행하고 실행하는데 걸리는 평균시간을 계산하는 매직 메서드

In [89]:
%%timeit
nba.at["Austin Rivers", "Birthday"]

11.5 µs ± 87.5 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [90]:
%%timeit
nba.loc["Austin Rivers", "Birthday"]

17.3 µs ± 110 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [91]:
%%timeit
nba.iat[263, 1]

18.7 µs ± 108 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [92]:
%%timeit
nba.iloc[263, 1]

24.5 µs ± 197 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


# Series에서 값 추출
- loc, iloc, at, iat 접근자는 Series 객체에서도 사용 가능

In [93]:
nba["Salary"].loc["Damian Lillard"]

29802321

In [94]:
nba["Salary"].at["Damian Lillard"]

29802321

In [95]:
nba["Salary"].iloc[234]

2033160

In [96]:
nba["Salary"].iat[234]

2033160

# 열 또는 행 이름 바꾸기
- columns 속성: DataFrame의 열 이름을 저장하는 Index 객체
- columns 속성에 열의 새 이름을 담은 리스트를 할당하여 일부/전체 열의 이름 변경 가능

In [97]:
nba.columns

Index(['Team', 'Position', 'Birthday', 'Salary'], dtype='object')

In [99]:
nba.columns = ["Team", "Position", "Date of Birth", "Pay"]
nba.head(1)

Unnamed: 0_level_0,Team,Position,Date of Birth,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697


- rename 메서드: 열의 이름 변경 가능
  - 기존 열의 이름(키):새 이름(값) 인 딕셔너리를 columns 매개변수에 전달

In [100]:
nba.rename(columns = {"Date of Birth":"Birthday"})

Unnamed: 0_level_0,Team,Position,Birthday,Pay
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697
Christian Wood,Detroit Pistons,PF,1995-09-27,1645357
PJ Washington,Charlotte Hornets,PF,1998-08-23,3831840
Derrick Rose,Detroit Pistons,PG,1988-10-04,7317074
Marial Shayok,Philadelphia 76ers,G,1995-07-26,79568
...,...,...,...,...
Austin Rivers,Houston Rockets,PG,1992-08-01,2174310
Harry Giles,Sacramento Kings,PF,1998-04-22,2578800
Robin Lopez,Milwaukee Bucks,C,1988-04-01,4767000
Collin Sexton,Cleveland Cavaliers,PG,1999-01-04,4764960


In [101]:
nba = nba.rename(columns = {"Date of Birth":"Birthday"})

- rename 메서드의 index 매개변수에 딕셔너리를 전달해 인덱스 레이블의 이름 변경 가능

In [102]:
nba.loc["Giannis Antetokounmpo"]

Team            Milwaukee Bucks
Position                     PF
Birthday    1994-12-06 00:00:00
Pay                    25842697
Name: Giannis Antetokounmpo, dtype: object

In [103]:
nba = nba.rename(
    index = {"Giannis Antetokounmpo":"Greek Freak"}
)

In [104]:
nba.loc["Greek Freak"]

Team            Milwaukee Bucks
Position                     PF
Birthday    1994-12-06 00:00:00
Pay                    25842697
Name: Greek Freak, dtype: object

# 인덱스 재설정

In [105]:
#set_index 메서드로 재설정 시 현재 인덱스로 설정해놓은 이름을 잃게 됨
nba.set_index("Team").head()

Unnamed: 0_level_0,Position,Birthday,Pay
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Philadelphia 76ers,SG,1996-09-26,1445697
Detroit Pistons,PF,1995-09-27,1645357
Charlotte Hornets,PF,1998-08-23,3831840
Detroit Pistons,PG,1988-10-04,7317074
Philadelphia 76ers,G,1995-07-26,79568


In [106]:
#reset_index 메서드로 현재 인덱스를 DataFrame열로 이동하고 판다스 숫자 인덱스로 변경
nba.reset_index().head()

Unnamed: 0,Name,Team,Position,Birthday,Pay
0,Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697
1,Christian Wood,Detroit Pistons,PF,1995-09-27,1645357
2,PJ Washington,Charlotte Hornets,PF,1998-08-23,3831840
3,Derrick Rose,Detroit Pistons,PG,1988-10-04,7317074
4,Marial Shayok,Philadelphia 76ers,G,1995-07-26,79568


In [107]:
nba.reset_index().set_index("Team").head()

Unnamed: 0_level_0,Name,Position,Birthday,Pay
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Philadelphia 76ers,Shake Milton,SG,1996-09-26,1445697
Detroit Pistons,Christian Wood,PF,1995-09-27,1645357
Charlotte Hornets,PJ Washington,PF,1998-08-23,3831840
Detroit Pistons,Derrick Rose,PG,1988-10-04,7317074
Philadelphia 76ers,Marial Shayok,G,1995-07-26,79568


In [108]:
nba = nba.reset_index().set_index("Team").head()

# 코딩 챌린지

In [10]:
#1. nfl.csv 파일을 가져오기, Birthday 열의 값을 날짜/시간으로 변환
import pandas as pd
nfl = pd.read_csv(
    "nfl.csv",
    parse_dates = ["Birthday"]
)

In [9]:
#2. Name을 DataFrame의 인덱스로 지정하는 두 가지 방법-1
nfl = pd.read_csv(
    "nfl.csv",
    parse_dates = ["Birthday"],
    index_col = "Name"
)

In [11]:
#2. Name을 DataFrame의 인덱스로 지정하는 두 가지 방법-2
nfl = nfl.set_index("Name")

In [12]:
#3. 데이터셋에서 팀 당 선수가 몇 명인지 계산
nfl["Team"].value_counts()

New York Jets           58
Kansas City Chiefs      56
Washington Redskins     56
New Orleans Saints      55
San Francisco 49Ers     55
Denver Broncos          54
Minnesota Vikings       54
Los Angeles Chargers    54
Seattle Seahawks        53
Dallas Cowboys          53
Buffalo Bills           53
Atlanta Falcons         53
Detroit Lions           53
Chicago Bears           53
Los Angeles Rams        52
New York Giants         52
Philadelphia Eagles     52
Houston Texans          52
Arizona Cardinals       51
Cincinnati Bengals      51
Green Bay Packers       51
Oakland Raiders         51
Jacksonville Jaguars    50
Cleveland Browns        49
Miami Dolphins          49
Indianapolis Colts      49
Carolina Panthers       49
New England Patriots    49
Baltimore Ravens        48
Pittsburgh Steelers     47
Tampa Bay Buccaneers    47
Tennessee Titans        46
Name: Team, dtype: int64

In [16]:
#4. 가장 높은 연봉을 받는 5명의 선수
nfl.sort_values("Salary", ascending = False).head()

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kirk Cousins,Minnesota Vikings,QB,1988-08-19,27500000
Jameis Winston,Tampa Bay Buccaneers,QB,1994-01-06,20922000
Marcus Mariota,Tennessee Titans,QB,1993-10-30,20922000
Derek Carr,Oakland Raiders,QB,1991-03-28,19900000
Jimmy Garoppolo,San Francisco 49Ers,QB,1991-11-02,17200000


In [20]:
#5. 데이터셋에서 팀을 알파벳 순서로 정렬 후 연봉을 내림차순으로 정렬
nfl.sort_values(by = ["Team", "Salary"], ascending = [True, False])

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chandler Jones,Arizona Cardinals,OLB,1990-02-27,16500000
Patrick Peterson,Arizona Cardinals,CB,1990-07-11,11000000
Larry Fitzgerald,Arizona Cardinals,WR,1983-08-31,11000000
David Johnson,Arizona Cardinals,RB,1991-12-16,5700000
Justin Pugh,Arizona Cardinals,G,1990-08-15,5000000
...,...,...,...,...
Ross Pierschbacher,Washington Redskins,C,1995-05-05,495000
Kelvin Harmon,Washington Redskins,WR,1996-12-15,495000
Wes Martin,Washington Redskins,G,1996-05-09,495000
Jimmy Moreland,Washington Redskins,CB,1995-08-26,495000


In [31]:
#6. New York Jets 팀에서 가장 나이가 많은 선수의 이름과 생일
#오답
#nfl["Team"].sort_values("Birthday", ascending=False).iloc[0, [0, 2]]

nfl = nfl.reset_index().set_index(keys = "Team")
nfl_nyj_birthday = nfl.loc["New York Jets"].sort_values("Birthday")
nfl_nyj_birthday.iloc[0, [0, 2]] 
#index location과 location을 각각 행과 열에서 혼용하는 방법은 없나?

Name                 Ryan Kalil
Birthday    1985-03-29 00:00:00
Name: New York Jets, dtype: object