- DataFrame은 행과 열이 있는 2차원 데이터 테이블(참조점: 인덱스 레이블, 인덱스 위치)

# DataFrame의 개요
- DataFrame 클래스 생성자는 판다스의 최상위 수준에서 사용 가능
- pd.DataFrame() 로 인스턴스화

In [1]:
import pandas as pd
import numpy as np

## 딕셔너리에서 DataFrame 생성
- DataFrame 생성자의 첫번째 매개변수 data

In [2]:
city_data = {
    "City": ["New York City", "Paris", "Barcelona", "Rome"],
    "Country": ["United States", "France", "Spain", "Italy"],
    "Population": pd.Series([8600000, 2141000, 5515000, 2874000])
}

cities = pd.DataFrame(city_data)
cities

Unnamed: 0,City,Country,Population
0,New York City,United States,8600000
1,Paris,France,2141000
2,Barcelona,Spain,5515000
3,Rome,Italy,2874000


- DataFrame은 행 레이블의 인덱스를 가짐.
- DataFrame은 여러 열을 가짐->열 헤더를 두번째 인덱스로 생각
- 열헤더 <-> 인덱스 레이블: transpose 메서드 호출 or T 속성에 접근
- 판다스는 서로 다른 데이터 유형의 인덱스 레이블을 저장 가능

In [3]:
cities.transpose()

Unnamed: 0,0,1,2,3
City,New York City,Paris,Barcelona,Rome
Country,United States,France,Spain,Italy
Population,8600000,2141000,5515000,2874000


In [4]:
cities.T

Unnamed: 0,0,1,2,3
City,New York City,Paris,Barcelona,Rome
Country,United States,France,Spain,Italy
Population,8600000,2141000,5515000,2874000


## 넘파이 ndarray로 DataFrame 생성

In [5]:
#넘파이의 random 모듈에 있는 randint 함수를 사용하여 ndarray 생성
random_data = np.random.randint(1, 101, [3, 5])
random_data

array([[45, 52, 90, 51, 36],
       [ 4,  8, 76, 70,  2],
       [78, 86, 87, 84, 45]])

In [6]:
pd.DataFrame(data = random_data)

Unnamed: 0,0,1,2,3,4
0,45,52,90,51,36
1,4,8,76,70,2
2,78,86,87,84,45


In [7]:
#DataFrame 생성자의 index 매개변수에 리스트/튜플/ndarray 같은 반복 가능한 객체를 전달 가능->행 레이블 설정
row_labels = ["Morning", "Afternoon", "Evening"]
temperatures = pd.DataFrame(
    data = random_data, index = row_labels
)
temperatures

Unnamed: 0,0,1,2,3,4
Morning,45,52,90,51,36
Afternoon,4,8,76,70,2
Evening,78,86,87,84,45


In [8]:
#DataFrame 생성자의 columns 매개변수에 반복 가능한 객체를 전달하여 열 이름 설정
row_labels = ["Morning", "Afternoon", "Evening"]
column_labels = (
    "Monday",
    "Tuesday",
    "Wednesday",
    "Thursday",
    "Friday"
)
pd.DataFrame(
    data = random_data,
    index = row_labels,
    columns = column_labels,
)

Unnamed: 0,Monday,Tuesday,Wednesday,Thursday,Friday
Morning,45,52,90,51,36
Afternoon,4,8,76,70,2
Evening,78,86,87,84,45


In [9]:
#판다스의 DataFrame은 중복된 행과 열 인덱스를 허용
#;인덱스는 가능한 한 고유한 값을 가지는 것이 좋음. 그래야 쉬운 추출이 가능.
row_labels = ["Morning", "Afternoon", "Morning"]
column_labels = (
    "Monday",
    "Tuesday",
    "Wednesday",
    "Tuesday",
    "Friday"
)
pd.DataFrame(
    data = random_data,
    index = row_labels,
    columns = column_labels,
)

Unnamed: 0,Monday,Tuesday,Wednesday,Tuesday.1,Friday
Morning,45,52,90,51,36
Afternoon,4,8,76,70,2
Morning,78,86,87,84,45


# Series와 DataFrame의 유사점
- Series의 속성, 메서드을 DataFrame에서도 사용 가능
- 다중 열과 2개의 분리된 축을 다루기 때문에 구현 내용이 다름

## read_csv 함수로 DataFrame 가져오기

In [13]:
nba = pd.read_csv("nba.csv", parse_dates = ["Birthday"])
nba

Unnamed: 0,Name,Team,Position,Birthday,Salary
0,Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697
1,Christian Wood,Detroit Pistons,PF,1995-09-27,1645357
2,PJ Washington,Charlotte Hornets,PF,1998-08-23,3831840
3,Derrick Rose,Detroit Pistons,PG,1988-10-04,7317074
4,Marial Shayok,Philadelphia 76ers,G,1995-07-26,79568
...,...,...,...,...,...
445,Austin Rivers,Houston Rockets,PG,1992-08-01,2174310
446,Harry Giles,Sacramento Kings,PF,1998-04-22,2578800
447,Robin Lopez,Milwaukee Bucks,C,1988-04-01,4767000
448,Collin Sexton,Cleveland Cavaliers,PG,1999-01-04,4764960


- DataFrame = 공통 인덱스를 가지는 Series 객체의 컬렉션
  - n개의 열이 같은 행 인덱스를 공유

## Series와 DataFrame 속성의 유사점과 차이점

In [14]:
#Series의 dtype 속성은 이름이 단수형(dtype), 값이 하나
pd.Series([1, 2, 3]).dtype

dtype('int64')

In [16]:
#DataFrame의 dtype 속성은 여러 유형의 데이터를 담을 수 있음(복수형 이름 dtypes)
#DataFrame의 열을 인덱스 레이블로, 데이터 유형을 값으로 가지는 Series를 반환
nba.dtypes

Name                object
Team                object
Position            object
Birthday    datetime64[ns]
Salary               int64
dtype: object

In [18]:
#각 데이터 유형에 몇 개의 열이 속하는지 확인
nba.dtypes.value_counts()

object            3
datetime64[ns]    1
int64             1
dtype: int64

- DataFrame은 몇 가지 작은 객체로 구성됨
  - 행 레이블을 담은 인덱스
  - 열 레이블을 담은 인덱스
  - 값을 담은 데이터 컨테이너

In [19]:
nba.index

RangeIndex(start=0, stop=450, step=1)

- RangeIndex 객체의 속성
  - start: 하한
  - stop: 범위에 포함되지 않는 상한
  - step: 인접한 값 사이의 간격/단계 시퀀스

In [21]:
#판다스는 DataFrame의 열을 저장하기 위해 별도의 Index 객체를 사용(columns 속성으로 열 인덱스에 접근)
nba.columns

Index(['Name', 'Team', 'Position', 'Birthday', 'Salary'], dtype='object')

In [22]:
#ndim 속성: 판다스 객체의 차원 수를 반환
nba.ndim

2

In [23]:
#shape 속성: DataFrame의 차원을 튜플 형태로 반환
nba.shape

(450, 5)

In [24]:
#size 속성: 데이터셋에 있는 값의 전체 개수(NaN과 같은 결측값 포함)
nba.size

2250

In [26]:
#count 메서드: 결측값을 제외한 데이터셋에 있는 값의 개수
nba.count()

Name        450
Team        450
Position    450
Birthday    450
Salary      450
dtype: int64

In [27]:
#sum 메서드: 모든 값의 개수를 더함
#결측값이 없는 경우 size 속성과 같은 결과를 냄
nba.count().sum()

2250

In [28]:
#size 속성과 count 메서드의 차이
data = {
    "A": [1, np.nan],
    "B":[2, 3]
}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1.0,2
1,,3


In [29]:
df.size

4

In [32]:
df.count().sum()

3

## Series와 DataFrame의 공통 메서드

In [33]:
#head 메서드 (기본 인수 = 5)
nba.head(2)

Unnamed: 0,Name,Team,Position,Birthday,Salary
0,Shake Milton,Philadelphia 76ers,SG,1996-09-26,1445697
1,Christian Wood,Detroit Pistons,PF,1995-09-27,1645357


In [34]:
#tail 메서드 (기본 인수=5)
nba.tail(n = 3)

Unnamed: 0,Name,Team,Position,Birthday,Salary
447,Robin Lopez,Milwaukee Bucks,C,1988-04-01,4767000
448,Collin Sexton,Cleveland Cavaliers,PG,1999-01-04,4764960
449,Ricky Rubio,Phoenix Suns,PG,1990-10-21,16200000


In [35]:
#sample 메서드: 임의의 행 추출(첫번째 매개변수는 반환할 행의 개수)
nba.sample(3)

Unnamed: 0,Name,Team,Position,Birthday,Salary
251,John Wall,Washington Wizards,PG,1990-09-06,38199000
277,E'Twaun Moore,New Orleans Pelicans,PG,1989-02-25,8664928
54,Patrick McCaw,Toronto Raptors,SF,1995-10-25,4000000


In [36]:
#nunique 메서드: 열별로 고유한 값의 개수를 나타내는 Series를 반환
nba.nunique()

Name        450
Team         30
Position      9
Birthday    430
Salary      269
dtype: int64

In [37]:
#max 메서드: 각 열에 있는 최댓값을 나타내는 Series를 반환
nba.max()

Name             Zylan Cheatham
Team         Washington Wizards
Position                     SG
Birthday    2000-12-23 00:00:00
Salary                 40231758
dtype: object

In [38]:
#min 메서드: 각 열의 최솟값을 나타내는 Series를 반환
nba.min()

Name               Aaron Gordon
Team              Atlanta Hawks
Position                      C
Birthday    1977-01-26 00:00:00
Salary                    79568
dtype: object

In [39]:
#nlargest 메서드: 주어진 열에서 가장 큰 값을 가지는 행의 집합을 반환
#n 매개변수로 행의 개수 지정, columns 매개변수로 정렬할 열 선택
nba.nlargest(n = 4, columns = "Salary")

Unnamed: 0,Name,Team,Position,Birthday,Salary
205,Stephen Curry,Golden State Warriors,PG,1988-03-14,40231758
38,Chris Paul,Oklahoma City Thunder,PG,1985-05-06,38506482
219,Russell Westbrook,Houston Rockets,PG,1988-11-12,38506482
251,John Wall,Washington Wizards,PG,1990-09-06,38199000


In [40]:
#nsmallest 메서드: 주어진 열에서 가장 작은 값을 가지는 행의 집합을 반환
#nlargest, nsmallest 메서드는 숫자, 날짜/시간 열에서만 작동
nba.nsmallest(n = 3, columns = ["Birthday"])

Unnamed: 0,Name,Team,Position,Birthday,Salary
98,Vince Carter,Atlanta Hawks,PF,1977-01-26,2564753
196,Udonis Haslem,Miami Heat,C,1980-06-09,2564753
262,Kyle Korver,Milwaukee Bucks,PF,1981-03-17,6004753


In [43]:
#sum 메서드
nba.sum()

  nba.sum()


Name        Shake MiltonChristian WoodPJ WashingtonDerrick...
Team        Philadelphia 76ersDetroit PistonsCharlotte Hor...
Position    SGPFPFPGGPFSGSFCSFPGPGFCPGSGPFCCPFPFSGPFPGSGSF...
Salary                                             3444112694
dtype: object

In [44]:
#sum 메서드에서 숫자만 합한 결과
nba.sum(numeric_only = True)

Salary    3444112694
dtype: int64

In [45]:
#mean 메서드
nba.mean(numeric_only = True)

Salary    7.653584e+06
dtype: float64

In [46]:
#median 메서드(중앙값)
nba.median(numeric_only = True)

Salary    3303074.5
dtype: float64

In [47]:
#mode 메서드(최빈값)
nba.mode(numeric_only = True)

Unnamed: 0,Salary
0,79568


In [48]:
#std 메서드(표준편차)
nba.std(numeric_only = True)

Salary    9.288810e+06
dtype: float64

# DataFrame 정렬

## 단일 열 기준으로 정렬
- sort_values 메서드의 첫번째 매개변수 by로 기준이 되는 열을 설정

In [49]:
nba.sort_values(by = "Name") #nba.sort_values("Name")

Unnamed: 0,Name,Team,Position,Birthday,Salary
52,Aaron Gordon,Orlando Magic,PF,1995-09-16,19863636
101,Aaron Holiday,Indiana Pacers,PG,1996-09-30,2239200
437,Abdel Nader,Oklahoma City Thunder,SF,1993-09-25,1618520
81,Adam Mokoka,Chicago Bulls,G,1998-07-18,79568
399,Admiral Schofield,Washington Wizards,SF,1997-03-30,1000000
...,...,...,...,...,...
159,Zach LaVine,Chicago Bulls,PG,1995-03-10,19500000
302,Zach Norvell,Los Angeles Lakers,SG,1997-12-09,79568
312,Zhaire Smith,Philadelphia 76ers,SG,1999-06-04,3058800
137,Zion Williamson,New Orleans Pelicans,F,2000-07-06,9757440


In [50]:
#기본인수는 오름차순(ascending = True)
nba.sort_values("Name", ascending = False).head()

Unnamed: 0,Name,Team,Position,Birthday,Salary
248,Zylan Cheatham,New Orleans Pelicans,SF,1995-11-17,79568
137,Zion Williamson,New Orleans Pelicans,F,2000-07-06,9757440
312,Zhaire Smith,Philadelphia 76ers,SG,1999-06-04,3058800
302,Zach Norvell,Los Angeles Lakers,SG,1997-12-09,79568
159,Zach LaVine,Chicago Bulls,PG,1995-03-10,19500000


In [51]:
nba.sort_values("Birthday", ascending =False).head()

Unnamed: 0,Name,Team,Position,Birthday,Salary
136,Sekou Doumbouya,Detroit Pistons,SF,2000-12-23,3285120
432,Talen Horton-Tucker,Los Angeles Lakers,GF,2000-11-25,898310
137,Zion Williamson,New Orleans Pelicans,F,2000-07-06,9757440
313,RJ Barrett,New York Knicks,SG,2000-06-14,7839960
392,Jalen Lecque,Phoenix Suns,G,2000-06-13,898310


## 다중 열 기준으로 정렬
- sort_values 메서드의 by 매개변수에 리스트를 전달하여 다중 열 기준 정렬 가능
  - 리스트에 나타나는 순서대로 연속적으로 정렬
  - 판다스의 정렬 기본값: 오름차순
    - ascending 매개변수에 부울값 리스트를 전달하여 변경 가능

In [52]:
nba.sort_values(by = ["Team", "Name"])

Unnamed: 0,Name,Team,Position,Birthday,Salary
359,Alex Len,Atlanta Hawks,C,1993-06-16,4160000
167,Allen Crabbe,Atlanta Hawks,SG,1992-04-09,18500000
276,Brandon Goodwin,Atlanta Hawks,PG,1995-10-02,79568
438,Bruno Fernando,Atlanta Hawks,C,1998-08-15,1400000
194,Cam Reddish,Atlanta Hawks,SF,1999-09-01,4245720
...,...,...,...,...,...
418,Jordan McRae,Washington Wizards,PG,1991-03-28,1645357
273,Justin Robinson,Washington Wizards,PG,1997-10-12,898310
428,Moritz Wagner,Washington Wizards,C,1997-04-26,2063520
21,Rui Hachimura,Washington Wizards,PF,1998-02-08,4469160


In [53]:
nba.sort_values(["Team", "Name"], ascending = False)

Unnamed: 0,Name,Team,Position,Birthday,Salary
36,Thomas Bryant,Washington Wizards,C,1997-07-31,8000000
21,Rui Hachimura,Washington Wizards,PF,1998-02-08,4469160
428,Moritz Wagner,Washington Wizards,C,1997-04-26,2063520
273,Justin Robinson,Washington Wizards,PG,1997-10-12,898310
418,Jordan McRae,Washington Wizards,PG,1991-03-28,1645357
...,...,...,...,...,...
194,Cam Reddish,Atlanta Hawks,SF,1999-09-01,4245720
438,Bruno Fernando,Atlanta Hawks,C,1998-08-15,1400000
276,Brandon Goodwin,Atlanta Hawks,PG,1995-10-02,79568
167,Allen Crabbe,Atlanta Hawks,SG,1992-04-09,18500000


In [55]:
nba = nba.sort_values(["Team", "Name"], ascending = [True, False])