# 2. Pandas 주요 데이터 타입
## 2.2 DataFrame (데이터프레임)
<img src="img/2강/dataframe구조NEW.jpg" alt="datetime" style="width: 1200px;"/>

In [1]:
# Series는 1차원 데이터 구조
# DataFrame은 2차원 데이터 구조

# Pandas 라이브러리 임포트
import pandas as pd 
from pandas import Series, DataFrame

### 2.2.1 데이터프레임 생성
### 생성자 인자
#### 1) data : dataFrame에 저장할 데이터 (numpy ndarray, dict, DataFrame 등 여러 형태 가능)
#### 2) index : 행(row) 이름, 기본값 = 0부터 1씩 증가하는 정수
#### 3) columns : 열(column) 이름, 기본값 = 0부터 1씩 증가하는 정수
#### 4) dtype : 데이터 형태(type), 만약 지정하지 않으면 파이썬이 자동으로 값의 형태를 보고 결정
#### 5) copy : 입력 데이터를 복사할지 지정. 디폴트는 False 임. (복사할 거 아니면 메모리 관리 차원에서 디폴트인 False 설정 사용하면 됨)

In [2]:
# 1. 2차원 데이터 생성
df1 = DataFrame([
                    [1,2,3],
                    ['kim','park','lee'],
                    [1.5, 3.2, 9.1]
                ])
df1

Unnamed: 0,0,1,2
0,1,2,3
1,kim,park,lee
2,1.5,3.2,9.1


In [3]:
# 2. 로우 인덱스와 컬럼 인덱스 설정
df1.index=['A','B','C']
df1

Unnamed: 0,0,1,2
A,1,2,3
B,kim,park,lee
C,1.5,3.2,9.1


In [5]:
df1.columns = ['X','Y','Z']
df1

Unnamed: 0,X,Y,Z
A,1,2,3
B,kim,park,lee
C,1.5,3.2,9.1


In [6]:
# 1,2를 한꺼번에 하기
df1 = DataFrame([
                    [1,2,3],
                    ['kim','park','lee'],
                    [1.5, 3.2, 9.1]
                ],
                index = ['A','B','C'],
                columns = ['X','Y','Z'])
df1

Unnamed: 0,X,Y,Z
A,1,2,3
B,kim,park,lee
C,1.5,3.2,9.1


In [7]:
# 3. 사전 타입 데이터를 이용하여 데이터 프레임 생성하기
인구통계 = {'서울': [1053.5, 1023, 987],
        '경기':[1023, 1067, 1123],
        '충청':[512,489,487],
        '경상':[897, 872, 811],
        '전라':[451, 421, 399]
      }
df3 = DataFrame(인구통계)
df3

Unnamed: 0,서울,경기,충청,경상,전라
0,1053.5,1023,512,897,451
1,1023.0,1067,489,872,421
2,987.0,1123,487,811,399


In [11]:
type(df3['서울']), type(df3)

(pandas.core.series.Series, pandas.core.frame.DataFrame)

<img src="./img/2강/데이터프레임구조1.jpg" width="640">
<img src="./img/2강/데이터프레임구조2.jpg" width="480">

### 2.2.2. DataFrame 속성 조회하기 (속성을 조회할 때에는 ()를 사용하지 않으니 유의하기 바람.)

In [12]:
# df3에 로우 인덱스를 2016, 2017, 2018로 만들기
df3.index = [2016,2017,2018]
df3

Unnamed: 0,서울,경기,충청,경상,전라
2016,1053.5,1023,512,897,451
2017,1023.0,1067,489,872,421
2018,987.0,1123,487,811,399


In [13]:
#1. T (Transpose) : 행과 열을 바꾸기.
df3.T

Unnamed: 0,2016,2017,2018
서울,1053.5,1023.0,987.0
경기,1023.0,1067.0,1123.0
충청,512.0,489.0,487.0
경상,897.0,872.0,811.0
전라,451.0,421.0,399.0


In [14]:
#2. axes : 행과 열 이름을 리스트로 반환
df3.axes

[Int64Index([2016, 2017, 2018], dtype='int64'),
 Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')]

In [15]:
#3. dtypes : 데이터 형태 반환
df3.dtypes

서울    float64
경기      int64
충청      int64
경상      int64
전라      int64
dtype: object

In [16]:
#4. shape : 행과 열의 개수(차원)을 튜플로 반환
df3.shape

(3, 5)

In [17]:
#5. size : DataFrame의 원소의 개수를 반환
df3.size

15

In [18]:
#6. index : 데이터프레임의 인덱스를 리스트로 반환
df3.index

Int64Index([2016, 2017, 2018], dtype='int64')

In [19]:
#7. columns : 데이터프레임의 컬럼을 리스트로 반환
df3.columns

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')

In [20]:
#8. values : 데이터프레임의 값들을 반환
df3.values

array([[1053.5, 1023. ,  512. ,  897. ,  451. ],
       [1023. , 1067. ,  489. ,  872. ,  421. ],
       [ 987. , 1123. ,  487. ,  811. ,  399. ]])

### 2.2.3. 데이터프레임 조회하기

In [24]:
import pandas as pd
from pandas import Series, DataFrame

# 테스트 데이터프레임 생성
df4 = DataFrame({'Class': ['IoT','Network', 'Economy','Big Data', 'Cloud'],
                       'Year': [2018, 2017, 2018, 2018, 2019],
                       'Price': [100, 125, 132, 312, 250],
                       'Location': ['Korea','Korea', 'Korea', 'US','Korea']},
                      index=['C01','C02','C03', 'C04', 'C05'])
df4

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US
C05,Cloud,2019,250,Korea


## **데이터프레임 조회 규칙 **
### 로우 인덱스는 숫자 슬라이싱이 되지만, 컬럼은 불가능하다. (컬럼은 순서 개념이 없음)
### 기본적으로 "컬럼"을 먼저 인덱싱한다. 
<img src="./img/2강/데이터프레임조회NEW.jpg" width="900">

In [24]:
# 1) Location만 조회하기
df4['Location']

C01    Korea
C02    Korea
C03    Korea
C04       US
C05    Korea
Name: Location, dtype: object

In [26]:
# 2) Class와 Price만 조회하기
# 여러 개의 컬럼들을 조회하기 위해서는 컬럼명들을 리스트로 선언해야 함.
df4[['Class','Price']]

Unnamed: 0,Class,Price
C01,IoT,100
C02,Network,125
C03,Economy,132
C04,Big Data,312
C05,Cloud,250


In [36]:
# 3) 로우를 로우 인덱스로 접근하여 조회하기 (loc)
# 로우 인덱스가 'C04'인 경우만 조회하기

#df4['C04']
df4.loc['C04']

Class       Big Data
Year            2018
Price            312
Location          US
Name: C04, dtype: object

In [48]:
# 4) 로우를 숫자 인덱스로 접근하여 조회하기 (iloc)
# 3번째 로우(row) 조회하기

#df4.iloc[2]
DataFrame(df4.iloc[2]).T

Unnamed: 0,Class,Year,Price,Location
C03,Economy,2018,132,Korea


In [39]:
# 5) 숫자 인덱스로 슬라이싱하기 (start index는 포함되지만, end index는 포함 안됨.)
# 숫자 인덱스가 1~4까지 데이터만 조회하기
df4.iloc[1:5]

Unnamed: 0,Class,Year,Price,Location
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US
C05,Cloud,2019,250,Korea


In [58]:
#기본적으로 인덱싱을 하면, 컬럼을 기준으로 탐색을 하지만, 슬라이싱은 컬럼에 적용할 수 없기 때문에 로우에 적용된다.
df4[2:5]

Unnamed: 0,Class,Year,Price,Location
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US
C05,Cloud,2019,250,Korea


In [61]:
# 6) 로우 인덱스로 슬라이싱하기 (start index와 end index 모두 포함)
# C02~C04까지 조회

# df4.loc["C02":"C04"]
df4["C02":"C04"]
# df4[["C02","C03","C04"]]  -> error
df4.loc[["C02","C03","C04"]]   # 슬라이싱이 아닌 이름으로 특정열 추출 시, loc 명시 필요 

Unnamed: 0,Class,Year,Price,Location
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US


In [70]:
# 7. 특정 컬럼과 로우를 동시에 인덱싱하기
# C02, C03 강의의 Class와 Year만 조회

# 열을 먼저 선택?
# df4.loc[["C02","C03"]][["Class","Year"]]
# df4[["Class","Year"]].loc[["C02","C03"]]
# df4[["Class","Year"]].iloc[[1,2]]
# df4[["Class","Year"]].loc["C02":"C03"]
# df4[["Class","Year"]]["C02":"C03"]

# df4

# df4.loc[ ["C02", "C02"], ["Class", "Year"]]
# df4.iloc[[1,2],[0,1]]
df4.loc["C02":"C03",["Class","Year"]]

Unnamed: 0,Class,Year
C02,Network,2017
C03,Economy,2018


In [75]:
# Class, Year, Price 컬럼만 조회

# df4[["Class", "Year", "Price"]]
df4.loc[:, "Class":"Price"]

Unnamed: 0,Class,Year,Price
C01,IoT,2018,100
C02,Network,2017,125
C03,Economy,2018,132
C04,Big Data,2018,312
C05,Cloud,2019,250


In [78]:
# 8. 조건 인덱싱 
# Price가 200보다 큰 강의만 조회하기
df4[df4["Price"] >= 200]

Unnamed: 0,Class,Year,Price,Location
C04,Big Data,2018,312,US
C05,Cloud,2019,250,Korea


In [79]:
# 아래 결과들이 출력되도록 코드를 완성하시오.
# 실습 1. 'Class' 컬럼만 출력
df4["Class"]

C01         IoT
C02     Network
C03     Economy
C04    Big Data
C05       Cloud
Name: Class, dtype: object

In [81]:
# 실습 2. 'Class'와 'Location' 컬럼만 조회
df4[["Class", "Location"]]

Unnamed: 0,Class,Location
C01,IoT,Korea
C02,Network,Korea
C03,Economy,Korea
C04,Big Data,US
C05,Cloud,Korea


In [92]:
# 실습 3. C01과 C03 강의의 모든 컬럼 조회
# df4.loc[["C01","C03"]]
df4.iloc[[0,2]]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C03,Economy,2018,132,Korea


In [94]:
# 실습 4. C01~C03 강의의 Class와 Price만 조회
# df4.loc[["C01","C02","C03"], ["Class","Price"]]
df4.loc["C01":"C03", ["Class","Price"]]

Unnamed: 0,Class,Price
C01,IoT,100
C02,Network,125
C03,Economy,132


In [98]:
# 실습 5. 가장 가격이 비싼 강의 정보 조회

# df4[df4["Price"] == max(df4["Price"])]

# 1) 가장 비싼 강의를 선택
# df4.Price.max()

# 2) 가장 비싼 강의료에 해당하는 강의를 선택
df4.Price == df4.Price.max()

# 3) 출력
df4[df4.Price == df4.Price.max()]

# df4[[False, False, False, True, False]]

Unnamed: 0,Class,Year,Price,Location
C04,Big Data,2018,312,US


In [99]:
df4.loc["C01"]  # Series
# index Value 로 나뉘어짐, column이 index의 label이 됨
# index 때문에 Column 슬라이싱, 인덱싱이 가능해짐

Class         IoT
Year         2018
Price         100
Location    Korea
Name: C01, dtype: object

### 2.2.4. 데이터프레임에 새로운 컬럼 추가하기

In [25]:
# 컬럼 추가하기 1.
# limitStudent 컬럼(정원)을 추가하고, 값을 모두 30으로 저장

df4['limitStudent'] = 30
df4

Unnamed: 0,Class,Year,Price,Location,limitStudent
C01,IoT,2018,100,Korea,30
C02,Network,2017,125,Korea,30
C03,Economy,2018,132,Korea,30
C04,Big Data,2018,312,US,30
C05,Cloud,2019,250,Korea,30


In [26]:
df4['limitStudent'] = 40
df4

Unnamed: 0,Class,Year,Price,Location,limitStudent
C01,IoT,2018,100,Korea,40
C02,Network,2017,125,Korea,40
C03,Economy,2018,132,Korea,40
C04,Big Data,2018,312,US,40
C05,Cloud,2019,250,Korea,40


In [27]:
# 컬럼 추가하기 2.
# numStudent 컬럼(수강학생수)을 추가하고, 값을 25,30,10,23,17로 저장 

df4['numStudent'] = [25,30,10,23,17]
df4

# np.NaN : Not a Number

Unnamed: 0,Class,Year,Price,Location,limitStudent,numStudent
C01,IoT,2018,100,Korea,40,25
C02,Network,2017,125,Korea,40,30
C03,Economy,2018,132,Korea,40,10
C04,Big Data,2018,312,US,40,23
C05,Cloud,2019,250,Korea,40,17


In [28]:
# 컬럼 추가하기 3 - 기존 컬럼을 이용하여 새 컬럼 추가하기
# income 컬럼을 추가하고, price와 numStudent 값을 곱한 값으로 할당

#df4["income"] = df4["Price"] * df4["numStudent"]
df4["income"] = df4.Price * df4.numStudent
df4

Unnamed: 0,Class,Year,Price,Location,limitStudent,numStudent,income
C01,IoT,2018,100,Korea,40,25,2500
C02,Network,2017,125,Korea,40,30,3750
C03,Economy,2018,132,Korea,40,10,1320
C04,Big Data,2018,312,US,40,23,7176
C05,Cloud,2019,250,Korea,40,17,4250


In [29]:
# 실습 6. rate 컬럼을 추가하고, 충원율을 계산하여 할당. 

#df4["rate"] = df4["numStudent"] / df4["limitStudent"]
df4["rate"] = df4.numStudent / df4.limitStudent *100
df4

Unnamed: 0,Class,Year,Price,Location,limitStudent,numStudent,income,rate
C01,IoT,2018,100,Korea,40,25,2500,62.5
C02,Network,2017,125,Korea,40,30,3750,75.0
C03,Economy,2018,132,Korea,40,10,1320,25.0
C04,Big Data,2018,312,US,40,23,7176,57.5
C05,Cloud,2019,250,Korea,40,17,4250,42.5


In [30]:
# df4의 모든 컬럼의 값을 소수점 첫째자리까지 출력
df4.round(1)

# rate 컬럼의 앖을 반올림해서 소수점 XX자리까지 출력
df4.round({
    'rate' :1,
    'incomde':2
})

Unnamed: 0,Class,Year,Price,Location,limitStudent,numStudent,income,rate
C01,IoT,2018,100,Korea,40,25,2500,62.5
C02,Network,2017,125,Korea,40,30,3750,75.0
C03,Economy,2018,132,Korea,40,10,1320,25.0
C04,Big Data,2018,312,US,40,23,7176,57.5
C05,Cloud,2019,250,Korea,40,17,4250,42.5


### 2.2.5.데이터프레임 로우, 컬럼 삭제

In [31]:
# drop() 함수 사용 (원본 변경 X)
## 첫번째 인자 - 지우고자 하는 인덱스명 (로우 인덱스, 컬럼 인덱스 모두 가능)
## 두번째 인자 (axis)- 0 혹은 1. 0 = 로우 삭제, 1 = 컬럼 삭제

In [32]:
# 로우 인덱스가 'C05'인 로우(row) 삭제

df4.drop('C05') # axis = 0 이 생략된 상태, default

Unnamed: 0,Class,Year,Price,Location,limitStudent,numStudent,income,rate
C01,IoT,2018,100,Korea,40,25,2500,62.5
C02,Network,2017,125,Korea,40,30,3750,75.0
C03,Economy,2018,132,Korea,40,10,1320,25.0
C04,Big Data,2018,312,US,40,23,7176,57.5


In [33]:
# 'income' 컬럼 삭제

df4.drop('income', axis = 1)

Unnamed: 0,Class,Year,Price,Location,limitStudent,numStudent,rate
C01,IoT,2018,100,Korea,40,25,62.5
C02,Network,2017,125,Korea,40,30,75.0
C03,Economy,2018,132,Korea,40,10,25.0
C04,Big Data,2018,312,US,40,23,57.5
C05,Cloud,2019,250,Korea,40,17,42.5


In [34]:
# 원본 변경을 위해서는 다시 변수에 할당해야 함. 

# df4 
df4_tmp = df4.drop('C05', axis = 0)
df4_tmp

Unnamed: 0,Class,Year,Price,Location,limitStudent,numStudent,income,rate
C01,IoT,2018,100,Korea,40,25,2500,62.5
C02,Network,2017,125,Korea,40,30,3750,75.0
C03,Economy,2018,132,Korea,40,10,1320,25.0
C04,Big Data,2018,312,US,40,23,7176,57.5


In [35]:
df4.drop('rate', axis = 1, inplace = True)   # inplace : 기본값 False, 원본에 반영할지 안 할지 결정
df4

# 원본 변경은 조심 -> 삭제를 또 수행 시 Error

Unnamed: 0,Class,Year,Price,Location,limitStudent,numStudent,income
C01,IoT,2018,100,Korea,40,25,2500
C02,Network,2017,125,Korea,40,30,3750
C03,Economy,2018,132,Korea,40,10,1320
C04,Big Data,2018,312,US,40,23,7176
C05,Cloud,2019,250,Korea,40,17,4250


In [36]:
# 실습 7. 수강생이 가장 작은 클래스 삭제
# Economy 과목을 삭제하지 말고, 조건색인을 활용하여 수강생이 가장 작은 클래스를 찾아낸 후에 삭제하기

df4

Unnamed: 0,Class,Year,Price,Location,limitStudent,numStudent,income
C01,IoT,2018,100,Korea,40,25,2500
C02,Network,2017,125,Korea,40,30,3750
C03,Economy,2018,132,Korea,40,10,1320
C04,Big Data,2018,312,US,40,23,7176
C05,Cloud,2019,250,Korea,40,17,4250


In [42]:
df4.drop(df4[df4["numStudent"] == d4.numStudent.min()].index)

Unnamed: 0,Class,Year,Price,Location,limitStudent,numStudent,income
C01,IoT,2018,100,Korea,40,25,2500
C02,Network,2017,125,Korea,40,30,3750
C04,Big Data,2018,312,US,40,23,7176
C05,Cloud,2019,250,Korea,40,17,4250


In [None]:
#df4.drop("C03", axis = 0)

tmp = df4[df4.numStudent == df4.numStudent.min()].index
df4.drop(tmp, axis = 0)