* DataFrame 이란?
- 2차원 데이터
- 인덱스가 같은 하나 이상의 Series가 모여진 데이터
- DBMS 의 관계형 Table 과 매우 유사


<img src="https://t1.daumcdn.net/cfile/tistory/9923673D5D57FFC314?original" width="30%" height="30%"></img>

In [1]:
# 먼저 DataFrame을 사용하기 위해 Pandas 라이브러리를 import 합니다.
import pandas as pd
from pandas import Series, DataFrame

* DataFrame 데이터 생성
- DataFrame을 생성하기 위해 셀에 DataFrame() 이라고 입력하고 괄호 안에서 Shift+tab 을 눌러보면 아래와 같은 정보가 보입니다.

DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

- 값을 입력해줄 수 있고, Default 가 None이기 때문에 값이 없으면 아무 동작도 하지 않습니다. 속성값들을 하나씩 알아보겠습니다.
  - data : 저장되는 데이터
  - index : index에 대한 정보(미입력시 0부터 순차적으로 부여)
  - columns : 열에 대한 이름값(미입력시 0부터 순차적으로 부여)
  - dtype : 데이터에 대한 타입 명시(미입력시 자체적으로 판단)

In [2]:
Data1 = DataFrame([[180,75],[160,65],[170,75], [175,80]],
                  index = ["person1","person2","person3","person4"],
                  columns = ["height","weight"])
print(Data1)

         height  weight
person1     180      75
person2     160      65
person3     170      75
person4     175      80


데이터 추가, 삭제

In [3]:
Data1["age"] = [30,40,32,33]
Data1

Unnamed: 0,height,weight,age
person1,180,75,30
person2,160,65,40
person3,170,75,32
person4,175,80,33


In [4]:
# bmi = 몸무게(kg) / 키(m)*키(m)
Data1["BMI"] = Data1["weight"] / ((Data1["height"] / 100) * (Data1["height"] / 100))
Data1

Unnamed: 0,height,weight,age,BMI
person1,180,75,30,23.148148
person2,160,65,40,25.390625
person3,170,75,32,25.951557
person4,175,80,33,26.122449


In [5]:
# 행추가 
listOfSeries = [pd.Series([187, 85, 34, 0], index = Data1.columns),
               pd.Series([183, 80, 32, 0], index = Data1.columns)]
Data1 = Data1.append(listOfSeries)
Data1

  Data1 = Data1.append(listOfSeries)


Unnamed: 0,height,weight,age,BMI
person1,180,75,30,23.148148
person2,160,65,40,25.390625
person3,170,75,32,25.951557
person4,175,80,33,26.122449
0,187,85,34,0.0
1,183,80,32,0.0


In [6]:
# DataFrame을 행기준으로 추가
df = DataFrame([[180,75,30,33],[160,65,40,22]],
               index = ["person5","person6"],
               columns = ["height","weight","age","BMI"])
df

Unnamed: 0,height,weight,age,BMI
person5,180,75,30,33
person6,160,65,40,22


In [7]:
Data1.append(df)

  Data1.append(df)


Unnamed: 0,height,weight,age,BMI
person1,180,75,30,23.148148
person2,160,65,40,25.390625
person3,170,75,32,25.951557
person4,175,80,33,26.122449
0,187,85,34,0.0
1,183,80,32,0.0
person5,180,75,30,33.0
person6,160,65,40,22.0


데이터 삭제
- drop 함수를 쓰면 행과 열을 삭제 할 수 있습니다.

- axis option
  - 0 : 행 기준 삭제
  - 1 : 열 기준 삭제

In [8]:
# 열 삭제
Data1 = Data1.drop("BMI", axis = 1)
Data1

Unnamed: 0,height,weight,age
person1,180,75,30
person2,160,65,40
person3,170,75,32
person4,175,80,33
0,187,85,34
1,183,80,32


In [9]:
Data1 = Data1.drop("person1", axis = 0)
Data1

Unnamed: 0,height,weight,age
person2,160,65,40
person3,170,75,32
person4,175,80,33
0,187,85,34
1,183,80,32


Column 조회
- DataFrame명["속성명"] 또는 DataFrame명.속성명을 통해 특정 속성명만 조회 할 수 있다.
- 하나의 속성명을 조회 하면 SeriesType, 여러 속성명을 조회 하면 DataFrame으로 출력된다.

In [10]:
# 키 Column 만 조회
Data1["height"]

person2    160
person3    170
person4    175
0          187
1          183
Name: height, dtype: int64

In [11]:
# Type 은 Series
type(Data1.weight)

pandas.core.series.Series

In [12]:
# 두 개 이상 컬럼 조회
Data1[["height", "weight"]]

Unnamed: 0,height,weight
person2,160,65
person3,170,75
person4,175,80
0,187,85
1,183,80


Index 조회
- DataFrame명.loc["index명"] 을 통해 특정 index만 조회 가능하다.
- DataFrame명.iloc[index번호] 를 통해 특정 index만 조회 가능하다.
- 마찬가지로 하나의 index만 조회 할 경우 Series Type, 여러 index의 경우 DataFrame Type으로 출력한다.

In [13]:
Data1.loc["person2"]

height    160
weight     65
age        40
Name: person2, dtype: int64

In [14]:
# 1번 인덱스 --> 사람2의 정보만 출력
Data1.iloc[1]

height    170
weight     75
age        32
Name: person3, dtype: int64

In [15]:
# 두 개 index를 index명으로 조회
Data1.loc[["person2","person3"]]

Unnamed: 0,height,weight,age
person2,160,65,40
person3,170,75,32


In [16]:
# 여러 개의 index를 index번호로 조회
Data1.iloc[1:3]

Unnamed: 0,height,weight,age
person3,170,75,32
person4,175,80,33


Index 와 column 동시 조회
- 하나의 index 명과 컬럼명에 해당하는 하나의 값 찾기
  - DataFrame명.at["index명","컬럼명"]
  - DataFrame명.loc["index명","컬럼명"]
  - DataFrame명.loc["index명"]["컬럼명"]
- 여러 index명과 컬럼명에 해당하는 여러 값 찾기
  - DataFrame명.loc[["index명1","index명2"],["컬럼명1","컬럼명2"]]
  - DataFrame명.loc[["index명1","index명2"]][["컬럼명1","컬럼명2"]]

In [17]:
#사람1의 나이 찾기
Data1.loc["person2","age"]

40

In [18]:
#사람2의 몸무게 찾기
Data1.loc["person2"]["weight"]

65

In [19]:
#사람3의 키 찾기
Data1.at["person3","height"]

170

In [20]:
# 사람1, 사람2 의 키 조회
Data1.loc[["person2","person3"]]["height"]

person2    160
person3    170
Name: height, dtype: int64

In [21]:
# 사람1,사람2 의 키와 몸무게 조회
Data1.loc[["person2","person3"],["height","weight"]]

Unnamed: 0,height,weight
person2,160,65
person3,170,75


- 하나의 index 번호와 컬럼번호에 해당하는 하나의 값 찾기
  - DataFrame명.iat[index번호,컬럼번호]
  - DataFrame명.iloc[index번호,컬럼번호]
  - DataFrame명.iloc[index번호][컬럼번호]
- 여러 index 번호와 컬럼번호에 해당하는 여러 값 찾기
  - DataFrame명.iloc[index번호1:index번호2,컬럼번호1:컬럼명번호2]

In [22]:
# 사람1의 나이 찾기
Data1.iloc[0,2]

40

In [23]:
#사람2의 몸무게 찾기
Data1.iloc[1][1]

75

In [24]:
#사람3의 키 찾기
Data1.iat[2,0]

175

In [25]:
# 사람1, 사람2 의 키 조회
Data1.iloc[0:2,0]

person2    160
person3    170
Name: height, dtype: int64

In [26]:
# 사람1,사람2 의 키와 몸무게 조회
Data1.iloc[0:2,0:2]

Unnamed: 0,height,weight
person2,160,65
person3,170,75


조건 조회

In [27]:
# 키가 170 이상인 사람만 조회
Data1[Data1["height"] >= 170]

Unnamed: 0,height,weight,age
person3,170,75,32
person4,175,80,33
0,187,85,34
1,183,80,32
