데이터프레임은 가장 일반적인 판다스 객체이다. 파이썬이 스프레드시트와 같은 데이터를 저장하는 방식으로 이해할 수 있다. 이와 함께 시리즈 자료구조의 특성 대부분은 데이터프레임에서도 볼 수 있다.

## 데이터프레임의 구성
판다스 데이터프레임 객체에는 각각 행 이름, 열 이름, 데이터를 나타내는 index, columns, values 의 3가지 구성 요소가 있다.

In [1]:
import pandas as pd

In [2]:
scientists = pd.read_csv("../../../data/scientists.csv")

In [3]:
scientists.index

RangeIndex(start=0, stop=8, step=1)

In [4]:
scientists.columns

Index(['Name', 'Born', 'Died', 'Age', 'Occupation'], dtype='object')

In [5]:
scientists.values

array([['Rosaline Franklin', '1920-07-25', '1958-04-16', 37, 'Chemist'],
       ['William Gosset', '1876-06-13', '1937-10-16', 61, 'Statistician'],
       ['Florence Nightingale', '1820-05-12', '1910-08-13', 90, 'Nurse'],
       ['Marie Curie', '1867-11-07', '1934-07-04', 66, 'Chemist'],
       ['Rachel Carson', '1907-05-27', '1964-04-14', 56, 'Biologist'],
       ['John Snow', '1813-03-15', '1858-06-16', 45, 'Physician'],
       ['Alan Turing', '1912-06-23', '1954-06-07', 41,
        'Computer Scientist'],
       ['Johann Gauss', '1777-04-30', '1855-02-23', 77, 'Mathematician']],
      dtype=object)

values는 모든 행 인덱스 정보를 보는 대신 기본 numpy 표현법으로 간단하게 데이터를 살펴볼 때 유용하다.

## 데이터프레임과 불리언 추출

True나 False와 같은 불리언으로 시리즈의 일부 데이터를 추출할 수 있었던 것처럼 데이터프레임에서도 불리언으로 데이터를 추출할 수 있다. 다음 예제는 scientist 데이터프레임에서 Age 열의 값이 평균값보다 큰 데이터만 추출한다

In [6]:
print(scientists.loc[scientists["Age"] > scientists["Age"].mean()])

                   Name        Born        Died  Age     Occupation
1        William Gosset  1876-06-13  1937-10-16   61   Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90          Nurse
3           Marie Curie  1867-11-07  1934-07-04   66        Chemist
7          Johann Gauss  1777-04-30  1855-02-23   77  Mathematician


loc 외에도 데이터프레임에서 데이터를 추출하는 다양한 방법은 다음 표를 참고한다.

|구문 | 추출결과             |
|---|------------------|
|df[column_name] | 시리즈              |
|df[[column1, column2, column3, ...]] | 데이터 프레임          |
|df.loc[row_table] | 행 이름으로 추출한 행 데이터 |
|df.loc[[label1, label2, ...]] | 행 이름으로 추출한 여러 행 데이터 |
|df.iloc[row_number] | 행 번호로 추출한 행 데이터 |
|df.iloc[[row1, row2, ...]] | 행 번호로 추출한 여러 행 데이터 |
|df[bool] | 불리언으로 추출한 행 데이터 |
|df[[bool1, bool2, ...]] | 불리언으로 추출한 여러 행 데이터 |
|df[start:stop:step] | 슬라이싱 구문으로 추출한 여러 행 데이터 |
