데이터프레임은 가장 일반적인 판다스 객체이다. 파이썬이 스프레드시트와 같은 데이터를 저장하는 방식으로 이해할 수 있다. 이와 함께 시리즈 자료구조의 특성 대부분은 데이터프레임에서도 볼 수 있다.

## 데이터프레임의 구성
판다스 데이터프레임 객체에는 각각 행 이름, 열 이름, 데이터를 나타내는 index, columns, values 의 3가지 구성 요소가 있다.

In [1]:
import pandas as pd

In [2]:
scientists = pd.read_csv("../../../data/scientists.csv")

In [3]:
scientists.index

RangeIndex(start=0, stop=8, step=1)

In [4]:
scientists.columns

Index(['Name', 'Born', 'Died', 'Age', 'Occupation'], dtype='object')

In [5]:
scientists.values

array([['Rosaline Franklin', '1920-07-25', '1958-04-16', 37, 'Chemist'],
       ['William Gosset', '1876-06-13', '1937-10-16', 61, 'Statistician'],
       ['Florence Nightingale', '1820-05-12', '1910-08-13', 90, 'Nurse'],
       ['Marie Curie', '1867-11-07', '1934-07-04', 66, 'Chemist'],
       ['Rachel Carson', '1907-05-27', '1964-04-14', 56, 'Biologist'],
       ['John Snow', '1813-03-15', '1858-06-16', 45, 'Physician'],
       ['Alan Turing', '1912-06-23', '1954-06-07', 41,
        'Computer Scientist'],
       ['Johann Gauss', '1777-04-30', '1855-02-23', 77, 'Mathematician']],
      dtype=object)

values는 모든 행 인덱스 정보를 보는 대신 기본 numpy 표현법으로 간단하게 데이터를 살펴볼 때 유용하다.

## 데이터프레임과 불리언 추출

True나 False와 같은 불리언으로 시리즈의 일부 데이터를 추출할 수 있었던 것처럼 데이터프레임에서도 불리언으로 데이터를 추출할 수 있다. 다음 예제는 scientist 데이터프레임에서 Age 열의 값이 평균값보다 큰 데이터만 추출한다

In [6]:
print(scientists.loc[scientists["Age"] > scientists["Age"].mean()])

                   Name        Born        Died  Age     Occupation
1        William Gosset  1876-06-13  1937-10-16   61   Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90          Nurse
3           Marie Curie  1867-11-07  1934-07-04   66        Chemist
7          Johann Gauss  1777-04-30  1855-02-23   77  Mathematician


loc 외에도 데이터프레임에서 데이터를 추출하는 다양한 방법은 다음 표를 참고한다.

|구문 | 추출결과             |
|---|------------------|
|df[column_name] | 시리즈              |
|df[[column1, column2, column3, ...]] | 데이터 프레임          |
|df.loc[row_table] | 행 이름으로 추출한 행 데이터 |
|df.loc[[label1, label2, ...]] | 행 이름으로 추출한 여러 행 데이터 |
|df.iloc[row_number] | 행 번호로 추출한 행 데이터 |
|df.iloc[[row1, row2, ...]] | 행 번호로 추출한 여러 행 데이터 |
|df[bool] | 불리언으로 추출한 행 데이터 |
|df[[bool1, bool2, ...]] | 불리언으로 추출한 여러 행 데이터 |
|df[start:stop:step] | 슬라이싱 구문으로 추출한 여러 행 데이터 |

## 데이터프레임과 브로드캐스팅
시리즈와 데이터프레임 객체는 넘파이 라이브러리 기반으로 구현했으므로 브로드캐시팅을 지원하는 넘파이와 같이 판다스도 브로드캐시틩을 지원한다. 브로드캐스팅은 배열과 같은 객체 사이에 연산을 수행하는 원리를 의미하며 이는 객체 유형, 길이, 객체와 연결된 레이블 등에 따라 달라진다.

### 데이터프레임을 대상으로 연산하기

1. 먼저 scientists 데이터프레임을 반씩 나누어 각각 first_half, second_half 라고 정의한다.

In [7]:
first_half = scientists[:4]
second_half = scientists[4:]
print(first_half)

                   Name        Born        Died  Age    Occupation
0     Rosaline Franklin  1920-07-25  1958-04-16   37       Chemist
1        William Gosset  1876-06-13  1937-10-16   61  Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90         Nurse
3           Marie Curie  1867-11-07  1934-07-04   66       Chemist


In [8]:
print(second_half)

            Name        Born        Died  Age          Occupation
4  Rachel Carson  1907-05-27  1964-04-14   56           Biologist
5      John Snow  1813-03-15  1858-06-16   45           Physician
6    Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist
7   Johann Gauss  1777-04-30  1855-02-23   77       Mathematician


2. 데이터프레임과 스칼라를 연산하면 데이터프레임의 각 셀마다 스칼라와 연산을 수행한다. 이때 각 셀의 자료형에 따라 연산이 다르다. 예를 들어 scientists 데이터프레임에 스칼라 2를 곱하면 숫자 셀은 2배가 되고 문자열은 두 번 반복한다. 문자열과 스칼라의 연산은 파이썬의 기본 연산 방식과 같다. 

In [9]:
print(scientists * 2)

                                       Name                  Born  \
0        Rosaline FranklinRosaline Franklin  1920-07-251920-07-25   
1              William GossetWilliam Gosset  1876-06-131876-06-13   
2  Florence NightingaleFlorence Nightingale  1820-05-121820-05-12   
3                    Marie CurieMarie Curie  1867-11-071867-11-07   
4                Rachel CarsonRachel Carson  1907-05-271907-05-27   
5                        John SnowJohn Snow  1813-03-151813-03-15   
6                    Alan TuringAlan Turing  1912-06-231912-06-23   
7                  Johann GaussJohann Gauss  1777-04-301777-04-30   

                   Died  Age                            Occupation  
0  1958-04-161958-04-16   74                        ChemistChemist  
1  1937-10-161937-10-16  122              StatisticianStatistician  
2  1910-08-131910-08-13  180                            NurseNurse  
3  1934-07-041934-07-04  132                        ChemistChemist  
4  1964-04-141964-04-14  112     

데이터프레임의 모든 값이 숫자이고 같은 셀끼리 값을 더하고 싶다면 add() 메서드를 사용한다.

In [10]:
df1 = df2 = pd.DataFrame(data=[[1,2,3], [4,5,6], [7,8,9]])
df_added = df1.add(df2)
print(df_added)

    0   1   2
0   2   4   6
1   8  10  12
2  14  16  18
