In [1]:
import pandas as pd
import numpy as np
pd.__version__

'1.0.1'

# Pandas 객체 소개

 아주 기본적인 수준에서 보면 pandas 객체는 행과 열이 단순 정수형 인덱스가 아닌 레이블로 식별되는 NumPy의 구조화된 배열을 보강한 버전이라고 볼 수 있다. Padas에는 세 가지 기본적인 자료구조가 존재한다. (Series, DataFrame, Index)

## Pandas Series 객체
 Pandas Series는 인덱싱된 데이터의 1차원 배열이다. 리스트나 배열로 만들 수 있다.

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

보다시피 Series는 일련의 값과 인덱스를 모두 감싸고 있으며, 각각 **values**와 **index** 속성으로 접근할 수 있다.
(values는 친숙한 NumPy 배열이다)

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
# 대괄호 표기법을 통해 연결된 인덱스로 접근할 수 있다.
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

### Series: 일반화된 NumPy 배열
 NumPy 배열과 Series 객체의 근본적인 차이는 **인덱스 존재 여부**에 있다. NumPy 배열에는 값에 접근하는 데 사용되는 암묵적으로 정의된 정수형 인덱스가 있고, **Pandas Series에는 값에 연결된 명시적으로 정의된 인덱스가 있다.**
 
 이 명시적인 인덱스 정의는 Series 객체에 추가적인 기능을 제공한다. 예로 들어, 인덱스는 정수일 필요가 없고 어떤 타입의 값으로도 구성할 수 있다. (원한다면 문자열을 사용할 수 있다)

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [8]:
data['b']

0.5

In [9]:
# 인접하지 않거나 연속적이지 않은 인덱스를 사용할 수도 있다.
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 7, 3])
data

2    0.25
5    0.50
7    0.75
3    1.00
dtype: float64

In [10]:
data[5]

0.5

### Series: 특수한 딕셔너리
 딕셔너리는 일련의 임의의 값에 임의의 키를 매핑하는 구조고 ***Series는 타입이 지정된 키를 지정된 값에 매핑하는 구조***라고 생각하면 Pandas Series를 Python Dictionary의 특수한 버전 정도로 여길 수 있다. 그러나 타입이 지정된다는 것이 중요한데, 특정 연산에서 NumPy 배열 뒤의 타입 특정 컴파일된 코드가 그것을 Python List보다 더 효율적으로 만들어주는 것처럼 Pandas Series의 타입 정보는 특정 연산에서 Python Dictionary보다 훨씬 더 효율적으로 만든다.

In [11]:
population_dict = { 'California': 38332521,
                    'Texas': 26448193,
                    'New York': 19651127,
                    'Florida': 19552860,
                    'Illinois': 12882135
                  }
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

기본적으로 Series는 인덱스가 정렬된 키에서 추출되는 경우에 생성된다.

In [12]:
population['California']

38332521

In [13]:
# Series는 Slicing을 지원한다.
population['California':'New York']

California    38332521
Texas         26448193
New York      19651127
dtype: int64

### Series 객체 구성하기
 Series 객체 생성 방식은 아래와 같다.
 ```python
     pd.Series(data, index=index)
 ```
 여기서 index는 선택 인수고 data는 많은 요소 중 하나일 수 있다.
예를 들어 data는 list나 NumPy 배열일 수 있고, 그런 경우 index는 정수가 기본이다.

In [14]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [15]:
# data는 지정된 인덱스를 채우기 위해 반복되는 Scala 값일 수도 있다.
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

> data는 Dictionary일 수도 있는데, 그 경우 **index는 기본적으로 Dictionary Key를 정렬해서 취한다.**

In [16]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

## Pandas DataFrame 객체
 Pandas의 기본 구조체인 DataFrame에 대해 알아본다.
 
### DataFrame: 일반화된 NumPy 배열
 Series가 유연한 인덱스를 가지는 1차원 배열이라면 DataFrame은 유연한 행 인덱스와 유연한 열 이름을 가진 2차원 배열이라고 볼 수 있다.
즉, DataFrame은 정렬된 Series 객체의 연속으로 볼 수 있다.

In [17]:
area_dict = { 'California': 423967,
              'Texas': 695662,
              'New York': 141297,
              'Florida': 170312,
              'Illinois': 149995 
            }
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [18]:
states = pd.DataFrame({ 'population': population, 'area': area })
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [19]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [20]:
states.columns

Index(['population', 'area'], dtype='object')

### DataFrame: 특수한 딕셔너리
 딕셔너리는 키를 값에 매핑한다면 DataFrame은 열 이름을 열 데이터로 이뤄진 Series에 매핑한다.
예를 들어, 'area'속성을 질의하면 앞에서 본 면적을 담고 있는 Series 객체를 반환한다.

In [21]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

### DataFrame 객체 구성하기
 Pandas DataFrame은 다양한 방법으로 구성할 수 있다.

#### 단일 Series 객체에서 구성하기
 DataFrame은 Series 객체의 집합체로서 열 하나짜리 DataFrame은 단일 Series로 구성할 수 있다.

In [33]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### 딕셔너리의 리스트에서 구성하기
 딕셔너리의 리스트는 DataFrame으로 만들 수 있다.
딕셔너리(Dictionary)의 일부 키가 누락되더라도 Pandas는 누락된 자리를 NaN(숫자가 아님을 의미하는 'not a number')값으로 채운다

In [32]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [24]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### Series 객체의 딕셔너리에서 구성하기
 앞에서 봤듯이 DataFrame은 Series 객체의 딕셔너리로 구성될 수도 있다.

In [31]:
pd.DataFrame({'population': population,
              'area': area
             })

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### 2차원 NumPy 배열에서 구성하기
 데이터의 2차원 배열이 주어지면 지정된 열과 인덱스 이름을 가진 DataFrame을 생성할 수 있다.
만약 생략되면 각각에 대한 정수 인덱스가 사용된다.

In [30]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.184662,0.822847
b,0.225602,0.393244
c,0.245939,0.44611


#### NumPy의 구조화된 배열에서 구성하기
 Pandas DataFrame은 구조화된 배열처럼 동작하며 구조화된 배열로부터 직접 만들 수 있다.

In [34]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [35]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## Pandas Index 객체
 Series와 DataFrame 객체가 데이터를 참조하고 수정하게 해주는 **명시적인 인덱스**를 포함한다는 것을 알았다.
그 자체로 흥미로운 구조체이며 불변의 배열이나 정렬된 집합(Index 객체가 중복을 포함할 수도 있으므로)으로 볼 수 있다.

In [38]:
# 정수 리스트로부터 Index를 구성
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### Index: 불변의 배열
 Index 객체는 여러 면에서 배열처럼 동작한다.

In [39]:
ind[1]

3

In [40]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [41]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


> Index 객체와 NumPy 배열의 한 가지 차이점이라면 Index 객체는 일반적인 방법으로 변경될 수 없는 불변의 값이라는 점이다.
> 이 불변성 덕분에 예기치 않은 인덱스 변경으로 부작용 없이 여러 DataFrame과 배열 사이에서 인덱스를 더 안전하게 공유할 수 있다.

In [44]:
ind[1] = 0

TypeError: Index does not support mutable operations

### Index: 정렬된 집합
 Pandas 객체는 집합 연산의 여러 측면에 의존하는 데이터세트 간의 조인과 같은 연산을 할 수 있게 하려고 고안됐다.
Index 객체는 대체로 파이썬에 내장된 set 데이터 구조에서 사용하는 표기법을 따르기 때문에 합집합, 교집합, 차집합을 비롯해 그 밖의 조합들의 익숙한 방식으로 계산될 수 있다.

In [45]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [46]:
indA & indB # 교집합

Int64Index([3, 5, 7], dtype='int64')

In [47]:
indA | indB # 합집합

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [48]:
indA ^ indB # 대칭 차(두 집합의 상대 여집합의 합)

Int64Index([1, 2, 9, 11], dtype='int64')

In [50]:
indA + indB

Int64Index([3, 6, 10, 14, 20], dtype='int64')

## 데이터 인덱싱과 선택
 인덱싱, 슬라이싱, 마스킹, 팬시 인덱싱, 조합에 대해서 자세히 알아본다.

### Series에서 데이터 선택
 Series 객체는 여러 면에서 1차원 NumPy 배열과 표준 파이썬 딕셔너리처럼 동작한다.

#### Series: 딕셔너리
 딕셔너리와 마찬가지로 키의 집합을 값의 집합에 매핑한다.

In [52]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [53]:
data['b']

0.5

In [54]:
'a' in data

True

In [55]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [56]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [57]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

#### Series: 1차원 배열
 Series는 딕셔너리와 유사한 인터페이스를 기반으로 하며 슬라이스, 마스크, 팬시 인덱싱 등 NumPy 배열과 똑같은 기본 메커니즘으로 배열 형태의 아이템을 선택할 수 있다.

In [58]:
# 명시적인 인덱스로 슬라이싱하기
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [59]:
# 암묵적 정수 인덱스로 슬라이싱하기
data[0:2]

a    0.25
b    0.50
dtype: float64

In [60]:
# 마스킹
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [62]:
# 팬시 인덱싱
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

#### 인덱서: loc, iloc, ix

In [63]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [64]:
# 인덱싱할 때 명시적인 인덱스 사용
data[1]

'a'

In [66]:
# 슬라이싱할 때 암묵적 인덱스 사용
data[1:3]

3    b
5    c
dtype: object

> 정수 인덱스를 사용하는 경우 이런 혼선이 발생할 수 있기 때문에 Pandas는 특정 인덱싱 방식을 명시적으로 드러내는 몇 가지 특별한 **인덱서(indexer)** 속성을 제공한다. 이는 함수 메서드가 아니라 Series의 데이터에 대한 특정 슬라이싱 인터페이스를 드러내는 속성이다.

In [67]:
data.loc[1]

'a'

In [68]:
data.loc[1:3]

1    a
3    b
dtype: object

> iloc 속성은 인덱싱과 슬라이싱에서 언제나 암묵적인 파이썬 스타일의 인덱스를 참조하게 해준다.

In [69]:
data.iloc[1]

'b'

In [70]:
data.iloc[1:3]

3    b
5    c
dtype: object

## DataFrame에서 데이터 선택
 DataFrame은 여러 면에서 2차원 배열이나 구조화된 배열과 비슷하고, 다른 면에서는 동일 인덱스를 공유하는 Series 구조체의 딕셔너리와 비슷하다. 이 유사성을 기억하고 있으면 이런 구조체에서 데이터를 선택하는 법을 살펴볼 때 도움이 된다.

### DataFrame: 딕셔너리
 여기서 고려할 첫 번째 유사점은 DataFrame이 관련 Sereis 객체의 딕셔너리라는 것이다.

In [71]:
area = pd.Series({ 'California': 423967,
              'Texas': 695662,
              'New York': 141297,
              'Florida': 170312,
              'Illinois': 149995})
pop = pd.Series({ 'California': 38332521,
                    'Texas': 26448193,
                    'New York': 19651127,
                    'Florida': 19552860,
                    'Illinois': 12882135})
data = pd.DataFrame({'area': area, 'pop': pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


> DataFrame의 열을 이루는 각 Series는 열 이름으로 된 딕셔너리 스타일의 인덱싱을 통해 접근할 수 있다.

In [72]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [74]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [75]:
data.area is data['area']

True

> 이 약식 표현이 유용하기는 하지만 모든 경우에 동작하지는 않는다.
1. 열 이름이 문자열이 아닐경우
2. 열 이름이 DataFrame의 메서드와 충돌할 경우

In [76]:
data.pop is data['pop']

False

In [78]:
# 새 열(Column) 추가
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### DataFrame: 2차원 배열

In [79]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [80]:
# DataFrame의 행과 열을 바꾸기
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


> 배열에 단일 인덱스를 전달하면 다음과 같이 행에 접근한다.

In [87]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

> 그리고 DataFrame에 단일 '인덱스'를 전달하면 열에 접근한다.

In [88]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

iloc 인덱서를 사용하면 DataFrame 객체가 단순 NumPy 배열인 것처럼(암묵적 파이썬 스타일의 인덱스 사용) 기반 배열을 인덱싱할 수 있지만, 
DataFrame 인덱스와 열 레이블은 결과에 그대로 유지된다.

In [90]:
print(data)
data.iloc[:3, :2]

              area       pop     density
California  423967  38332521   90.413926
Texas       695662  26448193   38.018740
New York    141297  19651127  139.076746
Florida     170312  19552860  114.806121
Illinois    149995  12882135   85.883763


Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [91]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


> ix 인덱서는 이 두 방식의 하이브리드 형태다.

In [93]:
# data.ix[:3, :'pop']

In [95]:
# 마스킹과 팬시 인덱싱 결합
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [97]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### 추가적인 인덱싱 규칙
 인덱싱은 열을 참조, 슬라이싱은 행을 참조한다.

In [98]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [99]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


In [101]:
# 마스킹 연산은 열 단위가 아닌 행 단위로 해석된다.
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


## Pandas에서 데이터 연산하기
 NumPy의 기본 중 하나는 기본 산술 연산(덧셈, 뺄셈, 곱셈 등)과 복잡한 연산(삼각함수, 지수와 로그 함수 등) 모두에서 요소 단위의 연산을 빠르게 수행할 수 있다는 점이다. Pandas는 NumPy로부터 이 기능의 대부분을 상속받았으며, '유니버설 함수'가 그 핵심이다.

 Pandas를 이용하면 데이터 맥락을 유지하고 다른 소스에서 가져온 데이터를 결합하는 작업을 근본적으로 실패할 일이 없다.

### 유니버설 함수: 인덱스 보존
 Pandas는 NumPy와 함께 작업하도록 설계됐기 때문에 NumPy의 유니버설 함수가 Pandas Series와 DataFrame 객체에 동작한다.

In [2]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [3]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


NumPy 유니버설 함수를 이 객체 중 하나에 적용하면 그 결과는 **인덱스가 그대로 보존된** 다른 Pandas 객체가 될 것이다.

In [4]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [5]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


### 유니버설 함수: 인덱스 정렬
 두 개의 Series 또는 DataFrame 객체에 이항 연산을 적용하는 경우, Pandas는 연산을 수행하는 과정에서 인덱스를 정렬한다. 불완전한 데이터로 작업할 때 매우 편리하다.

#### Series에서 인덱스 정렬

In [6]:
area = pd.Series({'Alask': 1723337, 'Texas': 695662, 
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

In [7]:
population / area

Alask               NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [8]:
area.index | population.index

Index(['Alask', 'California', 'New York', 'Texas'], dtype='object')

둘 중 하나라도 값이 없는 항목은 Pandas가 누락된 데이터를 표시하는 방식에 따라 NaN, 즉 '숫자가 아님(Not a Number)'으로 표시된다.

In [10]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

NaN 값 사용을 원치 않을 경우, 연산자 대신에 적절한 객체 메서드를 사용해 채우기 값을 수정할 수 있다.

In [11]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

### DataFrame에서 인덱스 정렬

In [12]:
A = pd.DataFrame(rng.randint(0, 20, (2,2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [13]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [14]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


### 유니버설 함수: DataFrame과 Series 간의 연산
 DataFrame과 Series 사이에서 연산할 때 인덱스와 열의 순서는 비슷하게 유지된다. DataFrame과 Series 사이의 연산은 2차원 NumPy 배열과 1차원 NumPy 배열 사이의 연산과 비슷하다.

In [15]:
A = rng.randint(10, size=(3, 4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [16]:
A - A[0]

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

In [24]:
df = pd.DataFrame(A, columns=list('QRST'))
print(df)
df - df.iloc[0]

   Q  R  S  T
0  3  8  2  4
1  2  6  4  8
2  6  1  3  8


Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [23]:
# 열 방향 계산
df.subtract(df['R'], axis=0)

   Q  R  S  T
0  3  8  2  4
1  2  6  4  8
2  6  1  3  8


Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [21]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int32

In [22]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,
