<a href="https://colab.research.google.com/github/bonasoobin/basic_python/blob/main/chap05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 챕터5 pandas 시작하기

In [1]:
import pandas as pd

In [2]:
from pandas import Series, DataFrame

## 5.1 pandas 자료구조 소개

### 5.1.1 Series

Series : 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조

In [3]:
# 간단한 Series 객체는 배열 데이터로부터 생성 가능
obj = pd.Series([4,7,-5,3])
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


In [4]:
# 왼쪽에 색인, 오른쪽에 해당 색인의 값 보여줌
# values와 index 속성을 통해 얻을 수 있음
print(obj.values)
print(obj.index)

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [5]:
# 데이터를 지칭하는 색인을 지정하여 Series 객체를 생성해야 할 때
obj2 = pd.Series([4,7,-5,3], index = ['d','b','a','c'])
print(obj2)
print(obj2.index)

d    4
b    7
a   -5
c    3
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')


In [6]:
# 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨 사용 가능
print(obj2['a'])
print(obj2['d'] == 6)
print(obj2[['c','a','d']])
# ['c','a','d']는 색인의 배열로 해석됨

-5
False
c    3
a   -5
d    4
dtype: int64


In [7]:
# 불리언배열을 사용해서 값을 걸러내거나 산술 곱셈을 수행하거나 NumPy 배열연산을 수행해도 색인-값 연결 유지됨
print(obj2[obj2>0])
print(obj2*2)

import numpy as np
print(np.exp(obj2))

d    4
b    7
c    3
dtype: int64
d     8
b    14
a   -10
c     6
dtype: int64
d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


In [8]:
# Series : 고정 길이의 정렬된 사전형이라고 이해
# Series는 색인값에 데이터값을 매핑하고 있으므로 파이썬의 사전형과 비슷함
# Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용 가능
print('b' in obj2)
print('e' in obj2)

True
False


In [9]:
# 파이썬의 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수 있음
sdata = {'Ohio':35000, 'Texas':71000,'Oregon':16000,'Utah':5000}
obj3 = pd.Series(sdata)
print(obj3)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


In [10]:
# 사전 객체만 가지고 Series 객체를 생성하면 Series 객체의 색인에는 사전의 키값이 순서대로 들어감
# 색인을 직접 지정하고 싶다면 원하는 순서대로 색인 직접 넘기기 가능
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
print(obj4)

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


In [11]:
# isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용
print(pd.isnull(obj4))
print(pd.notnull(obj4))

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


In [12]:
# isnull과 notnull 함수는 Series의 인스턴스 메서드로도 존재
print(obj4.isnull())

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool


In [13]:
# Series의 유용한 기능 : 산술 연산에서 색인과 라벨로 자동 정렬하는 것
print(obj3)
print(obj4)
print(obj3+obj4)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


In [14]:
# name 속성 있음
obj4.name = 'population'
obj4.index.name = 'state'
print(obj4)

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64


In [15]:
# Series의 색인은 대입하여 변경 가능
print(obj)
obj.index = ['Bob','Steve','Jeff','Ryan']
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


### 5.1.2 DataFrame

**DataFrame**

표 같은 스프레드 형식의 자료구조

여러 개의 컬럼이 있는데 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있음

로우와 컬럼에 대한 색인을 가지고 있음


In [16]:
# 같은길이의 리스트에 담긴 사전을 이용하거나 NumPy 배열을 사용해서 DataFrame 생성
data = {'state' : ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year' : [2000,2001,2002,2001,2002,2003],
        'pop' : [1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)

In [17]:
# DataFrame의 색인은 Series와 같은 방식으로 자동으로 대입되며 컬럼은 정렬되어 저장됨
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [18]:
# 큰 DataFrame을 다룰때는 head 메서드를 사용해 처음 5개 로우만 출력 가능
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [19]:
# 원하는 순서대로 columns를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성됨
pd.DataFrame(data, columns = ['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [20]:
# Series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장됨
frame2 = pd.DataFrame(data, columns=['year','state','pop','debt'],
                      index=['one','two','three','four','five','six'])
print(frame2)
print(frame2.columns)

       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN
Index(['year', 'state', 'pop', 'debt'], dtype='object')


In [21]:
# DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근 가능
print(frame2['state'])
print(frame2.year)

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object
one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64


In [22]:
# Series 객체가 DataFrame과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워짐
# 로우는 위치나 loc 속성을 이용해 이름을 통해 접근 가능
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [23]:
# 컬럼 : 대입 가능 (비어있는 debt 컬럼에 스칼라값이나 배열의 값을 대입 가능)
frame2['debt'] = 16.5
print(frame2)

frame2['debt'] = np.arange(6.)
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2001    Ohio  1.7  16.5
three  2002    Ohio  3.6  16.5
four   2001  Nevada  2.4  16.5
five   2002  Nevada  2.9  16.5
six    2003  Nevada  3.2  16.5
       year   state  pop  debt
one    2000    Ohio  1.5   0.0
two    2001    Ohio  1.7   1.0
three  2002    Ohio  3.6   2.0
four   2001  Nevada  2.4   3.0
five   2002  Nevada  2.9   4.0
six    2003  Nevada  3.2   5.0


In [24]:
# 리스트나 배열을 컬럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야함
# Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며, 존재하지 않는 색인에는 결측치가 대입됨
val = pd.Series([-1.2,-1.5,-1.7], index=['two','four','five'])
frame2['debt'] = val
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN


In [25]:
# 존재하지 않는 컬럼을 대입하면 새로운 컬럼 생성
frame2['eastern'] = frame2.state =='Ohio'
frame2


Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [26]:
# del 예약어를 이용해서 컬럼 삭제
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [27]:
# 중첩된 사전 이용해서 데이터 생성하기
pop = {'Nevada' : {2001:2.4, 2002:2.9},
       'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}

In [28]:
# 중첩된 사전을 데이터 프레임에 넘기면 바깥 사전 키→컬럼, 안의 키→ 로우
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [29]:
# NumPy 배열과 유사한 문법으로 데이터 전치 가능
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [30]:
#색인을 직접 지정하면 지정된 색인으로 DataFrame 생성됨
pd.DataFrame(pop, index=[2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [31]:
# Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급됨
pdata = {'Ohio' : frame3['Ohio'][:1],
         'Nevada' : frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,,2.9


In [32]:
# 데이터프레임의 색인과 컬럼에 name 속성을 지정했다면 함께 출력됨
frame3.index.name = 'year';frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [33]:
# Series와 유사하게 values 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [34]:
# DataFrame의 컬럼이 서로 다른 dtype을 가지고 있다면 모든 컬럼을 수용하기 위해 그 컬럼의 배열의 dtype이 선택됨
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

### 5.1.3 색인 객체

In [35]:
# pandas의 색인 객체 : 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터를 저장하는 객체
# Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 다른 순차적인 이름은 내부적으로 색인으로 변환됨
obj = pd.Series(range(3), index=['a','b','c'])
index = obj.index
print(index)
print(index[1:])

Index(['a', 'b', 'c'], dtype='object')
Index(['b', 'c'], dtype='object')


In [36]:
#index[1] = 'd'

In [37]:
# 자료구조 사이에서 안전하게 공유 가능
labels = pd.Index(np.arange(3))
print(labels)

obj2 = pd.Series([1.5, -2.5, 0], index=labels)
print(obj2)

obj2.index is labels

Int64Index([0, 1, 2], dtype='int64')
0    1.5
1   -2.5
2    0.0
dtype: float64


True

In [38]:
# 배열과 유사하게 Index 객체도 고정 크기로 동작함
print(frame3)
print(frame3.columns)
print('Ohio' in frame3.columns)
print(2003 in frame3.index)

state  Nevada  Ohio
year               
2001      2.4   1.7
2002      2.9   3.6
2000      NaN   1.5
Index(['Nevada', 'Ohio'], dtype='object', name='state')
True
False


In [39]:
# 파이썬의 집합과는 달리 pandas의 인덱스는 중복되는 값을 허용
dup_labels = pd.Index(['foo','foo','bar','bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

**색인 메서드와 속성**

- append : 추가적인 색인 객체를 덧붙임
- difference : 색인의 차집합 반환
- intersection : 색인의 교집합 반환
- union : 색인의 합집합 반환
- isin : 존재여부인 불리언 배열 반환
- delete : 삭제된 새로운 색인 반환
- drop : 넘겨받은 값이 삭제된 새로운 색인 반환
- insert : 추가된 새로운 색인 반환
- is_monotonic : 단조성을 가진다면 True 반환
- is_unique : 중복되는 색인이 없다면 True 반환
- unique : 중복되는 요소 제거 후 유일값만 반환

## 5.2 핵심 기능

### 5.2.1 재색인

In [40]:
# reindex : 새로운 색인에 맞도록 객체를 새로 생성
obj = pd.Series([4.5,7.2,-5.3,3.6], index=['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [41]:
# reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 NaN 추가
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [42]:
# 시계열같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣어야 할 경우 있음
# ffill 메서드를 이용해 누락된 값을 직전의 값으로 채워넣을 수 있음
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0,2,4])
print(obj3)
print(obj3.reindex(range(6), method='ffill'))

0      blue
2    purple
4    yellow
dtype: object
0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object


In [43]:
# DataFrame에 대한 reindex는 로우, 컬럼 또는 둘 다 변경 가능
# 순서만 전달하면 로우가 재색인됨
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                     index = ['a','c','d'],
                     columns = ['Ohio','Texas','California'])
print(frame)

frame2 = frame.reindex(['a','b','c','d'])
print(frame2)

   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0


In [44]:
# columns 예약어를 사용해서 재색인 가능
import numpy as np

states = ['Texas', 'Uah', 'California']
frame = frame.reindex(columns=states, fill_value=np.nan)
frame

Unnamed: 0,Texas,Uah,California
a,1,,2
c,4,,5
d,7,,8


In [45]:
# 재색인은 loc를 이용해 라벨로 색인하면 조금 더 간결하게 할 수 있음
frame.loc['b'] = np.nan
frame.loc[['a','b','c','d'], states]

Unnamed: 0,Texas,Uah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


**재색인 함수 인자**

- index : 색인으로 사용할 순서(복사가 이루어지지 않고 그대로 사용됨)
- method : `ffill`(직전값 채워넣기), `bfill`(다음값 채워넣기)
- fill_value : 재색인 과정 중에 새롭게 나타나는 비어 있는 데이터를 채우기 위한 값
- limit : 전/후 보간 시에 사용할 최대 갭 크기(채워넣을 원소의 수)
- tolerance : 전/후 보간 시에 사용할 최대 갭 크기(값의 차이)
- level : `MultiIndex`의 단계에 단순 색인을 맞춤. 그렇지 않으면 `MultiIndex`의 하위집합에 맞춤
- copy : True인 경우 새로운 색인이 이전 색인과 동일하더라도 데이터를 복사 / False인 경우 새로운 색인이 이전 색인과 동일할 경우 복사하지 않음

### 5.2.2 하나의 로우나 컬럼 삭제하기

In [46]:
# 삭제하려는 로우나 컬럼이 제외된 리스트를 이미 가지고 있다면 로우나 컬럼을 쉽게 삭제할 수 있음
# 데이터의 모양을 변경하는 작업이 필요함 -> drop 메서드 사용
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
print(obj)

new_obj = obj.drop('c')
print(new_obj)

obj.drop(['d','c'])

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64


a    0.0
b    1.0
e    4.0
dtype: float64

In [47]:
# DataFrame에서는 로우와 컬럼 모두에서 값을 삭제할 수 있음
data =  pd.DataFrame(np.arange(16).reshape((4,4)),
                     index=['Ohio', 'Colorado', 'Utah', 'New York'],
                     columns = ['one', 'two', 'three', 'four'])
data


Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [48]:
# drop 함수에 인자로 로우 이름을 넘기면 해당 로우(axis 0)의 값을 모두 삭제함
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [49]:
# 컬럼의 값을 삭제할 때는 axis=1 또는 axis=’columns’를 인자로 넘겨주면 됨
data.drop('two', axis=1)
data.drop(['two','four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [50]:
# drop 함수처럼 Series나 DataFrame의 크기 또는 형태를 변경하는 함수는 새로운 객체를 반환하는 대신 원본 객체를 변경함
obj.drop('c',inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

### 5.2.3 색인하기, 선택하기, 거르기

In [51]:
# Series의 색인(obj[…])은 NumPy 배열의 색인과 유사하게 동작하지만 정수가 아니어도 된다는 점이 다름
obj = pd.Series(np.arange(4.), index=['a','b','c','d'])
print(obj)
print(obj['b'])
print(obj[1])
print(obj[2:4])
print(obj[['b','a','d']])
print(obj[[1,3]])
print(obj[obj<2])

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64
1.0
1.0
c    2.0
d    3.0
dtype: float64
b    1.0
a    0.0
d    3.0
dtype: float64
b    1.0
d    3.0
dtype: float64
a    0.0
b    1.0
dtype: float64


In [52]:
# 라벨 이름으로 슬라이싱하면 시작점과 끝점을 포함함(일반 파이썬과 다름)
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [53]:
# 슬라이싱 문법으로 선택된 영역에 값을 대입하는 것은 생각하는 대로 동작함
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [54]:
# 색인으로 DataFrame에서 하나 이상의 컬럼을 가져올 수 있음
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index=['Ohio','Colorado','Utah','New York'],
                    columns = ['one','two','three','four'])
data
data['two']
data[['three','one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [55]:
# 슬라이싱으로 로우를 선택하거나 불리언 배열로 로우 선택 가능
data[:2]
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [56]:
# 스칼라 비교를 이용해 생성된 불리언 DataFrame을 사용해서 값 선택하기
data<5
data[data<5]=0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


**loc와 iloc으로 선택하기**

In [57]:
# 축의 이름을 선택할 때는 loc를, 정수 색인으로 선택할 때는 iloc 사용
data.loc['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int64

In [58]:
# iloc를 이용하면 정수 색인으로도 위와 비슷하게 선택 가능
print(data.iloc[2,[3,0,1]])
print(data.iloc[2])
print(data.iloc[[1,2],[3,0,1]])

four    11
one      8
two      9
Name: Utah, dtype: int64
one       8
two       9
three    10
four     11
Name: Utah, dtype: int64
          four  one  two
Colorado     7    0    5
Utah        11    8    9


In [59]:
# 슬라이스도 지원할 뿐더러 단일 라벨이나 라벨 리스트도 지원
print(data.loc[:'Utah', 'two'])
print(data.iloc[:,:3][data.three>5])

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64
          one  two  three
Colorado    0    5      6
Utah        8    9     10
New York   12   13     14


### 5.2.4 정수 색인

In [60]:
ser = pd.Series(np.arange(3.))
print(ser)
# print(ser[-1]) -> 오류 발생

0    0.0
1    1.0
2    2.0
dtype: float64


In [61]:
# 정수 기반의 색인을 사용하지 않는 경우 모호함이 사라짐
ser2 = pd.Series(np.arange(3.), index = ['a','b','c'])
print(ser2[-1])

2.0


In [62]:
# 일관성을 유지하기 위해 정숫값을 담고 있는 축 색인이 있다면 우선적으로 라벨을 먼저 찾아보도록 구현되어있음
# 라벨에 대해서는 loc를 사용하고 정수 색인에 대해서는 iloc를 사용
print(ser[:1])
print(ser.loc[:1])
print(ser.iloc[:1])

0    0.0
dtype: float64
0    0.0
1    1.0
dtype: float64
0    0.0
dtype: float64


### 5.2.5 산술 연산과 데이터 정렬

In [64]:
# 객체를 더할 때 짝이 맞지 않는 색인이 있다면 결과에 두 색인 통합됨
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a','c','d','e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index = ['a', 'c', 'e', 'f','g'])

print(s1)
print(s2)

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


In [65]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64