In [1]:
import pandas as pd
import numpy as np

# Sorting: index labels-application

In [3]:
s1 = pd.Series([1,2], index=['a','b'])
s1

a    1
b    2
dtype: int64

In [5]:
s2 = pd.Series([4,3], index=['b','a'])
s2

b    4
a    3
dtype: int64

In [6]:
s1 + s2
# index 레이블에 기초해 자동적으로 연산해준다(알아서 순서 맞춰준다)

a    4
b    6
dtype: int64

In [7]:
s1 * 2
# 각 인덱스에 스칼라 곱셈 가능

a    2
b    4
dtype: int64

In [8]:
t = pd.Series(2, s1.index)
t
# index만큼 스칼라값을 대입해준 시리즈 생성

a    2
b    2
dtype: int64

In [9]:
s1 * t
#시리즈 간의 곱셈

a    2
b    4
dtype: int64

In [11]:
s3 = pd.Series([5,6], index=['b','c'])
s3

b    5
c    6
dtype: int64

In [12]:
s1 + s3
# 중복되는 index의 경우에는 연산이 이루어지지만, 그렇지 않은 index들은 합집합의 개념으로 포함되나, 결측치(NaN)으로 처리

a    NaN
b    7.0
c    NaN
dtype: float64

In [13]:
s1 = pd.Series([1.0, 2.0, 3.0], index=['a','a','b'])
s1

a    1.0
a    2.0
b    3.0
dtype: float64

In [14]:
s2 = pd.Series([4.0, 5.0, 6.0, 7.0], index=['a','a','c','a'])
s2

a    4.0
a    5.0
c    6.0
a    7.0
dtype: float64

In [15]:
s1 + s2
# 멀티곱의 방식으로 정렬: 'a' index가 6개 생성
## (s1의 index==a)*(s2의 index==a)들의 합집합
#중복이 없는 b, c index의 경우에는 결측치 처리

a    5.0
a    6.0
a    8.0
a    6.0
a    7.0
a    9.0
b    NaN
c    NaN
dtype: float64

In [16]:
s2 + s1

a    5.0
a    6.0
a    6.0
a    7.0
a    8.0
a    9.0
b    NaN
c    NaN
dtype: float64

# Boolean selection

In [17]:
s = pd.Series(np.arange(0,5), index=list('abcde'))
logical_results = s >= 3
logical_results
# bool_ 형식으로 데이터들의 논리적 검증이 가능

a    False
b    False
c    False
d     True
e     True
dtype: bool

In [18]:
s[logical_results]
# s[logical_results]==True 인 경우만 표시

d    3
e    4
dtype: int32

In [20]:
s

a    0
b    1
c    2
d    3
e    4
dtype: int32

In [21]:
s[s>2]

d    3
e    4
dtype: int32

In [22]:
s[s>4]
# 조건에 부합하는 데이터가 없으면 empty

Series([], dtype: int32)

In [23]:
s[(s >= 2) & (s < 5)]

c    2
d    3
e    4
dtype: int32

In [24]:
(s >= 0).all()
# .all(): 모든 데이터에 대하여 조건이 참일 때만 True를 반환

True

In [26]:
s[s < 2].any()
# .any(): 조건에 부합하는 값이 하나라도 있으면 True 반환
# 조건에 부합하는 값이 0 혹은 빈 리스트... 같은 것이라면 False로 취급

True

In [27]:
s[s < 1].any()

False

In [28]:
(s < 2).sum()
# 조건을 만족하는 항목의 수

2

# Reindexing

In [29]:
np.random.seed(123456)
s = pd.Series(np.random.randn(5))
s

0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4    1.212112
dtype: float64

In [30]:
s.index = ['a','b,','c','d','e']
s

a     0.469112
b,   -0.282863
c    -1.509059
d    -1.135632
e     1.212112
dtype: float64

In [31]:
np.random.seed(123456)
s1 = pd.Series(np.random.randn(4), ['a','b','c','d'])
s1

a    0.469112
b   -0.282863
c   -1.509059
d   -1.135632
dtype: float64

In [33]:
s2 = s1.reindex(['a','c','g'])
s2

# 'g' index에 해당하는 값이 없으므로 결측치로 나온다
# reindex()로 사용하지 않는 index는 삭제

a    0.469112
c   -1.509059
g         NaN
dtype: float64

In [34]:
s2.index

Index(['a', 'c', 'g'], dtype='object')

In [35]:
s2.values

array([ 0.4691123, -1.5090585,        nan])

In [36]:
s1 = pd.Series([0,1,2], [0,1,2])
s2 = pd.Series([3,4,5], ['0','1','2'])
s1 + s2

# s2.indexes are not numeric

0   NaN
1   NaN
2   NaN
0   NaN
1   NaN
2   NaN
dtype: float64

In [37]:
s2.index = s2.index.values.astype(int)
s1 + s2

0    3
1    5
2    7
dtype: int64

In [38]:
s2 = s.copy()
s2

a     0.469112
b,   -0.282863
c    -1.509059
d    -1.135632
e     1.212112
dtype: float64

In [39]:
s2 = s.copy()
s3 = s2.reindex(['a','f'], fill_value=0)
s3

# a index는 살아있고, f index는 없지만 fill_value 인자값이 0이므로 0으로 채워짐

a    0.469112
f    0.000000
dtype: float64

In [40]:
s3 = pd.Series(['red','green','blue'], index=[0,3,5])
s3

0      red
3    green
5     blue
dtype: object

In [41]:
s3.reindex(np.arange(0,7))

0      red
1      NaN
2      NaN
3    green
4      NaN
5     blue
6      NaN
dtype: object

In [42]:
# ffill method

s3.reindex(np.arange(0,7), method='ffill')

0      red
1      red
2      red
3    green
4    green
5     blue
6     blue
dtype: object

In [43]:
# backward fill method

s3. reindex(np.arange(0,7), method='bfill')

0      red
1    green
2    green
3    green
4     blue
5     blue
6      NaN
dtype: object

# Modifying Series

In [46]:
np.random.seed(123456)
s = pd.Series(np.random.randn(3), ['a','b','c'])
s

a    0.469112
b   -0.282863
c   -1.509059
dtype: float64

In [47]:
s['d'] = 100
s

a      0.469112
b     -0.282863
c     -1.509059
d    100.000000
dtype: float64

In [48]:
s['d'] = -100
s

a      0.469112
b     -0.282863
c     -1.509059
d   -100.000000
dtype: float64

In [49]:
del(s['a'])
s

b     -0.282863
c     -1.509059
d   -100.000000
dtype: float64

In [50]:
copy = s.copy()
slice = copy[:2]
slice

b   -0.282863
c   -1.509059
dtype: float64

In [51]:
slice[1] = 100
slice

b     -0.282863
c    100.000000
dtype: float64

# Creating a DataFrame using Numpy

In [52]:
pd.DataFrame(np.arange(1,6))

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [57]:
df = pd.DataFrame(np.array([[10,11], [20,21]]))
df

Unnamed: 0,0,1
0,10,11
1,20,21


In [58]:
df.columns

RangeIndex(start=0, stop=2, step=1)

In [59]:
df = pd.DataFrame(np.array([[70,71], [90,91]]),
                 columns = ['Missoula','Philadelphia'])
df

Unnamed: 0,Missoula,Philadelphia
0,70,71
1,90,91


In [60]:
len(df)
# num of rows

2

In [61]:
df.shape

(2, 2)

In [62]:
df.size

4

# Creating DataFrames using Python Dic & Series

In [63]:
temps_missoula = [70, 71]
temps_philly = [90, 91]
temper = {'Missoula':temps_missoula,
         'Philadelphia':temps_philly}
pd.DataFrame(temper)

Unnamed: 0,Missoula,Philadelphia
0,70,90
1,71,91


In [64]:
temps_at_0 = pd.Series([70, 90])
temps_at_1 = pd.Series([71, 91])
df = pd.DataFrame([temps_at_0, temps_at_1])
df

Unnamed: 0,0,1
0,70,90
1,71,91


In [65]:
df.values

array([[70, 90],
       [71, 91]], dtype=int64)

In [66]:
df = pd.DataFrame([temps_at_0, temps_at_1],
                 columns=[0,1]) # zero-based position을 의미
df

Unnamed: 0,0,1
0,70,90
1,71,91


In [67]:
df = pd.DataFrame([temps_at_0, temps_at_1],
                 columns=['Missoula','Philadelhpia']) # 별도로 지정해주어야 함
df

Unnamed: 0,Missoula,Philadelhpia
0,,
1,,


In [68]:
df = pd.DataFrame([temps_at_0, temps_at_1])
df.columns = ['Missoula','Philadelphia']
df

Unnamed: 0,Missoula,Philadelphia
0,70,90
1,71,91


In [69]:
temps_mso_sr = pd.Series(temps_missoula)
temps_phi_sr = pd.Series(temps_philly)
df = pd.DataFrame({'Missoula':temps_mso_sr,
                  'Philadelphia':temps_phi_sr})
df

Unnamed: 0,Missoula,Philadelphia
0,70,90
1,71,91


In [70]:
temps_nyc_sr = pd.Series([85,87], index=[1,2])
df = pd.DataFrame({'Missoula':temps_mso_sr,
                  'Philadelhpia':temps_phi_sr,
                  'New York':temps_nyc_sr})
df

Unnamed: 0,Missoula,Philadelhpia,New York
0,70.0,90.0,
1,71.0,91.0,85.0
2,,,87.0
