# Import

In [1]:
import numpy as np
import pandas as pd

# Series

In [2]:
s = pd.Series([0, 1, 1.5, 2, 3.2])
s

0    0.0
1    1.0
2    1.5
3    2.0
4    3.2
dtype: float64

In [3]:
print(s.values)
print(s.index)
print(s[1])
print(s[1:5])
print(s>1.6)

[0.  1.  1.5 2.  3.2]
RangeIndex(start=0, stop=5, step=1)
1.0
1    1.0
2    1.5
3    2.0
4    3.2
dtype: float64
0    False
1    False
2    False
3     True
4     True
dtype: bool


In [4]:
s = pd.Series([0, 1, 1.5, 2, 3.2], index=['a', 'b', 'c', 'd', 'e'])
s

a    0.0
b    1.0
c    1.5
d    2.0
e    3.2
dtype: float64

In [5]:
print(s['c'])
print(s[1:2])
print(s['b':'e'])
print(s[['a', 'c', 'e']])
print('b' in s)

1.5
b    1.0
dtype: float64
b    1.0
c    1.5
d    2.0
e    3.2
dtype: float64
a    0.0
c    1.5
e    3.2
dtype: float64
True


In [6]:
s = pd.Series([0, 1, 1.5, 2, 3.2, 2, 1.5], index=[2, 4, 6, 8, 10, 12, 14])
s # 사용자 정의 인덱스

2     0.0
4     1.0
6     1.5
8     2.0
10    3.2
12    2.0
14    1.5
dtype: float64

In [7]:
print(s[2])
print(s[2:4])
print(s.unique())
print(s.value_counts())
print(s.isin([0.25, 1.5]))

0.0
6    1.5
8    2.0
dtype: float64
[0.  1.  1.5 2.  3.2]
1.5    2
2.0    2
0.0    1
1.0    1
3.2    1
dtype: int64
2     False
4     False
6      True
8     False
10    False
12    False
14     True
dtype: bool


  print(s[2:4])


In [8]:
fruit = {'사과': 10, '배': 5, '딸기': 20, '바나나': 3, '오렌지': 8}
s = pd.Series(fruit)
s

사과     10
배       5
딸기     20
바나나     3
오렌지     8
dtype: int64

In [9]:
s['배']

5

In [10]:
s['배':'오렌지']

배       5
딸기     20
바나나     3
오렌지     8
dtype: int64

# DataFrame

In [11]:
df = pd.DataFrame([{'A':2, 'B':4, 'D':3}, {'A':4, 'B':5, 'C':7}])
df

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [12]:
df = pd.DataFrame(np.random.rand(5, 5), columns=list('ABCDE'), index=range(1, 6))
df

Unnamed: 0,A,B,C,D,E
1,0.470897,0.614571,0.482329,0.122095,0.581117
2,0.586714,0.944985,0.060791,0.916114,0.728265
3,0.665745,0.021875,0.998442,0.42869,0.168098
4,0.590196,0.071162,0.2594,0.309601,0.507311
5,0.552964,0.120295,0.85782,0.219429,0.89729


In [13]:
fruit_fresh = {'사과':846, '배':343, '바나나':17, '딸기':1954, '오렌지':440}
fruit_fresh = pd.Series(fruit_fresh)
fruit_fresh

사과      846
배       343
바나나      17
딸기     1954
오렌지     440
dtype: int64

In [14]:
fruit_rotten = {'사과': 232, '배': 123, '바나나': 45, '딸기': 2, '오렌지': 30}
fruit_rotten = pd.Series(fruit_rotten)
fruit_rotten

사과     232
배      123
바나나     45
딸기       2
오렌지     30
dtype: int64

In [15]:
fruit_df = pd.DataFrame({'싱싱한 과일': fruit_fresh, '썩은 과일': fruit_rotten})
fruit_df['모든 과일'] = np.sum(fruit_df, axis=1)
fruit_df

Unnamed: 0,싱싱한 과일,썩은 과일,모든 과일
사과,846,232,1078
배,343,123,466
바나나,17,45,62
딸기,1954,2,1956
오렌지,440,30,470


In [16]:
print(fruit_df.index)
print(fruit_df.columns)
print(fruit_df.values)
print(fruit_df['싱싱한 과일'])
print(fruit_df['썩은 과일']['바나나'])
print(fruit_df['배':'딸기'])

Index(['사과', '배', '바나나', '딸기', '오렌지'], dtype='object')
Index(['싱싱한 과일', '썩은 과일', '모든 과일'], dtype='object')
[[ 846  232 1078]
 [ 343  123  466]
 [  17   45   62]
 [1954    2 1956]
 [ 440   30  470]]
사과      846
배       343
바나나      17
딸기     1954
오렌지     440
Name: 싱싱한 과일, dtype: int64
45
     싱싱한 과일  썩은 과일  모든 과일
배       343    123    466
바나나      17     45     62
딸기     1954      2   1956


In [17]:
print(fruit_df['모든 과일'])
print(type(fruit_df['모든 과일']))
fruit_df = fruit_df.div(fruit_df['모든 과일'], axis=0)
fruit_df.T

사과     1078
배       466
바나나      62
딸기     1956
오렌지     470
Name: 모든 과일, dtype: int64
<class 'pandas.core.series.Series'>


Unnamed: 0,사과,배,바나나,딸기,오렌지
싱싱한 과일,0.784787,0.736052,0.274194,0.998978,0.93617
썩은 과일,0.215213,0.263948,0.725806,0.001022,0.06383
모든 과일,1.0,1.0,1.0,1.0,1.0


# Index

In [18]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [19]:
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

5
(5,)
1
int64


In [20]:
idx1 = pd.Index([1, 2, 3, 4, 5])
idx2 = pd.Index([4, 5, 6, 7, 8])

print(idx1.append(idx2)) 
# does return value.
# not like list.append() which returns None.

print(idx1.difference(idx2))
print(idx1.intersection(idx2))
print(idx1.union(idx2))

print(idx1.delete(0)) # delete by index
print(idx1.drop(1)) # delete by value
print(idx1.symmetric_difference(idx2))

Int64Index([1, 2, 3, 4, 5, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 3], dtype='int64')
Int64Index([4, 5], dtype='int64')
Int64Index([1, 2, 3, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([2, 3, 4, 5], dtype='int64')
Int64Index([2, 3, 4, 5], dtype='int64')
Int64Index([1, 2, 3, 6, 7, 8], dtype='int64')


# Series 인덱싱

In [21]:
s = pd.Series([0, 1, 1.5, 2, 3.2], index=['a', 'b', 'c', 'd', 'e'])
print(s.keys())
print(list(s.items()))
print(s['a':'c'])
print(s[0:3])
print(s[(s > 1) & (s < 3)])

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
[('a', 0.0), ('b', 1.0), ('c', 1.5), ('d', 2.0), ('e', 3.2)]
a    0.0
b    1.0
c    1.5
dtype: float64
a    0.0
b    1.0
c    1.5
dtype: float64
c    1.5
d    2.0
dtype: float64


In [22]:
s = pd.Series(['a', 'b', 'c', 'd', 'e'], index=[1, 3, 5, 7, 9])
print(s)
print(s[1])
print(s[1:3])
print(s.iloc[1])
print(s.iloc[1:3])
print(s.loc[1])
print(s.loc[1:3])

1    a
3    b
5    c
7    d
9    e
dtype: object
a
3    b
5    c
dtype: object
b
3    b
5    c
dtype: object
a
1    a
3    b
dtype: object


  print(s[1:3])


# DataFrame 인덱싱

In [23]:
fruit_fresh = {'사과':846, '배':343, '바나나':17, '딸기':2954, '오렌지':440}
fresh_s = pd.Series(fruit_fresh)
fruit_rotten = {'사과': 232, '배': 123, '바나나': 45, '딸기': 2, '오렌지': 30}
rotten_s = pd.Series(fruit_rotten)
fruit_df = pd.DataFrame({'싱싱한 과일': fresh_s, '썩은 과일': rotten_s})
fruit_df['모든과일'] = np.sum(fruit_df, axis=1)
fruit_df

Unnamed: 0,싱싱한 과일,썩은 과일,모든과일
사과,846,232,1078
배,343,123,466
바나나,17,45,62
딸기,2954,2,2956
오렌지,440,30,470


In [24]:
print(fruit_df['모든과일'])
print(fruit_df.모든과일)
print(fruit_df.values)
print(type(fruit_df.values))
print(fruit_df.values[0])
print(fruit_df.T) # Transpose

사과     1078
배       466
바나나      62
딸기     2956
오렌지     470
Name: 모든과일, dtype: int64
사과     1078
배       466
바나나      62
딸기     2956
오렌지     470
Name: 모든과일, dtype: int64
[[ 846  232 1078]
 [ 343  123  466]
 [  17   45   62]
 [2954    2 2956]
 [ 440   30  470]]
<class 'numpy.ndarray'>
[ 846  232 1078]
          사과    배  바나나    딸기  오렌지
싱싱한 과일   846  343   17  2954  440
썩은 과일    232  123   45     2   30
모든과일    1078  466   62  2956  470


In [26]:
print(fruit_df)
print(fruit_df['싱싱한 과일'])
print(type(fruit_df['싱싱한 과일']))
print(fruit_df['싱싱한 과일']['바나나'])
# print(fruit_df['싱싱한과일'][2]) # error
# print(fruit_df['싱싱한과일'][1:3]) # error
# print(fruit_df['싱싱한과일']['바나나':'오렌지']) # error
# print(fruit_df['사과']) # error

     싱싱한 과일  썩은 과일  모든과일
사과      846    232  1078
배       343    123   466
바나나      17     45    62
딸기     2954      2  2956
오렌지     440     30   470
사과      846
배       343
바나나      17
딸기     2954
오렌지     440
Name: 싱싱한 과일, dtype: int64
<class 'pandas.core.series.Series'>
17


In [27]:
print(fruit_df.loc['사과', '썩은 과일'])
print(fruit_df.iloc[0, 1])
print(fruit_df.loc['사과':'바나나'])
print(fruit_df.iloc[0:2])
print(fruit_df.loc['사과':'바나나', '썩은 과일'])
print(fruit_df.iloc[0:2, 1])

232
232
     싱싱한 과일  썩은 과일  모든과일
사과      846    232  1078
배       343    123   466
바나나      17     45    62
    싱싱한 과일  썩은 과일  모든과일
사과     846    232  1078
배      343    123   466
사과     232
배      123
바나나     45
Name: 썩은 과일, dtype: int64
사과    232
배     123
Name: 썩은 과일, dtype: int64


In [28]:
print(fruit_df['썩은 과일'] > 100)
print(type(fruit_df['썩은 과일'] > 100))
print(fruit_df.loc[fruit_df['썩은 과일'] > 100])
print(fruit_df.loc[[True, True, False, False, False]])

print(fruit_df.loc[(fruit_df['썩은 과일'] > 100) & (fruit_df['싱싱한 과일'] < 400)])

print(fruit_df.loc[fruit_df['썩은 과일'] > 100].index)
print(fruit_df.loc[fruit_df['썩은 과일'] > 100].values)
print(fruit_df.loc[fruit_df['썩은 과일'] > 100].columns)

print(fruit_df.drop(fruit_df.loc[fruit_df['썩은 과일'] > 100].index))
print(fruit_df.drop(fruit_df.loc[fruit_df['썩은 과일'] > 100].index, axis=0))
print(fruit_df.drop(fruit_df.loc[fruit_df['썩은 과일'] > 100].index, axis='index'))

사과      True
배       True
바나나    False
딸기     False
오렌지    False
Name: 썩은 과일, dtype: bool
<class 'pandas.core.series.Series'>
    싱싱한 과일  썩은 과일  모든과일
사과     846    232  1078
배      343    123   466
    싱싱한 과일  썩은 과일  모든과일
사과     846    232  1078
배      343    123   466
   싱싱한 과일  썩은 과일  모든과일
배     343    123   466
Index(['사과', '배'], dtype='object')
[[ 846  232 1078]
 [ 343  123  466]]
Index(['싱싱한 과일', '썩은 과일', '모든과일'], dtype='object')
     싱싱한 과일  썩은 과일  모든과일
바나나      17     45    62
딸기     2954      2  2956
오렌지     440     30   470
     싱싱한 과일  썩은 과일  모든과일
바나나      17     45    62
딸기     2954      2  2956
오렌지     440     30   470
     싱싱한 과일  썩은 과일  모든과일
바나나      17     45    62
딸기     2954      2  2956
오렌지     440     30   470


# 연산 (+)

In [29]:
np.random.seed(20221186)
s = pd.Series(np.random.randint(0, 10, 5))
print(s)
print(np.exp(s))

0    6
1    1
2    8
3    7
4    7
dtype: int64
0     403.428793
1       2.718282
2    2980.957987
3    1096.633158
4    1096.633158
dtype: float64


In [30]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 3)), columns=list('ABC'))
print(df)
print(np.cos(df * np.pi))

   A  B  C
0  1  7  7
1  8  9  0
2  6  8  9
     A    B    C
0 -1.0 -1.0 -1.0
1  1.0 -1.0  1.0
2  1.0  1.0 -1.0


In [31]:
s1 = pd.Series([1, 2, 3, 4, 5], index=[0, 1, 2, 3, 4])
s2 = pd.Series([5, 6, 7, 8, 9], index=[1, 2, 3, 4, 5])
print(s1 + s2)
print(s1.add(s2, fill_value=0)) # 없는 index은 0으로 채워서 계산

0     NaN
1     7.0
2     9.0
3    11.0
4    13.0
5     NaN
dtype: float64
0     1.0
1     7.0
2     9.0
3    11.0
4    13.0
5     9.0
dtype: float64


In [32]:
df1 = pd.DataFrame(np.random.randint(0, 10, (3, 3)), columns=list('ABC'))
df1

Unnamed: 0,A,B,C
0,5,3,9
1,9,6,7
2,0,4,5


In [33]:
df2 = pd.DataFrame(np.random.randint(0, 10, (5, 5)), columns=list('BCDEF'))
df2

Unnamed: 0,B,C,D,E,F
0,7,9,2,8,3
1,6,2,9,0,7
2,5,4,4,7,0
3,7,3,2,8,9
4,0,0,8,4,5


In [34]:
print(df1 + df2)
print(df1.add(df2))
print(df1.add(df2, fill_value=0))
print(df2.add(df1, fill_value=1))

    A     B     C   D   E   F
0 NaN  10.0  18.0 NaN NaN NaN
1 NaN  12.0   9.0 NaN NaN NaN
2 NaN   9.0   9.0 NaN NaN NaN
3 NaN   NaN   NaN NaN NaN NaN
4 NaN   NaN   NaN NaN NaN NaN
    A     B     C   D   E   F
0 NaN  10.0  18.0 NaN NaN NaN
1 NaN  12.0   9.0 NaN NaN NaN
2 NaN   9.0   9.0 NaN NaN NaN
3 NaN   NaN   NaN NaN NaN NaN
4 NaN   NaN   NaN NaN NaN NaN
     A     B     C    D    E    F
0  5.0  10.0  18.0  2.0  8.0  3.0
1  9.0  12.0   9.0  9.0  0.0  7.0
2  0.0   9.0   9.0  4.0  7.0  0.0
3  NaN   7.0   3.0  2.0  8.0  9.0
4  NaN   0.0   0.0  8.0  4.0  5.0
      A     B     C     D    E     F
0   6.0  10.0  18.0   3.0  9.0   4.0
1  10.0  12.0   9.0  10.0  1.0   8.0
2   1.0   9.0   9.0   5.0  8.0   1.0
3   NaN   8.0   4.0   3.0  9.0  10.0
4   NaN   1.0   1.0   9.0  5.0   6.0


# 연산 (-)

In [35]:
print(df1)
print(df2-df1)
s1 = pd.Series([9, 9, 9], index = ['b', 'c', 'd'])
print(s1)
print(df1.sub(s1)) # DataFrame - Series Broadcasting
s2 = pd.Series([9, 9, 9], index = [1, 2, 3])
print(s2)
print(df1.sub(s2))

   A  B  C
0  5  3  9
1  9  6  7
2  0  4  5
    A    B    C   D   E   F
0 NaN  4.0  0.0 NaN NaN NaN
1 NaN  0.0 -5.0 NaN NaN NaN
2 NaN  1.0 -1.0 NaN NaN NaN
3 NaN  NaN  NaN NaN NaN NaN
4 NaN  NaN  NaN NaN NaN NaN
b    9
c    9
d    9
dtype: int64
    A   B   C   b   c   d
0 NaN NaN NaN NaN NaN NaN
1 NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN
1    9
2    9
3    9
dtype: int64
    A   B   C   1   2   3
0 NaN NaN NaN NaN NaN NaN
1 NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN


In [37]:
print(df1)
print(df1.iloc[1])
print(df1.sub(df1.iloc[1]))
print(df1['B'])
print(df1.sub(df1['B']))
print(df1.sub(df1['B'], axis=0))

   A  B  C
0  5  3  9
1  9  6  7
2  0  4  5
A    9
B    6
C    7
Name: 1, dtype: int64
   A  B  C
0 -4 -3  2
1  0  0  0
2 -9 -2 -2
0    3
1    6
2    4
Name: B, dtype: int64
    A   B   C   0   1   2
0 NaN NaN NaN NaN NaN NaN
1 NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN
   A  B  C
0  2  0  6
1  3  0  1
2 -4  0  1


# 연산 (*, /, %)

In [39]:
print(df1 * df1.iloc[0])
print(df1.mul(df1.iloc[0]))
print(df1.multiply(df1.iloc[0]))
print(df1 * df1['A'])

    A   B   C
0  25   9  81
1  45  18  63
2   0  12  45
    A   B   C
0  25   9  81
1  45  18  63
2   0  12  45
    A   B   C
0  25   9  81
1  45  18  63
2   0  12  45
    A   B   C   0   1   2
0 NaN NaN NaN NaN NaN NaN
1 NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN


In [40]:
print(df1 / df1.iloc[2])
print(df1.truediv(df1.iloc[2]))
print(df1.div(df1.iloc[2]))
print(df1.divide(df1.iloc[2]))
print(df1 // df1.iloc[2])
print(df1.floordiv(df1.iloc[2]))

     A     B    C
0  inf  0.75  1.8
1  inf  1.50  1.4
2  NaN  1.00  1.0
     A     B    C
0  inf  0.75  1.8
1  inf  1.50  1.4
2  NaN  1.00  1.0
     A     B    C
0  inf  0.75  1.8
1  inf  1.50  1.4
2  NaN  1.00  1.0
     A     B    C
0  inf  0.75  1.8
1  inf  1.50  1.4
2  NaN  1.00  1.0
     A    B    C
0  inf  0.0  1.0
1  inf  1.0  1.0
2  NaN  1.0  1.0
     A    B    C
0  inf  0.0  1.0
1  inf  1.0  1.0
2  NaN  1.0  1.0


In [42]:
print(df1 % df1.iloc[2])
print(df1.mod(df1.iloc[2]))
print(df1.pow(df1.iloc[0]))
print(df1 ** df1.iloc[0])

    A    B    C
0 NaN  3.0  4.0
1 NaN  2.0  2.0
2 NaN  0.0  0.0
    A    B    C
0 NaN  3.0  4.0
1 NaN  2.0  2.0
2 NaN  0.0  0.0
       A    B          C
0   3125   27  387420489
1  59049  216   40353607
2      0   64    1953125
       A    B          C
0   3125   27  387420489
1  59049  216   40353607
2      0   64    1953125


# sort

In [None]:
s = pd.Series([4, 2, 6, 3, 1], index=list("acbed"))
print(s)
print(s.sort_index())
print(s.sort_values())

In [None]:
df = pd.DataFrame(
    np.random.randint(0, 10, (4, 4)), 
    index= [3, 5, 2, 4], 
    columns=list('bcda'))
print(df)
print(df.sort_index())
print(df.sort_index(axis=1))
print(df.sort_values(by='b'))
print(df.sort_values(by='bc'))

# concat

# merge

# 문자열

# None, nan

# 중복

In [None]:
df = pd.DataFrame({
    'first':['a', 'b', 'c']*3,
    'second':[1, 2, 1, 1, 2, 3, 3, 4, 2]})
print(df)
print(df.duplicated())
print(df.drop_duplicates())

# 특이값

In [43]:
s = pd.Series([1, 2, 3, -9999, 4, -10001])
print(s)
print(s <- 1000)
print(s[s <- 1000])
print([s[s < -1000]])
print(s.replace( [s[s <- 1000]], np.nan))
print(s.replace( [-9999, -10001], np.nan))

0        1
1        2
2        3
3    -9999
4        4
5   -10001
dtype: int64
0    False
1    False
2    False
3     True
4    False
5     True
dtype: bool
3    -9999
5   -10001
dtype: int64
[3    -9999
5   -10001
dtype: int64]
0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    NaN
dtype: float64
0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    NaN
dtype: float64
