데이터 프레임의 Null 여부 확인

In [8]:
import pandas as pd
import numpy as np

word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근',
    'Durian': '두리안'
}

frequency_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': np.nan,
    'Durian': 2
}

importance_dict = {
    'Apple': 3,
    'Banana': 2,
    'Carrot': 1,
    'Durian': 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({
    'word' : word,
    'frequency' : frequency,
    'importance' : importance
})

print(summary)
print(summary.isnull()) # null값을 True로 출력
print(summary.notnull()) # null값을 False로 출력

summary['frequency'] = summary['frequency'].fillna('데이터 없음')
print(summary)

       word  frequency  importance
Apple    사과        3.0           3
Banana  바나나        5.0           2
Carrot   당근        NaN           1
Durian  두리안        2.0           1
         word  frequency  importance
Apple   False      False       False
Banana  False      False       False
Carrot  False       True       False
Durian  False      False       False
        word  frequency  importance
Apple   True       True        True
Banana  True       True        True
Carrot  True      False        True
Durian  True       True        True
       word frequency  importance
Apple    사과       3.0           3
Banana  바나나       5.0           2
Carrot   당근    데이터 없음           1
Durian  두리안       2.0           1


시리즈 자료형의 연산

In [11]:
import pandas as pd

array1 = pd.Series([1, 2, 3], index = ['A', 'B', 'C'])
array2 = pd.Series([4, 5, 6], index = ['B', 'C', 'D'])

print(array1)
print(array2)

array = array1.add(array2, fill_value=0)
print(array)

A    1
B    2
C    3
dtype: int64
B    4
C    5
D    6
dtype: int64
A    1.0
B    6.0
C    8.0
D    6.0
dtype: float64


데이터 프레임 자료형의 연산

In [15]:
import pandas as pd

array1 = pd.DataFrame([[1, 2], [3, 4]], index = ['A', 'B'])
array2 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], index = ['B', 'C', 'D'])

print(array1)
print(array2)

array = array1.add(array2, fill_value=0)
print(array)

   0  1
A  1  2
B  3  4
   0  1  2
B  1  2  3
C  4  5  6
D  7  8  9
     0    1    2
A  1.0  2.0  NaN
B  4.0  6.0  3.0
C  4.0  5.0  6.0
D  7.0  8.0  9.0


데이터 프레임 집계 함수

In [27]:
import pandas as pd

array1 = pd.DataFrame([[1, 2], [3, 4]], index=['A', 'B'])
array2 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], index=['B', 'C', 'D'])

print(array1)
print(array2)

array = array1.add(array2, fill_value=0)

print("칼럼 1의 합 :", array[1].sum()) # 특정 칼럼만 연산
print(array.sum()) # 모든 칼럼 연산

   0  1
A  1  2
B  3  4
   0  1  2
B  1  2  3
C  4  5  6
D  7  8  9
칼럼 1의 합 : 21.0
0    16.0
1    21.0
2    18.0
dtype: float64


데이터 프레임 정렬 함수

In [29]:
import pandas as pd
import numpy as np

word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근',
    'Durian': '두리안'
}

frequency_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': 1,
    'Durian': 2
}

importance_dict = {
    'Apple': 3,
    'Banana': 2,
    'Carrot': 1,
    'Durian': 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': frequency,
    'importance': importance
})

print(summary)
print(summary.sort_values('frequency', ascending = False)) # frequency 칼럼을 기준으로 내림차순

       word  frequency  importance
Apple    사과          3           3
Banana  바나나          5           2
Carrot   당근          1           1
Durian  두리안          2           1
       word  frequency  importance
Banana  바나나          5           2
Apple    사과          3           3
Durian  두리안          2           1
Carrot   당근          1           1
