In [1]:
import pandas as pd
import numpy as np

In [2]:
array = pd.Series(['사과','바나나','당근'], index=['a','b','c'])
print(array)
print(array['a'])

a     사과
b    바나나
c     당근
dtype: object
사과


In [3]:
data = {
    'a':'사과',
    'b':'바나나',
    'c':'당근'
}
#Dict 자료형을 Series로 비꾸기
array = pd.Series(data)
print(array['a'])

사과


In [4]:
word_dict = {
    'Apple':'사과',
    'Banana':'바나나',
    'Carrot':'당근'
}

frequency_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': 7
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)

#이름(Name): 값(Values)
summary = pd.DataFrame({
    'word':word,
    'frequency':frequency 
})

print(summary)

       word  frequency
Apple    사과          3
Banana  바나나          5
Carrot   당근          7


시리즈의 연산

In [5]:
price_dict = {
    '사과':300,
    '바나나':400,
    '당근':350
}
number_dict = {
    '사과':3,
    '바나나':2,
    '당근':3
}

price = pd.Series(price_dict)
number = pd.Series(number_dict)
final = price * number

final_price = pd.DataFrame({
    'price': price,
    'number': number,
    'final_price':final
    
})
print(final_price)

#이름을 기준으로 슬라이싱
print(final_price.loc['바나나':'당근','final_price':])
#인덱스를 기준으로 슬라이싱
print(final_price.iloc[1:3,2:])

final_price.loc['사과','number'] = 5   #데이터 변경\
final_price.loc['블루베리'] = [300,4,300*4]   #새 데이터 삽입

print(final_price)

final_price.to_csv('fruit_price.csv',encoding='utf-8-sig')
saved = pd.read_csv('fruit_price.csv',index_col=0)
print(saved)

     price  number  final_price
사과     300       3          900
바나나    400       2          800
당근     350       3         1050
     final_price
바나나          800
당근          1050
     final_price
바나나          800
당근          1050
      price  number  final_price
사과      300       5          900
바나나     400       2          800
당근      350       3         1050
블루베리    300       4         1200
      price  number  final_price
사과      300       5          900
바나나     400       2          800
당근      350       3         1050
블루베리    300       4         1200


데이터 프레임의 Null 여부 확인

In [6]:
word_dict = {
    'Apple':'사과',
    'Banana':'바나나',
    'Carrot':'당근',
    'Durian':'두리안'
}

frequency_dict = {
    'Apple':3,
    'Banana':5,
    'Carrot':np.nan,
    'Durian':2
}

importance_dict = {
    'Apple':3,
    'Banana':2,
    'Carrot':1,
    'Durian':1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({
    'word':word,
    'frequency':frequency,
    'importance':importance
})

print(summary)
# print(summary.notnull())
# print(summary.isnull())
# summary['frequency'] = summary['frequency'].fillna('데이터없음')
# print(summary)

#데이터 프레임 정렬 함수 
summary = summary.sort_values('frequency', ascending=False)
#ascending = True 면 오름차순, False 면 내림차순
print(summary)

       word  frequency  importance
Apple    사과        3.0           3
Banana  바나나        5.0           2
Carrot   당근        NaN           1
Durian  두리안        2.0           1
       word  frequency  importance
Banana  바나나        5.0           2
Apple    사과        3.0           3
Durian  두리안        2.0           1
Carrot   당근        NaN           1


데이터 프레임 자료형의 연산

In [7]:
array1 = pd.Series([1,2,3], index = ['A','B','C'])
array2 = pd.Series([4,5,6], index = ['B','C','D'])

array = array1.add(array2, fill_value=0)
print(array)

A    1.0
B    6.0
C    8.0
D    6.0
dtype: float64


In [8]:
array1 = pd.DataFrame([[1,2],[3,4]], index = ['A','B'])
array2 = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], index = ['B','C','D'])

print(array1)
print(array2)
array = array1.add(array2, fill_value=0)
print(array)

   0  1
A  1  2
B  3  4
   0  1  2
B  1  2  3
C  4  5  6
D  7  8  9
     0    1    2
A  1.0  2.0  NaN
B  4.0  6.0  3.0
C  4.0  5.0  6.0
D  7.0  8.0  9.0


데이터 프레임 집계 함수

In [9]:
array1 = pd.DataFrame([[1,2],[3,4]], index = ['A','B'])
array2 = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], index = ['B','C','D'])

array = array1.add(array2, fill_value=0)
print(array,'\n')
print('column 1의 합:', array[1].sum())
print(array.sum())

     0    1    2
A  1.0  2.0  NaN
B  4.0  6.0  3.0
C  4.0  5.0  6.0
D  7.0  8.0  9.0 

column 1의 합: 21.0
0    16.0
1    21.0
2    18.0
dtype: float64
