시리즈(Series)

In [10]:
import pandas as pd

array = pd.Series(['사과', '바나나', '당근'], index = ['a', 'b', 'c']) # 인덱스와 값으로 구성

print(array)
print(array['a']) # a 인덱스의 데이터

a     사과
b    바나나
c     당근
dtype: object
사과


딕셔너리(Dictionary)를 시리즈(Series)로 변환

In [13]:
data = {
    'a' : '사과',
    'b' : '바나나',
    'c' : '당근'
}

array = pd.Series(data)

print(array)
print(array['a'])

a     사과
b    바나나
c     당근
dtype: object
사과


데이터 프레임(DataFrame)

In [14]:
word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : 7
}

# 딕셔너리들을 시리즈로 변환
word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)

print(word)
print(frequency)

# 데이터 프레임은 다수의 시리즈로 구성
summary = pd.DataFrame({
    'word' : word, 
    'frequency' : frequency
    # word와 frequency를 칼럼명으로 인식
})

print(summary)

Apple      사과
Banana    바나나
Carrot     당근
dtype: object
Apple     3
Banana    5
Carrot    7
dtype: int64
       word  frequency
Apple    사과          3
Banana  바나나          5
Carrot   당근          7


시리즈의 연산

In [17]:
import pandas as pd

word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : 7
}

important_dict = {
    'Apple' : 3,
    'Banana' : 2,
    'Carrot' : 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
important = pd.Series(important_dict)

summary = pd.DataFrame({
    'word' : word,
    'frequency' : frequency,
    'important' : important
})

score = summary['frequency'] * summary['important']
summary['score'] = score

print(summary)

       word  frequency  important  score
Apple    사과          3          3      9
Banana  바나나          5          2     10
Carrot   당근          7          1      7


데이터 프레임의 슬라이싱(Slicing)

In [30]:
word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근',
    'Durian' : '두리안'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : 7,
    'Durian' : 2
}

important_dict = {
    'Apple' : 3,
    'Banana' : 2,
    'Carrot' : 1,
    'Durian' : 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
important = pd.Series(important_dict)

summary = pd.DataFrame({
    'word' : word,
    'frequency' : frequency,
    'important' : important
})

print(summary)

# loc: 이름을 기준으로 슬라이싱
print(summary.loc['Banana':'Durian', 'important':])

# iloc: 인덱스를 기준으로 슬라이싱
print(summary.iloc[1:4, 2:])

       word  frequency  important
Apple    사과          3          3
Banana  바나나          5          2
Carrot   당근          7          1
Durian  두리안          2          1
        important
Banana          2
Carrot          1
Durian          1
        important
Banana          2
Carrot          1
Durian          1


데이터 프레임의 연산

In [32]:
word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근',
    'Durian' : '두리안'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : 7,
    'Durian' : 2
}

important_dict = {
    'Apple' : 3,
    'Banana' : 2,
    'Carrot' : 1,
    'Durian' : 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
important = pd.Series(important_dict)

summary = pd.DataFrame({
    'word' : word,
    'frequency' : frequency,
    'important' : important
})

print(summary)

summary.loc['Apple', 'important'] = 5 # 데이터 변경
summary.loc['Elderberry'] = ['엘더베리', 5, 3] # 데이터 추가

print(summary)

       word  frequency  important
Apple    사과          3          3
Banana  바나나          5          2
Carrot   당근          7          1
Durian  두리안          2          1
            word  frequency  important
Apple         사과          3          5
Banana       바나나          5          2
Carrot        당근          7          1
Durian       두리안          2          1
Elderberry  엘더베리          5          3


엑셀로 내보내기/불러오기

In [38]:
import pandas as pd

word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근'
}

frequency_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': 7
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': frequency
})

print(summary)

summary.to_csv('summary.csv', encoding = 'utf-8-sig') # 데이터 저장
saved = pd.read_csv('summary.csv', index_col = 0) # 데이터 불러오기 (index_col = 0: 첫 번째 열을 인덱스로 사용)

print(saved)

       word  frequency
Apple    사과          3
Banana  바나나          5
Carrot   당근          7
       word  frequency
Apple    사과          3
Banana  바나나          5
Carrot   당근          7
