# Pandas
* 인덱스(Index)에 따라 데이터를 나열하므로 Dictionary 자료형에 가까움
* 시리즈(Series)를 기본 자료형으로 사용

## Series
* "인덱스"와 "값"으로 구성

In [2]:
import pandas as pd

In [4]:
arr = pd.Series(['사과', '바나나', '당근'], index=['a', 'b', 'c'])

print(arr)
print(arr['a'])

a     사과
b    바나나
c     당근
dtype: object
사과


In [5]:
data = {
    'a': '사과',
    'b': '바나나',
    'c': '당근',
}

arr = pd.Series(data)
print(arr['a'])

사과


## DataFrame
* 다수의 시리즈(Series)를 모아 처리하기 위한 목적으로 사용
* 표 형태로 데이터를 손쉽게 출력하고자 할 때 사용 가능

In [8]:
word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근'
}

freq_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': 7
}

word = pd.Series(word_dict)
freq = pd.Series(freq_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': freq
})

print(summary)

       word  frequency
Apple    사과          3
Banana  바나나          5
Carrot   당근          7


## 시리즈의 연산
* 시리즈는 연산을 통해 새로운 시리즈를 만들 수 있음

In [12]:
word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근'
}

freq_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': 7
}

importance_dict = {
    'Apple': 3,
    'Banana': 2,
    'Carrot': 1
}

word = pd.Series(word_dict)
freq = pd.Series(freq_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': freq,
    'importance': importance
})

score = summary['frequency'] * summary['importance']
summary['score'] = score

print(summary)

print('===========')
# 이름을 기준으로 슬라이싱
print(summary.loc['Banana': 'Carrot', 'importance':])

print('===========')
# 인덱스 기준으로 슬라이싱
print(summary.iloc[1:3, 2])

       word  frequency  importance  score
Apple    사과          3           3      9
Banana  바나나          5           2     10
Carrot   당근          7           1      7
        importance  score
Banana           2     10
Carrot           1      7
Banana    2
Carrot    1
Name: importance, dtype: int64


## DataFrame의 슬라이싱

In [15]:
word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근',
    'Durian': '두리안'
}

freq_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': 7,
    'Durian': 2
}

importance_dict = {
    'Apple': 3,
    'Banana': 2,
    'Carrot': 1,
    'Durian': 1
}

word = pd.Series(word_dict)
freq = pd.Series(freq_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': freq,
    'importance': importance
})

print(summary)

print('===========')
# 이름을 기준으로 슬라이싱
print(summary.loc['Banana': 'Carrot', 'importance':])

print('===========')
# 인덱스 기준으로 슬라이싱
print(summary.iloc[1:3, 2])

       word  frequency  importance
Apple    사과          3           3
Banana  바나나          5           2
Carrot   당근          7           1
Durian  두리안          2           1
        importance
Banana           2
Carrot           1
Banana    2
Carrot    1
Name: importance, dtype: int64


## 엑셀로 내보내기/불러오기

In [16]:
word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근'
}

freq_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': 7
}

word = pd.Series(word_dict)
freq = pd.Series(freq_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': freq
})

summary.to_csv('summary.csv', encoding='UTF-8-SIG')
saved = pd.read_csv('summary.csv', index_col=0)
print(saved)

       word  frequency
Apple    사과          3
Banana  바나나          5
Carrot   당근          7
