# Pandas
- 구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리.
- Array 계산에 특화된 numpy를 기반으로 만들어져 다양한 기능들을 제공

## Series
- numpy array가 보강된 형태 Data와 Index를 가지고 있다.
- 인덱스를 가지고 있어서 인덱스로 접근 가능하다.

In [4]:
import pandas as pd

data = pd.Series([1,2,3,4])
data # 인덱스, 데이터값으로 정렬

0    1
1    2
2    3
3    4
dtype: int64

In [None]:
data = pd.Series([1,2,3,4], index=['a','b','c','d'])
data['b']

2

In [None]:
data

a    1
b    2
c    3
d    4
dtype: int64

### 딕셔너리로 series 만들기

In [5]:
population_dic = {
    'korea' : 5180,
    'japan' : 12718,
    'china' : 141500,
    'usa' : 32676
}
population = pd.Series(population_dic)
population

korea      5180
japan     12718
china    141500
usa       32676
dtype: int64

## DataFrame
- 여러 개의 Series가 모여서 행과 열을 이룬 데이터

In [7]:
gdp_dict = {
    'korea':169320000,
    'japan':516700000,
    'china':1409250000,
    'usa':2041280000,
}

In [8]:
gdp = pd.Series(gdp_dict)
country = pd.DataFrame({
    'population':population,
    'gdp':gdp
})
country

Unnamed: 0,population,gdp
korea,5180,169320000
japan,12718,516700000
china,141500,1409250000
usa,32676,2041280000


In [9]:
country.index

Index(['korea', 'japan', 'china', 'usa'], dtype='object')

In [10]:
country.columns

Index(['population', 'gdp'], dtype='object')

In [11]:
country['gdp']

korea     169320000
japan     516700000
china    1409250000
usa      2041280000
Name: gdp, dtype: int64

In [12]:
type(country['gdp'])

pandas.core.series.Series

### Series도 numpy array처럼 연산자를 사용할 수 있다


In [13]:
gdp_per_capita = country['gdp'] / country['population']
country['gdp per capita'] = gdp_per_capita
country

Unnamed: 0,population,gdp,gdp per capita
korea,5180,169320000,32687.258687
japan,12718,516700000,40627.457147
china,141500,1409250000,9959.363958
usa,32676,2041280000,62470.314604


## 데이터 프레임 저장, 불러오기

In [14]:
country.to_csv("./country.csv")

In [15]:
country.to_excel("country.xlsx")

In [16]:
country = pd.read_csv("./country.csv")
country

Unnamed: 0.1,Unnamed: 0,population,gdp,gdp per capita
0,korea,5180,169320000,32687.258687
1,japan,12718,516700000,40627.457147
2,china,141500,1409250000,9959.363958
3,usa,32676,2041280000,62470.314604


In [17]:
country = pd.read_excel("country.xlsx")
country

Unnamed: 0.1,Unnamed: 0,population,gdp,gdp per capita
0,korea,5180,169320000,32687.258687
1,japan,12718,516700000,40627.457147
2,china,141500,1409250000,9959.363958
3,usa,32676,2041280000,62470.314604
