## Pandas

* 파이썬 라이브러리
* 구조화된 데이터를 효과적으로 처리하고 저장
* Array 계산에 특화된 Numpy를 기반으로 설계

### Series

- Numpy의 array가 보강된 형태
- Data와 Index를 가지고 있음

In [2]:
import pandas as pd

data = pd.Series([1, 2, 3, 4])
print(data)

0    1
1    2
2    3
3    4
dtype: int64


In [3]:
# Series는 값(values)을 ndarray 형태로 가지고 있음.
print(type(data))

print(data.values)
print(type(data.values))

<class 'pandas.core.series.Series'>
[1 2 3 4]
<class 'numpy.ndarray'>


In [5]:
# dtype 인자로 데이터 타입을 지정할 수 있음
data = pd.Series([1, 2, 3, 4], dtype = 'float')
print(data.dtype)
print(data)

float64
0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64


In [6]:
# 인덱스를 지정할 수 있고, 인덱스로 접근 가능
data = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
print(data)
data['c'] = 5 # c값을 3에서 5로 변경
print(data)

a    1
b    2
c    3
d    4
dtype: int64
a    1
b    2
c    5
d    4
dtype: int64


In [7]:
# Dictionary를 활용하여 Series 생성가능
population_dict = {'china':141500, 'japan':12718, 'korea':5180, 'usa':32676}
population = pd.Series(population_dict)
print(population)

china    141500
japan     12718
korea      5180
usa       32676
dtype: int64


### DataFrame

* 여러 개의 Series가 모여서 행과 열을 이룬 데이터

In [9]:
gdp_dict= {'china': 1409250000,'japan': 516700000,'korea': 169320000,'usa': 2041280000,}
gdp= pd.Series(gdp_dict)

country = pd.DataFrame({'gdp':gdp, 'population':population})
display(country)

Unnamed: 0,gdp,population
china,1409250000,141500
japan,516700000,12718
korea,169320000,5180
usa,2041280000,32676


In [11]:
# Dictionary를 활용하여 DataFrame 생성 가능
data = {'country': ['china','japan','korea','usa'],
        'gdp': [1409250000,516700000, 169320000, 2041280000],
        'population': [141500,12718, 5180, 32676]}

country = pd.DataFrame(data)
country = country.set_index('country')
display(country)

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
china,1409250000,141500
japan,516700000,12718
korea,169320000,5180
usa,2041280000,32676


In [12]:
# DataFrame 속성 확인
print(country.shape)
print(country.size)
print(country.ndim)
print(country.values)

(4, 2)
8
2
[[1409250000     141500]
 [ 516700000      12718]
 [ 169320000       5180]
 [2041280000      32676]]


In [14]:
# DataFrame의 index와 column에 이름 지정
country.index.name = 'Country'
country.columns.name = 'Info'

print(country.index)
print(country.columns)

Index(['china', 'japan', 'korea', 'usa'], dtype='object', name='Country')
Index(['gdp', 'population'], dtype='object', name='Info')


In [None]:
# 데이터 프레임 저장 및 불러오기 가능
country.to_csv('./country.csv')
country.to_excel('country.xlsx')

country = pd.read_csv('./country.csv')
country = pd.read_excel