## Pandas

- 구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리.

### Series

- numpy array가 보강된 형태 data와 index를 가지고 있다.

In [1]:
# pandas 호출
import pandas as pd

0    1
1    2
2    3
3    4
dtype: int64

In [2]:
# numpy에 index가 추가된 형태
data = pd.Series([1,2,3,4])
data

0    1
1    2
2    3
3    4
dtype: int64

인덱스를 가지고 있고 인덱스로 접근이 가능하다.

In [6]:
# 'b'의 인덱스
data = pd.Series([1,2,3,4], index = ['a','b','c','d'])
print(data)
data['b']

a    1
b    2
c    3
d    4
dtype: int64


2

Series를 딕셔너리로 만들 수 있다.

In [11]:
population_dict = {
    'korea' : 5180,
    'japan' : 12718,
    'china' : 141500,
    'usa' : 32676,
}

population = pd.Series(population_dict)

# values 확인
print(population.values)
print(population.index)

[  5180  12718 141500  32676]
Index(['korea', 'japan', 'china', 'usa'], dtype='object')


### DataFrame

- 여러 개의 Series가 모여서 행과 열을 이룬 데이터

In [18]:
# 국가가 index, population이 values
gdp_dict = {
    'korea' : 16932000,
    'japan' : 51670000,
    'china' : 1409250000,
    'usa' : 2041280000,
}

gdp = pd.Series(gdp_dict)
country = pd.DataFrame({
    'population' : population,
    'gdp' : gdp
    
})

print(country)

       population         gdp
korea        5180    16932000
japan       12718    51670000
china      141500  1409250000
usa         32676  2041280000


In [16]:
# country의 인덱스 확인
country.index

Index(['korea', 'japan', 'china', 'usa'], dtype='object')

In [17]:
# 컬럼 명 확인
country.columns

Index(['population', 'gdp'], dtype='object')

In [19]:
# series 형태로 나온다.
country['gdp']

korea      16932000
japan      51670000
china    1409250000
usa      2041280000
Name: gdp, dtype: int64

series도 numpy array처럼 연산자를 쓸 수 있다.

In [23]:
# gdp에서 population을 나눈값을 coumtry 변수에 생성
gdp_per_capita = country['gdp']/country['population']
country['gdp per capita'] = gdp_per_capita

print(country)

       population         gdp  gdp_per_capita
korea        5180    16932000     3268.725869
japan       12718    51670000     4062.745715
china      141500  1409250000     9959.363958
usa         32676  2041280000    62470.314604


### 인덱싱/슬라이싱

**loc** : 명시적인 인덱스를 참조하는 인덱싱/슬라이싱

In [25]:
# china 값 인덱싱
country.loc['china']

population        1.415000e+05
gdp               1.409250e+09
gdp_per_capita    9.959364e+03
Name: china, dtype: float64

In [33]:
# 슬라이싱을 하되, population 이전의 값을 추출
country.loc['korea': 'china', : 'gdp']

Unnamed: 0,population,gdp
korea,5180,16932000
japan,12718,51670000
china,141500,1409250000


**iloc** : 파이썬 스타일 정수 인덱스, 인덱싱/슬라이싱

In [34]:
# 앞에서부터 숫자를 매겨 인덱싱을 하게함.
country.iloc[0]

population        5.180000e+03
gdp               1.693200e+07
gdp_per_capita    3.268726e+03
Name: korea, dtype: float64

In [35]:
# 1부터 2번째 인덱스 값을 뽑되 2열 이전의 값만 뽑아냄.
country.iloc[1:3,:2]

Unnamed: 0,population,gdp
japan,12718,51670000
china,141500,1409250000


### dataFrame 새 데이터 추가/수정

In [44]:
# 리스트로 추가하는 방법
dataframe = pd.DataFrame(columns = ['이름','나이','주소'])
dataframe.loc[0] = ['정국영', '25', '시흥']
dataframe.loc[1] = {'이름' : '철수', '나이' : '25', '주소' : '인천'}

dataframe.loc[1,'이름']  = '영희'

print(dataframe)

    이름  나이  주소
0  정국영  25  시흥
1   영희  25  인천


### dataframe 새 컬럼 추가

In [47]:
import numpy as np
dataframe['전화번호']  = np.nan
dataframe.loc[0,'전화번호'] = '01012341234'
print(dataframe)
len(dataframe)

    이름  나이  주소         전화번호
0  정국영  25  시흥  01012341234
1   영희  25  인천          NaN


2

### 컬럼 선택하기

- 컬럼 이름이 하나만 있다면 **Series**

- 리스트로 들어가 있다면 **DataFrame**

In [48]:
print(dataframe['이름'])
print(dataframe[['이름','주소','나이']])

0    정국영
1     영희
Name: 이름, dtype: object
    이름  주소  나이
0  정국영  시흥  25
1   영희  인천  25
