<a href="https://colab.research.google.com/github/bonasoobin/handson/blob/main/chap05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 챕터5 pandas 시작하기

In [1]:
import pandas as pd

In [2]:
from pandas import Series, DataFrame

## 5.1 pandas 자료구조 소개

### 5.1.1 Series

Series : 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조

In [3]:
# 간단한 Series 객체는 배열 데이터로부터 생성 가능
obj = pd.Series([4,7,-5,3])
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


In [4]:
# 왼쪽에 색인, 오른쪽에 해당 색인의 값 보여줌
# values와 index 속성을 통해 얻을 수 있음
print(obj.values)
print(obj.index)

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [5]:
# 데이터를 지칭하는 색인을 지정하여 Series 객체를 생성해야 할 때
obj2 = pd.Series([4,7,-5,3], index = ['d','b','a','c'])
print(obj2)
print(obj2.index)

d    4
b    7
a   -5
c    3
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')


In [7]:
# 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨 사용 가능
print(obj2['a'])
print(obj2['d'] == 6)
print(obj2[['c','a','d']])
# ['c','a','d']는 색인의 배열로 해석됨

-5
False
c    3
a   -5
d    4
dtype: int64


In [9]:
# 불리언배열을 사용해서 값을 걸러내거나 산술 곱셈을 수행하거나 NumPy 배열연산을 수행해도 색인-값 연결 유지됨
print(obj2[obj2>0])
print(obj2*2)

import numpy as np
print(np.exp(obj2))

d    4
b    7
c    3
dtype: int64
d     8
b    14
a   -10
c     6
dtype: int64
d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


In [10]:
# Series : 고정 길이의 정렬된 사전형이라고 이해
# Series는 색인값에 데이터값을 매핑하고 있으므로 파이썬의 사전형과 비슷함
# Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용 가능
print('b' in obj2)
print('e' in obj2)

True
False


In [11]:
# 파이썬의 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수 있음
sdata = {'Ohio':35000, 'Texas':71000,'Oregon':16000,'Utah':5000}
obj3 = pd.Series(sdata)
print(obj3)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


In [12]:
# 사전 객체만 가지고 Series 객체를 생성하면 Series 객체의 색인에는 사전의 키값이 순서대로 들어감
# 색인을 직접 지정하고 싶다면 원하는 순서대로 색인 직접 넘기기 가능
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
print(obj4)

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


In [13]:
# isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용
print(pd.isnull(obj4))
print(pd.notnull(obj4))

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


In [14]:
# isnull과 notnull 함수는 Series의 인스턴스 메서드로도 존재
print(obj4.isnull())

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool


In [15]:
# Series의 유용한 기능 : 산술 연산에서 색인과 라벨로 자동 정렬하는 것
print(obj3)
print(obj4)
print(obj3+obj4)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


In [16]:
# name 속성 있음
obj4.name = 'population'
obj4.index.name = 'state'
print(obj4)

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64


In [17]:
# Series의 색인은 대입하여 변경 가능
print(obj)
obj.index = ['Bob','Steve','Jeff','Ryan']
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


### 5.1.2 DataFrame

**DataFrame**

표 같은 스프레드 형식의 자료구조

여러 개의 컬럼이 있는데 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있음

로우와 컬럼에 대한 색인을 가지고 있음


In [18]:
# 같은길이의 리스트에 담긴 사전을 이용하거나 NumPy 배열을 사용해서 DataFrame 생성
data = {'state' : ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year' : [2000,2001,2002,2001,2002,2003],
        'pop' : [1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)

In [21]:
# DataFrame의 색인은 Series와 같은 방식으로 자동으로 대입되며 컬럼은 정렬되어 저장됨
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [22]:
# 큰 DataFrame을 다룰때는 head 메서드를 사용해 처음 5개 로우만 출력 가능
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [23]:
# 원하는 순서대로 columns를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성됨
pd.DataFrame(data, columns = ['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [28]:
# Series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장됨
frame2 = pd.DataFrame(data, columns=['year','state','pop','debt'],
                      index=['one','two','three','four','five','six'])
print(frame2)
print(frame2.columns)

       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN
Index(['year', 'state', 'pop', 'debt'], dtype='object')


In [31]:
# DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근 가능
print(frame2['state'])
print(frame2.year)

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object
one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64
