# Pandas Basic

##pandas
> - 고수준의 자료구조와 파이썬을 통한 바르고 쉬운 데이터 분석구조를 포함하는 라이브러리
- Numpy기반에서 개발되었다.
- Series와 DataFrame을 로컬 네임스페이스로 import 하는 것이 훨씬 편하다

In [1]:
from IPython.display import Image 

from pandas import Series, DataFrame
import pandas as pd
import numpy as np

# 1. Introduction to pandas data structures
> pandas 자료구조
- Series와 DataFrame 이 두 가지 자료구조에 대해 익숙해 져야 함.
- 두 자료구조가 사용하기 쉽고 탄탄한 기반을 제공한다.


> Series
- Series는 일련의 객체를 담을 수 있는 1차원 배열같은 자료구조
- Index라는 배열의 데이터의 연관된 열을 가지고 있다.

> Series 속성값 : **()가 없으니 메소드가 아닌 속성값임**
- Series.index : 인덱스 객체 반환 -> rangeIndex()함수 형태
- Series.values : 인덱스 값 반환
- Series.name : Series의 이름 지정( 추후 dataframe의 column명)
- Series.index.name : 인덱스의 컬럼명 지정

In [3]:
# Series 생성
obj = Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [12]:
# 인덱스 객체의 속성
obj.index  # 인덱스의 range확인할 수 있는 RangeIndex 함수 반환

RangeIndex(start=0, stop=4, step=1)

In [5]:
# index의 값 확인

obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [6]:
# 인덱스를 지정한 Series 생성
obj2 = Series([4,7,-5,3], index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [9]:
# 인덱스를 통해 값 확딘 (딕셔너리와 비슷)
obj2['a']


-5

In [11]:
# 인덱스 이용해서 값 변경 & 여러개의 값 불러오기
obj2['d'] = 6
obj2[['c','a','d']]

c    3
a   -5
d    6
dtype: int64

In [13]:
obj2[obj2>0]

d    6
b    7
c    3
dtype: int64

In [14]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [15]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [16]:
# 값이 Series안에 있는지 확인
'b' in obj2

True

In [17]:
'e' in obj2

False

In [18]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [21]:
# 인덱스를 지정할 때 동일한 인덱스가 없는 경우에는 Nan 값을 가짐.
states = ['California','Ohio','Oregon','Texas']
obj4 = Series(sdata, index = states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [25]:
# null 값 확인
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [24]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [26]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [27]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [29]:
# 두 series를 더하는 것: 합집합 ( but 값이 하나라도 없으면 Nan 처리)
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [31]:
# Series의 이름 지정
obj4.name = 'population'# 나중에 dataframe을 만들 때 column값이 됨.
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [32]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [33]:
# 인덱스 지정
obj.index = ['Bob','Steve','Jeff','Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64