Pandas Objects: Series
    
    - Pandas 주요 객체
        
            - Series: 인덱싱된 1차원 배열
            - DataFrame: 인덱싱된 2차원 배열(테이블과 비슷함)
            - 리스트/딕셔너리 또는 Numpy 배열로부터 생성가능
            
    - Pandas 객체(Series 또는 DataFrame)의 주요 속성
        - values: Pandas 객체의 값들을 Numpy 배열로 변환
        - index : 인덱스 값들을 반환

Label - based Indexing
    
    - Numpy(ndarray): 정수형 인덱스(암묵적)
        
        -[0], [1], [2], ...
    
    - Pandas(Series, DataFrame): 레이블 기반 인덱스(명시적)

Dictionary and Series

    - Dictionary: <Key : Value>로 구성되는 파이썬 기본 자료구조
        
        - 객체 내의 다양한 타입의 Key 정의 가능
    
    - Series: Key 역할을 하는 레이블 기반 인덱스를 사용
    
        - 가능한 인덱스 유형: 정수, 실수, 문자열, DateTime 등
        - 인덱싱, 슬라이싱을 지원하므로 Dictionary 보다 데이터 조작이 간편
        -> Series 는 1차원 배열인 동시에 Dictionary 와 유사한 객체

Pandas Objects: DataFrame

    - Pandas 주요 객체
        - Series: 인덱싱된 1차원 배열
        - DataFrame: 인덱싱된 2차원 배열(테이블과 비슷함.)
            - 행 인덱스와 열 이름을 가짐
            - 인덱스를 공유하는 Series 객체들의 집합으로 볼 수 있음
        - 리스트/딕셔너리 또는 Numpy 배열로부터 생성 가능
        
Indexers
    
    - 인덱서: Pandas 객체의 명확한 인덱싱/슬라이싱을 지원하는 속성
        - 주요 속성 : loc, iloc
        
    - loc(lable-based locating): 명시적(Ex. 'a','b'인 경우) 인덱스를 참조하는 인덱싱/슬라이싱 수행
    
Data Manipulation : DataFrame

    - DataFrame = 2차원 배열
        - 배열값들을 Numpy 배열로 추출, 예: states.values
        - 전치행렬(transpose of a matrix) 구하기, 예: states.T
        - 슬라이싱(암묵적 인덱싱), 예 states.iloc[:3,:2]
        - 슬라이싱(명시적 인덱싱), 예: states.loc[: 'Illinois', : 'pop']

In [70]:
import pandas as pd
import numpy as np

In [71]:
# Display the help document
# pd?

In [72]:
# print the version of pandas
pd.__version__

'1.0.1'

In [73]:
"""
    Pandas Object: Series
"""
# create a series from an array
ser = pd.Series([0.25,0.5,0.75,1.0]) # constructor method, 
print(ser)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


In [74]:
# Two main attributes: 'values' and 'index'
arr = ser.values
print(arr)

ind = ser.index
print(ind)
print(ind.values)

[0.25 0.5  0.75 1.  ]
RangeIndex(start=0, stop=4, step=1)
[0 1 2 3]


In [75]:
# Label - based Indexing

ser = pd.Series([0.25,0.5,0.75,1.0], index = ['a','b','c','d'])
print(ser)

print(ser['a'])

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
0.25


In [76]:
"""
Dictionary and Series
"""
population_dict = {'California' : 383,
                  'Texas' : 264,
                  'New York' : 196,
                  'Florida' : 195,
                  'Illinois' : 128}
population = pd.Series(population_dict)
print(population)

California    383
Texas         264
New York      196
Florida       195
Illinois      128
dtype: int64


In [77]:
"""
Pandas object : DataFrame
"""

area_dict = {'California' : 42,
            'Texas' : 69,
            'New York' : 14,
            'Florida' : 17,
            'Illinois' : 14}
area = pd.Series(area_dict)
print(area)

California    42
Texas         69
New York      14
Florida       17
Illinois      14
dtype: int64


In [78]:
# Construct a DataFrame containing 'population' and 'area' Sereis

states = pd.DataFrame({'population' : population , 'area' : area})
print(states)
print(states.index)
print(states.columns)

            population  area
California         383    42
Texas              264    69
New York           196    14
Florida            195    17
Illinois           128    14
Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')
Index(['population', 'area'], dtype='object')


In [79]:
# Construct a DataFrame from a 2D Numpy array

arr = np.random.rand(3,2)
print(arr)
df = pd.DataFrame(arr, columns = ['foo', 'bar'], index = ['a','b','c'])
print(df)

[[0.04214752 0.06507402]
 [0.10624689 0.02525177]
 [0.7857794  0.5450797 ]]
        foo       bar
a  0.042148  0.065074
b  0.106247  0.025252
c  0.785779  0.545080


In [80]:
"""
Sereis object manipulation: dictionary - style
"""

ser = pd.Series([0.25,0.5,0.75,1.0], index = ['a','b','c','d'])
print(ser)

print('a' in ser) # key 중에서 'a'를 찾음
print(0.25 in ser)

print(ser.keys())
print(ser.index)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
True
False
Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['a', 'b', 'c', 'd'], dtype='object')


In [81]:
"""
Series object manipulation : array - style
"""

print(ser.keys())
ser['e'] = 1.25
ser['a'] = 0.125
print(ser)

Index(['a', 'b', 'c', 'd'], dtype='object')
a    0.125
b    0.500
c    0.750
d    1.000
e    1.250
dtype: float64


In [82]:
"""
DataFrame obejct manipulation
"""
print(states.area) # column 이름이 area가 아닌 num of area인 경우 안돌아감.
print(states['area'])

states['density'] = states['population'] / states['area']
print(states)

California    42
Texas         69
New York      14
Florida       17
Illinois      14
Name: area, dtype: int64
California    42
Texas         69
New York      14
Florida       17
Illinois      14
Name: area, dtype: int64
            population  area    density
California         383    42   9.119048
Texas              264    69   3.826087
New York           196    14  14.000000
Florida            195    17  11.470588
Illinois           128    14   9.142857


In [83]:
# Indexer : loc, iloc

states.loc['California' : 'New York']

Unnamed: 0,population,area,density
California,383,42,9.119048
Texas,264,69,3.826087
New York,196,14,14.0


In [89]:
# Masking and fancy indexing using the Loc indexer
print(states)
print(states.loc[states.density > 10, ['population','density']])

            population  area    density
California         383    42   9.119048
Texas              264    69   3.826087
New York           196    14  14.000000
Florida            195    17  11.470588
Illinois           128    14   9.142857
          population    density
New York         196  14.000000
Florida          195  11.470588
