In [1]:
# -*- coding : utf-8 -*-
import pandas as pd
import numpy as np


In [7]:
# NOTE 
# Series : 인덱싱된 데이터의 1차원 배열
data = pd.Series([0.25, 0.50, 0.75, 1.00])
print(data, '\n')

# NOTE : Series는 일련의 값과 인덱스를 모두 감싸고 있다.
# NOTE : 값과 인덱스는 각각 values와 index 속성으로 접근할 수 있다.
print(data.values)
print(data.index)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64 

[0.25 0.5  0.75 1.  ]
RangeIndex(start=0, stop=4, step=1)


In [14]:
# NOTE 
# NumPy 배열은 인덱스가 정수로 정해져 있지만,
# Pandas의 Series는 인덱스가 어떤 타입의 값으로도 구성할 수 있다.

data2 = pd.Series([0.25, 0.50, 0.75, 1.00], index = ['a', 'b', 'c', 'd'])
print(data2, '\n')
print(data2['b'], '\n')

data3 = pd.Series([0.25, 0.50, 0.75, 1.00], index = [2, 5, 3, 7])
print(data3, '\n')
print(data3[5])

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64 

0.5 

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64 

0.5


In [17]:
pop_dict = {'California' : 38332521,
            'Texas' : 26448193,
            'New York' : 19651127,
            'Florida' : 19552860,
            'Illinois' : 12882135 }

pop = pd.Series(pop_dict)
print(pop, '\n')
print(pop['California'], '\n')
print(pop['California' :'New York'])

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64 

38332521 

California    38332521
Texas         26448193
New York      19651127
dtype: int64


In [24]:
# NOTE
# Pandas Series의 기본적인 구조 pd.Series(data, index = index)
# data : 리스트나 NumPy 배열인 경우 index : 정수
# data : 딕셔너리인 경우 index : 딕셔너리 키를 정렬해서 취함.

pd.Series({2 : 'a' , 1 : 'b', 3 : 'c'})

2    a
1    b
3    c
dtype: object

In [28]:
# NOTE
# DataFrame : 유연한 행 인덱스와 유연한 열 이름을 가진 2차원 배열
# 정렬(같은 인덱스를 공유)된 Series 객체의 연속

area_dict = {
    'California' : 423967,
    'Texas' : 695662,
    'New York' : 141297,
    'Florida' : 170312,
    'Illinois' : 149995
}

area = pd.Series(area_dict)

In [34]:
states = pd.DataFrame({'Population' : pop,
                       'Area' : area})

print(states, '\n')
print(states.index, '\n')
print(states.values, '\n')

# NOTE 
# DataFrame은 Seires들의 집합이므로, 열 하나하나는 Seires와 같다.

print(pd.DataFrame(pop, columns = ['Population']))

            Population    Area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Illinois      12882135  149995 

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object') 

[[38332521   423967]
 [26448193   695662]
 [19651127   141297]
 [19552860   170312]
 [12882135   149995]] 

            Population
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135


In [36]:
data4 = [{'a' : rep, 'b' : 2*rep}
         for rep in range(3)]
pd.DataFrame(data4)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [40]:
# NOTE : 딕셔너리 일부 키가 누락되더라도 누락된 자리를 NaN값으로 채워줌.
print(pd.DataFrame([{'a' : 1, 'b' : 2}, {'b' : 3, 'c' : 4}]))

# NOTE
# 데이터의 2차원 배열이 주어지면 지정된 열과 인덱스 이름을 가진  DataFrame 생성 가능

print(pd.DataFrame(np.random.rand(3, 2),
                   columns = ['foo', 'bar'],
                   index = ['a', 'b', 'c']))

A = np.zeros(3, dtype = [('A', 'i8'), ('B', 'f8')])
pd.DataFrame(A)

     a  b    c
0  1.0  2  NaN
1  NaN  3  4.0
        foo       bar
a  0.977764  0.776775
b  0.807102  0.146802
c  0.451147  0.743953


Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0
