# Pandas 구조

        1. numpy와 동일하게 대부분 view로 제공
        2. 함수나 메소드는 기본으로 새로운 객체에 갱신한다.
        3. 자기 객체에 갱신이 필요한 경우 대부분 inplace=True를 표시해서 내부 갱신이라는 것을 명확히 해야 한다.
        
        

In [1]:
import numpy as np

import pandas as pd

### Series 생성 방법

    들어가는 데이터     a Python dict,  an ndarray,   a scalar value
    index는 하나의 Index 클래스의 인스턴스이다.
    

### Numpy ndarray로 넣기

    배열로 넣어도 1차원일 경우에 인덱스와 매핑되어 처리된다.
    

In [12]:
s = pd.Series(np.random.randn(5), index= pd.Index(['a', 'b', 'c', 'd', 'e'],name="index 1"),name="series 1")

print(s)

index 1
a   -1.086926
b    0.946799
c    1.769268
d   -0.838298
e    0.117722
Name: series 1, dtype: float64


In [13]:
print(s.index)
print(s.values)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object', name='index 1')
[-1.08692584  0.94679901  1.76926832 -0.8382977   0.11772167]


In [7]:
s.name

'series 1'

In [14]:
s.index.name 

'index 1'

In [29]:
s2 = s.rename("different")
print(s2.name)

different


#### 내부를 변경이 필요한 경우 메소드에 inplace 파라미터가 있는지를 확인해야 한다.

    있는 경우에는 inplace=True를 지정하지 않으면 내부 원소글 갱신하지 않는다.
    
    

In [32]:

s2.rename(" xxxx ", inplace=True)
s2.name

' xxxx '

### Dict 타입으로 원소를 넣기 

    Series이 데이터 구성은 인덱스와 값으로 구성되므로 dict 타입으로 넣으면 키값은 index에 값은 values에 넣어진다.
    

In [15]:
d = {'a' : 0., 'b' : 1., 'c' : 2.}
sd = pd.Series(d)

print(sd)

a    0.0
b    1.0
c    2.0
dtype: float64


In [16]:
print(sd.index)
print(sd.values)

Index(['a', 'b', 'c'], dtype='object')
[ 0.  1.  2.]


### 스칼라 값으로 원소를 넣기

    스칼라 값으로 원소를 넣어도 인덱스가 주어진면 이 스칼라의 값이 각 인덱스와 매핑해서 값들이 확장된다.
    
    

In [17]:
ss = pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])
print(ss)

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64


### 원소 가져오는 법 : list 처럼


In [20]:
print(ss[0])
print(sd[0])

5.0
0.0


### 원소 가져오는 법 : dict 처럼


In [21]:
print(ss['a'])
print(sd['a'])

5.0
0.0


### 내부 키 존재 여부 확인하기 

In [22]:
'c' in ss

True

In [23]:
'f' in ss

False

####  키가 없을 경우 예외가 발생

In [24]:
ss['f']

KeyError: 'f'

In [26]:
f = 'f'
if 'f' in ss :
    ss[f]
else :
    print("no Key")

no Key


In [27]:
ss.get('f', np.NaN)

nan

##  DataFrame 


    dataframe 내에 데이터는 칼럼으로 들어가지만 데이터 입력을 인식해서 행단위로도 들어간다.
    
    열 단위로 처리 : 딕셔너리 내에 Series 가 들어간 경우
                    딕셔너리 내에 딕셔너리가 들어간 경우
                    딕셔너리에 리스트가 들어간 경우
    
    
    행단위로 처리 : 레코드 ndarray나 리스트 내에 딕셔너리가 들어간 경우 



### 열로 인식해서 처리하기


In [34]:
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}


df = pd.DataFrame(d)

df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


####  데이터 프레임에 대한 정보 조회하기 


In [75]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, d to a
Data columns (total 2 columns):
two      3 non-null int64
three    0 non-null object
dtypes: int64(1), object(1)
memory usage: 72.0+ bytes


In [35]:
d = {'one' : [1,2,3,4],
     'two' : [4,5,6,7]}


df = pd.DataFrame(d)

df

Unnamed: 0,one,two
0,1,4
1,2,5
2,3,6
3,4,7


#### 딕셔너리 내의 스칼라 값만 있을 경우는  열과 행을 구분하지 못해서 예외가 발생한다.


In [55]:
data3 = {'a': 1, 'b': 2}

pd.DataFrame(data3)

ValueError: If using all scalar values, you must pass an index

In [38]:
d = {'one' : {'a':1,'b':2,'c':3,'d':4},
     'two' : {'a':10,'b':20,'c':30,'d':40, 'e':50}}


df = pd.DataFrame(d)

df

Unnamed: 0,one,two
a,1.0,10
b,2.0,20
c,3.0,30
d,4.0,40
e,,50


In [76]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, d to a
Data columns (total 2 columns):
two      3 non-null int64
three    0 non-null object
dtypes: int64(1), object(1)
memory usage: 72.0+ bytes


In [39]:
df = pd.DataFrame(d, index=['d', 'b', 'a'], columns=['two', 'three'])
df

Unnamed: 0,two,three
d,40,
b,20,
a,10,


###  행으로 인식해서 dataframe 생성하기 



#### record array로 처리

    레코드를 행으로 인식해서 dataframe이 생성된다.
    

In [50]:
data = np.zeros((2,), dtype=[('A', 'i4'),('B', 'f4'),('C', 'a10')])
print(data)

data[:] = [(1,2.,'Hello'), (2,3.,"World")]

pd.DataFrame(data)

[(0,  0., b'') (0,  0., b'')]


Unnamed: 0,A,B,C
0,1,2.0,b'Hello'
1,2,3.0,b'World'


####  딕셔너리가 들어간 리스트

    리스트 내의 하나의 딕셔너리를 하나의 행으로 인식해서 처리한다.
    

In [52]:
data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

pd.DataFrame(data2)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


## index와 multiindex 클래스로 행과 열에 label 처리

    행과 열에 대한 별도의 메타 정보를 관리한다.
    
    행과 열에 하나의 메타정보를 가지고 있을 수 있고 여러 개의 메타 정보를 가질 수 있다.
    
    이런 메타 정보를 이용해서 접근도 가능하게 지원하고 있다.
    


### 멀티 칼럼과 멀티 인텍스를 구성하기 

    실제 딕셔너리로 키값을 튜플로 처리해야 한다.

In [59]:
dfmt = pd.DataFrame({('a', 'b'): {('A', 'B'): 1, ('A', 'C'): 2},
                     ('a', 'a'): {('A', 'C'): 3, ('A', 'B'): 4},
                     ('a', 'c'): {('A', 'B'): 5, ('A', 'C'): 6},
                     ('b', 'a'): {('A', 'C'): 7, ('A', 'B'): 8},
                     ('b', 'b'): {('A', 'D'): 9, ('A', 'B'): 10}})
dfmt


Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,a,b,c,a,b
A,B,4.0,1.0,5.0,8.0,10.0
A,C,3.0,2.0,6.0,7.0,
A,D,,,,,9.0


In [77]:
dfmt.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 3 entries, (A, B) to (A, D)
Data columns (total 5 columns):
(a, a)    2 non-null float64
(a, b)    2 non-null float64
(a, c)    2 non-null float64
(b, a)    2 non-null float64
(b, b)    2 non-null float64
dtypes: float64(5)
memory usage: 144.0+ bytes


In [60]:
dfmt.columns

MultiIndex(levels=[['a', 'b'], ['a', 'b', 'c']],
           labels=[[0, 0, 0, 1, 1], [0, 1, 2, 0, 1]])

In [61]:
dfmt.index

MultiIndex(levels=[['A'], ['B', 'C', 'D']],
           labels=[[0, 0, 0], [0, 1, 2]])

### 단일 메타 정보로 label 구성하기 



####  구조화된 index에 필요한 구성

    levels에 상위부터 하위 구성을  가지고 있다.
    labels는 levels 내의 값들이 어떻게 labels로 구성할 지를 표시한다.
    
    

In [80]:
pd.Index([1, 2, 3, 4]).set_names('foo')


Int64Index([1, 2, 3, 4], dtype='int64', name='foo')

In [89]:
pd.Index([1, 2, 3, 4]).set_names(['baz'])


Int64Index([1, 2, 3, 4], dtype='int64', name='baz')

In [90]:
idx = pd.MultiIndex.from_tuples([(1, 'one'), (1, 'two'),
                          (2, 'one'), (2, 'two')],names=['foo', 'bar'])

idx

MultiIndex(levels=[[1, 2], ['one', 'two']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]],
           names=['foo', 'bar'])

In [94]:
idx.set_names(['baz', 'quz'],inplace=True)
idx

MultiIndex(levels=[[1, 2], ['one', 'two']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]],
           names=['baz', 'quz'])

In [96]:
idx.set_names('bazz', level=0, inplace=True)
idx

MultiIndex(levels=[[1, 2], ['one', 'two']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]],
           names=['bazz', 'quz'])

## 생성자 함수 이해하기


### 별도의 함수로 dataframe 생성하기 : from_records


In [64]:
data = np.zeros((2,), dtype=[('A', 'i4'),('B', 'f4'),('C', 'a10')])
print(data)

df_data = pd.DataFrame.from_records(data)
df_data

Unnamed: 0,A,B,C
0,1,2.0,b'Hello'
1,2,3.0,b'World'


### 별도의 함수로 dataframe 생성하기 : from_items 



In [72]:
help(pd.DataFrame.from_items)

Help on method from_items in module pandas.core.frame:

from_items(items, columns=None, orient='columns') method of builtins.type instance
    Convert (key, value) pairs to DataFrame. The keys will be the axis
    index (usually the columns, but depends on the specified
    orientation). The values should be arrays or Series.
    
    Parameters
    ----------
    items : sequence of (key, value) pairs
        Values should be arrays or Series.
    columns : sequence of column labels, optional
        Must be passed if orient='index'.
    orient : {'columns', 'index'}, default 'columns'
        The "orientation" of the data. If the keys of the
        input correspond to column labels, pass 'columns'
        (default). Otherwise if the keys correspond to the index,
        pass 'index'.
    
    Returns
    -------
    frame : DataFrame



In [69]:
data = [('A', [1, 2, 3]), ('B', [4, 5, 6])]
df_items = pd.DataFrame.from_items(data)
df_items

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [65]:

df_items = pd.DataFrame.from_items([('A', [1, 2, 3]), ('B', [4, 5, 6])])
df_items

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [70]:
pd.DataFrame.from_items([('A', [1, 2, 3]), ('B', [4, 5, 6])],
                     orient='index', columns=['one', 'two', 'three'])

Unnamed: 0,one,two,three
A,1,2,3
B,4,5,6


## indexing 과 slicing 처리하는 법


### dataframe에는 두개의 index class를 가지고 있다.

    2차원 배열로 구성된 dataframe은 행과 열을 이름을 가지고 접근을 할 수 있다.
    

In [40]:
df.index

Index(['d', 'b', 'a'], dtype='object')

In [41]:
df.columns

Index(['two', 'three'], dtype='object')

In [42]:
df.two

d    40
b    20
a    10
Name: two, dtype: int64

In [43]:
df['two']

d    40
b    20
a    10
Name: two, dtype: int64

#### 명칭으로 존재하므로 숫자 칼럼명이 존재하지 않는다.

In [44]:
df[0]

KeyError: 0