# Pandas 구조

        1. numpy와 동일하게 대부분 view로 제공
        2. 함수나 메소드는 기본으로 새로운 객체에 갱신한다.
        3. 자기 객체에 갱신이 필요한 경우 대부분 inplace=True를 표시해서 내부 갱신이라는 것을 명확히 해야 한다.
        
        

In [1]:
import numpy as np

import pandas as pd

##  DataFrame 


    dataframe 내에 데이터는 칼럼으로 들어가지만 데이터 입력을 인식해서 행단위로도 들어간다.
    
    열 단위로 처리 : 딕셔너리 내에 Series 가 들어간 경우
                    딕셔너리 내에 딕셔너리가 들어간 경우
                    딕셔너리에 리스트가 들어간 경우
    
    
    행단위로 처리 : 레코드 ndarray나 리스트 내에 딕셔너리가 들어간 경우 



### 하나의 칼럼으로 데이터 프레임 생성 


In [3]:
df = pd.DataFrame([1000, 2000, 3000, 4000])
print(df)

      0
0  1000
1  2000
2  3000
3  4000


### 행에 대한 레이블 달기 

In [4]:
df = pd.DataFrame([1000, 2000, 3000, 4000], index=["i1", "i2", "i3", "i4"])
print(df)

       0
i1  1000
i2  2000
i3  3000
i4  4000


### 열에 레이블 달기 

In [6]:
df = pd.DataFrame([1000, 2000, 3000, 4000], index=["i1", "i2", "i3", "i4"],columns=["c1"])
print(df)

      c1
i1  1000
i2  2000
i3  3000
i4  4000


In [7]:
df = pd.DataFrame({"c1":[1000, 2000, 3000, 4000]}, index=["i1", "i2", "i3", "i4"])
print(df)

      c1
i1  1000
i2  2000
i3  3000
i4  4000


### 열로 인식해서 처리하기


In [2]:
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}


df = pd.DataFrame(d)

df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


## 데이터프레임을 dict 으로 변환하기

In [6]:
a = dict(df)

In [7]:
a.keys()

dict_keys(['one', 'two'])

In [8]:
a.values()

dict_values([a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64, a    1.0
b    2.0
c    3.0
d    4.0
Name: two, dtype: float64])

In [9]:
a['one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

## 데이터 프레임에대한 정보 확인

####  데이터 프레임에 대한 정보 조회하기 


In [10]:
d = {'one' : [1,2,3,4],
     'two' : [4,5,6,7]}


df = pd.DataFrame(d)

df

Unnamed: 0,one,two
0,1,4
1,2,5
2,3,6
3,4,7


In [75]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, d to a
Data columns (total 2 columns):
two      3 non-null int64
three    0 non-null object
dtypes: int64(1), object(1)
memory usage: 72.0+ bytes


## 데이터 프레임 내의 값은 스칼라로 구성되면 안된다.

#### 딕셔너리 내의 스칼라 값만 있을 경우는  열과 행을 구분하지 못해서 예외가 발생한다.


In [11]:
data3 = {'a': 1, 'b': 2}

pd.DataFrame(data3)

ValueError: If using all scalar values, you must pass an index

In [15]:
cc = pd.DataFrame([1,2])
cc

Unnamed: 0,0
0,1
1,2


In [18]:
ff = pd.DataFrame([1])
ff

Unnamed: 0,0
0,1


In [38]:
d = {'one' : {'a':1,'b':2,'c':3,'d':4},
     'two' : {'a':10,'b':20,'c':30,'d':40, 'e':50}}


df = pd.DataFrame(d)

df

Unnamed: 0,one,two
a,1.0,10
b,2.0,20
c,3.0,30
d,4.0,40
e,,50


In [76]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, d to a
Data columns (total 2 columns):
two      3 non-null int64
three    0 non-null object
dtypes: int64(1), object(1)
memory usage: 72.0+ bytes


In [39]:
df = pd.DataFrame(d, index=['d', 'b', 'a'], columns=['two', 'three'])
df

Unnamed: 0,two,three
d,40,
b,20,
a,10,


###  행으로 인식해서 dataframe 생성하기 



#### record array로 처리

    레코드를 행으로 인식해서 dataframe이 생성된다.
    

In [50]:
data = np.zeros((2,), dtype=[('A', 'i4'),('B', 'f4'),('C', 'a10')])
print(data)

data[:] = [(1,2.,'Hello'), (2,3.,"World")]

pd.DataFrame(data)

[(0,  0., b'') (0,  0., b'')]


Unnamed: 0,A,B,C
0,1,2.0,b'Hello'
1,2,3.0,b'World'


####  딕셔너리가 들어간 리스트

    리스트 내의 하나의 딕셔너리를 하나의 행으로 인식해서 처리한다.
    

In [52]:
data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

pd.DataFrame(data2)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


## 생성자 함수 이해하기


### 별도의 함수로 dataframe 생성하기 : from_records


In [64]:
data = np.zeros((2,), dtype=[('A', 'i4'),('B', 'f4'),('C', 'a10')])
print(data)

df_data = pd.DataFrame.from_records(data)
df_data

Unnamed: 0,A,B,C
0,1,2.0,b'Hello'
1,2,3.0,b'World'


### 별도의 함수로 dataframe 생성하기 : from_items 



In [72]:
help(pd.DataFrame.from_items)

Help on method from_items in module pandas.core.frame:

from_items(items, columns=None, orient='columns') method of builtins.type instance
    Convert (key, value) pairs to DataFrame. The keys will be the axis
    index (usually the columns, but depends on the specified
    orientation). The values should be arrays or Series.
    
    Parameters
    ----------
    items : sequence of (key, value) pairs
        Values should be arrays or Series.
    columns : sequence of column labels, optional
        Must be passed if orient='index'.
    orient : {'columns', 'index'}, default 'columns'
        The "orientation" of the data. If the keys of the
        input correspond to column labels, pass 'columns'
        (default). Otherwise if the keys correspond to the index,
        pass 'index'.
    
    Returns
    -------
    frame : DataFrame



In [69]:
data = [('A', [1, 2, 3]), ('B', [4, 5, 6])]
df_items = pd.DataFrame.from_items(data)
df_items

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [65]:

df_items = pd.DataFrame.from_items([('A', [1, 2, 3]), ('B', [4, 5, 6])])
df_items

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [70]:
pd.DataFrame.from_items([('A', [1, 2, 3]), ('B', [4, 5, 6])],
                     orient='index', columns=['one', 'two', 'three'])

Unnamed: 0,one,two,three
A,1,2,3
B,4,5,6


## indexing 과 slicing 처리하는 법


### dataframe에는 두개의 index class를 가지고 있다.

    2차원 배열로 구성된 dataframe은 행과 열을 이름을 가지고 접근을 할 수 있다.
    

In [40]:
df.index

Index(['d', 'b', 'a'], dtype='object')

In [41]:
df.columns

Index(['two', 'three'], dtype='object')

In [42]:
df.two

d    40
b    20
a    10
Name: two, dtype: int64

In [43]:
df['two']

d    40
b    20
a    10
Name: two, dtype: int64

#### 명칭으로 존재하므로 숫자 칼럼명이 존재하지 않는다.

In [44]:
df[0]

KeyError: 0

## 텅빈 데이터 프레임 만들기

    행과 열의 index에 대한 정보가 들어가면 원소가 전부 nan으로 처리된다.
    


In [9]:
df4 = pd.DataFrame()
print(df4)

Empty DataFrame
Columns: []
Index: []


In [8]:
df4 = pd.DataFrame(columns=("lib","qt1","qt2"))
print(df4)


Empty DataFrame
Columns: [lib, qt1, qt2]
Index: []


In [11]:
df4 = pd.DataFrame(index=("lib","qt1","qt2"))
print(df4)


Empty DataFrame
Columns: []
Index: [lib, qt1, qt2]


In [13]:
df4 = pd.DataFrame(index=("lib","qt1","qt2"),columns={'A','B','C'})
print(df4)

       A    C    B
lib  NaN  NaN  NaN
qt1  NaN  NaN  NaN
qt2  NaN  NaN  NaN
