# Pandas Dataframe
- Series
- **Dataframe**

In [12]:
import pandas as pd
import numpy as np

print("pandas ver : ",pd.__version__)
print("numpy ver : ",np.__version__)

pandas ver :  0.24.2
numpy ver :  1.16.4


## [Dataframe]
- 행(row)과 열(column) 레이블(label)이 붙은 다차원 배열
- 여러가지 타입의 데이터를 가질 수 있음
- 데이터가 누락된 경우도 허용함

### [Pandas Dataframe 객체 선언]
  - [DOC](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html)

- Series : 유연한 1차원 배열
- Dataframe : 유연한 행 인덱스와 유연한 열이름을 가진 2차원 배열
- **Dataframe은 정렬된 Series객체의 연속**

#### Dataframe 객체 선언 및 정보 확인  

- 선언 
  - `class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)`

In [13]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
# Series로 데이터 생성
area = pd.Series(area_dict)
print("area series : \n", area)
print("area shape : ",area.shape)
print("\n\n")

population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
# Series로 데이터 생성
population = pd.Series(population_dict)
print("population series : \n",population)
print("population shape : ",population.shape)

area series : 
 California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64
area shape :  (5,)



population series : 
 California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64
population shape :  (5,)


In [14]:
# 구성 방법1) area, population series를 하나의 Dataframe으로 병합하여 2차원 객체 
states = pd.DataFrame({'population':population,
                      'area':area})

print("states Dataframe : \n")
states

states Dataframe : 



Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [15]:
# 구성 방법2) area, population series를 하나의 Dataframe으로 병합하여 2차원 객체 
states2 = pd.DataFrame([population,area], index=['population','area'])
print("states2 Dataframe : \n")
states2

states2 Dataframe : 



Unnamed: 0,California,Texas,New York,Florida,Illinois
population,38332521,26448193,19651127,19552860,12882135
area,423967,695662,141297,170312,149995


- **index를 설정하면 행(row) 으로 들어감**
- **Dict 로 선언한 데이터로 Dataframe 으로 선언하면 Dict의 key값이 Dataframe의 index로 설정 됨**

#### Dataframe 객체 Attribute 

- **`Dataframe.index`** : 인덱스(row) 정보 반환

In [16]:
print(states.index)

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')


- **`Dataframe.column`** : 컬럼(columm) 정보 반환

In [17]:
print(states.columns)

Index(['population', 'area'], dtype='object')


- **`Dataframe.values`** : Dataframe 데이터 반환 or Dataframe.get_values()
  - return : numpy ndarray 

In [18]:
print(states.values)
print(type(states.values))

[[38332521   423967]
 [26448193   695662]
 [19651127   141297]
 [19552860   170312]
 [12882135   149995]]
<class 'numpy.ndarray'>


In [19]:
print(states.get_values())
print(type(states.get_values()))

[[38332521   423967]
 [26448193   695662]
 [19651127   141297]
 [19552860   170312]
 [12882135   149995]]
<class 'numpy.ndarray'>


- **`Dataframe.ndim`** : 데이터 차원 확인

In [20]:
print(states.ndim)

2


- **`Dataframe.shape`** : 데이터 형태 확인

In [21]:
print(states.shape)

(5, 2)


- **`Dataframe.size`** : 데이터 크기 확인
  - python 내장 함수 len()을 사용한 크기와 size는 다름

In [22]:
print(states.size)

10


In [23]:
print(len(states))

5


### [ Dictionary... Dataframe ]

- Python Dictionary 자료형 : 키를 값에 매핑
- Pandas Dataframe : 열(row)이름을 열데이터로 이뤄진 Series에 매핑

In [30]:
result = states['area']
print("result series : \n",result)
print(type(result))

result series : 
 California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64
<class 'pandas.core.series.Series'>


In [31]:
# Series 의 인덱스로 접근하여 California 값 출력
print("California area : ",result[0])
print("California area : ",states['area'][0])
print("California area : ",states['area']['California'])

California area :  423967
California area :  423967
California area :  423967


- Dictionay의 값을 접근 하는 방식과 비슷...
- key 값은 열(col)값을 입력한 결과는 Series가 선택되며 결과에 행(row)값을 키로 입력하면 해당 값이 반환됨

### [ Dataframe 객체 구성]

- 구성 방법 
  1. 단일 Series 객체에서 구성
  2. Dictionary의 리스트에서 구성
    -  `[{'키1':값1, '키2':값2}]`
  3. Series 객체의 딕셔너리에서 구성 
    - `{'키1':series객체1, '키2':series객체2}`
  4. 2차원 Numpy ndarray에서 구성
  5. Numpy 구조화된 배열에서 구성
    - 예) np.zeros() 등등...

In [33]:
# 단일 Series 객체에서 구성
print(population)
print(type(population))
print("\n")

df = pd.DataFrame(population, columns=['population'])
print(df)
print(type(df))

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64
<class 'pandas.core.series.Series'>


            population
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
<class 'pandas.core.frame.DataFrame'>


In [35]:
# Dictionary의 리스트에서 구성 (index= 를 지정하지 않으면 기본적으로 정수 index 가 설정됨)
data = [{'a': i, 'b': 2 * i} for i in range(3)]
print(data)
print(type(data))
print("\n")

df = pd.DataFrame(data)
print(df)
print(type(df))

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]
<class 'list'>


   a  b
0  0  0
1  1  2
2  2  4
<class 'pandas.core.frame.DataFrame'>


In [36]:
# 결측 데이터는 NaN(Not a Number)라는 데이터가 들어감
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [37]:
# Series 객체의 딕셔너리에서 구성
df = pd.DataFrame({'population': population,
                   'area': area})
print(df)
print(type(df))

            population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Illinois      12882135  149995
<class 'pandas.core.frame.DataFrame'>


In [45]:
# 2차원 Numpy ndarray에서 구성
arr = np.random.rand(3,2)
print("arr : \n",arr)
print(type(arr))
print("\n")

df = pd.DataFrame(arr,
                 columns=['foo','bar'],
                 index=['a','b','c'])
print(df)
print(type(df))

arr : 
 [[0.84451869 0.8723086 ]
 [0.67519843 0.54761663]
 [0.35024842 0.59597136]]
<class 'numpy.ndarray'>


        foo       bar
a  0.844519  0.872309
b  0.675198  0.547617
c  0.350248  0.595971
<class 'pandas.core.frame.DataFrame'>


In [46]:
# Numpy 구조화된 배열에서 구성
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
print(A)
print(type(A))
print("\n")

df = pd.DataFrame(A)
print(df)
print(type(df))

[(0, 0.) (0, 0.) (0, 0.)]
<class 'numpy.ndarray'>


   A    B
0  0  0.0
1  0  0.0
2  0  0.0
<class 'pandas.core.frame.DataFrame'>


###### **dtype 종류**

- boolean (bool형) : True / Flase
  - bool
- integers (정수형) : -2, 6
  - int8  : 1 bits, typecode i1
  - int16 : 2 bits, typecode i2
  - int32 : 4 bits, typecode i4
  - int64 : 8 bits, typecode i8
- unsigned integer (부호없는 양수 정수형) : 2.1
  - uint8  : 1 bits, typecode u1
  - uint16 : 2 bits, typecode u2
  - uint32 : 4 bits, typecode u4
  - uint64 : 8 bits, typecode u8
- floating points (부동소수형) : -2.4
  - float16 : 2 bits, typecode f2
  - float32 : 4 bits, typecode f4
  - float64 : 8 bits, typecode f8
- comples (실수 + 허수) : 1+2j (python 에서 허수 i를 j로 표현하여 사용함)
  - complex64  :  8 bits, typecode c8
  - complex128 : 16 bits, typecode c16 
- string (문자형) : 'String'
  - string_ : typecode S 