# Pandas

## 1. Pandas 개요
### 1) 정의
* 데이터의 형태와 속성이 다양
* 다양한 데이터를  일관성 있게 동일한 형태로 통합

### 2) 목적
* 서로 다른 유형의 데이터를 공통의 형식을 정리
* 1차원 배열 Series, 2차원 배열 Dataframe

In [2]:
#  Pandas 임포트 및 버전 확인
import pandas as pd
pandas.__version__

'1.1.3'

In [3]:
import numpy as np
import pandas as pd

## 2. Pandas 객체
### 1) Series
* 1차원 배열 형태
* 시리즈에서 인덱스는 데이터값과 일대일로 대응이 됨.

### 2) DataFrame
* 2차원 배열 구조
*  행과 열로 구성되는 2차원 배열은 마이크로소프트 엑셀이나 관계형 데이터베이스 등 다양한 응용에서 활용되는 데이터구조
* 각 열이 시리즈를 나타냄
* 여러 개의 열벡터들이 순서대로 결합된 2차원 행렬
* 행과 열을 나타내는 2개의 주소 사용

# 3. Series

In [4]:
# 리스트를 인자로 사용하여 시리즈 객체 생성
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [5]:
# values, index 속성으로 접근 가능
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [6]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
# 파이썬 대괄호 표기법을 통해 접근 가능
data[1] # 인덱스

0.5

In [9]:
data[1:3] # 슬라이싱

1    0.50
2    0.75
dtype: float64

### index
##### 정수일 필요가 없으며 어떤 타입의 값으로도 구성 가능

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index = ['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [11]:
data['b']

0.5

In [12]:
# 연속이 아닌 정수로도 인덱스 가능
data = pd.Series([0.25, 0.5, 0.75, 1.0], index = [2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

###  딕셔너리 구조
* 값에 키를 매핑하는 구조
* 딕셔너리의 키인 k는 Series의 인덱스에 대응되며, 딕셔너리의 각 키에 매핑되는 값인 v는 Series의 데이터값으로 변환

In [13]:
population_dict = {
    'California': 38332521,
    'Texas':26448393,
    'New York':19651127,
    'Florida':19552860,
    'Illinois':12882135
}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448393
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [14]:
population['California']

38332521

* 딕셔너리와 달리 Series는 슬라이싱 형태로 시리즈 내의 데이터 일부를 가져오는 연산도 가능

In [15]:
population['California':'Illinois']

California    38332521
Texas         26448393
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

#### 시리즈 객체를 구성하는 방법
* pd.Series(data, index = index)
* 인덱스는 옵션이기에 생략 가능(기본값)

In [16]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

In [17]:
pd.Series(5, index=[500,600,700])

500    5
600    5
700    5
dtype: int64

In [21]:
dic_data={2:'a',1:'b',3:'c'}
dic_data
# 딕셔너리는 기본적으로 딕셔너리에 설정된 키를 기반으로 요솟값들을 정렬하여 보여줌.
# 출력시 키 값을 오름차순을 정렬

{2: 'a', 1: 'b', 3: 'c'}

In [22]:
# 시리즈 객체는 요솟값들이 입력된 순서대로 출력
# 시리즈 객체에 요솟값들이 입력된 순서가 아닌 다른 순서나 아예 순서 없이 다른 결과를 얻고 싶으면,인덱스를 명시적으로 설정하여 원하는 순서로 결과를 얻을 수 있음.

In [23]:
pd.Series({2:'a',1:'b',3:'c'}, index = [3, 2])

3    c
2    a
dtype: object

# 4. DataFrame
* 열 인덱스 = 열 벡터, 열 이름

In [24]:
area_dict = {'California': 38332521,'Texas':26448393,'New York':19651127,'Florida':19552860,'Illinois':12882135}
area = pd.Series(area_dict)
area

California    38332521
Texas         26448393
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [26]:
# 시리즈 객체로 데이터프레임 구성하기
states = pd.DataFrame({'population':population, 'area':area})
states

Unnamed: 0,population,area
California,38332521,38332521
Texas,26448393,26448393
New York,19651127,19651127
Florida,19552860,19552860
Illinois,12882135,12882135


In [27]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [None]:
states.columns # 열 이름

In [28]:
states['area']

California    38332521
Texas         26448393
New York      19651127
Florida       19552860
Illinois      12882135
Name: area, dtype: int64

In [29]:
# 데이터 구성하기
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448393
New York,19651127
Florida,19552860
Illinois,12882135


In [30]:
pd.DataFrame(population, index=['Texas'], columns=['population'])

Unnamed: 0,population
Texas,26448393


In [32]:
pd.DataFrame([{'a':1,'b':2},{'b':3,'c':4}])
# 누락된 자리 NaN(not a number)값으로 채움

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [34]:
pd.DataFrame(np.random.rand(3,2),
             columns=['foo','bar'],
             index=['a','b','c'])
# 인덱스를 먼저 사용하고 컬럼스를 사용해도 결과는 일동일
# 행 인덱스 지정이 생략되면 , 행 인덱스로서 정수인 0, 1, 2 자동 생성

Unnamed: 0,foo,bar
a,0.252817,0.059557
b,0.462673,0.452054
c,0.147424,0.648768
