# 🧡pandas 특징
* 결측 데이터(NaN으로 표시됨)를 쉬게 처리
* DataFrame및 고차원 객체에서 열을 삽입 및 삭제 가능
* 라벨을 무시하고 Series, DataFrame등의 계산에서 자동으로 데이터 조정 가능
* 데이터 세트에서 집계 및 변환을 위한 분할(split), 적용(apply), 결합(combine) 작업을 수행할 수 있는 group-by합수 제공
* 서로 다른 Python, Numpy데이터 구조에서 서로 다른 인덱싱 데이터를 DataFrame개체로 쉽게 변환
* 데이터 세트의 유연한 재구성 및 피벗
* 축의 계층적 라벨링
* csv, Excel파일 기타 등등에서 사용
* 날짜 범위 생성, 무빙 윈도우 통계, 날짜 이동 및 지연 기능

In [1]:
import numpy as np
import pandas as pd
pd.__version__

'1.2.4'

# 🖤Pandas 객체

## Series 객체

In [2]:
s = pd.Series([0,0.25,0.5,0.75,1.0]) # 리스트를 기반으로 Series데이터로 변환
s

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

In [3]:
s.values # 값만

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [4]:
s.index # 인덱스만

RangeIndex(start=0, stop=5, step=1)

In [5]:
s[1] # 개별 엘리먼트 접근 가능

0.25

In [6]:
s[1:4]

1    0.25
2    0.50
3    0.75
dtype: float64

In [7]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0], index=['a','b','c','d','e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [8]:
s['c']

0.5

In [9]:
s[['c','d','e']] # 특정 인덱스만 가져오기

c    0.50
d    0.75
e    1.00
dtype: float64

In [10]:
'b' in s

True

In [11]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0], index=['2','4','6','8','10'])
s

2     0.00
4     0.25
6     0.50
8     0.75
10    1.00
dtype: float64

In [13]:
s[4]

1.0

In [14]:
s[2:]

6     0.50
8     0.75
10    1.00
dtype: float64

In [16]:
s.unique() #유니크한 값만

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [18]:
s.value_counts() #  각요소들의 카운트를 셀 수 있음

0.00    1
1.00    1
0.50    1
0.75    1
0.25    1
dtype: int64

In [20]:
s.isin([0.25,0.75]) # 요소가 어디에 있는지 boolean형태로 반환

2     False
4      True
6     False
8      True
10    False
dtype: bool

In [21]:
# dictionary
pop_tuple={'서울특별시':9720863,
          '부산광역시':3403323,
          '인천광역시':2947123,
          '대구광역시':3419439,
          '광주광역시':1049232}
population = pd.Series(pop_tuple)
population

서울특별시    9720863
부산광역시    3403323
인천광역시    2947123
대구광역시    3419439
광주광역시    1049232
dtype: int64

In [22]:
population['서울특별시']

9720863

In [23]:
population['서울특별시':'인천광역시'] # 슬라이싱된것

서울특별시    9720863
부산광역시    3403323
인천광역시    2947123
dtype: int64

## DataFrame 객체 
### series는 단일한 형태의 객체 /dataframe은 여러컬럼이 들어간 2차원의 특성이다.

In [25]:
pd.DataFrame([{'A':2,'B':4,'D':3},
             {'A':92,'B':43,'C':21}])

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,92,43,,21.0


In [26]:
pd.DataFrame(np.random.rand(5,5), 
            columns=['A','B','C','D','E'],
            index=[1,2,3,4,5])

Unnamed: 0,A,B,C,D,E
1,0.476766,0.247405,0.991547,0.146693,0.154483
2,0.462019,0.852373,0.511177,0.081608,0.717536
3,0.424555,0.692302,0.3976,0.705737,0.089403
4,0.147157,0.663804,0.157129,0.166842,0.283656
5,0.94097,0.023498,0.114509,0.053179,0.549656


In [27]:
male_tuple={'서울특별시':720863,
          '부산광역시':403323,
          '인천광역시':947123,
          '대구광역시':419439,
          '광주광역시':49232}
male = pd.Series(male_tuple)
male

서울특별시    720863
부산광역시    403323
인천광역시    947123
대구광역시    419439
광주광역시     49232
dtype: int64

In [28]:
female_tuple={'서울특별시':20863,
          '부산광역시':3323,
          '인천광역시':47123,
          '대구광역시':19439,
          '광주광역시':9232}
female = pd.Series(female_tuple)
female

서울특별시    20863
부산광역시     3323
인천광역시    47123
대구광역시    19439
광주광역시     9232
dtype: int64

Unnamed: 0,0
서울특별시,741726
부산광역시,406646
인천광역시,994246
대구광역시,438878
광주광역시,58464


## Index 객체