# pandas
- 부동 소수점이 아닌 데이터 뿐만 아니라 부동 소수점 데이터에서도 결측 데이터(NnN으로 표시 됨)를 쉽게 처리
- 크기 변이성 : DataFrame 및 고차원 객체에서 열을 삽입 및 삭제 가능
- 자동 및 명시적 데이터 정렬 : 객체를 라벨 집합에 명시적으로 정렬하거나, 사용자가 라벨을 무시하고 Series, DataFrame 등의 계산에서 자동으로 데이터 조정 가능
- 데이터 세트에서 집계 및 변환을 위한 분할(split), 적용(apply), 결합(combine) 작업을 수행할 수 있는 강력하고 유연한 group-by 함수 제공
- 누락된 데이터 또는 다른 Python 및 Numpy 데이터 구조에서 서로 다른 인덱싱 데이터를 DataFrame 개체로 쉽게 변환
- 대용량 데이터 세트의 지능형 라벨 기반 ㅡㄹ라이싱, 고급 인덱싱 및 부분 ㅈㅂ합 구하기 가능
- 직관적인 데이터 세트 병합 및 결합
- 축의 계층적 라벨링(눈금당 여러 개의 라벨을 가질 수 있음)
- 시계열 특정 기능 : 날짜 범위 생성 및 주파수 변환, 무빙 윈도우 통계, 날짜 이동 및 지연

In [2]:
import numpy as np
import pandas as pd
pd.__version__

'1.3.4'

# Series 객체

In [3]:
s = pd.Series([0, 0.25,0.5,0.75,1.0])
print(s)
# 인덱스와 함께 데이터를 저장

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64


In [4]:
print(s.values)

[0.   0.25 0.5  0.75 1.  ]


In [5]:
print(s.index)

RangeIndex(start=0, stop=5, step=1)


In [6]:
s[1]

0.25

In [7]:
s[2]

0.5

In [8]:
s = pd.Series([0, 0.25,0.5,0.75,1.0],
              index=['a','b','c','d','e'])
print(s)

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64


In [9]:
s['c']

0.5

In [10]:
s[['c','d','e']]

c    0.50
d    0.75
e    1.00
dtype: float64

In [11]:
 'b' in s

True

In [12]:
s = pd.Series([0, 0.25,0.5,0.75,1.0],
              index=[2,4,6,8,10])
print(s)

2     0.00
4     0.25
6     0.50
8     0.75
10    1.00
dtype: float64


In [13]:
s[:2]

2    0.00
4    0.25
dtype: float64

In [14]:
s.unique()  # unique한 값만 출력을 해줌

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [15]:
s.value_counts()

0.00    1
0.25    1
0.50    1
0.75    1
1.00    1
dtype: int64

In [16]:
s.isin([0.25,0.75])  # boolean 형태

2     False
4      True
6     False
8      True
10    False
dtype: bool

In [17]:
pop_tuple = {'서울 특별시': 9720846,
             '부산 광역시': 3404423,
             '인천 광역시': 2947217,
             '대구 광역시': 1471040,
             '광주 광역시': 1455048}
population = pd.Series(pop_tuple)
print(population)

서울 특별시    9720846
부산 광역시    3404423
인천 광역시    2947217
대구 광역시    1471040
광주 광역시    1455048
dtype: int64


In [18]:
population['서울 특별시']

9720846

In [19]:
population['서울 특별시':'인천 광역시']

서울 특별시    9720846
부산 광역시    3404423
인천 광역시    2947217
dtype: int64

# DataFrame 객체

In [20]:
pd.DataFrame([{'a':2, 'b':4, 'd':3},{'a':4, 'b':5, 'c':7}])

Unnamed: 0,a,b,d,c
0,2,4,3.0,
1,4,5,,7.0


In [21]:
pd.DataFrame(np.random.rand(5,5),
             columns = ['a','b','c','d','e'],
             index = [1,2,3,4,5])

Unnamed: 0,a,b,c,d,e
1,0.953787,0.889921,0.40853,0.215534,0.928593
2,0.249569,0.983297,0.893075,0.591591,0.123333
3,0.759904,0.4014,0.5645,0.600079,0.438239
4,0.125143,0.663746,0.873633,0.721374,0.141238
5,0.097669,0.573859,0.587863,0.889219,0.833038


In [22]:
male_tuple = {'서울 특별시': 4732275,
             '부산 광역시': 1667854,
             '인천 광역시': 1563513,
             '대구 광역시': 5451221,
             '광주 광역시': 7775455}
male = pd.Series(male_tuple)
print(male)

서울 특별시    4732275
부산 광역시    1667854
인천 광역시    1563513
대구 광역시    5451221
광주 광역시    7775455
dtype: int64


In [23]:
female_tuple = {'서울 특별시': 4895512,
             '부산 광역시': 1751512,
             '인천 광역시': 1666555,
             '대구 광역시': 7365566,
             '광주 광역시': 7775484}
female = pd.Series(male_tuple)
print(female)

서울 특별시    4732275
부산 광역시    1667854
인천 광역시    1563513
대구 광역시    5451221
광주 광역시    7775455
dtype: int64


In [24]:
korea_df = pd.DataFrame({'인구 수': population,
                         '남자 인구수':male,
                         '여자 인구수': female})
print(korea_df)

           인구 수   남자 인구수   여자 인구수
서울 특별시  9720846  4732275  4732275
부산 광역시  3404423  1667854  1667854
인천 광역시  2947217  1563513  1563513
대구 광역시  1471040  5451221  5451221
광주 광역시  1455048  7775455  7775455


In [25]:
korea_df.index

Index(['서울 특별시', '부산 광역시', '인천 광역시', '대구 광역시', '광주 광역시'], dtype='object')

In [26]:
korea_df.columns

Index(['인구 수', '남자 인구수', '여자 인구수'], dtype='object')

In [27]:
korea_df['서울 특별시':'인천 광역시']

Unnamed: 0,인구 수,남자 인구수,여자 인구수
서울 특별시,9720846,4732275,4732275
부산 광역시,3404423,1667854,1667854
인천 광역시,2947217,1563513,1563513


In [28]:
idx = pd.Index([2,4,6,8,10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [29]:
idx[1]

4

In [30]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [31]:
idx[-1::]

Int64Index([10], dtype='int64')

In [32]:
idx[::2]

Int64Index([2, 6, 10], dtype='int64')

In [33]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)
'''
Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64
'''

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


In [44]:
idx1 = pd.Index([1,2,4,6,8])
idx2 = pd.Index([2,4,5,6,7])
print(idx1.append(idx2))
print(idx1.difference(idx2))
print(idx1-idx2)  # 뺀 값
print(idx1.intersection(idx2))  # 교집합
print(idx1&idx2)
print(idx1.union(idx2))
print(idx1 | idx2)
print(idx1.delete(0))
print(idx1.drop(1))
print(idx1 ^ idx2)   # 여집합

Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
Int64Index([1, 8], dtype='int64')
Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([1, 5, 7, 8], dtype='int64')


  print(idx1&idx2)
  print(idx1 | idx2)
  print(idx1 ^ idx2)


# 인덱싱

In [46]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index = ['a', 'b', 'c', 'd', 'e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [47]:
s['b']

0.25

In [48]:
'b' in s

True

In [50]:
list(s.items())

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [51]:
s['f'] = 1.25
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
f    1.25
dtype: float64

In [52]:
s['a':'d']

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [53]:
s[0:4]

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [54]:
s[(s>0.4)&(s<0.8)]

c    0.50
d    0.75
dtype: float64

In [55]:
s[['a', 'c', 'e']]

a    0.0
c    0.5
e    1.0
dtype: float64

# series 인덱싱

In [57]:
s = pd.Series(['a','b','c','d','e'],
              index = [1, 3, 5, 7, 9])
s

1    a
3    b
5    c
7    d
9    e
dtype: object

In [59]:
s.iloc[1]  # 0부터 시작 됨

'b'

In [60]:
s.iloc[2:4]

5    c
7    d
dtype: object

In [61]:
s.reindex(range(10))

0    NaN
1      a
2    NaN
3      b
4    NaN
5      c
6    NaN
7      d
8    NaN
9      e
dtype: object

In [63]:
s.reindex(range(10), method = 'bfill')   # 백필, 뒤엣값 채워줌

0    a
1    a
2    b
3    b
4    c
5    c
6    d
7    d
8    e
9    e
dtype: object

# DataFrame 인덱싱

In [64]:
korea_df

Unnamed: 0,인구 수,남자 인구수,여자 인구수
서울 특별시,9720846,4732275,4732275
부산 광역시,3404423,1667854,1667854
인천 광역시,2947217,1563513,1563513
대구 광역시,1471040,5451221,5451221
광주 광역시,1455048,7775455,7775455


In [65]:
korea_df['남자 인구수']

서울 특별시    4732275
부산 광역시    1667854
인천 광역시    1563513
대구 광역시    5451221
광주 광역시    7775455
Name: 남자 인구수, dtype: int64

In [68]:
korea_df.남자 인구수

SyntaxError: invalid syntax (Temp/ipykernel_7608/4282277767.py, line 1)

In [69]:
korea_df.여자 인구수


SyntaxError: invalid syntax (Temp/ipykernel_7608/1512827193.py, line 1)

In [70]:
korea_df['남녀비율'] = (korea_df['남자 인구수']*100 / korea_df['여자 인구수'])

In [72]:
korea_df.남녀비율

서울 특별시    100.0
부산 광역시    100.0
인천 광역시    100.0
대구 광역시    100.0
광주 광역시    100.0
Name: 남녀비율, dtype: float64

In [73]:
korea_df.values

array([[9.720846e+06, 4.732275e+06, 4.732275e+06, 1.000000e+02],
       [3.404423e+06, 1.667854e+06, 1.667854e+06, 1.000000e+02],
       [2.947217e+06, 1.563513e+06, 1.563513e+06, 1.000000e+02],
       [1.471040e+06, 5.451221e+06, 5.451221e+06, 1.000000e+02],
       [1.455048e+06, 7.775455e+06, 7.775455e+06, 1.000000e+02]])

In [74]:
korea_df.T  # transpose

Unnamed: 0,서울 특별시,부산 광역시,인천 광역시,대구 광역시,광주 광역시
인구 수,9720846.0,3404423.0,2947217.0,1471040.0,1455048.0
남자 인구수,4732275.0,1667854.0,1563513.0,5451221.0,7775455.0
여자 인구수,4732275.0,1667854.0,1563513.0,5451221.0,7775455.0
남녀비율,100.0,100.0,100.0,100.0,100.0


In [75]:
korea_df.values[0]

array([9.720846e+06, 4.732275e+06, 4.732275e+06, 1.000000e+02])

In [76]:
korea_df['인구 수']

서울 특별시    9720846
부산 광역시    3404423
인천 광역시    2947217
대구 광역시    1471040
광주 광역시    1455048
Name: 인구 수, dtype: int64

In [77]:
korea_df.loc[:'인천 광역시', : '남자 인구수']

Unnamed: 0,인구 수,남자 인구수
서울 특별시,9720846,4732275
부산 광역시,3404423,1667854
인천 광역시,2947217,1563513


In [79]:
korea_df.loc[(korea_df['여자 인구수']>1000000)]

Unnamed: 0,인구 수,남자 인구수,여자 인구수,남녀비율
서울 특별시,9720846,4732275,4732275,100.0
부산 광역시,3404423,1667854,1667854,100.0
인천 광역시,2947217,1563513,1563513,100.0
대구 광역시,1471040,5451221,5451221,100.0
광주 광역시,1455048,7775455,7775455,100.0


In [80]:
korea_df.loc[(korea_df.인구 수 < 2000000)]

SyntaxError: invalid syntax (Temp/ipykernel_7608/2403643102.py, line 1)

In [81]:
korea_df.loc[korea_df.남녀비율 > 100]

Unnamed: 0,인구 수,남자 인구수,여자 인구수,남녀비율


# 다중 인덱스

In [82]:
korea_df

Unnamed: 0,인구 수,남자 인구수,여자 인구수,남녀비율
서울 특별시,9720846,4732275,4732275,100.0
부산 광역시,3404423,1667854,1667854,100.0
인천 광역시,2947217,1563513,1563513,100.0
대구 광역시,1471040,5451221,5451221,100.0
광주 광역시,1455048,7775455,7775455,100.0


In [83]:
idx_tuples = [('서울 특별시', 2010),('서울 특별시',2020),
              ('부산 광역시', 2010),('부산 광역시',2020),
              ('인천 광역시', 2010),('인천 광역시',2020),
              ('대구 광역시', 2010),('대구 광역시',2020),
              ('광주 광역시', 2010),('광주 광역시',2020),
              ]
idx_tuples

[('서울 특별시', 2010),
 ('서울 특별시', 2020),
 ('부산 광역시', 2010),
 ('부산 광역시', 2020),
 ('인천 광역시', 2010),
 ('인천 광역시', 2020),
 ('대구 광역시', 2010),
 ('대구 광역시', 2020),
 ('광주 광역시', 2010),
 ('광주 광역시', 2020)]

In [86]:
pop_tuples =[10312545, 9720846,
             2567910, 3404423,
             275896, 2947217,
             2511676, 2427954,
             1503664, 1471040,
             ]
population = pd.Series(pop_tuples, index=idx_tuples)
population

(서울 특별시, 2010)    10312545
(서울 특별시, 2020)     9720846
(부산 광역시, 2010)     2567910
(부산 광역시, 2020)     3404423
(인천 광역시, 2010)      275896
(인천 광역시, 2020)     2947217
(대구 광역시, 2010)     2511676
(대구 광역시, 2020)     2427954
(광주 광역시, 2010)     1503664
(광주 광역시, 2020)     1471040
dtype: int64

In [87]:
midx = pd.MultiIndex.from_tuples(idx_tuples)
midx

MultiIndex([('서울 특별시', 2010),
            ('서울 특별시', 2020),
            ('부산 광역시', 2010),
            ('부산 광역시', 2020),
            ('인천 광역시', 2010),
            ('인천 광역시', 2020),
            ('대구 광역시', 2010),
            ('대구 광역시', 2020),
            ('광주 광역시', 2010),
            ('광주 광역시', 2020)],
           )

In [88]:
population = population.reindex(midx)
population

서울 특별시  2010    10312545
        2020     9720846
부산 광역시  2010     2567910
        2020     3404423
인천 광역시  2010      275896
        2020     2947217
대구 광역시  2010     2511676
        2020     2427954
광주 광역시  2010     1503664
        2020     1471040
dtype: int64

In [89]:
population[:, 2010]

서울 특별시    10312545
부산 광역시     2567910
인천 광역시      275896
대구 광역시     2511676
광주 광역시     1503664
dtype: int64

In [91]:
population['대구 광역시', :]

2010    2511676
2020    2427954
dtype: int64

In [None]:
# 49분 29초

# 49분 30초