<a href="https://colab.research.google.com/github/Junjaee/Study/blob/main/Python_Data_Analytics_Library/02_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## PANDAS에서 제공하는 대표적인 자료구조

- 1) Series
  - 값 + index
- 2) DataFrame
  - 여러 개의 Series를 묶어놓은 형태
- 3) https://pandas.pydata.org
  

In [2]:
import pandas as pd
import numpy as np

### 1. Series 

In [4]:
s = pd.Series([9904312, 34487377, 2890451, 2466052])
print(s)
print(type(s))

0     9904312
1    34487377
2     2890451
3     2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
for i in enumerate([9904312, 34487377, 2890451, 2466052]):
  print(i)

(0, 9904312)
(1, 34487377)
(2, 2890451)
(3, 2466052)


In [25]:
#### 인덱스를 자유롭게 지정

s = pd.Series([9904312, 3448737, 2890451, 2466052], index = ["서울", "부산", "인천", "대구"])
print(s)

print("=====================================")

print(s.values)
print(s.index)

print("=====================================")

# 인덱스에 이름 지정
s.index.name = "도시"
print(s)

print("=====================================")

# Series 전체에 이름 지정
s.name = "인구"
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [10]:
#### 벡터화 연산

s1 = s / 1000000

In [26]:
#### 인덱싱

print(s[1], s["부산"])

print("=====================================")

print(s[[0, 3, 1]], s[["서울", "대구", "부산"]])

print("=====================================")

print(s[(s>250e4) & (s<500e4)])

print("=====================================")

print(s[1:3])
print(s["부산" : "대구"])

3448737 3448737
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64 도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [28]:
#### Series와 dict

print("서울" in s)
print("대전" in s)

print("=====================================")

print(list(s.items()))
for k, v in s.items():
  print("%s = %d"%(k, v))
  
print("=====================================")

s2 = pd.Series({"서울" : 9631482, "부산" : 3448737, "인천" : 2632035, "대전" : 1490158})
print(s2)

True
False
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


In [32]:
#### 인덱스 기반 연산
print(s)

print("=====================================")

print(s2)

print("=====================================")

result = s - s2
print(s - s2)

print("=====================================")

print(s.values - s2.values)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
[272830      0 258416 975894]


In [43]:
#### 결측치 제거

print(result)
print(result.notnull())
print(result[result.notnull()])

print("=====================================")

# s와 s2 데이터를 이용해서 인구 증가율 : (끝 연도 - 시작연도) / 시작연도 * 100

result2 = ((s2-s)/s*100)[((s2-s)/s*100).notnull()]

print((s2-s)/s*100)

print(((s2-s)/s*100)[((s2-s)/s*100).notnull()])

대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64


In [45]:
#### 데이터를 수정, 삭제, 갱신

result2["부산"] = 1.63
print(result2)

result2["대구"] = 1.41
print(result2)

del result2["서울"] # 삭제
print(result2)

부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
부산    1.630000
인천   -8.940335
대구    1.410000
dtype: float64


### 2. DataFrame