## pandas에서 제공하는 대표적인 자료 구조

+ Series
+ DataFrame
+ https://pandas.pydata.org

In [2]:
import numpy as np
import pandas as pd

### 1. Series

+ 값과 인덱스를 하나로 합친 구조

In [4]:
s = pd.Series([9904312, 3448737, 2890451, 2466052])  #여기서 사용한 [] 데이터는 배열이 아닌 리스트이니 착오금지
print(s)
print(type(s))  #리스트를 시리즈 형식으로 바꿔준 것

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


In [10]:
##### 인덱스를 자유롭게 지정

s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
print(s)

print("--------------------------------------------------")

print(s.values, type(s.values))  # 값만 뽑아보기  -  series의 기본 타입은 numpy 배열이라는 점
print(s.index)   # 인덱스만 뽑아보기

print("--------------------------------------------------")

# 인덱스에 이름 지정
s.index.name = "도시"
print(s)

print("--------------------------------------------------")

# Series 전체에 이름 지정

s.name = "인구"
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
--------------------------------------------------
[9904312 3448737 2890451 2466052] <class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')
--------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
--------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [11]:
##### 벡터화 연산

s1 = s / 1000000
print(s1)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [17]:
##### 인덱싱

print(s[1], s["부산"])

print("------------------------")

print(s[1:3])                  #숫자 인덱스는 끝자리가 -1 인것을 항상 생각해야한다.
print(s["부산":"인천"])        #다만 문자로 표현시에는 그럴 필요가 없다.

print("------------------------")

print(s.부산, ", ", s.서울)

print("------------------------")

print(s[(s > 250e4) & (s < 500e4)])   #250만 이상 500만 이하

3448737 3448737
------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
------------------------
3448737 ,  9904312
------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [22]:
##### Series와 dict

print("서울" in s)
print("대전" in s)

print("------------------------------")

# dict에서 사용하는 items() 사용가능
print(list(s.items()))

print("------------------------------")

# dict 형식으로 데이터 준비
s2 = pd.Series({"서울" : 9904312, "부산" : 3448737, "인천" : 2890451, "대전" : 1490158})
print(s2)

True
False
------------------------------
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
------------------------------
서울    9904312
부산    3448737
인천    2890451
대전    1490158
dtype: int64


In [27]:
##### 인덱스 기반 연산

print(s)
print("------------------------------")
print(s2)
print("------------------------------")

result = s - s2

print(result)   # 인덱스 연산하면 맞는 인덱스를 찾아서 알아서 연산

print("------------------------------")

print(s.values - s2.values)  #값으로 연산하면 순서대로 연산

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
------------------------------
서울    9904312
부산    3448737
인천    2890451
대전    1490158
dtype: int64
------------------------------
대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64
------------------------------
[     0      0      0 975894]


In [None]:
##### 결측치 제거