### Pandas 라이브러리
- Seiries : 1차원 배열구조 인덱스 + 값을 1:1로 가진다
- Dataframe : 2차원 배열구조 행과 열을 가지는 표와 같은 형태

In [3]:
import pandas as pd

In [6]:
# Series 생성하기
population = pd.Series([9668465,3391946,2942858,1450062])
population

0    9668465
1    3391946
2    2942858
3    1450062
dtype: int64

In [7]:
# index를 지정하면서 Series 생성해보기
population = pd.Series([9668465,3391946,2942858,1450062],
                      index=['서울','부산','인천','광주'])
population

서울    9668465
부산    3391946
인천    2942858
광주    1450062
dtype: int64

##### Series 데이터 확인속성
- value : 데이터의 값 확인
- index : 인덱스 값 확인
- dtype : 데이터의 타입 확인

In [11]:
# Series 데이터 값 확인(value)
population.values

array([9668465, 3391946, 2942858, 1450062], dtype=int64)

In [12]:
# Series 데이터 인덱스 확인 (index)
population.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [14]:
# Series 데이터 타입 확인(dtype)
population.dtype
# index값은 고정되어 있기 때문에 dtype을 출력해보면 실제 value에 대한 타입을 알려줌

dtype('int64')

#### Series 이름 지정(데이터의 정보를 나타내주기)

In [16]:
# Series 이름 지정하기
population.name='인구'
# index 이름 지정하기
population.index.name='도시'
population



도시
서울    9668465
부산    3391946
인천    2942858
광주    1450062
Name: 인구, dtype: int64

#### Series 연산
- Series 데이터 value => 넘파이 배열 형태
- 요소별 연산이 가능!!

In [17]:
population.values
# 데이터가 넘파이 배열 형태인 것을 확인

array([9668465, 3391946, 2942858, 1450062], dtype=int64)

In [18]:
population / 1000000
# 각각 요소별로 연산이 진행

도시
서울    9.668465
부산    3.391946
인천    2.942858
광주    1.450062
Name: 인구, dtype: float64

#### 인덱싱 슬라이싱

In [21]:
# population에서 부산의 인구수만 출력
population.loc['부산':'부산']

도시
부산    3391946
Name: 인구, dtype: int64

In [22]:
# 지정한 인덱스 이름으로도 인덱싱이 가능
population.loc['부산':'부산']

도시
부산    3391946
Name: 인구, dtype: int64

In [33]:
population.loc[['광주','서울','부산']]
# 여러개의 값을 가져오고 싶을 때는 리스트로 묵어서 작성[]

도시
광주    1450062
서울    9668465
부산    3391946
Name: 인구, dtype: int64

In [34]:
# 논리연산 (인구가 250만 이상인)
population >= 2500000

도시
서울     True
부산     True
인천     True
광주    False
Name: 인구, dtype: bool

In [37]:
# 불리언 인덱싱(조건인 참인 값들만 출력)
# 인구수가 300만 이상인 도시만 출력
population[population >= 3000000]

도시
서울    9668465
부산    3391946
Name: 인구, dtype: int64

In [45]:
# 다중 조건 우선 순위 지정 -> ()
# 인구수가 250만 이상 500만 이하의 도시 찾기!
# 논리 연산자 사용 불가
population[(population<=5000000) & (population>=2500000)]

도시
부산    3391946
인천    2942858
Name: 인구, dtype: int64

In [96]:
population[population<=5000000][population[population<=5000000]>= 2500000]

도시
부산    3391946
인천    2942858
Name: 인구, dtype: int64

In [55]:
population['부산':'인천']
# 인덱스 이름으로 슬라이싱 할 때에는 가져오고 싶은 가져오고 싶은 인덱스명 작성

도시
부산    3391946
인천    2942858
Name: 인구, dtype: int64

### dictionary 자료구조를 활용하여 Series 생성하기
- key 값은 index
- value 값은 value

In [67]:
# dictionary 생성
# 포켓몬 이름 : 능력치
data = {'피카츄':9536,'치코리타':5201,'마자용':1021,'리자몽':9599}
pokemon = pd.Series(data)
pokemon

피카츄     9536
치코리타    5201
마자용     1021
리자몽     9599
dtype: int64

In [68]:
# 레벨업한 포케못의 능력치
data2 = {'치코리타':6000,'마자용':1500,'잉어킹':2035,'뮤':8452}
pokemon_up = pd.Series(data2)
pokemon_up

치코리타    6000
마자용     1500
잉어킹     2035
뮤       8452
dtype: int64

In [71]:
# 올라간 능력치 확인 (레벨업 능력치 - 원래 능력치)
stat = pokemon_up - pokemon
# 인덱스 번호가 아닌 인덱스 이름이 동일한 데이터끼리 연산
# 둘 중에 하나만 있던 데이터는 NaN 출력 -> 비어있는 값(결측치)
# 결측치와의 연산은 결측치

In [73]:
# 비어있는 데이터만 출력 -> isnull()
stat.isnull()

리자몽      True
마자용     False
뮤        True
잉어킹      True
치코리타    False
피카츄      True
dtype: bool

In [74]:
# 비어있는 값만 출력
stat[stat.isnull()]

리자몽   NaN
뮤     NaN
잉어킹   NaN
피카츄   NaN
dtype: float64

In [78]:
# 비어있지 않은 값만 출력
stat[stat.notnull()]

마자용     479.0
치코리타    799.0
dtype: float64

In [84]:
# 레벨업해서 올라간 공격력의 증가율(%)
# (레벨업한 데이터 - 원래 데이터) / 원래데이터 *100
stat2
((pokemon_up-pokemon)/pokemon*100)[((pokemon_up-pokemon)/pokemon*100).notnull()]

마자용     46.914789
치코리타    15.362430
dtype: float64