### Pandas
- Panel Datas 

#### Pandas에서 제공하는 데이터 구조
1. Series : 1차원
- 인덱스(index)와 value
- column name(컬럼명) 존재하지 않음

2. DataFrame : 2차원
- 행과 열을 가지는 표와 같은 형태
- 서로 다른 자료형 저장 가능
- 1차원의 시리즈가 모여 2차원의 데이터프레임 구조가 된다

In [2]:
# Pandas 라이브러리 로딩(가져오기)

import pandas as pd

### Series Data Structure

In [None]:
# Series 생성하기 (리스트 활용)
# 인덱스는 0부터 자동으로 부여된다

population = pd.Series([9904312,3448737,2890451,1466052])
print(population)

In [None]:
# 인덱스 이름을 지정해서 Series 생성하기
#  인덱스값과 데이터 value 개수가 같아야 함 (1:1로 대응되는 자료구조)

population = pd.Series([9904312,3448737,2890451,1466052], 
                      index = ["서울", "부산", "인천", "광주"])
print(population)

#### Series 데이터 확인

In [None]:
# Series 값 확인
# 시리즈명(변수명).values

population.values
# Series의 데이터 values는 ndArray(넘파이 배열) 형태이다

In [None]:
# Series 인덱스 값 확인
# 시리즈명(변수명).index

population.index
# dtype = 'object' => 문자열 의미

In [None]:
# Series 이름 지정
# 사용이유?? => 이름을 지정해주면 시리즈를 직관적으로 이해할 수 있다

# 시리즈명.name = '지어줄 이름'
population.name = '인구수'
population

In [None]:
# Series Index에 이름 지정
# 시리즈명.index.name = '지어줄 이름'

population.index.name = '도시'
population

#### Series 데이터 구조의 연산
- 요소별로 데이터 연산이 진행된다

In [None]:
# Series 데이터 구조는 넘파이배열 기반 --> 요소별 연산이 가능하다!!!!
population / 1000000

#### Series 인덱싱 & 슬라이싱

In [None]:
population

In [None]:
# 광주의 인구수 출력하기

# 인덱스 번호 인덱싱
print(population[3])

# 인덱스명을 통해서도 인덱싱 가능!
print(population['광주'])

In [None]:
# 인덱싱을 활용해서 여러 개의 데이터 추출
# 서울, 광주, 부산 순으로 데이터 가져오기
print(population[[0,3,1]])
print(population[['서울','광주','부산']])

#### 슬라이싱

In [None]:
# Series명[시작인덱스:끝인덱스+1]
# 인덱스 번호로 슬라이싱
# 부산 ~ 인천
print(population[1:3])

# 인덱스 이름으로 슬라이싱 -> +1 개념이 없으므로 가져오고자 하는 이름 작성
# 부산 ~ 인천
print(population['부산' : '인천'])

### Series 불리언 인덱싱
- 원하는 조건에 해당하는 데이터를 가져올 때 사용
- 시리즈명[조건]

In [None]:
# 인구수가 250만 이상인 도시들만 출력해보기
population >= 2500000 # 논리연산 결과임(boolean 자료형) 인덱싱 한 거 아님 ㅇㅇ
population[population>=2500000]

In [None]:
# 인구수가 250만 이상이면서 500만 이하인 도시 출력
# and - &
# or - |
population[(population>=2500000) & (population<=500000)]

### 딕셔너리 자료형 Series 생성
- { key : value }
- key 값은 index
- value 값은 value 

#### 포켓몬...

In [8]:
# 포켓몬 : 능력치
data = { "파이리"  : 9631, 
"꼬부기" : 3383,
 "잠만보" : 1046,
 "오박사" : 3
}
data

pocketmon = pd.Series(data)
pocketmon

파이리    9631
꼬부기    3383
잠만보    1046
오박사       3
dtype: int64

In [7]:
# 레벨업한 데이터가 들어있는 pocketmon_up 만들기
data2 = {'리자드' : 9999, "어니부기" : 4500, "잠만보" : 3000, "오박사" : 5}
pocketmon_up = pd.Series(data2)
pocketmon_up

리자드     9999
어니부기    4500
잠만보     3000
오박사        5
dtype: int64

In [10]:
# 올라간 능력치 계산하기
up = pocketmon_up - pocketmon
up

# 인덱스명이 다르면 Series 연산하게 되면 NaN (Not a Number=결측치) 출력

꼬부기        NaN
리자드        NaN
어니부기       NaN
오박사        2.0
잠만보     1954.0
파이리        NaN
dtype: float64

- 결측치(NaN)가 있는 Series 데이터 처리하는 방법

In [16]:
# 비어있지 않은 데이터들만 출력한다면??? -> notnull() 사용
up.notnull()

# 비어있지 않은 데이터만 인덱싱해서 출력 -> 불리언 인덱싱
print(up[up.notnull()])

오박사       2.0
잠만보    1954.0
dtype: float64


In [15]:
# 비어있는 데이터만 보고 싶다면??? -> isnull() 사용
up.isnull()

# 비어있는 데이터만 인덱싱해서 출력 -> 불리언인덱싱
print(up[up.isnull()])

꼬부기    NaN
리자드    NaN
어니부기   NaN
파이리    NaN
dtype: float64


In [20]:
# 레벨업해서 올라간 능력치의 증가율(%) 계산해보기
# (올라간 데이터 - 원래 데이터) / 원래데이터 * 100
print(pocketmon_up)
print(pocketmon)

ch = (pocketmon_up - pocketmon) / pocketmon * 100

리자드     9999
어니부기    4500
잠만보     3000
오박사        5
dtype: int64
파이리    9631
꼬부기    3383
잠만보    1046
오박사       3
dtype: int64


### Series 데이터 갱신, 추가, 삭제 방법

In [23]:
# Series 데이터 값 추가
# 기존에 없던 인덱스 명칭 활용하여 value 추가 가능
# Series명['추가하고 싶은 인덱스명'] = value

ch['피카츄'] = 55
ch

꼬부기            NaN
리자드            NaN
어니부기           NaN
오박사      66.666667
잠만보     186.806883
파이리            NaN
피카츄      55.000000
dtype: float64

In [24]:
# Series 데이터 값 수정
# 기존에 있는 인덱스명을 활용하여 value 수정 가능
# Series명['수정하고 싶은 인덱스명'] = value

ch['오박사'] = 30
ch

꼬부기            NaN
리자드            NaN
어니부기           NaN
오박사      30.000000
잠만보     186.806883
파이리            NaN
피카츄      55.000000
dtype: float64

In [25]:
# Series 데이터 값 삭제
# del
del ch['오박사']
ch

꼬부기            NaN
리자드            NaN
어니부기           NaN
잠만보     186.806883
파이리            NaN
피카츄      55.000000
dtype: float64