# Pandas_basic01

## - 목차

### - Pandas란?

### - 시리즈
* 시리즈 설명
* 시리즈 만들기
* 시리즈 인덱싱
* 시리즈와 딕셔너리
* 연습문제 1

### - 데이터프레임
* 데이터프레임 설명
* 데이터프레임 만들기

---

## Pandas란?


### Pandas 사용 목적
* 서로 다른 여러 가지 유형의 데이터를 공통의 포맷으로 정리하는 것.
* 데이터 프레임을 분석 실무에서 자주 사용한다.

**사용하려면 import 해야 함**

## Series(시리즈)
* 데이터가 순차적으로 나열된 1차원 배열의 형태로 인덱스(index)와 데이터 값(value)이 일대일로 대응
* 딕셔너리와 비슷한 구조 : {key : value}

### 1. 시리즈의 인덱스
* 데이터 값의 위치를 나타내는 이름표 (데이터 주소) 역할
* 예로 'index2'라는 주소를 알고 있다면 'data2'라는 원소 데이터 값에 바로 접근 가능하다.


In [107]:
# 필요한 package import

import pandas as pd
import numpy as np


### 2. 시리즈 만들기
* 시리즈 만들기 : ```Series()```함수 사용.
* 리스트, 딕셔너리, 튜플 형태의 데이터를 구성 후 `Series()`를 이용
* 인덱스는 0부터 시작하는 정수값으로 자동 지정된다.


In [108]:
# 1. 리스트를 이용해서 시리즈 만들기
series_list = pd.Series([1, 2, 3])
print(series_list)

# 2. 딕셔너리를 이용해 시리즈 만들기
dic = {0 : 1, 1 : 2, 2: 3}
s = pd.Series(dic)
print(s)

# 3. 튜플을 활용한 시리즈 만들기
tup = (1, 2, 3)
s = pd.Series(tup)
print(s)

# 4. range()를 활용한 시리즈 만들기
pd.Series(range(10, 14))

# 5.결측값을 포함해서 시리즈 만들기
## numpy 패키지의 nan이라는 내부 변수는 결측값을 포현한다.
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1
1    2
2    3
dtype: int64
0    1
1    2
2    3
dtype: int64
0    1
1    2
2    3
dtype: int64


0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

* 시리즈는 인덱스를 지정할 수 있고, 따로 지정하지 않으면 0부터 시작하는 정수로 적용되어 만들어진다.

In [109]:
# 숫자 인덱스 지정
s = pd.Series([10, 20, 30], index=[1, 2, 3])
s

# 문자 인덱스 지정 1
s = pd.Series([95, 100, 88], index=['홍길동', '이몽룡', '성춘향'])
s

# 문자 인덱스 지정 2
s = pd.Series([9904312, 3448737, 2890451, 2466052], index=['서울', '부산', '인천', '대구'])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

* 시리즈의 인덱스 확인 
    * : Series 클래스 안에 index라는 변수가 만들어져 있다. 
    * `index` 속성을 이용해서 관련 index 확인이 가능하다.
 
 
* 시리즈 객체의 index 속성으로 확인이 가능하다. 
    * `객체명.index`
  
  
* 시리즈의 값은 1차원 배열이고, values 속성으로 접근할 수 있다.
    * `객체명.values`
  


In [110]:
# 시리즈의 인덱스 확인
print(s.index)

# 시리즈의 value 확인
print(s.values)

Index(['서울', '부산', '인천', '대구'], dtype='object')
[9904312 3448737 2890451 2466052]


* `name` 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다.
    * `객체명.name`
  
  
* 시리즈 인덱스에도 이름을 붙일 수 있다.
    * 객체.index.name = '인덱스 이름'


In [111]:
# 시리즈에 이름 정의
s.name = '인구'
print(s)

print('---------------------')
# 시리즈 인덱스에 이름 정의
s.index.name = '도시'
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
---------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


### 3. 시리즈 인덱싱

* 인덱싱(indexing) : 데이터에서 특정한 세부 데이터만 접근해서 값을 반환받는 것
  
#### - 시리즈 인덱스의 종류
* 1) 정수형 위치 인덱스
* 2) 인덱스 이름 또는 인덱스 라벨 문자형 인덱스  
    * 인덱스를 별도로 정의하지 않으면 0부터 시작하는 default 정수형 위치 인덱스가 자동 지정된다.
    * 시리즈는 순차적 의미를 갖고 있기 때문에, 라벨형 인덱스가 있어도 위치 인덱스 사용이 가능하다.  
  
  
* 인덱싱 값을 하나가 아닌 여러 값으로 할 수도 있다. 


In [112]:
# 1) 정수형 위치 인덱스를 사용한 인덱스

print('정수형 인덱스 :', s[0])

# 2) 라벨형 인덱스를 설정한 경우 라벨을 이용해서도 접근 가능
print('라벨형 인덱스 :', s['서울'])

정수형 인덱스 : 9904312
라벨형 인덱스 : 9904312


* 리스트형 인덱싱을 하면 자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다.
    * 리스트형으로 인덱싱했을 경우는 Series 형태로, 하나의 요소만 인덱싱 했을 때는 value를 반환한다.

In [113]:
# 하나의 요소 인덱싱을 했을 때 반환 결과의 type 확인
print(type(s[0]))

# 리스트형 인덱싱을 했을 때 반환 결과의 type 확인
print(type(s[[0]]))

# 인덱스 라벨을 사용하여 특정자료의 집합을 선택(순서 변경)
s[['서울', '대구', '부산']]

<class 'numpy.int64'>
<class 'pandas.core.series.Series'>


도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [114]:
# 여러 개의 인덱스로 인덱싱
print(s[[0, 3, 1]])

print('--------------')
# 3) 슬라이싱을 이용한 인덱싱
print(s[1:3])

# 4) 인덱스 라벨을 사용한 슬라이싱
s['부산':'대구']

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
--------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

* 인덱스 label이 영문 문자열인 경우에는 마치 속성인것 처럼 `.`를 이용해 접근이 가능하다.

In [115]:
# 영문 인덱스를 가지는 Series 생성
s_1 = pd.Series(range(3), index=['a', 'b', 'c'])
print(s_1)

print(s_1.a)

a    0
b    1
c    2
dtype: int64
0


#### 시리즈와 딕셔너리 자료형
* 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로, 실질적으로 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 비슷하다고 볼 수 있다. 
* 따라서, 딕셔너리 자료형에서 제공하는 in 연산도 가능하고, `items()` method를 사용하면 for문을 통해 각 원소의 key와 value를 접근할 수도 있다.

In [116]:
# in 연산 활용
print('서울' in s)
print('대전' in s)

# items를 활용해 key, value 접근
for key, value in s.items():
    print(key, value)

True
False
서울 9904312
부산 3448737
인천 2890451
대구 2466052


#### 딕셔너리로 시리즈 만들기
* 딕셔너리와 시리즈의 구조가 비슷하기 때문에, 딕셔너리를 시리즈로 변환하는 방법을 많이 사용한다.
* `Series()`로 만들고 딕셔너리를 함수의 인자로 전달한다.
    * 딕셔너리의 key는 시리즈의 인덱스에 대응되고, 딕셔너리의 value는 시리즈의 데이터 값으로 변환된다.
    
    
* 딕셔너리의 원소는 순서를 가지지 않으므로, 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 한다.
  



In [117]:
# 딕셔너리로 시리즈 만들기 1
print('딕셔너리로 시리즈 만들기 1')
scores = {'홍길동' : 95, '이몽룡' : 100, '성춘향' : 88}
s = pd.Series(scores)
print(s)


# 딕셔너리로 시리즈 만들기 2 - 순서가 없는 Series
print('딕셔너리로 시리즈 만들기 2')
s2 = pd.Series({'서울' : 9904312, '부산' : 3448737, '인천' : 2890451, '대구' : 2466052})
print(s2)
print('두번째 원소 보기 : ', s2[[1]])

# 딕셔너리로 시리즈 만들기 3 - 순서가 있게 만들기
print('딕셔너리로 시리즈 만들기 3')
s2 = pd.Series({'서울' : 9904312, '부산' : 3448737, '인천' : 2890451, '대구' : 2466052},
              index=['부산', '서울', '대구', '인천'])
print(s2)
print('두번째 원소 보기 : ', s2[[1]])

딕셔너리로 시리즈 만들기 1
홍길동     95
이몽룡    100
성춘향     88
dtype: int64
딕셔너리로 시리즈 만들기 2
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
두번째 원소 보기 :  부산    3448737
dtype: int64
딕셔너리로 시리즈 만들기 3
부산    3448737
서울    9904312
대구    2466052
인천    2890451
dtype: int64
두번째 원소 보기 :  서울    9904312
dtype: int64


#### 시리즈 데이터의 갱신, 추가, 삭제

* 딕셔너리 인덱싱을 이용하면 데이터를 갱신하거나 추가할 수 있다.

In [118]:
# 위의 s2 Series를 활용하여 데이터 갱신, 추가, 삭제 수행
# 데이터 갱신
print('데이터 갱신')
s2['부산'] = 1630000
print(s2)

# 데이터 추가
print('\n데이터 추가')
s2['울산'] = 900000
print(s2)

# 데이터 삭제
print('\n데이터 삭제')
del s2['서울']
print(s2)

데이터 갱신
부산    1630000
서울    9904312
대구    2466052
인천    2890451
dtype: int64

데이터 추가
부산    1630000
서울    9904312
대구    2466052
인천    2890451
울산     900000
dtype: int64

데이터 삭제
부산    1630000
대구    2466052
인천    2890451
울산     900000
dtype: int64


### 연습문제 1
* 임의로 두 개의 시리즈 객체를 만든다.
    * 첫 번째 시리즈는 리스트를 이용하고, 
    * 두 번째 시리즈는 딕셔너리를 이용한다.
* 두 객체 모두 문자열 인덱스를 가져야 하고, 두 시리즈에 공통적으로 포함하지 않는 라벨이 있어야 한다.

In [119]:
# 연습문제

series_list = pd.Series([90, 100, 88], index=['홍길동', '성춘향', '이몽룡'])
series_dict = pd.Series({'의자':100000, '책상':2000, '서랍':5000})


print(series_list, series_dict)

홍길동     90
성춘향    100
이몽룡     88
dtype: int64 의자    100000
책상      2000
서랍      5000
dtype: int64


## 데이터프레임(DataFrame)
* 2차원 행렬 데이터에 인덱스를 붙인 것으로, 행과 열로 만들어지는 2차원 배열 구조를 가진다.
* R의 데이터프레임에서 유래됨.
* 데이터프레임의 열은 각각 Series 객체로 이루어져 있다.
* `DataFrame()`를 사용하여 데이터프레임을 생성할 수 있다.

### 1. 데이터 프레임 만들기
* 위의 Series로 만드는 방법과 유사


In [120]:
# 1)-1 리스트로 데이터프레임 만들기
df = pd.DataFrame(['a', 'b', 'c'])
display(df)

# 1)-2 리스트로 데이터프레임 만들기
# df는 행, 열이름이 있어야 하기 때문에, 설정하지 않으면 자동으로 생성된다.
df = pd.DataFrame([['a', 'b', 'c'], ['a', 'a', 'g'], ['a', 'i', 'j']])
display(df)

# 1)-3 열인덱스와 행인덱스를 직접 설정해서 df 생성 - dict를 사용
df = pd.DataFrame({'A' : ['a', 'b', 'c'], 
                   'B' : ['a', 'a', 'g'], 
                   'C' : ['a', 'i', 'j']}, index=[0, 1, 2])
display(df)

Unnamed: 0,0
0,a
1,b
2,c


Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,i,j


Unnamed: 0,A,B,C
0,a,a,a
1,b,a,i
2,c,g,j
