# Pandas란?
- ## Pandas 는...
    - Numpy 를 기반으로 만들어졌지만 좀 더 복잡한 데이터 분석에 특화되었음
    - Ex. Numpy 는 같은 데이터 타입만 처리 -> pandas 는 다양한 데이터타입의 데이터 처리 가능
    - csv, json 등의 데이터를 파일 경로 filepath 혹은 url로부터 가져와서 DataFrame 이라는 자료구조에 넣어 데이터를 다룸

- ## 데이터베이스 및 엑셀과 유사
    - 데이터베이스에서의 데이터 조인이나 정렬 , 그룹핑 등이 가능
    - 데이터 분석 작업을 위해 메모리상에 구현한 엑셀과 비슷
- ## 테이블 데이터를 다루는 Pandas
    - 두 가지 자료구조? 
![ex03](./img/ex03.png)

## Pandas의 두 가지 자료구조
- ### 1. 시리즈(Series)
    - 인덱스 (index)와 값(value)으로 구성됨 (Column 이 1 개)
- ### 2. 데이터프레임(DataFrame)
    - 다수의 Series 를 모아 처리하기 위해 사용 (Column 이 여러 개)
    - <b>표 형태</b> 로 데이터를 손쉽게 다루기 위해 사용
![ex04](./img/ex04.png)

- ### 1. Series 살펴보기 (1)
    - Series 는 일련의 객체를 담을 수 있는 1 차원의 배열과 같은 자료구조
    - 왼쪽에 색인을 보여주고 오른쪽에 색인에 해당하는 값을 보여줌
    - 만약 , 데이터에 색인을 지정하지 않는다면?
        - 기본 색인 : 정수 0 에서 (데이터의 길이-1) 까지 숫자 표현


In [123]:
import pandas as pd

data = pd.Series([5,3,-1,9])
data

0    5
1    3
2   -1
3    9
dtype: int64

- ### 1. Series 살펴보기 (2)
    - Series 의 값과 색인은 <b>values</b>와 <b>index</b> 속성을 통해 얻거나 지정할 수 있음

In [124]:
data.values

array([ 5,  3, -1,  9], dtype=int64)

In [125]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [126]:
data2 = pd.Series([8,-5, 0, 2], index = ['A', 'B', 'C', 'D'])
data2

A    8
B   -5
C    0
D    2
dtype: int64

- ### 1. Series 살펴보기 (3)
    - Series 에서 값을 선택하거나 대입할 때는 색인을 통해 접근

In [127]:
data2['A']

8

In [128]:
data2['A'] = 10

In [129]:
data2

A    10
B    -5
C     0
D     2
dtype: int64

## 2. 데이터프레임(DataFrame)
- ### 1. DataFrame의 정의
- ### 2. DataFrame 으로 변환하기
- ### 3. 데이터 정렬하기
- ### 4. 데이터 삭제하기
- ### 5. 데이터 조회하기
- ### 6. 데이터 세기
- ### 7. 데이터 읽고 쓰기

## 1. DataFrame의 정의
- ###  DataFrame은 표 형식의 데이터를 담기 위한 자료형
    - ① 여러 개의 열(column)이 있는데 각 열은 다른 종류의 자료형 (Ex.숫자 , 문자 , 불리언 등 을 담을 수 있음
    - ② 각 <b>행과 열에 대한 고유의 색인</b>을 지니고 있음
        - 행 : index, 열 : columns
        - 각 행과 열에 이름을 붙임 -> 숫자 인덱스가 아닌 이름으로 값을 찾기
- ### 2 차원 numpy array 에 부가적인 기능이 추가된 것
    - DataFrame 은 numpy array 를 기반으로 만들어졌음
- ### pandas.DataFrame (data=None, index=None, columns=None, dtype =None, copy=False)
    - https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

![ex05](./img/ex05.png)

- ### DataFrame 과 python list, numpy array, dictionary
    - DataFrame 은 python list, numpy array, dictionary 등 다양한 데이터로부터 생성
    - python list 와 numpy array 와 달리 색인을 가지고 있어 데이터 핸들링이 편리
        - DataFrame 으로 변환할 때 index, columns 를 지정
        - 지정하지 않을 경우 자동으로 할당

### 사전(Dictionary)이란 ? 파이썬의 자료형 중 하나로 key 와 value 쌍으로 이루어져있음
    - Ex. {key1: value1, key2: value2, …, keyN : valueN}
   - person_a = '이름': '홍길동', '나이' : 24, '수강과목:<br>['지능정보시스템', '캡스톤디자인(1)’, '프로그래밍입문 '], ‘a’: [1,2,3]}
   
person_a 

|Key|Value|
|--:|:---|
|'이름'|'홍길동'|
|'나이'|24|
|'수강과목'|['지능정보시스템',캡스톤디자인(1)','프로그래밍입문']|
|'a'|[1,2,3]|


## 2. DataFrame으로 변환하기
- ### 1 차원 python list 와 numpy array 변환하기

In [130]:
import numpy as np
a = [1,2,3]
a

[1, 2, 3]

In [131]:
b = np.array([1,2,3])
b

array([1, 2, 3])

In [132]:
#python list를 아용하여 DataFrame 생성하기
df = pd.DataFrame(a)
df

Unnamed: 0,0
0,1
1,2
2,3


In [133]:
#numpy array를 이용하여 DataFrame 생성하기
df2 = pd.DataFrame(b)
df2

Unnamed: 0,0
0,1
1,2
2,3


- <b>DataFrame은 2차원 이하의 데이터들만 변환 가능</b>
    - <b>pandas.DataFrame(data=None,index=None, columns=None,dtype =None, copy= False)</b>


In [134]:
# python list를 이용하여 DataFram 생성하기
# index와 columns 추가하기
df = pd.DataFrame(a, index =['1번', '2번', '3번'], columns=['A'])
df

Unnamed: 0,A
1번,1
2번,2
3번,3


- ## 2 차원 python list 와 numpy arrary 변환하기
    - pandas.DataFrame(data=None, index=None, columns=None, dtype =None, copy= False)

In [135]:
# 2 x 3 크기의 python list와 numpy array 생성 후 DataFrame 변환
a = [[1,2,3],[4,5,6]]
b = np.array(a)
b

array([[1, 2, 3],
       [4, 5, 6]])

In [136]:
b.shape

(2, 3)

In [137]:
df = pd.DataFrame(a, index=['1번','2번'], columns=['A','B','C'])
df

Unnamed: 0,A,B,C
1번,1,2,3
2번,4,5,6


In [138]:
df2 = pd.DataFrame(b, index=['1번','2번'], columns=['A','B','C'])
df2

Unnamed: 0,A,B,C
1번,1,2,3
2번,4,5,6


- ### Dictionary 변환하기
    - Dictionary 의 키(key) 는 컬럼명(columns) 으로 , 값(value)은 해당 컬럼 데이터로 변환됨
        - key   ->  문자열
        - value ->  python list 혹은 numpy array 로 dictionary 구성

In [139]:
a = {'key1':[1,2,3], 'key2':[2,3,4],'key3':[3,5,7]} # dictionary
a

{'key1': [1, 2, 3], 'key2': [2, 3, 4], 'key3': [3, 5, 7]}

In [140]:
# key(문자열)는 컬럼명(columns)으로 value(list 혹은 array)는 컬럼 데이터로 매핑됨
df = pd.DataFrame(a)
df

Unnamed: 0,key1,key2,key3
0,1,2,3
1,2,3,5
2,3,4,7


In [141]:
data = {'제목':['유미의 세포들', '기기괴괴', '프리드로우'], 
        '작가':['이동건', '오성대', '전서욱'],
        '장르':['에피소드','옴니버스','스토리']}
data

{'제목': ['유미의 세포들', '기기괴괴', '프리드로우'],
 '작가': ['이동건', '오성대', '전서욱'],
 '장르': ['에피소드', '옴니버스', '스토리']}

In [142]:
type(data)

dict

In [143]:
frame = pd.DataFrame(data)
frame

Unnamed: 0,제목,작가,장르
0,유미의 세포들,이동건,에피소드
1,기기괴괴,오성대,옴니버스
2,프리드로우,전서욱,스토리


- ### 원하는 순서대로 열(column) 을 지정
    - 원하는 순서를 지닌 DataFrame 객체 생성

In [144]:
frame = pd.DataFrame(data)
frame

Unnamed: 0,제목,작가,장르
0,유미의 세포들,이동건,에피소드
1,기기괴괴,오성대,옴니버스
2,프리드로우,전서욱,스토리


In [145]:
frame = pd.DataFrame(data,columns=['장르','제목','작가'])
frame

Unnamed: 0,장르,제목,작가
0,에피소드,유미의 세포들,이동건
1,옴니버스,기기괴괴,오성대
2,스토리,프리드로우,전서욱


- ### 행에 색인(index) 넣기

In [146]:
frame = pd.DataFrame(data)
frame

Unnamed: 0,제목,작가,장르
0,유미의 세포들,이동건,에피소드
1,기기괴괴,오성대,옴니버스
2,프리드로우,전서욱,스토리


In [147]:
frame = pd.DataFrame(data, index =['1번', '2번', '3번'])
frame

Unnamed: 0,제목,작가,장르
1번,유미의 세포들,이동건,에피소드
2번,기기괴괴,오성대,옴니버스
3번,프리드로우,전서욱,스토리


- ### 열(Column) 가져오기
    - 사전 형식의 표기법으로 접근


In [148]:
frame = pd.DataFrame(data, index=['1번', '2번', '3번'])
frame

Unnamed: 0,제목,작가,장르
1번,유미의 세포들,이동건,에피소드
2번,기기괴괴,오성대,옴니버스
3번,프리드로우,전서욱,스토리


In [149]:
frame['제목']

1번    유미의 세포들
2번       기기괴괴
3번      프리드로우
Name: 제목, dtype: object

- ### 행렬전치(Transpose)

In [150]:
frame = pd.DataFrame(data, index=['1번', '2번', '3번'])
frame

Unnamed: 0,제목,작가,장르
1번,유미의 세포들,이동건,에피소드
2번,기기괴괴,오성대,옴니버스
3번,프리드로우,전서욱,스토리


In [151]:
frame.T

Unnamed: 0,1번,2번,3번
제목,유미의 세포들,기기괴괴,프리드로우
작가,이동건,오성대,전서욱
장르,에피소드,옴니버스,스토리


## 3. 데이터 정렬하기
- ### 행의 index 를 기준으로 알파벳 순으로 정렬 : sort_index()

In [152]:
frame = pd.DataFrame([[1,3,2,4],[8,11,1,7],[10,5,29,1]],
                    index =['5번','2번','4번'], columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
2번,8,11,1,7
4번,10,5,29,1


In [153]:
# index 기준으로 정렬하기
frame.sort_index()

Unnamed: 0,B,Z,C,A
2번,8,11,1,7
4번,10,5,29,1
5번,1,3,2,4


In [154]:
# 기본 정렬 방식은 오름차순(ascending)
# 내림차순으로 정렬하고 싶다면 ascending 옵션을 False로 설정
frame.sort_index(ascending=False)

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
4번,10,5,29,1
2번,8,11,1,7


- ### 특정 열의 값에 따라서 행들을 정렬하기 : sort_values()
    - 어떤 컬럼의 값을 기준으로 정렬해야 하는지 명시적으로 설정해야 함
        - sort_values(by=[컬럼명])
        - by 옵션에 정렬 기준이 되는 컬럼명을 입력

In [155]:
frame = pd.DataFrame([[1,3,2,4],[8,11,1,7],[10,5,29,1]],
                    index =['5번','2번','4번'], columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
2번,8,11,1,7
4번,10,5,29,1


In [156]:
# 특정 열의 값을 기준으로 정렬하기
frame.sort_values(by=['Z'])

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
4번,10,5,29,1
2번,8,11,1,7


- ### DataFrame.sort_values (by, axis=0, ascending=True, inplace =False, kind='quicksort', na_position ='last',ignore_index =False, key=None)
    - https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

- ### 특정 열의 값에 따라서 행들을 정렬하기 : sort_values()
    - 내림차순으로 정렬하기

In [157]:
# 특정 열의 값을 기준으로 정렬하기
frame.sort_values(by=['Z'])

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
4번,10,5,29,1
2번,8,11,1,7


In [158]:
# 기본 정렬 방식은 오름차순(ascending)
# 내림차순으로 정렬하고 싶다면 ascending 옵션을 False로 설정
frame.sort_values(by=['Z'],ascending=False)

Unnamed: 0,B,Z,C,A
2번,8,11,1,7
4번,10,5,29,1
5번,1,3,2,4


- ### 특정 열의 값에 따라서 행들을 정렬하기 : sort_values()
    - 여러 개의 열을 기준으로 정렬하기

In [159]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1]],
                    index =['5번','2번','4번'], columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


In [160]:
# 여러 개의 열을 기준으로 정렬하기
# ['Z','C'] 컬럼의 ㄱ밧을 기준으로 정렬
frame.sort_values(by=['B','C'])

Unnamed: 0,B,Z,C,A
4번,1,5,2,1
5번,1,3,20,4
2번,8,11,1,7


In [161]:
frame.sort_values(by=['B'])

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
4번,1,5,2,1
2번,8,11,1,7


## 4. 데이터 삭제하기
- ### <b>특정 행을 삭제 : drop()
    - DataFrame.drop (labels=None, axis=0, index=None,columns=None, level=None, inplace =False, errors='raise')
        - https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html


In [162]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1]],
                    index =['5번','2번','4번'], columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


In [163]:
frame.drop(labels=['5번','2번'], axis=0)

Unnamed: 0,B,Z,C,A
4번,1,5,2,1


In [164]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1]],
                    index =['5번','2번','4번'], columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


In [165]:
frame.drop(['5번','2번'])

Unnamed: 0,B,Z,C,A
4번,1,5,2,1


In [166]:
frame.drop(labels=['5번','2번'],axis=0)

Unnamed: 0,B,Z,C,A
4번,1,5,2,1


- ### <b>특정 열을 삭제 : drop()
    - DataFrame.drop (labels=None, axis=0, index=None,columns=None, level=None, inplace =False, errors='raise')
        - https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html


In [167]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1]],
                    index =['5번','2번','4번'], columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


In [168]:
frame.drop(labels=['Z','A'],axis=1)

Unnamed: 0,B,C
5번,1,20
2번,8,1
4번,1,2


## 5. 데이터 조회하기
- ### DataFrame 에서 원하는 구간만 확인하기
    - head(n): 첫 n 개의 행만 보기 (기본값 :head(5))

In [169]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1],[1,2,3,4],[1,3,5,7],[2,4,6,8]],
                    index =['5번','2번','4번','10번','3번','15번'], columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


In [170]:
# 첫 3개의 행 보기
frame.head(3)

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


- ### DataFrame 에서 원하는 구간만 확인하기
    - tail(n): 뒷 n 개의 행만 보기

In [171]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1],
                      [1,2,3,4],[1,3,5,7],[2,4,6,8]],
                    index =['5번','2번','4번','10번','3번','15번'], 
                     columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


In [172]:
# 뒷 3개의 행 보기
frame.tail(3)

Unnamed: 0,B,Z,C,A
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


- ### 레이블 인덱싱 : loc[label]
    - loc [index명] 혹은 loc [index명, columns명]
    - 레이블을 기반으로 데이터를 조회함

In [173]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1],
                      [1,2,3,4],[1,3,5,7],[2,4,6,8]],
                    index =['5번','2번','4번','10번','3번','15번'], 
                     columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


In [174]:
frame.loc['10번']        # '10번' 행에 접근

B    1
Z    2
C    3
A    4
Name: 10번, dtype: int64

In [175]:
frame.loc['10번', 'C']   # '10번' 행의 'C'열에 해당하는 요소에 접근

3

- ### 위치 인덱싱 : iloc[position]
    - iloc [행 index] 혹은 iloc [행 index, 열 index]
    - 위치 정수를 기반으로 데이터를 조회함

In [176]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1],
                      [1,2,3,4],[1,3,5,7],[2,4,6,8]],
                    index =['5번','2번','4번','10번','3번','15번'], 
                     columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


In [177]:
frame.loc['10번','C']   # '10번' 행의 'C'열에 해당하는 요소에 접근

3

In [178]:
frame.iloc[3]   # index 3에 해당하는 행에 접근

B    1
Z    2
C    3
A    4
Name: 10번, dtype: int64

In [179]:
frame.iloc[3,2] # index 3에 해당하는 행, 2에 해당하는 열에 접근

3

## 6. 데이터 세기
- ### value_counts
    - 어떤 열 (column)/Series 의 unique value 들을 count
        - index: unique value 들 & 각 index 에 해당하는 count 결과 값
        - https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html

In [180]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1],
                      [1,2,3,4],[1,3,5,7],[2,4,6,8]],
                    index =['5번','2번','4번','10번','3번','15번'], 
                     columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


In [181]:
# 'B'라는 컬럼명를 가진 열의 unique한 데이터 개수 세기
frame['B'].value_counts()

1    4
2    1
8    1
Name: B, dtype: int64

## 7. 데이터 읽고 쓰기
- ### 데이터 읽어 오기
    - ### 외부 데이터 읽기
        - Pandas 는 CSV, 텍스트 , Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 DataFrame 을 생성할 수 있음
        - 예를 들어 csv 파일의 경우
            - pandas.read_csv (csv 파일명)
                - Ex. df= pd.read_csv ('incheon.csv')
                - Ex. df= pd.read_csv ('C:\users\username\Desktop\Incheon.csv')
- ### 확인하는 방법
    - pd.read 함수 사용
![ex06](./img/ex06.png)
- ### 데이터 쓰기
    - ### 파일로 저장하기
        - pandas.to_csv () 이용하여 csv 파일로 저장하기


In [182]:
import pandas as pd

frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1],
                      [1,2,3,4],[1,3,5,7],[2,4,6,8]],
                    index =['5번','2번','4번','10번','3번','15번'], 
                     columns=['B','Z','C','A'])
frame.to_csv('example.csv') # csv 파일로 쓰기

<b>코드를 실행하면 작업 폴더에 example.csv 파일 생성된 것을 알 수 있음.</b>
![ex07](./img/ex07.png)

In [183]:
data = pd.read_csv('example.csv')
data

Unnamed: 0.1,Unnamed: 0,B,Z,C,A
0,5번,1,3,20,4
1,2번,8,11,1,7
2,4번,1,5,2,1
3,10번,1,2,3,4
4,3번,1,3,5,7
5,15번,2,4,6,8
