# Pandas 학습

## Pandas란?

pandas는 데이터 조작 및 분석을 위한 파이썬 프로그래밍 언어 용으로 작성된 소프트웨어 라이브러리

숫자 테이블과 시계열을 조작하기 위한 데이터 구조와 연산을 제공

## Pandas 라이브러리의 기능

- 통합 인덱싱으로 데이터 조작을 위한 Data Frame 개체
- 메모리 내 데이터 구조 와 다른 파일 형식 간에 데이터를 읽고 쓰는 도구
- 데이터 정렬 및 누락된 데이터의 통합 처리
- 데이터 세트의 재구성 및 피벗
- 레이블 기반 슬라이싱, 멋진 인덱싱 및 대규모 데이터 세트의 하위 집합
- 데이터 구조 열 삽입 및 삭제
- 데이터 세트에 대한 분할-적용-결합 작업을 허용하는 엔진별로 그룹화
- 데이터 세트 병합 및 결합
- 저차원 데이터 구조에서 고차원 데이터로 작업하기 위한 계층적 축 인덱싱
- 시계열 기능: 날짜 범위 생성  및 빈도 변환, 이동 창 통계, 이동 창 선형 회귀, 날짜 이동 및 지연
- 데이터 필터링을 제공


## Pandas 기초 사용법 학습하기 01

### Pandas 라이브러리 Import

Pandas의 Import는 pd라는 명칭으로 하는것이 관례

In [1]:
import pandas as pd

## Pandas의 데이터 구조

Pandas에서 사용하는 기본적인 데이터 구조는 다음과 같음

- 시리즈(Series)
- 데이터프레임(DataFrame)
- 패널(Panel)

### 1) 시리즈(Series)

시리즈 클래스는 1차원 배열의 값(value)에 대응되는 인덱스(index)를 부여할 수 있는 구조를 가짐

In [2]:
sr = pd.Series([17000, 18000, 1000, 5000],
               index=["피자", "치킨", "콜라", "맥주"])
print('시리즈 출력 :')
print('-'*16)
print(sr)

시리즈 출력 :
----------------
피자    17000
치킨    18000
콜라     1000
맥주     5000
dtype: int64


값(values)과 인덱스(index)를 각각 출력할 수 있음

In [3]:
print('시리즈의 값 : {}'.format(sr.values))
print('시리즈의 인덱스 : {}'.format(sr.index))

시리즈의 값 : [17000 18000  1000  5000]
시리즈의 인덱스 : Index(['피자', '치킨', '콜라', '맥주'], dtype='object')


### 2) 데이터프레임(DataFrame)

데이터프레임은 2차원 리스트를 매개변수로 전달

2차원으로 구성되어 있으므로 행방향 인덱스(index)와 열방향 인덱스(column)을 사용

In [4]:
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)

print('데이터프레임 출력 :')
print('-'*16)
print(df)

데이터프레임 출력 :
----------------
       A  B  C
one    1  2  3
two    4  5  6
three  7  8  9


값(values)과 행 인덱스(index), 열 인덱스(column)를 각각 출력할 수 있음

In [10]:
print('데이터프레임의 값 : \n{}'.format(df.values))
print('데이터프레임의 행 인덱스 : {}'.format(df.index))
print('데이터프레임의 열 인덱스 : {}'.format(df.columns))

데이터프레임의 값 : 
[[1 2 3]
 [4 5 6]
 [7 8 9]]
데이터프레임의 행 인덱스 : Index(['one', 'two', 'three'], dtype='object')
데이터프레임의 열 인덱스 : Index(['A', 'B', 'C'], dtype='object')


### 3) 데이터프레임의 생성

데이터프레임은 리스트(List), 시리즈(Series), 딕셔너리(dict), Numpy의 ndarrays, 또 다른 데이터프레임으로부터 생성할 수 있다.

- 리스트로 생성하는 방법

In [11]:
# 리스트로 생성하기
data = [
    ['1000', 'Steve', 90.72], 
    ['1001', 'James', 78.09], 
    ['1002', 'Doyeon', 98.43], 
    ['1003', 'Jane', 64.19], 
    ['1004', 'Pilwoong', 81.30],
    ['1005', 'Tony', 99.14],
]

df = pd.DataFrame(data)
print(df)

      0         1      2
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


미리 생성된 데이터프레임에 열(columns)을 지정해줄 수 있다.

In [12]:
df = pd.DataFrame(data, columns=['학번', '이름', '점수'])
print(df)

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


- 딕셔너리로 생성하는 방법
  - 딕셔너리로 생성 할때는 key 값을 미리 가지고 있으므로 별도의 열(columns)을 생성하지 않아도 된다.

In [13]:
# 딕셔너리로 생성하기
data = {
    '학번' : ['1000', '1001', '1002', '1003', '1004', '1005'],
    '이름' : [ 'Steve', 'James', 'Doyeon', 'Jane', 'Pilwoong', 'Tony'],
    '점수': [90.72, 78.09, 98.43, 64.19, 81.30, 99.14]
    }

df = pd.DataFrame(data)
print(df)

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


### 4) 데이터프레임 조회하기
데이터프레임에서 원하는 구간만 확인하기 위한 명령어

- df.head(n) - 앞 부분을 n개만 보기
- df.tail(n) - 뒷 부분을 n개만 보기
- df['열이름'] - 해당되는 열을 확인

In [14]:
# 앞 부분을 4개만 보기
print(df.head(4))

# 뒷 부분을 4개만 보기
print(df.tail(4))

# '학번'에 해당되는 열을 보기
print(df['학번'])

     학번      이름     점수
0  1000   Steve  90.72
1  1001   James  78.09
2  1002  Doyeon  98.43
3  1003    Jane  64.19
     학번        이름     점수
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14
0    1000
1    1001
2    1002
3    1003
4    1004
5    1005
Name: 학번, dtype: object


### 5) 외부 데이터 읽기

CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성

In [17]:
# csv를 읽고 데이터 프레임 생성

df = pd.read_csv('example.csv')
print(df)

   student id       name   score
0        1000      Steve   90.72
1        1001      James   78.09
2        1002     Doyeon   98.43
3        1003       Jane   64.19
4        1004   Pilwoong   81.30
5        1005       Tony   99.14


In [19]:
# json를 읽고 데이터 프레임 생성

df = pd.read_json('example.json')
print(df)

   student id      name  score
0         100      Tony  90.72
1         101  Pilwoong  98.43
2         102      Jane  64.19
3         103    Doyeon  81.30
4         104     James  99.14
5         105     Steve  78.09
