## 파이썬의 본격 시작, 판다스 


### 파이썬에서 가장 핵심적인 데이터 분석 도구

**판다스**(pandas)는 파이썬을 활용해 데이터를 다루는 프로젝트라면 어디든 빠지지 않고 등장하는 유명 라이브러리이다. 
외부 데이터의 추출과 정제, 가공, 통계분석, 시각화까지 데이터 분석에 필요한 대부분의 기능들을 가지고 있다.
최근 빅데이터가 주목을 받으며 관련 파이썬 라이브러리들이 생겨나고 있는데, 많은 경우 판다스의 데이터 형식과 구조에 의존하고 있다.
파이썬 기반의 데이터 분석 분야에서는 판다스가 가장 기본적이고 핵심적인 위치에 있다고 할 수 있다.

### 엑셀이 답답해지는 순간, 코딩의 문이 열린다

어떤 직종이든 숫자를 다뤄야하는 사무직이라면 실무의 알파이자 오메가는 엑셀 작업일 것이다. 엑셀은 우수한 데이터 분석/관리 도구임에 틀림없다. 그럼에도 엑셀은 '무겁다'. 데이터의 양이 일정 수준을 넘어가면 버벅거리고 느려지기 시작한다. 또한 데이터를 가공하고 분석하는 로직이 복잡할 수록 사용하기가 어려워진다. 수없이 시트를 만들고 셀마다 함수로 도배를 하게 된다. 

여기서 만약 로직이나 핵심적인 변수들이 바뀌게 되면 더 골치가 아프다. 같은 파일을 하나 더 만들어서 시트를 하나씩 열어보며 다시 가공/분석 작업을 수행해야 한다. 대용량 데이터에 대해 다양한 케이스 분석을 해야한다면 수십메가짜리 엑셀파일이 수십개씩 쌓여나가게 된다.

빅데이터의 시대에 접어들면서 우리 사무직들이 다뤄야할 데이터의 양과 복잡도는 점차 늘어나게 될 것이다. 물론 소규모의 단순한 분석 수준의 반복 작업에서는 앞으로도 엑셀의 효율성을 대체하긴 어려울 것이다. 하지만 엑셀이 가끔 동작을 멈추고 vlookup과 피벗테이블로도 해결이 안되는 문제에 직면했을 때가 바로 **엑셀 대신 파이썬**을 요청해야 하는 순간이다.


### 직장인 코딩의 첫 걸음은 판다스로부터

판다스는 엑셀로 할 수 있는 거의 모든 일을 대체할 수 있다. 게다가 더 간단하고, 빠르게 작업이 가능하다. 심지어 파이썬의 다른 라이브러리들과 연계해 업무 자동화, 고급 통계분석 등으로 이어나갈 수도 있다. 실무에 직접 도움이 되는 직장인 코딩은 판다스에서부터 본격적으로 시작된다.

판다스를 쓴다고 해서 엑셀을 버릴 수 있는 것은 아니다. 여전히 회사의 업무시스템은 엑셀 베이스로 데이터를 제공하고 있을 것이고, 아마도 내가 아닌 모든 동료들과의 공동작업은 엑셀로 할 수 밖에 없는 환경이다. 

그럴 때는 가장 날것의 데이터와 양식들만 엑셀로 남겨두고, 연산과 분석 작업을 코딩으로 수행하면 된다. 수없이 많은 보조시트와 함수들을 단 몇줄의 코드로 대체할 수 있다. 로직이 바뀌어도 해당되는 핵심코드만 바꿔 끼우면 쉽게 변용이 가능하다. 같은 작업이 매일 반복된다면 금상첨화다. 엔터 한번으로 모든 것을 자동화 할 수도 있다.

## 1. 데이터프레임의 특징
* 2차원(행과 열) 데이터를 표현하기 위한 자료형
* 하나의 데이터프레임은 하나의 엑셀시트와 동일한데, 각 행과 열의 명칭이 별도로 붙어있다는 것이 특징


## 2. 데이터프레임의 구조
### 1) 자료값(value) 
 * 행렬 형태의 2차원 자료의 내용물
 * 행(row) : 주로 자료의 각 단위(횡단면자료는 사람/기업/국가 등, 시계열자료는 시점/기간)로 구성
 * 열(column) : 주로 자료의 각 특성(이름,금액,횟수 등)으로 구성

### 2) 인덱스(index)
 * 각 행을 구분하는 명칭을 순서대로 나열한 객체로, 자료값의 좌측에 위치되
 * 인덱스를 별도로 지정하지 않으면 0,1,2,...로 이어지는 행번호를 자동 지정
 * 로우 레이블(row label)이라고도 함

### 3) 컬럼명(columns)
 * 각 열을 구분하는 명칭을 순서대로 나열한 객체로, 자료값의 상단에 위치함
 * 컬럼명을 별도로 지정하지 않으면 0,1,2,...로 이어지는 열번호를 자동 지정
 * 칼럼 레이블(column label)이라고도 함

  
### 예시

In [1]:
import pandas as pd           # 라이브러리 불러오기

val = [['개',4,'멍멍'],       # 자료값을 변수(val)에 저장
       ['닭',2,'꼬꼬'],
       ['벌',6,'붕붕']]

df1 = pd.DataFrame(val)       # 데이터프레임 생성 후 변수(df1)에 저장
df1                           # 변수 df1 출력하기

Unnamed: 0,0,1,2
0,개,4,멍멍
1,닭,2,꼬꼬
2,벌,6,붕붕


In [2]:
val2 = [[4,'멍멍'],            
       [2,'꼬꼬'],
       [6,'붕붕']]
id  = ['개','닭','벌']
col = ['다리수','울음소리']

df2 = pd.DataFrame(val2, index=id, columns=col)
df2

Unnamed: 0,다리수,울음소리
개,4,멍멍
닭,2,꼬꼬
벌,6,붕붕


## 3. 데이터프레임의 생성

### 1) 데이터를 직접 입력하는 경우

#### a. 행 단위로 자료값 입력 (리스트 of 리스트 활용)
* 앞선 예시 참조

#### b. 열 단위로 자료값 입력 (딕셔너리 활용)

In [3]:
var3 = {'종류'     : ['개','닭','벌'],
        '다리수'   : [4,2,6],
        '울음소리' : ['멍멍','꼬꼬','붕붕']}

df3 = pd.DataFrame(var3)       # 데이터프레임 생성 후 변수(df1)에 저장
df3

Unnamed: 0,종류,다리수,울음소리
0,개,4,멍멍
1,닭,2,꼬꼬
2,벌,6,붕붕




### 2) 외부데이터를 불러오는 경우

#### a. 엑셀파일 불러오기

In [None]:
df4 = pd.read_excel('https://maeng-gun.github.io/pandas/raw_data_1.xlsx', thousands=',')
df4

#### b. CSV 파일 불러오기

In [None]:
df5 = pd.read_csv('https://maeng-gun.github.io/pandas/raw_data_2.csv', thousands=',', compression='gzip')
df5

#### c. 클립보드에서 불러오기 (엑셀 복사 범위)
* 로컬 환경에서만 쓸 수 있고, 구글코랩에서는 에러 발생
* 활성화된 엑셀 시트에서 특정 범위를 직접 복사(Ctrl + C)한 뒤, 판다스 데이터프레임으로 변환하는 방식

In [None]:
df6 = pd.read_clipboard(thousands=',')
df6