## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
    ` 행과 열을 섞어서 추출함.
    ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + df.loc[] : 인덱스(순서)와 명칭으로 추출
    + df.iloc[] : 인덱스(순서)로 추출
    + df.ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (* 그러나 곧 사라질 예정 )

    [참고] 
    
    - 위 3 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

한번 쭉 훑어보기

In [1]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }


In [8]:
df = pd.DataFrame(mydata)
df

Unnamed: 0,0
name,"[홍길동, 박길동, 김길동]"
age,"[22, 33, 44]"
dept,"[컴공, 국어, 산업]"


In [11]:
# 인덱스 추출
df.index
# 데이터값 추출
df.values
# 키값 추출
df.keys()

RangeIndex(start=0, stop=1, step=1)

In [12]:
# 컬럼 얻기 = keys()
df.columns

RangeIndex(start=0, stop=1, step=1)

In [17]:
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }
df3 = pd.DataFrame(mydata, index=['일','이','삼'])
df3

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [18]:
# Series 에서는 안되던 것. 기존 키-밸류에 따로 인덱스를 부여했을 때 !!
df3.index

Index(['일', '이', '삼'], dtype='object')

In [19]:
df3

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


### 컬럼 추가, 행 추가

In [20]:
# 컬럼 추가, 기존에 없는 컬럼명이면 추가가 됨
df3['gender'] = ['여자', '남자', '여자']
df3

Unnamed: 0,name,age,dept,gender
일,홍길동,22,컴공,여자
이,박길동,33,국어,남자
삼,김길동,44,산업,여자


In [21]:
# 기존에 있는 컬럼명이면 update
df3['dept'] = ['보건', '복지', '컴공']
df3

Unnamed: 0,name,age,dept,gender
일,홍길동,22,보건,여자
이,박길동,33,복지,남자
삼,김길동,44,컴공,여자


In [22]:
# 개수가 안 맞으면 에러 error
df3['dept'] = ['컴공']
df3

ValueError: Length of values does not match length of index

In [3]:
# 행 추가


In [4]:
# 행 추가


### 변경

In [5]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다


In [6]:
# 컬럼연산


In [7]:
# 5 행에 'dept'열의 값을 '인문'으로 변경




###  컬럼 속성 추출

In [8]:
# 컬럼 속성 추출


In [9]:
# 특정 컬럼의 특정행 추출 -> 즉 특정셀 추출


In [10]:
# 30세 이상의 레코드 겁색


In [11]:
# 박길동을 박가로 변경하려면?


## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다

- 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출

2. iloc[] : 인덱스로 추출

3. ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [12]:
# 명칭기반 인덱스 : 문자열이 인덱스인 경우
# ?df.reset_index


In [13]:
# 특정 컬럼으로 인덱스를 지정


### 정렬과 T

In [14]:
# 나이를 오름차순으로
# df.sort_index(ascending=0)   # 인덱스 정렬 기본값이 ascending=1





# 전문가들은 원본이 변경하지 않는 것을 권장

### 정보확인

In [15]:
# 총 데이터 건수와 데이타 타입등 정보 확인


In [16]:
# 기본통계량 구하기 ( 총개수, 평균, 표준편차, 최소값, 4분위수 등)
