## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
    ` 행과 열을 섞어서 추출함.
    ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + df.loc[] : 인덱스(순서)와 명칭으로 추출
    + df.iloc[] : 인덱스(순서)로 추출
    + df.ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (* 그러나 곧 사라질 예정 )

    [참고] 
    
    - 위 3 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

한번 쭉 훑어보기

In [2]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }
df = pd.DataFrame(mydata)
df                 

# 인덱스 지정도 가능 
df3=pd.DataFrame(mydata, index=['일','이','삼'])

In [3]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [4]:
df.columns

Index(['name', 'age', 'dept'], dtype='object')

In [5]:
df.values

array([['홍길동', 22, '컴공'],
       ['박길동', 33, '국어'],
       ['김길동', 44, '산업']], dtype=object)

### 컬럼 추가, 행 추가

In [6]:
# 컬럼 추가
df['gender'] = ['여자','여자','남자']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여자
1,박길동,33,국어,여자
2,김길동,44,산업,남자


In [7]:
# 행 추가
df.loc[3] = ['이길동',55, '기계', '남자']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여자
1,박길동,33,국어,여자
2,김길동,44,산업,남자
3,이길동,55,기계,남자


In [8]:
# 행 추가
df.loc[5] = ['장길동',55, '기계', '남자']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여자
1,박길동,33,국어,여자
2,김길동,44,산업,남자
3,이길동,55,기계,남자
5,장길동,55,기계,남자


### 변경

In [9]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다
df = df.reindex(index=[0,2,5,3,1])
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여자
2,김길동,44,산업,남자
5,장길동,55,기계,남자
3,이길동,55,기계,남자
1,박길동,33,국어,여자


In [10]:
# 컬럼연산
df['age+10'] = df['age'] + 10
df

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,컴공,여자,32
2,김길동,44,산업,남자,54
5,장길동,55,기계,남자,65
3,이길동,55,기계,남자,65
1,박길동,33,국어,여자,43


In [12]:
# 5 행에 'dept'열의 값을 '인문'으로 변경
df.loc[5,'dept'] = '인문'
df

# 아래처럼 하면??? 새로운 컬럼이 되는거야??
df[5,'dept']='수학'
df

Unnamed: 0,name,age,dept,gender,age+10,"(5, dept)"
0,홍길동,22,컴공,여자,32,수학
2,김길동,44,산업,남자,54,수학
5,장길동,55,인문,남자,65,수학
3,이길동,55,기계,남자,65,수학
1,박길동,33,국어,여자,43,수학


###  컬럼 속성 추출

In [37]:
# 컬럼 속성 추출
df['dept']
df.dept

df['name']
df.name


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  # This is added back by InteractiveShellApp.init_path()


Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,맹가,33,국어
2,김길동,44,산업


In [40]:
# 특정 컬럼의 특정행 -> 즉 특정셀
df.dept[2]
df['dept'][2]

'산업'

In [5]:
# 30세 이상의 레코드 겁색
# df['age']>30
df[df['age']>30]

Unnamed: 0,name,age,dept
1,박가,33,국어
2,김길동,44,산업


In [None]:
# 박길동을 박가로 변경하려면?
df['name'][1] = '박가'
df
df.name[1] ='맹가'
df
# Warning - df['name']이라고 추출했을 때 원본이 아닌 복사인가??

## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다

- 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출

2. iloc[] : 인덱스로 추출

3. ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [54]:
#df.loc[2]
# df.iloc[2]

# df.loc[1,2]  -> 에러
# df.iloc[1,2]

'국어'

In [67]:
# 명칭기반 인덱스 : 문자열이 인덱스인 경우
# ?df.reset_index

df3

df3.loc['일']
# df3.iloc['일'] -> 에러

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """


TypeError: Cannot index by location index with a non-integer key

In [86]:
# 특정 컬럼으로 인덱스를 지정
df.set_index('name')
df.index

# 원본 데이타프레임에 적용해야 한다
# 다시 실행하려면 df 데이타프레임을 다시 생성 후
df2 = df.set_index('name')
df2.index
df2.loc['홍길동']
# df2.iloc['홍길동'] -> 에러

# df.set_index('name', inplace=True) # inplcace=True 원본적용
# df.index
# df.loc['홍길동']

TypeError: Cannot index by location index with a non-integer key

### 정렬과 T

In [81]:
# 나이를 오름차순으로
# df.sort_index(ascending=0)   # 인덱스 정렬 기본값이 ascending=1
df.sort_values('age', ascending=0) # 값으로 정렬
df   # 원본은 안 바뀐다

df_sorted = df.sort_values('age', ascending=0)
df_sorted        # 권장

df.sort_values('age', ascending=0, inplace=True)
df               # 전문가들은 원본이 변경하지 않는 것을 권장

Unnamed: 0,name,age,dept
2,김길동,44,산업
1,박길동,33,국어
0,홍길동,22,컴공


In [13]:
df.T

Unnamed: 0,0,1,2,3,5
name,홍길동,박가,김길동,이길동,장길동
age,22,33,44,55,55
dept,컴공,국어,산업,기계,기계
gender,여자,여자,남자,남자,남자


### 정보확인

In [14]:
# 총 데이터 건수와 데이타 타입등 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 0 to 5
Data columns (total 4 columns):
name      5 non-null object
age       5 non-null int64
dept      5 non-null object
gender    5 non-null object
dtypes: int64(1), object(3)
memory usage: 360.0+ bytes


In [15]:
# 기본통계량 구하기 ( 총개수, 평균, 표준편차, 최소값, 4분위수 등)
df.describe()

# 숫자형에 한에 기본통계량이 확인

Unnamed: 0,age
count,5.0
mean,41.8
std,14.342245
min,22.0
25%,33.0
50%,44.0
75%,55.0
max,55.0
