## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
    ` 행과 열을 섞어서 추출함.
    ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + df.loc[] : 인덱스(순서)와 명칭으로 추출
    + df.iloc[] : 인덱스(순서)로 추출
    + df.ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (* 그러나 곧 사라질 예정 )

    [참고] 
    
    - 위 3 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

한번 쭉 훑어보기

In [1]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }
print(type(mydata))
df = pd.DataFrame(mydata)
type(df) #pandas.core.frame.DataFrame
df


<class 'dict'>


Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,박길동,33,국어
2,김길동,44,산업


In [2]:
# 인덱스만 추출
df.index
# 데이터 값들 추출
df.values
print(type(df.values)) #<class 'numpy.ndarray'>
# 키값 추출
print(df.keys()) #Index(['name', 'age', 'dept'], dtype='object')

# 컬럼명
print(df.columns) #Index(['name', 'age', 'dept'], dtype='object')

<class 'numpy.ndarray'>
Index(['name', 'age', 'dept'], dtype='object')
Index(['name', 'age', 'dept'], dtype='object')


In [3]:
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }
df3 = pd.DataFrame(mydata, index = ['일','이','삼'])
df3

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [4]:
df3.index

Index(['일', '이', '삼'], dtype='object')

### 컬럼 추가, 행 추가

In [5]:
# 컬럼 추가
df['gender']=['여자','남자','여자']
df['dept']=['수학','통계','공대']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,수학,여자
1,박길동,33,통계,남자
2,김길동,44,공대,여자


In [6]:
# 행 추가
df.loc[3]=['홍홍이',55,'컴공','남자']
df



Unnamed: 0,name,age,dept,gender
0,홍길동,22,수학,여자
1,박길동,33,통계,남자
2,김길동,44,공대,여자
3,홍홍이,55,컴공,남자


In [7]:
# 행 추가
df.loc[7]=['이길동',55,'컴공','여자']
df

df.loc[5] = ['동동이',55,'컴공','여자']
df

df.iloc[4] =  ['방방이',55,'컴공','여자'] #4번째 index내용을 바꿈
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,수학,여자
1,박길동,33,통계,남자
2,김길동,44,공대,여자
3,홍홍이,55,컴공,남자
7,방방이,55,컴공,여자
5,동동이,55,컴공,여자


### 변경

In [8]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다
df = df.reindex(index=[7,0,2,5,1])
df

Unnamed: 0,name,age,dept,gender
7,방방이,55,컴공,여자
0,홍길동,22,수학,여자
2,김길동,44,공대,여자
5,동동이,55,컴공,여자
1,박길동,33,통계,남자


In [9]:
# 컬럼연산
df['age+10'] = df['age'] + 10
df

Unnamed: 0,name,age,dept,gender,age+10
7,방방이,55,컴공,여자,65
0,홍길동,22,수학,여자,32
2,김길동,44,공대,여자,54
5,동동이,55,컴공,여자,65
1,박길동,33,통계,남자,43


In [10]:
# 인덱스 5에 'dept'열의 값을 '인문'으로 변경
df['dept'].loc[5] = '인문'
df

df.loc[5,'dept'] ='과학'
df


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)


Unnamed: 0,name,age,dept,gender,age+10
7,방방이,55,컴공,여자,65
0,홍길동,22,수학,여자,32
2,김길동,44,공대,여자,54
5,동동이,55,과학,여자,65
1,박길동,33,통계,남자,43


###  컬럼 속성 추출

In [11]:
# 컬럼 속성 추출
df.dept

df['dept']

7    컴공
0    수학
2    공대
5    과학
1    통계
Name: dept, dtype: object

In [12]:
# 특정 컬럼의 특정행 추출 -> 즉 특정셀 추출 (2 인덱스의 dept 컬럼값을 추출)
df['dept'][1]
df.dept[2]

'공대'

In [13]:
# 30세 이상의 레코드 검색
df['age']>=30 #bool나옴

df[df['age']>=30] # 데이터 나옴

Unnamed: 0,name,age,dept,gender,age+10
7,방방이,55,컴공,여자,65
2,김길동,44,공대,여자,54
5,동동이,55,과학,여자,65
1,박길동,33,통계,남자,43


In [14]:
# 1번 인덱스의 name 값을 박가로 변경하려면?


df[1,'name'] = '박가'
#df.loc[1,'name'] = '박가'
df



Unnamed: 0,name,age,dept,gender,age+10,"(1, name)"
7,방방이,55,컴공,여자,65,박가
0,홍길동,22,수학,여자,32,박가
2,김길동,44,공대,여자,54,박가
5,동동이,55,과학,여자,65,박가
1,박길동,33,통계,남자,43,박가


## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다

- 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출

2. iloc[] : 인덱스로 추출

3. ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [15]:
#인덱스 1의 데이터를 추출
print(df.loc[1])
print('-'*50)
print(df.iloc[1])

name         박길동
age           33
dept          통계
gender        남자
age+10        43
(1, name)     박가
Name: 1, dtype: object
--------------------------------------------------
name         홍길동
age           22
dept          수학
gender        여자
age+10        32
(1, name)     박가
Name: 0, dtype: object


In [16]:
#print(df.loc[1,2]) #에러
print(df.loc[1,'dept'])
print(df.iloc[1,2]) #수학 




통계
수학


In [17]:
# 명칭기반 인덱스 : 문자열이 인덱스인 경우
# ?df.reset_index

df3
df3.loc['일']
#df3.iloc['일'] #안됨

df

df.loc[[7,2]]
df[['name','dept']]
df[['name','dept']].loc[[7,2]]

Unnamed: 0,name,dept
7,방방이,컴공
2,김길동,공대


In [18]:
# 특정 컬럼으로 인덱스를 지정
df.set_index('name') #원본 수정하지 않음

df2 = df.set_index('name') # 전문가들은 이 방식 권장
df2

df.set_index('name',inplace = True) #inplace = True 하면 원본 수정됨.
df

Unnamed: 0_level_0,age,dept,gender,age+10,"(1, name)"
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
방방이,55,컴공,여자,65,박가
홍길동,22,수학,여자,32,박가
김길동,44,공대,여자,54,박가
동동이,55,과학,여자,65,박가
박길동,33,통계,남자,43,박가


### 정렬과 T

-- sort_index() <br/>

-- sort_values()

In [19]:
# 인덱스를  기준으로 오름차순
df.sort_index(ascending=0)   # 인덱스 정렬 기본값이 ascending=1
df

# 나이를 오름차순으로
df2 = df.sort_values('age',ascending=1) 
df2






# 전문가들은 원본이 변경하지 않는 것을 권장

Unnamed: 0_level_0,age,dept,gender,age+10,"(1, name)"
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
홍길동,22,수학,여자,32,박가
박길동,33,통계,남자,43,박가
김길동,44,공대,여자,54,박가
방방이,55,컴공,여자,65,박가
동동이,55,과학,여자,65,박가


In [20]:
df.T # 행,열 변경

name,방방이,홍길동,김길동,동동이,박길동
age,55,22,44,55,33
dept,컴공,수학,공대,과학,통계
gender,여자,여자,여자,여자,남자
age+10,65,32,54,65,43
"(1, name)",박가,박가,박가,박가,박가


### 정보확인

In [21]:
# 총 데이터 건수와 데이타 타입등 정보 확인
df.info

<bound method DataFrame.info of       age dept gender  age+10 (1, name)
name                                   
방방이    55   컴공     여자      65        박가
홍길동    22   수학     여자      32        박가
김길동    44   공대     여자      54        박가
동동이    55   과학     여자      65        박가
박길동    33   통계     남자      43        박가>

In [22]:
# 기본통계량 구하기 ( 총개수, 평균, 표준편차, 최소값, 4분위수 등)
df.describe() #숫자로 되어있는 것만.

Unnamed: 0,age,age+10
count,5.0,5.0
mean,41.8,51.8
std,14.342245,14.342245
min,22.0,32.0
25%,33.0,43.0
50%,44.0,54.0
75%,55.0,65.0
max,55.0,65.0
