## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
    ` 행과 열을 섞어서 추출함.
    ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + df.loc[] : 인덱스(순서)와 명칭으로 추출
    + df.iloc[] : 인덱스(순서)로 추출
    + df.ix[] : 명칭 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (* 그러나 곧 사라질 예정 )

    [참고] 
    
    - 위 3 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

In [2]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }

df = pd.DataFrame(mydata)
df


Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,박길동,33,국어
2,김길동,44,산업


In [3]:
#이름만 추출(열)
df.name
df['name']

0    홍길동
1    박길동
2    김길동
Name: name, dtype: object

In [4]:
print(df.loc[2])
print(df.iloc[2])

name    김길동
age      44
dept     산업
Name: 2, dtype: object
name    김길동
age      44
dept     산업
Name: 2, dtype: object


In [5]:
# 값만 추출
print('df.values:',df.values)

# 컬럼명 추출
print('df.columns: ', df.columns)
print('df.keys(): ', df.keys())
print('df.keys: ', df.keys)
# 인텍스만 추출
print('df.index: ', df.index)

df.values: [['홍길동' 22 '컴공']
 ['박길동' 33 '국어']
 ['김길동' 44 '산업']]
df.columns:  Index(['name', 'age', 'dept'], dtype='object')
df.keys():  Index(['name', 'age', 'dept'], dtype='object')
df.keys:  <bound method NDFrame.keys of   name  age dept
0  홍길동   22   컴공
1  박길동   33   국어
2  김길동   44   산업>
df.index:  RangeIndex(start=0, stop=3, step=1)


In [6]:
df2 = pd.DataFrame(mydata, index=['일', '이', '삼'])
df2

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [7]:
# 박길동 접근
df2.loc['이']['name']

'박길동'

### 컬럼 추가, 행 추가

In [8]:
# 컬럼 추가
df['gender'] = ['여', '남', '여']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여
1,박길동,33,국어,남
2,김길동,44,산업,여


In [9]:
# 행 추가
df.loc[3] = ['박길동', 33, '컴공', '남']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여
1,박길동,33,국어,남
2,김길동,44,산업,여
3,박길동,33,컴공,남


In [10]:
# 행 추가
df.loc[9] = ['고길동', 33, '컴공', '남']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여
1,박길동,33,국어,남
2,김길동,44,산업,여
3,박길동,33,컴공,남
9,고길동,33,컴공,남


### 변경

In [11]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다 ***********조심
df = df.reindex(index=[0,2,5,3,1])
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22.0,컴공,여
2,김길동,44.0,산업,여
5,,,,
3,박길동,33.0,컴공,남
1,박길동,33.0,국어,남


In [12]:
# 컬럼연산
df['age+10']= df['age']+10
df

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22.0,컴공,여,32.0
2,김길동,44.0,산업,여,54.0
5,,,,,
3,박길동,33.0,컴공,남,43.0
1,박길동,33.0,국어,남,43.0


In [13]:
# 5 행에 'dept'열의 값을 '인문'으로 변경
#df['dept'][5]='인문'
df.loc[5,'dept']='인문2'
df


Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22.0,컴공,여,32.0
2,김길동,44.0,산업,여,54.0
5,,,인문2,,
3,박길동,33.0,컴공,남,43.0
1,박길동,33.0,국어,남,43.0


###  컬럼 속성 추출

In [14]:
# 컬럼 속성 추출
df['gender']
df.gender

0      여
2      여
5    NaN
3      남
1      남
Name: gender, dtype: object

In [15]:
# 특정 컬럼의 특정행 추출 -> 즉 특정셀 추출 (2번 인덱스의 dept 컬럼값은? )
df.loc[2, 'dept']
df.loc[2]['dept']
df.loc[2].dept
df['dept'][2]
df.dept[2]

'산업'

In [16]:
# 30세 이상의 레코드 겁색
print(df['age']>=30)
# boolean 값 출력(True만 출력 : df[True인 값])
df[df['age']>=30]
    

0    False
2     True
5    False
3     True
1     True
Name: age, dtype: bool


Unnamed: 0,name,age,dept,gender,age+10
2,김길동,44.0,산업,여,54.0
3,박길동,33.0,컴공,남,43.0
1,박길동,33.0,국어,남,43.0


In [20]:
# 인덱스 1의 name 값을 '맹길동'로 변경하려면?
df.loc[1, 'name']='맹길동'
df
df[1, 'name']='최길동'
df[33]='삭제좀'
a=df.drop([(1, 'name'), 33], axis=1)
a

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22.0,컴공,여,32.0
2,김길동,44.0,산업,여,54.0
5,,,인문2,,
3,박길동,33.0,컴공,남,43.0
1,맹길동,33.0,국어,남,43.0


## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다

- 판다스의 DataFrame와 Series에서도 다른 부분이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출

2. iloc[] : 인덱스로 추출

3. ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [27]:
print(df.loc[1]) #명칭으로 취금 '1'이라고 써있는 것
print('-'*50)
print(df.iloc[1]) # 순수 index로 취급 0번째 다음에 있는 1번째 것을 가져옴

name         맹길동
age           33
dept          국어
gender         남
age+10        43
(1, name)    최길동
33           삭제좀
Name: 1, dtype: object
--------------------------------------------------
name         김길동
age           44
dept          산업
gender         여
age+10        54
(1, name)    최길동
33           삭제좀
Name: 2, dtype: object


In [43]:
print(df.loc[1,'dept']) # 이름으로 가져온다
print('-'*50)
print(df.iloc[1,2]) # 레알 index번호로 가져온다
df

국어
--------------------------------------------------
산업


Unnamed: 0,name,age,dept,gender,age+10,"(1, name)",33
0,홍길동,22.0,컴공,여,32.0,최길동,삭제좀
2,김길동,44.0,산업,여,54.0,최길동,삭제좀
5,,,인문2,,,최길동,삭제좀
3,박길동,33.0,컴공,남,43.0,최길동,삭제좀
1,맹길동,33.0,국어,남,43.0,최길동,삭제좀


In [41]:
# 명칭기반 인덱스 : 문자열이 인덱스인 경우
df2 = pd.DataFrame(mydata, index=['일', '이', '삼'])
df2.loc['이']
df2.iloc[1]

name    박길동
age      33
dept     국어
Name: 이, dtype: object

In [42]:
# 특정 컬럼으로 인덱스를 지정
df2.set_index('name', inplace=True)
df2

Unnamed: 0_level_0,age,dept
name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,22,컴공
박길동,33,국어
김길동,44,산업


### inplace 속성: 원본에 적용하기
그러나 전문가들은 신중하게 사용하라고 권장!!

- df = df.set_index()
- df

위와 같은 방식을 더 권장


### 정렬과 T

In [50]:
# 나이를 오름차순으로 (sort_values())
df.sort_index(ascending=1)   # 인덱스 정렬 기본값이 ascending=1





# 전문가들은 원본이 변경하지 않는 것을 권장

Unnamed: 0,name,age,dept,gender,age+10,"(1, name)",33
0,홍길동,22.0,컴공,여,32.0,최길동,삭제좀
1,맹길동,33.0,국어,남,43.0,최길동,삭제좀
2,김길동,44.0,산업,여,54.0,최길동,삭제좀
3,박길동,33.0,컴공,남,43.0,최길동,삭제좀
5,,,인문2,,,최길동,삭제좀


In [36]:
# 행과 열을 바꿈
df.T

Unnamed: 0,0,2,5,3,1
name,홍길동,김길동,,박길동,맹길동
age,22,44,,33,33
dept,컴공,산업,인문2,컴공,국어
gender,여,여,,남,남
age+10,32,54,,43,43
"(1, name)",최길동,최길동,최길동,최길동,최길동
33,삭제좀,삭제좀,삭제좀,삭제좀,삭제좀


### 정보확인

In [None]:
# 총 데이터 건수와 데이타 타입등 정보 확인
df.info()

In [None]:
# 기본통계량 구하기 ( 총개수, 평균, 표준편차, 최소값, 4분위수 등) 수치만 나옴
df.describe()