## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출 -> 사라짐
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
    ` 행과 열을 섞어서 추출함.
    ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + df.loc[] : 인덱스 지정하지 않으면 인덱스(순서), 인덱스 지정하면 인덱스명으로 추출
    + df.iloc[] : 인덱스(순서)로 추출
    + df.ix[] : 명칭 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (* 그러나 곧 사라질 예정 )

    [참고] 
    
    - 위 3 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

In [4]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }
print(type(mydata))

data = pd.DataFrame(mydata)
print(type(data))
print(data)

<class 'dict'>
<class 'pandas.core.frame.DataFrame'>
  name  age dept
0  홍길동   22   컴공
1  박길동   33   국어
2  김길동   44   산업


In [88]:
# 열(컬럼) 추출
data.name
data['name']

0    홍길동
1    맹길동
2    김길동
3    이길동
9    이길동
Name: name, dtype: object

In [10]:
# 행(레코드) 추출
# data[1]
data.loc[1]
# data.iloc[1]

name    박길동
age      33
dept     국어
Name: 1, dtype: object

In [24]:
data2 = pd.DataFrame(mydata,index=['일','이','삼'])
data2
# data2.loc['이']
# data2.iloc[2]

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


### 컬럼 추가, 행 추가

***[주의] 지금은 쉬워 보일수 있으나, 추후에 추구하는 함수를 검색하고 시간을 허비함***

In [67]:
# 컬럼 추가, 행 추가
# data['gender']=['여자','남자','여자']
data

Unnamed: 0,name,age,dept,gemder,gender,age+10,"(3, dept)"
0,홍길동,22,컴공,여자,여자,32,인문
1,박길동,33,국어,남자,남자,43,인문
2,김길동,44,산업,여자,여자,54,인문
3,이길동,55,산업,남자,남자,65,인문
9,이길동,55,기계,남자,남자,65,인문


In [29]:
# 행 추가
data.loc[3] = ['이길동',55,'기계','남자','남자']

In [41]:
# 행 추가
# data.iloc[10] = ['김길동',55,'기계','남자','남자']
data.drop('gemder', axis=1) #컬럼제거
data

Unnamed: 0,name,age,dept,gemder,gender
0,홍길동,22,컴공,여자,여자
1,박길동,33,국어,남자,남자
2,김길동,44,산업,여자,여자
3,이길동,55,기계,남자,남자
9,이길동,55,기계,남자,남자


### 변경

In [43]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다

data2 = data.reindex(index=[2,3,0,1,5])
data2

Unnamed: 0,name,age,dept,gemder,gender
2,김길동,44.0,산업,여자,여자
3,이길동,55.0,기계,남자,남자
0,홍길동,22.0,컴공,여자,여자
1,박길동,33.0,국어,남자,남자
5,,,,,


In [66]:
data

Unnamed: 0,name,age,dept,gemder,gender,age+10,"(3, dept)"
0,홍길동,22,컴공,여자,여자,32,인문
1,박길동,33,국어,남자,남자,43,인문
2,김길동,44,산업,여자,여자,54,인문
3,이길동,55,산업,남자,남자,65,인문
9,이길동,55,기계,남자,남자,65,인문


In [49]:
# 컬럼연산
data['age+10']= data['age']+10
data

Unnamed: 0,name,age,dept,gemder,gender,age+10
0,홍길동,22,컴공,여자,여자,32
1,박길동,33,국어,남자,남자,43
2,김길동,44,산업,여자,여자,54
3,이길동,55,기계,남자,남자,65
9,이길동,55,기계,남자,남자,65


In [68]:
# 3행 에 'dept'열의 값을 '인문'으로 변경
data.loc[3,'dept'] = '산업'
data
data[3,'dept']='인문'
data


Unnamed: 0,name,age,dept,gemder,gender,age+10,"(3, dept)"
0,홍길동,22,컴공,여자,여자,32,인문
1,박길동,33,국어,남자,남자,43,인문
2,김길동,44,산업,여자,여자,54,인문
3,이길동,55,산업,남자,남자,65,인문
9,이길동,55,기계,남자,남자,65,인문


###  컬럼 속성 추출

In [70]:
# 컬럼 속성 추출
data.name
data['name']


0    홍길동
1    박길동
2    김길동
3    이길동
9    이길동
Name: name, dtype: object

In [81]:
# 특정 컬럼의 특정행 추출 -> 즉 특정셀 추출 (2번 인덱스의 dept 컬럼값은? )
data.dept[2]
data.loc[2,'dept']

'산업'

In [86]:
# 30세 이상의 레코드 겁색
datas = data.age > 30
datas
data[data.age>30]

Unnamed: 0,name,age,dept,gemder,gender,age+10,"(3, dept)"
1,맹길동,33,국어,남자,남자,43,인문
2,김길동,44,산업,여자,여자,54,인문
3,이길동,55,산업,남자,남자,65,인문
9,이길동,55,기계,남자,남자,65,인문


In [91]:
# 인덱스 1의 name 값을 '맹길동'로 변경하려면?
# data.loc[1,'name'] ='박길동'
data
data['name'][9] = '박길동'
data

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['name'][9] = '박길동'


Unnamed: 0,name,age,dept,gemder,gender,age+10,"(3, dept)"
0,홍길동,22,컴공,여자,여자,32,인문
1,맹길동,33,국어,남자,남자,43,인문
2,김길동,44,산업,여자,여자,54,인문
3,이길동,55,산업,남자,남자,65,인문
9,박길동,55,기계,남자,남자,65,인문


## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다

- 판다스의 DataFrame와 Series에서도 다른 부분이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출

2. iloc[] : 인덱스로 추출

3. ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [101]:
print(data)
print(type(data))
print(data.loc[1])
print(type(data.loc[1]))

  name  age dept gemder gender  age+10 (3, dept)
0  홍길동   22   컴공     여자     여자      32        인문
1  맹길동   33   국어     남자     남자      43        인문
2  김길동   44   산업     여자     여자      54        인문
3  이길동   55   산업     남자     남자      65        인문
9  박길동   55   기계     남자     남자      65        인문
<class 'pandas.core.frame.DataFrame'>
name         맹길동
age           33
dept          국어
gemder        남자
gender        남자
age+10        43
(3, dept)     인문
Name: 1, dtype: object
<class 'pandas.core.series.Series'>


In [12]:
# 명칭기반 인덱스 : 문자열이 인덱스인 경우



In [13]:
# 특정 컬럼으로 인덱스를 지정


### 정렬과 T
자주 쓰임
* sort_value()

In [113]:
# 나이를 오름차순으로
#  data.sort_index(ascending=0)   # 인덱스 정렬 기본값이 ascending=1


data.sort_values('name', ascending=False, inplace=True) #inplace=True --> 원본이 아에 바뀌도록설정
data


# 전문가들은 원본이 변경하지 않는 것
data_sort = data.sort_values('name', ascending=False)
data_sort

Unnamed: 0,name,age,dept,gemder,gender,age+10,"(3, dept)"
0,홍길동,22,컴공,여자,여자,32,인문
3,이길동,55,산업,남자,남자,65,인문
9,박길동,55,기계,남자,남자,65,인문
1,맹길동,33,국어,남자,남자,43,인문
2,김길동,44,산업,여자,여자,54,인문


In [118]:
data.T # 행과 열 바꿈

data.T.loc['age']

0    22
3    55
9    55
1    33
2    44
Name: age, dtype: object

### 정보확인

In [119]:
# 총 데이터 건수와 데이타 타입등 정보 확인
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 0 to 2
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   name       5 non-null      object
 1   age        5 non-null      int64 
 2   dept       5 non-null      object
 3   gemder     5 non-null      object
 4   gender     5 non-null      object
 5   age+10     5 non-null      int64 
 6   (3, dept)  5 non-null      object
dtypes: int64(2), object(5)
memory usage: 480.0+ bytes


In [120]:
# 기본통계량 구하기 ( 총개수, 평균, 표준편차, 최소값, 4분위수 등)
data.describe()

Unnamed: 0,age,age+10
count,5.0,5.0
mean,41.8,51.8
std,14.342245,14.342245
min,22.0,32.0
25%,33.0,43.0
50%,44.0,54.0
75%,55.0,65.0
max,55.0,65.0
