## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
    ` 행과 열을 섞어서 추출함.
    ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + df.loc[] : 인덱스(순서)와 명칭으로 추출
    + df.iloc[] : 인덱스(순서)로 추출
    + df.ix[] : 명칭 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (* 그러나 곧 사라질 예정 )

    [참고] 
    
    - 위 3 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

In [98]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }

df = pd.DataFrame(mydata)
df

Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,박길동,33,국어
2,김길동,44,산업


In [99]:
#열추출
df.name

0    홍길동
1    박길동
2    김길동
Name: name, dtype: object

In [100]:
#2번행 추출
df.loc[2]

name    김길동
age      44
dept     산업
Name: 2, dtype: object

In [101]:
#값 추출
df.values
# 컬럼
df.columns
#인덱스
df.index

RangeIndex(start=0, stop=3, step=1)

In [102]:
df2 = pd.DataFrame(mydata,index=[1,2,3])
df2

Unnamed: 0,name,age,dept
1,홍길동,22,컴공
2,박길동,33,국어
3,김길동,44,산업


In [103]:
df2.loc[2].age
df2.loc[2]['name']

'박길동'

### 컬럼 추가, 행 추가

In [104]:
# 컬럼 추가
df['gender'] = ['여','남','여']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여
1,박길동,33,국어,남
2,김길동,44,산업,여


In [105]:
# 행 추가
df.loc[3] = ['박길동',55,'컴공','남']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여
1,박길동,33,국어,남
2,김길동,44,산업,여
3,박길동,55,컴공,남


In [106]:
# 행 추가
df.loc[9] = ['고길동',55,'컴공','남']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여
1,박길동,33,국어,남
2,김길동,44,산업,여
3,박길동,55,컴공,남
9,고길동,55,컴공,남


### 변경

In [107]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다
df = df.reindex(index=[1,2,3,4,5])
df

Unnamed: 0,name,age,dept,gender
1,박길동,33.0,국어,남
2,김길동,44.0,산업,여
3,박길동,55.0,컴공,남
4,,,,
5,,,,


In [108]:
# 컬럼연산
df['age10']=df['age']+10
df

Unnamed: 0,name,age,dept,gender,age10
1,박길동,33.0,국어,남,43.0
2,김길동,44.0,산업,여,54.0
3,박길동,55.0,컴공,남,65.0
4,,,,,
5,,,,,


In [120]:
# 5 행에 'dept'열의 값을 '인문'으로 변경

df.iloc[5]['dept'] = '인문'

df

IndexError: single positional indexer is out-of-bounds

###  컬럼 속성 추출

In [110]:
# 컬럼 속성 추출
df.gender

1      남
2      여
3      남
4    NaN
5    NaN
Name: gender, dtype: object

In [111]:
# 특정 컬럼의 특정행 추출 -> 즉 특정셀 추출 (2번 인덱스의 dept 컬럼값은? )
df.loc[2,'dept']
df.dept[2]

'산업'

In [112]:
# 30세 이상의 레코드 겁색
df[df.age>30]

Unnamed: 0,name,age,dept,gender,age10
1,박길동,33.0,국어,남,43.0
2,김길동,44.0,산업,여,54.0
3,박길동,55.0,컴공,남,65.0


In [113]:
# 인덱스 1의 name 값을 '맹길동'로 변경하려면?
df.loc[1,'name']='맹길동'
df
df.iloc[1]['dept']='최'
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


Unnamed: 0,name,age,dept,gender,age10
1,맹길동,33.0,국어,남,43.0
2,김길동,44.0,산업,여,54.0
3,박길동,55.0,컴공,남,65.0
4,,,,,
5,,,,,


## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다

- 판다스의 DataFrame와 Series에서도 다른 부분이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출

2. iloc[] : 인덱스로 추출

3. ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [129]:
print(df.iloc[1,2])
print(df.loc[1,'dept'])
df.iloc[0].dept='수학'
df

산업
국어


In [137]:
# 명칭기반 인덱스 : 문자열이 인덱스인 경우
df2 = pd.DataFrame(mydata,index=['일','이','삼'])
df2.loc['이']

name    박길동
age      33
dept     국어
Name: 이, dtype: object

In [138]:
# 특정 컬럼으로 인덱스를 지정
df2.set_index('name',inplace=True)
df2

Unnamed: 0_level_0,age,dept
name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,22,컴공
박길동,33,국어
김길동,44,산업


### inplace 속성 : 원본에 적용하기

그러나 전문가들은 신중하게 사용하라고 권장!!!

    df = df_set_index()
    
    df
    
위와 같은 방식으로 사용하삼

### 정렬과 T

In [148]:
# 나이를 오름차순으로(sort_values())
# df.sort_index(ascending=0)   # 인덱스 정렬 기본값이 ascending=1

df.sort_index(ascending=0)
df.sort_values('name',ascending=0,inplace=True)
df


# 전문가들은 원본이 변경하지 않는 것을 권장

Unnamed: 0,name,age,dept,gender,age10
3,박길동,55.0,컴공,남,65.0
1,맹길동,33.0,국어,남,43.0
2,김길동,44.0,산업,여,54.0
4,,,,,
5,,,,,


In [153]:
df.T

Unnamed: 0,3,1,2,4,5
name,박길동,맹길동,김길동,,
age,55,33,44,,
dept,컴공,국어,산업,,
gender,남,남,여,,
age10,65,43,54,,


### 정보확인

In [155]:
# 총 데이터 건수와 데이타 타입등 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 3 to 5
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    3 non-null      object 
 1   age     3 non-null      float64
 2   dept    3 non-null      object 
 3   gender  3 non-null      object 
 4   age10   3 non-null      float64
dtypes: float64(2), object(3)
memory usage: 400.0+ bytes


In [156]:
# 기본통계량 구하기 ( 총개수, 평균, 표준편차, 최소값, 4분위수 등)
df.describe()

Unnamed: 0,age,age10
count,3.0,3.0
mean,44.0,54.0
std,11.0,11.0
min,33.0,43.0
25%,38.5,48.5
50%,44.0,54.0
75%,49.5,59.5
max,55.0,65.0
