## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
        ` 행과 열을 섞어서 추출함.
        
        ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
        
        ` df[2] 이 형식은 에러 발생 ( 2021.01)
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + **df.loc[]** : 인덱스 지정하지 않으면 인덱스(순서), 인덱스 지정하면 인덱스로 추출
    + df.iloc[] : 인덱스(순서)로 추출
    + df.ix[] : 명칭 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (* 그러나 곧 사라질 예정 )

    [참고] 
    
    - 위 3 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

In [1]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }
df = pd.DataFrame(mydata)
df

Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,박길동,33,국어
2,김길동,44,산업


In [37]:
# dept 열(컬럼) 추출
df.dept
df['dept']

0    컴공
1    국어
2    산업
Name: dept, dtype: object

In [3]:
# 1행(레코드) 추출
df.loc[1]


name    박길동
age      33
dept     국어
Name: 1, dtype: object

In [23]:
df2 = pd.DataFrame(mydata, index=['일', '이', '삼'])
# df2
# df2.loc['이']
# df2.iloc[1]

name    박길동
age      33
dept     국어
Name: 이, dtype: object

In [35]:
# '박길동' 추출
# df2.loc['이']['name']
# df2.iloc[1,0]
# df2.name['이']
df['name'][1]

'박길동'

In [31]:
# 인덱스만
df2.index

Index(['일', '이', '삼'], dtype='object')

In [None]:
# 컬럼명만
df2.columns

In [None]:
# 값만
df2.values

### 컬럼 추가, 행 추가

In [41]:
# 컬럼 추가
df['gender'] = ['여자','남자','여자']
df

ValueError: Length of values (3) does not match length of index (4)

In [45]:
# 행 추가
df.loc[3] = ['장길동', 55, '전자', '남자']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여자
1,박길동,33,국어,남자
2,김길동,44,산업,여자
3,장길동,55,전자,남자


In [46]:
# 행 추가 ( iloc 접근 가능한가 )
# df.iloc[4] = ['짱길동', 55, '전자', '남자']
# df

# 행추가는 loc로만 가능

IndexError: iloc cannot enlarge its target object

### 변경

In [49]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다
df = df.reindex(index=[0,2,5,3,1])
df

# 존재하지 않는 인덱스 포함 변경이 NaN 값이 들어간 데이터가 삽입됨
df = df.reindex(index=[0,1,2,3])
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22.0,컴공,여자
1,박길동,33.0,국어,남자
2,김길동,44.0,산업,여자
3,장길동,55.0,전자,남자


In [54]:
# 컬럼연산 ( DataFrame을 쓰는 이유 )
# 기존 존재하는 컬럼을 기준으로 연산된 컬럼 추가
# 존재하지 않는 컬럼시  '새로 추가'
# 존재하는 컬럼은 '데이터 변경'
df['age + 10'] = df['age'] + 10
df

Unnamed: 0,name,age,dept,gender,age + 10,인문
0,홍길동,22.0,인문,여자,32.0,컴공
1,박길동,33.0,인문,남자,43.0,국어
2,김길동,44.0,인문,여자,54.0,산업
3,장길동,55.0,인문,남자,65.0,전자


In [68]:
# 5 행에 'dept'열의 값을 '인문'으로 변경
df.loc[2, 'dept'] = '산업2'
df
# df.iloc[4, 2] = '인문z' # 권장하지않음
# df
# df[5, 'dept'] = '수학' # "5, 'dept'"를 행 으로 판단하여 문제되는 컬럼 추가
# df

Unnamed: 0,name,age,dept,gender,age + 10,인문,"(5, dept)"
0,홍길동,22.0,인문,여자,32.0,컴공,수학
1,박길동,33.0,산업,남자,43.0,국어,수학
2,김길동,44.0,산업2,여자,54.0,산업,수학
3,장길동,55.0,인문,남자,65.0,전자,수학
5,,,인문z,,,,수학


###  컬럼 속성 추출

In [8]:
# 컬럼 속성 추출


In [81]:
# 특정 컬럼의 특정행 추출 -> 즉 특정셀 추출 (2번 인덱스의 dept 컬럼값은? )
# df.loc[2]['dept']
# df.dept[2]
# df['dept'][2]
# df.iloc[2]['dept']

'산업2'

In [84]:
# 30세 이상의 레코드 겁색
df[df['age'] > 30]

Unnamed: 0,name,age,dept,gender,age + 10,인문,"(5, dept)"
1,박길동,33.0,산업,남자,43.0,국어,수학
2,김길동,44.0,산업2,여자,54.0,산업,수학
3,장길동,55.0,인문,남자,65.0,전자,수학


In [93]:
# 인덱스 1의 name 값을 '맹길동'로 변경하려면?
# df.loc[1]['name'] = '맹길동'
# df.loc[1,'name'] = '맹길동'
df['name'][1] = '맹길동'
df

Unnamed: 0,name,age,dept,gender,age + 10,인문,"(5, dept)"
0,홍길동,22.0,인문,여자,32.0,컴공,수학
1,맹길동,33.0,산업,남자,43.0,국어,수학
2,김길동,44.0,산업2,여자,54.0,산업,수학
3,장길동,55.0,인문,남자,65.0,전자,수학
5,,,인문z,,,,수학


## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
- 판다스의 DataFrame와 Series에서도 다른 부분이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출

2. iloc[] : 인덱스로 추출

3. ix[] : 명칭 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [96]:
print(df)
print(df.loc[1])
print(df.iloc[1])

  name   age dept gender age + 10   인문 (5, dept)
0  홍길동  22.0   인문     여자     32.0   컴공        수학
1  맹길동  33.0   산업     남자     43.0   국어        수학
2  김길동  44.0  산업2     여자     54.0   산업        수학
3  장길동  55.0   인문     남자     65.0   전자        수학
5  NaN   NaN  인문z    NaN      NaN  NaN        수학
name          맹길동
age          33.0
dept           산업
gender         남자
age + 10     43.0
인문             국어
(5, dept)      수학
Name: 1, dtype: object
name          맹길동
age          33.0
dept           산업
gender         남자
age + 10     43.0
인문             국어
(5, dept)      수학
Name: 1, dtype: object


In [98]:
print(df.loc[1,'dept'])
print(df.iloc[1,2])
# print(df.loc[1,2]) # 에러

산업
산업


KeyError: 2

In [106]:
# 명칭기반 인덱스 : 문자열이 인덱스인 경우
# 행 추출
df.loc[2]
# 열 추출
df['name']

# 행 추출 (여러개)
df.loc[[2, 5, 1]]

# 열 추출 ( 여러개 : name, dept, gender )
df[['name', 'dept', 'gender']]

# 열 추출 ( 여러개 : name, dept, gender ) + 특정 행
df.loc[[2, 5, 1],['name','dept', 'gender']]

Unnamed: 0,name,dept,gender
2,김길동,산업2,여자
5,,인문z,
1,맹길동,산업,남자


In [111]:
# 특정 컬럼으로 인덱스를 지정
df.set_index('name')

df2 = df.set_index('name')
df2

# inplace=True -> 원본 덮어쓰기
# 권장하지 않는 방법
df.set_index('name', inplace=True)
df

Unnamed: 0_level_0,age,dept,gender,age + 10,인문,"(5, dept)"
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
홍길동,22.0,인문,여자,32.0,컴공,수학
맹길동,33.0,산업,남자,43.0,국어,수학
김길동,44.0,산업2,여자,54.0,산업,수학
장길동,55.0,인문,남자,65.0,전자,수학
,,인문z,,,,수학


### 정렬과 T
  - sort_values()

In [121]:
# 나이를 오름차순으로
# df.sort_index(ascending=0)   # 인덱스 정렬 기본값이 ascending=1
df.sort_values('age')
df.sort_values('age', ascending=0)


df2 = df.sort_values('age', ascending=0)
df2



# 전문가들은 원본이 변경하지 않는 것을 권장

Unnamed: 0_level_0,age,dept,gender,age + 10,인문,"(5, dept)"
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
장길동,55.0,인문,남자,65.0,전자,수학
김길동,44.0,산업2,여자,54.0,산업,수학
맹길동,33.0,산업,남자,43.0,국어,수학
홍길동,22.0,인문,여자,32.0,컴공,수학
,,인문z,,,,수학


In [123]:
df

# 행과 열 변경
df.T

name,홍길동,맹길동,김길동,장길동,NaN
age,22.0,33.0,44.0,55.0,
dept,인문,산업,산업2,인문,인문z
gender,여자,남자,여자,남자,
age + 10,32.0,43.0,54.0,65.0,
인문,컴공,국어,산업,전자,
"(5, dept)",수학,수학,수학,수학,수학


### 정보확인

In [124]:
# 총 데이터 건수와 데이타 타입등 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 홍길동 to nan
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        4 non-null      object
 1   dept       5 non-null      object
 2   gender     4 non-null      object
 3   age + 10   4 non-null      object
 4   인문         4 non-null      object
 5   (5, dept)  5 non-null      object
dtypes: object(6)
memory usage: 452.0+ bytes


In [125]:
# 기본통계량 구하기 ( 총개수, 평균, 표준편차, 최소값, 4분위수 등)
df.describe()

Unnamed: 0,age,dept,gender,age + 10,인문,"(5, dept)"
count,4.0,5,4,4.0,4,5
unique,4.0,4,2,4.0,4,1
top,33.0,인문,남자,32.0,전자,수학
freq,1.0,2,2,1.0,1,5
