## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
        ` 행과 열을 섞어서 추출함.
        
        ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
        
        ` df[2] 이 형식은 에러 발생 ( 2021.01)
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + df.loc[] : 인덱스 지정하지 않으면 인덱스(순서), 인덱스 지정하면 인덱스로 추출
    + df.iloc[] : 인덱스(순서)로 추출
    + df.ix[] : 명칭 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (* 그러나 곧 사라질 예정 )

    [참고] 
    
    - 위 3 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

In [1]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }
# 딕셔너리 생성
mydata

{'name': ['홍길동', '박길동', '김길동'],
 'age': [22, 33, 44],
 'dept': ['컴공', '국어', '산업']}

In [2]:
# 딕셔너리를 데이터 프레임으로 만들기
df = pd.DataFrame(mydata)
print(type(mydata))
print(type(df))
df

<class 'dict'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,박길동,33,국어
2,김길동,44,산업


In [4]:
# 열 추출
print(df.name)
print('-'*20)
print(df.age)
print('-'*20)
print(df.dept)

0    홍길동
1    박길동
2    김길동
Name: name, dtype: object
--------------------
0    22
1    33
2    44
Name: age, dtype: int64
--------------------
0    컴공
1    국어
2    산업
Name: dept, dtype: object


In [6]:
# 행 추출
print(df.loc[0])
print('-'*20)
print(df.loc[1])
print('-'*20)
print(df.loc[2])


name    홍길동
age      22
dept     컴공
Name: 0, dtype: object
--------------------
name    박길동
age      33
dept     국어
Name: 1, dtype: object
--------------------
name    김길동
age      44
dept     산업
Name: 2, dtype: object


In [7]:
df = pd.DataFrame(mydata)
df
# 자동으로 인덱스 생성됨

Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,박길동,33,국어
2,김길동,44,산업


In [8]:
df = pd.DataFrame(mydata, index=['일','이','삼'])
df
# 인덱스르 지정하여 생성

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [11]:
# 행 추출
df.loc['이']
# 지정한 인덱스는 loc 사용

name    박길동
age      33
dept     국어
Name: 이, dtype: object

In [13]:
# 행 추출
df.iloc['이']
# 에러유발

TypeError: Cannot index by location index with a non-integer key

In [14]:
# 행 추출
df.iloc[1]
# 잘 나옴. 
# 숫자로 되어있는 자동 인덱스는 iloc 사용

name    박길동
age      33
dept     국어
Name: 이, dtype: object

In [15]:
df.index
# 인덱스만 추출

Index(['일', '이', '삼'], dtype='object')

In [16]:
df.values
# 값만 추출

array([['홍길동', 22, '컴공'],
       ['박길동', 33, '국어'],
       ['김길동', 44, '산업']], dtype=object)

In [17]:
df.columns
# 컬럼명만 추출

Index(['name', 'age', 'dept'], dtype='object')

In [20]:
# '박길동'을 추출하려면?
# 강성연
df.name.loc['이']

'박길동'

In [21]:
# 박성환
df.iloc[1][0]

'박길동'

In [22]:
# 이혜미
df.name['이']

'박길동'

In [23]:
# 조영주
df.loc['이'].values[0]

'박길동'

In [26]:
# 김민주
df[df.values=='박길동']

Unnamed: 0,name,age,dept
이,박길동,33,국어


### 컬럼 추가, 행 추가
존재하지 않는 컬럼명을 써주면 된다.

In [27]:
# 컬럼 추가
df['gender'] = ['여자','여자','남자']
df

Unnamed: 0,name,age,dept,gender
일,홍길동,22,컴공,여자
이,박길동,33,국어,여자
삼,김길동,44,산업,남자


In [29]:
# 행 추가
# 인덱스 지정 (존재하지 않는 인덱스의 경우)
df.loc[3] = ['이길동',33,'컴공','남자']
df
# 잘 들어가졌는데.. 인덱스 꼬임

Unnamed: 0,name,age,dept,gender
일,홍길동,22,컴공,여자
이,박길동,33,국어,여자
삼,김길동,44,산업,남자
3,이길동,33,컴공,남자


In [30]:
# 행 추가
df.loc[9] = ['장길동',33,'컴공','남자']
df

Unnamed: 0,name,age,dept,gender
일,홍길동,22,컴공,여자
이,박길동,33,국어,여자
삼,김길동,44,산업,남자
3,이길동,33,컴공,남자
9,장길동,33,컴공,남자


In [31]:
df.loc[9] = ['장길동22',33,'컴공','남자']
df
# 같은 인덱스가 있는 상태에서는 덮여져버림

Unnamed: 0,name,age,dept,gender
일,홍길동,22,컴공,여자
이,박길동,33,국어,여자
삼,김길동,44,산업,남자
3,이길동,33,컴공,남자
9,장길동22,33,컴공,남자


### 변경

In [79]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }

In [80]:
df = pd.DataFrame(mydata)
df

Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,박길동,33,국어
2,김길동,44,산업


In [81]:
df2 = df.reindex([1,0,2])
df2
# 인덱스로 순서 바꾸기 가능

Unnamed: 0,name,age,dept
1,박길동,33,국어
0,홍길동,22,컴공
2,김길동,44,산업


In [82]:
# 컬럼연산
df['age+10'] = df['age']+10
df
# 존재하지 않은 컴럼, 그냥 옆에 추가가 된다.

Unnamed: 0,name,age,dept,age+10
0,홍길동,22,컴공,32
1,박길동,33,국어,43
2,김길동,44,산업,54


In [98]:
# 2 행에 'dept'열의 값을 '인문'으로 변경
# 강성연
df['dept'][2] = '인문'
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['dept'][2] = '인문'


Unnamed: 0,name,age,dept,age+10
0,홍길동,22,컴공,32
1,박길동,33,국어,43
2,김길동,44,인문,54


In [99]:
# 김준호
df.loc[2, 'dept'] ='인문22'
df

Unnamed: 0,name,age,dept,age+10
0,홍길동,22,컴공,32
1,박길동,33,국어,43
2,김길동,44,인문22,54


In [100]:
# 임태근
df.dept.iloc[2] = '인문33'
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


Unnamed: 0,name,age,dept,age+10
0,홍길동,22,컴공,32
1,박길동,33,국어,43
2,김길동,44,인문33,54


In [101]:
# 이정성
df.at[df.index[df['dept']=='인문33'],'dept'] = '인문'
df

Unnamed: 0,name,age,dept,age+10
0,홍길동,22,컴공,32
1,박길동,33,국어,43
2,김길동,44,인문,54


###  컬럼 속성 추출

# 컬럼 속성 추출
df.컬럼명 df['컬럼명']

In [9]:
# 특정 컬럼의 특정행 추출 -> 즉 특정셀 추출 (2번 인덱스의 dept 컬럼값은? )


In [97]:
# 30세 이상의 레코드 겁색
df[df['age']>=30]

Unnamed: 0,name,age,dept,age+10
1,박길동,33,국어,43
2,김길동,44,인문,54


In [102]:
# 염하늘
df.loc[df.age>=30]

Unnamed: 0,name,age,dept,age+10
1,박길동,33,국어,43
2,김길동,44,인문,54


In [11]:
# 인덱스 1의 name 값을 '맹길동'로 변경하려면?


## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다

- 판다스의 DataFrame와 Series에서도 다른 부분이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출 (명칭 기반 인덱스)

2. iloc[] : 인덱스로 추출 (순서 기반 인덱스)

3. ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [103]:
df

Unnamed: 0,name,age,dept,age+10
0,홍길동,22,컴공,32
1,박길동,33,국어,43
2,김길동,44,인문,54


In [105]:
# 명칭기반 인덱스 : 문자열이 인덱스인 경우
# 자동인덱스 0,1,2 상태
print(df.loc[1])
print('-'*20)
print(df.iloc[1])
# 두개의 결과가 같다.

name      박길동
age        33
dept       국어
age+10     43
Name: 1, dtype: object
--------------------
name      박길동
age        33
dept       국어
age+10     43
Name: 1, dtype: object


In [106]:
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }

In [108]:
# 인덱스를 1,2,3 으로 지정
df = pd.DataFrame(mydata, index=[1,2,3])
df

Unnamed: 0,name,age,dept
1,홍길동,22,컴공
2,박길동,33,국어
3,김길동,44,산업


In [109]:
print(df.loc[1])
print('-'*20)
print(df.iloc[1])
# 두개의 결과가 같지 않다.

name    홍길동
age      22
dept     컴공
Name: 1, dtype: object
--------------------
name    박길동
age      33
dept     국어
Name: 2, dtype: object


In [111]:
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }

In [112]:
# 인덱스를 문자열 '일','이','삼' 으로 지정
df = pd.DataFrame(mydata, index=['일','이','삼'])
df

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [115]:
# print(df.loc[1])
# 에러 유발
print('-'*20)
print(df.iloc[1])

--------------------
name    박길동
age      33
dept     국어
Name: 이, dtype: object


In [117]:
print(df.loc['일'])
print('-'*20)
# print(df.iloc['일'])
# 에러 유발

name    홍길동
age      22
dept     컴공
Name: 일, dtype: object
--------------------


In [119]:
df.loc['일','삼']
# 에러

KeyError: '삼'

In [118]:
df.loc[['일','삼']]
# 2차원 배열 아님.
# 그냥 표현하는 방식이다.
# 안쪽에 있는 것이 리스트다.

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
삼,김길동,44,산업


In [120]:
df[['name','dept']]

Unnamed: 0,name,dept
일,홍길동,컴공
이,박길동,국어
삼,김길동,산업


In [121]:
# 특정 컬럼으로 인덱스를 지정
df2 = df.set_index('name')
df2
# 리턴하는 값이 있고, 원본을 바꾸지 않는다.

Unnamed: 0_level_0,age,dept
name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,22,컴공
박길동,33,국어
김길동,44,산업


In [122]:
df
# 원본을 바꿔주지 않는다.

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [123]:
# 리턴값을 받지 않고, 원본을 바꿔주는 옵션 (권장하지 않는다.)
df2 = df.set_index('name', inplace=True)
df2
# 아무것도 뜨지 않는다.

In [124]:
df
# 원본이 변경되었다.

Unnamed: 0_level_0,age,dept
name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,22,컴공
박길동,33,국어
김길동,44,산업


### 정렬과 T

In [127]:
# 나이를 오름차순으로
# df.sort_index(ascending=0)   # 인덱스 정렬 기본값이 ascending=1

# 전문가들은 원본이 변경하지 않는 것을 권장

In [126]:
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }
df = pd.DataFrame(mydata, index=['일','이','삼'])
df

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [129]:
df.sort_index()

Unnamed: 0,name,age,dept
삼,김길동,44,산업
이,박길동,33,국어
일,홍길동,22,컴공


In [130]:
df.sort_index(ascending=0)

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [134]:
df.sort_index(ascending=True)

Unnamed: 0,name,age,dept
삼,김길동,44,산업
이,박길동,33,국어
일,홍길동,22,컴공


In [135]:
df.sort_index(ascending=False)

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [132]:
df.sort_index(axis=0)

Unnamed: 0,name,age,dept
삼,김길동,44,산업
이,박길동,33,국어
일,홍길동,22,컴공


In [133]:
df.sort_index(axis=1)

Unnamed: 0,age,dept,name
일,22,컴공,홍길동
이,33,국어,박길동
삼,44,산업,김길동


In [136]:
# 실제 컬럼에서 정렬
df.sort_values('name')

Unnamed: 0,name,age,dept
삼,김길동,44,산업
이,박길동,33,국어
일,홍길동,22,컴공


In [137]:
df.sort_values('name', ascending=False)
df

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [139]:
df
# 원본이 바뀌지 않았다.

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [142]:
df.sort_values('name', ascending=False, inplace=True)
df

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [None]:
# 행, 열 바꾸기

In [143]:
df.T

Unnamed: 0,일,이,삼
name,홍길동,박길동,김길동
age,22,33,44
dept,컴공,국어,산업


# 정보확인

* info()
* describe()

In [144]:
# 총 데이터 건수와 데이타 타입등 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 일 to 삼
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    3 non-null      object
 1   age     3 non-null      int64 
 2   dept    3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


In [145]:
# 기본통계량 구하기 ( 총개수, 평균, 표준편차, 최소값, 4분위수 등)
#  문자는 다 빠지고, 숫자로 되어있는 것들만 수치를 내준다.
df.describe()

Unnamed: 0,age
count,3.0
mean,33.0
std,11.0
min,22.0
25%,27.5
50%,33.0
75%,38.5
max,44.0
