## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
    ` 행과 열을 섞어서 추출함.
    ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + df.loc[] : 인덱스(순서)와 명칭으로 추출 #location
    + df.iloc[] : 인덱스(순서)로 추출         #indexlocation
    + df.ix[] : 명칭 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (* 그러나 곧 사라질 예정 )

    [참고] 
    
    - 위 3 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

In [2]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }
df = pd.DataFrame(mydata)
df

Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,박길동,33,국어
2,김길동,44,산업


In [3]:
# name 열 추출
print(df.name)
print(df['name'])

0    홍길동
1    박길동
2    김길동
Name: name, dtype: object
0    홍길동
1    박길동
2    김길동
Name: name, dtype: object


In [4]:
#2번 행 추출
print(df.loc[2])
print(df.iloc[2])

name    김길동
age      44
dept     산업
Name: 2, dtype: object
name    김길동
age      44
dept     산업
Name: 2, dtype: object


In [5]:
# 값만 추출
print('-----값 추출 -----')
print(df.values)
# 컬럼명 추출
print('----- 컬럼 추출 -----')
print(df.columns)
# 인덱스 추출
print('----- 인덱스 추출 -----')
print(df.index)
# dataframe의 keys -> dataframe에서는 다름

print('----- dataframe keys -----')
print(df.keys)

-----값 추출 -----
[['홍길동' 22 '컴공']
 ['박길동' 33 '국어']
 ['김길동' 44 '산업']]
----- 컬럼 추출 -----
Index(['name', 'age', 'dept'], dtype='object')
----- 인덱스 추출 -----
RangeIndex(start=0, stop=3, step=1)
----- dataframe keys -----
<bound method NDFrame.keys of   name  age dept
0  홍길동   22   컴공
1  박길동   33   국어
2  김길동   44   산업>


In [6]:
df2 = pd.DataFrame(mydata, index=['일', '이', '삼'])
df2

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [7]:
#박길동 추출 (이름만 추출)

print('행 추출--')
print(df2.loc['이'])

print('이름만 추출--')
print(df2.loc['이']['name']) # 행을 먼저 추출 -> 해당행에서 열 추출

행 추출--
name    박길동
age      33
dept     국어
Name: 이, dtype: object
이름만 추출--
박길동


### 컬럼 추가, 행 추가

In [8]:
# 컬럼 추가
df['gender'] = ['여', '남', '여']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여
1,박길동,33,국어,남
2,김길동,44,산업,여


In [10]:
# 행 추가
df.loc[3]=['박길동', 33, '컴공', '남']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여
1,박길동,33,국어,남
2,김길동,44,산업,여
3,박길동,33,컴공,남


In [None]:
# 행 추가
df.loc[9]=['고길동', 33, '컴공', '남'] # 인덱스 순서대로 들어가지 않아도 됨
df

### 변경

In [None]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다
df = df.reindex(index=[0, 2, 5, 3, 1])
df
# 인덱스 변경을 잘못할 경우 -> 데이터 날라가는 경우가 생김

In [None]:
# 컬럼연산
df['age+10']=df['age']+10
df

In [None]:
# 5 행에 'dept'열의 값을 '인문'으로 변경
#df['dept'][5]='인문'

df.loc[2, 'dept']='인문2'
df

###  컬럼 속성 추출

In [None]:
# 컬럼 속성 추출
print(df.name)
print(df['name'])

In [None]:
# 특정 컬럼의 특정행 추출 -> 즉 특정셀 추출 (2번 인덱스의 dept 컬럼값은? )
print(df.loc[2, 'dept'])
print(df.loc[2]['dept'])
print(df.loc[2].dept)
#print(df['2']['dept']) -> 에러
print(df['dept'][2])
print(df.dept[2])

In [None]:
# 30세 이상의 레코드 겁색
df[df['age']>=30]

In [None]:
# 인덱스 1의 name 값을 '맹길동'로 변경하려면?
df.loc[1, 'name']='맹길동'
df
df[1, 'name']='최길동' # -> 의도한 바와 달리 컬럼이 추가되버림
df

## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다

- 판다스의 DataFrame와 Series에서도 다른 부분이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출

2. iloc[] : 인덱스로 추출

3. ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [None]:
print('loc-----')
print(df.loc[1]) # 인덱스 값으로?.. (인덱스가 1에 해당하는 행을 가져옴)
print('iloc-----')
print(df.iloc[1]) # 순서대로 (0번, 1번.. 두번쨰 행을 가져옴)

In [None]:
# 명칭기반 인덱스 : 문자열이 인덱스인 경우
#print(df.loc[1,2]) -> 에러 발생
print(df.loc[1, 'dept']) # loc -> 이름으로만 따짐(string?...)
print('-----')
print(df.iloc[1,2]) # -> 1행 2열 -> 숫자로만 따짐(int)


In [None]:
# 특정 컬럼으로 인덱스를 지정
df2 = pd.DataFrame(mydata, index=['일', '이', '삼'])
df2.loc['이']
df2.iloc[1]

In [None]:
# 특정 컬럼으로 인덱스를 지정
df2.set_index('name', inplace=True)
df2

### inplace 속성 : 원본에 적용하기

신중하게 사용하는것을 권장
df = df.set_index()
df

### 정렬과 T

In [None]:
# 나이를 오름차순으로
# df.sort_index(ascending=0)   # 인덱스 정렬 기본값이 ascending=1


df.sort_values('age', ascending=1)
#df.sort_values('age', ascending=1, inplace=true) #원본이 바뀜


# 전문가들은 원본이 변경하지 않는 것을 권장

In [None]:
df.T

### 정보확인

In [None]:
# 총 데이터 건수와 데이타 타입등 정보 확인
print(df.info()) #  .info <-> .info() 랑 약간의 차이가 존재

In [None]:
# 기본통계량 구하기 ( 총개수, 평균, 표준편차, 최소값, 4분위수 등)
df.describe()
# mean 평균값
# std 표준편차