### 자료형
    + 파이썬 기본 자료형 : list
    + 넘파이 자료형 : nparray
    + 판다스 자료형 : datafram(series)

## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
    ` 행과 열을 섞어서 추출함.
    ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + df.loc[] : 인덱스(순서)와 명칭으로 추출
    + df.iloc[] : 인덱스(순서)로 추출
    + df.ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (* 그러나 곧 사라질 예정 )

    [참고] 
    
    - 위 3 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

한번 쭉 훑어보기

In [1]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동', '박길동', '김길동'], 
          'age':[22, 33, 44], 
          'dept':['컴공', '국어', '산업']
         }

df = pd.DataFrame(mydata)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,박길동,33,국어
2,김길동,44,산업


In [2]:
# 인덱스 확인
print(df.index)

# 데이터값 확인
print(df.values)
print(type(df.values))

# 키값 확인
print(df.keys())

# 컬럼명 (DataFrame은 키보다 컬럼으로 권장)
print(df.columns)

RangeIndex(start=0, stop=3, step=1)
[['홍길동' 22 '컴공']
 ['박길동' 33 '국어']
 ['김길동' 44 '산업']]
<class 'numpy.ndarray'>
Index(['name', 'age', 'dept'], dtype='object')
Index(['name', 'age', 'dept'], dtype='object')


In [3]:
mydata = {
          'name':['홍길동', '박길동', '김길동'], 
          'age':[22, 33, 44], 
          'dept':['컴공', '국어', '산업']
         }

df3 = pd.DataFrame(mydata, index=['일', '이', '삼'])
df3

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


## 컬럼 추가, 행 추가

In [4]:
# 새 컬럼 추가
df['gender'] = ['여자', '남자', '여자']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,컴공,여자
1,박길동,33,국어,남자
2,김길동,44,산업,여자


In [5]:
# 기존의 컬럼은 추가가 아닌 변경이됨
df['dept'] = ['사회', '토목', '경영']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,사회,여자
1,박길동,33,토목,남자
2,김길동,44,경영,여자


In [6]:
# 행 추가
df.loc[3] = ['맹길동', 55, '통계', '남자']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,사회,여자
1,박길동,33,토목,남자
2,김길동,44,경영,여자
3,맹길동,55,통계,남자


In [7]:
# 행 추가2
df.loc[5] = ['배길동', 66, '경영', '남자']
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,사회,여자
1,박길동,33,토목,남자
2,김길동,44,경영,여자
3,맹길동,55,통계,남자
5,배길동,66,경영,남자


## 변경

In [8]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다.
df = df.reindex(index=[0, 2, 5, 1])
df

Unnamed: 0,name,age,dept,gender
0,홍길동,22,사회,여자
2,김길동,44,경영,여자
5,배길동,66,경영,남자
1,박길동,33,토목,남자


In [9]:
# 컬럼연산
df['age+10'] = df['age'] + 10
df

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,사회,여자,32
2,김길동,44,경영,여자,54
5,배길동,66,경영,남자,76
1,박길동,33,토목,남자,43


In [10]:
# 인덱스 5 행에 "dept"열의 값을 "인문"으로 변경 (loc[행, 열])
df.loc[5, 'dept'] = "인문"
df

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,사회,여자,32
2,김길동,44,경영,여자,54
5,배길동,66,인문,남자,76
1,박길동,33,토목,남자,43


##  컬럼 속성 추출

In [11]:
# 컬럼 속성 추출 (dept)
print(df.dept)
print(df['dept'])

0    사회
2    경영
5    인문
1    토목
Name: dept, dtype: object
0    사회
2    경영
5    인문
1    토목
Name: dept, dtype: object


In [12]:
# 특정 컬럼의 특정행 추출 -> 즉 특정셀 추출 (2인덱스의 dept 컬럼값을 출력)
print(df['dept'][2])
print(df.dept[2])

경영
경영


In [13]:
# 30세 이상의 레코드 겁색 (df[df[]], df안에 df조건)
df[df['age'] >= 30]

Unnamed: 0,name,age,dept,gender,age+10
2,김길동,44,경영,여자,54
5,배길동,66,인문,남자,76
1,박길동,33,토목,남자,43


In [14]:
# 1번 인덱스의 name 값을 박가로 변경
df['name'][1] = '박가'
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,사회,여자,32
2,김길동,44,경영,여자,54
5,배길동,66,인문,남자,76
1,박가,33,토목,남자,43


## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다

- 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출

2. iloc[] : 인덱스로 추출

3. ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [15]:
df

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,사회,여자,32
2,김길동,44,경영,여자,54
5,배길동,66,인문,남자,76
1,박가,33,토목,남자,43


In [16]:
# 인덱스 1의 데이터를 추출
df.loc[1]    # 인덱스로 찾음

name      박가
age       33
dept      토목
gender    남자
age+10    43
Name: 1, dtype: object

In [17]:
df.iloc[3]    # 순번으로 찾음

name      박가
age       33
dept      토목
gender    남자
age+10    43
Name: 1, dtype: object

In [18]:
# [행, 열]
# print(df.loc[1, 2])    # Error
print(df.iloc[1, 2])    # 순번으로 찾기 때문에

경영


In [19]:
# loc로 찾기 위해서는 컬럼명을 적어준다.
print(df.loc[1, 'dept'])

토목


In [20]:
df3

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [21]:
# 명칭기반 인덱스 : 문자열이 인덱스인 경우
# ?df.reset_index
df3.loc['일']

name    홍길동
age      22
dept     컴공
Name: 일, dtype: object

In [22]:
# 무조건 인덱스 추출 (명칭 x)
df3.iloc[0]

name    홍길동
age      22
dept     컴공
Name: 일, dtype: object

In [23]:
df

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,사회,여자,32
2,김길동,44,경영,여자,54
5,배길동,66,인문,남자,76
1,박가,33,토목,남자,43


In [24]:
# 5 인덱스와 2 인덱스 데이터 추출
df.loc[[2, 5]]

Unnamed: 0,name,age,dept,gender,age+10
2,김길동,44,경영,여자,54
5,배길동,66,인문,남자,76


In [25]:
# name과 dept 데이터 추출
df[['name', 'dept']]

Unnamed: 0,name,dept
0,홍길동,사회
2,김길동,경영
5,배길동,인문
1,박가,토목


In [26]:
# 특정 컬럼으로 인덱스를 지정
df.set_index('name')    # 원본을 수정하지 않음
df

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,사회,여자,32
2,김길동,44,경영,여자,54
5,배길동,66,인문,남자,76
1,박가,33,토목,남자,43


In [27]:
# (1) 변수명을 새로 잡아준다. (전문가들은 이 방식을 권장)
df2 = df.set_index('name')
df2

Unnamed: 0_level_0,age,dept,gender,age+10
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,22,사회,여자,32
김길동,44,경영,여자,54
배길동,66,인문,남자,76
박가,33,토목,남자,43


In [28]:
df.set_index('name', inplace=True)    # (2) 원본을 수정하지않는 함수를 True해준다.
df

Unnamed: 0_level_0,age,dept,gender,age+10
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,22,사회,여자,32
김길동,44,경영,여자,54
배길동,66,인문,남자,76
박가,33,토목,남자,43


## 정렬과 T

- sort_index(): 인덱스로 정렬

- sort_values(): 값으로 정렬

In [29]:
df

Unnamed: 0_level_0,age,dept,gender,age+10
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,22,사회,여자,32
김길동,44,경영,여자,54
배길동,66,인문,남자,76
박가,33,토목,남자,43


In [30]:
# 전문가들은 원본이 변경하지 않는 것을 권장
df2 = df.sort_index(ascending=1)   # 인덱스 정렬 기본값이 ascending=1
df2

Unnamed: 0_level_0,age,dept,gender,age+10
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
김길동,44,경영,여자,54
박가,33,토목,남자,43
배길동,66,인문,남자,76
홍길동,22,사회,여자,32


In [31]:
# 나이를 오름차순으로
df3= df.sort_values('age', ascending=True)
df3

Unnamed: 0_level_0,age,dept,gender,age+10
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,22,사회,여자,32
박가,33,토목,남자,43
김길동,44,경영,여자,54
배길동,66,인문,남자,76


In [32]:
df.T

name,홍길동,김길동,배길동,박가
age,22,44,66,33
dept,사회,경영,인문,토목
gender,여자,여자,남자,남자
age+10,32,54,76,43


## 정보확인

In [33]:
# 총 데이터 건수와 데이타 타입등 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 홍길동 to 박가
Data columns (total 4 columns):
age       4 non-null int64
dept      4 non-null object
gender    4 non-null object
age+10    4 non-null int64
dtypes: int64(2), object(2)
memory usage: 320.0+ bytes


In [34]:
# 기본통계량 구하기 (총개수, 평균, 표준편차, 최소값, 4분위수 등)
df.describe()

Unnamed: 0,age,age+10
count,4.0,4.0
mean,41.25,51.25
std,18.786076,18.786076
min,22.0,32.0
25%,30.25,40.25
50%,38.5,48.5
75%,49.5,59.5
max,66.0,76.0
