## 판다스 (Pandas)

- 핵심객체는 DataFrame이다
- 데이타프레임은 2차원 데이터 구조체로 넘파이보다 편리하게 데이타 핸들링한다.
- R 언어의 데이타 프레임과 비슷하고 많이 사용된다


#### DataFrame 에서 데이타 필터링 ( 추출하기 )

0. 맨처음에는

    + df[2] : 2행의 데이타 추출
    + df['A'] : A열(컬럼) 데이타 추출
    
    + df[n:m] : n번째부터 m-1번째까지의 행 추출
        
        ` 행과 열을 섞어서 추출함.
        
        ` 판다스를 만든 사람이 쓴 책의 번역서를 보면 이 부분을 후회한다고 나옴
        
        ` df[2] 이 형식은 에러 발생 ( 2021.01)
      

1. 열(컬럼) 추출

    + df.컬럼명
    + df['컬럼명']
       
    
2. 행 추출

    + df.loc[] : 인덱스 지정하지 않으면 인덱스(순서), 인덱스 지정하면 인덱스로 추출
    + df.iloc[] : 인덱스(순서)로 추출


    [참고] 
    
    - 위 연산자는 노련한 개발자들도 혼동하기에, 일반적으로 하나만 선택해서 사용하는 것을 권장한단다
    - 넘파이와 유사한 부분으로 더우 혼동하기 쉽다
    - 판다스의 DataFrame와 Series에서도 다른이 있어서 주의해야 한다
    
    
3. 행과 열에서 추출
    
    + df.loc[2, 3] : 2 행의 3열 데이타
    + df.loc[1:3, 2:4] : 1부터 3행전까지의 행에서 2부터 4전까지의 열의 데이타

In [1]:
import pandas as pd

# 데이타 프레임 자료 생성
mydata = {
          'name':['홍길동','박길동','김길동'], 
          'age':[22,33,44], 
          'dept':['컴공','국어','산업']
         }

df = pd.DataFrame(mydata)
df


Unnamed: 0,name,age,dept
0,홍길동,22,컴공
1,박길동,33,국어
2,김길동,44,산업


In [2]:
#1번 방법 > name 추출해봐라 (name 열을 추출하라는 의미)
df.name

0    홍길동
1    박길동
2    김길동
Name: name, dtype: object

In [3]:
#2번 방법 > name 추출해봐라 (name 열을 추출하라는 의미) - 나는 이방법을 선호
df['name']

0    홍길동
1    박길동
2    김길동
Name: name, dtype: object

In [4]:
#1번 방법 > 맨 처음행 추출해봐라 - loc을 사용 인덱스까지 확인한다 인덱스 값으 다른값으로 임의로 바뀌면 그값을 써줘야함
df.loc[0]

name    홍길동
age      22
dept     컴공
Name: 0, dtype: object

In [5]:
#2번 방법 > 맨처음행 추출을 iloc으로 > 무저건 인덱스 숫자로만 인식한다 (이방법선호하자)
df.iloc[0]

name    홍길동
age      22
dept     컴공
Name: 0, dtype: object

In [6]:
#loc 과 iloc 차이첨을 위해 index에 임의의 값을 넣어줌
df2 = pd.DataFrame(mydata, index=['일','이','삼'])
df2

Unnamed: 0,name,age,dept
일,홍길동,22,컴공
이,박길동,33,국어
삼,김길동,44,산업


In [7]:
#loc은 무저건 인덱스의 모양으로 확인이가능함 기호면 기호 숫자면숫자 바뀐인덱스 한글을 넣어줘야함
df2.loc["일"]

name    홍길동
age      22
dept     컴공
Name: 일, dtype: object

In [35]:
#하지만 iloc은 무저건 숫자 기본디폴트 인덱스만 사용하면됌 난 iloc을 사용하겠다
df2.iloc[0]

name    홍길동
age      22
dept     컴공
Name: 일, dtype: object

### 컬럼 추가, 행 추가

In [36]:
# 새로운 컬럼(열) 추가하는법
df['gender'] = ['여자','남자','트젠']
df

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,컴공,여자,32
1,맹길동,33,국어,남자,43
2,김길동,44,산업,트젠,54
3,맹길동,55,인문2,여자,65


In [41]:
# 새로운 값(행) 추가
df.loc[3] = ['맹길동',55,'컴공','여자']
df

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,컴공,여자,32
1,맹길동,33,국어,남자,43
2,김길동,44,산업,트젠,54
3,맹길동,55,인문2,여자,65


In [11]:
# 행 추가


### 변경

In [12]:
# 인덱스순서를 변경하려면 -> 인덱스는 우선 DataFrame이 있는 상태에서 변경해야 한다


In [13]:
# 컬럼연산  걍 보기만 하는거니까 계산최종 적용안됌 그래서 아래처럼
    #age+10 라는 새로운 컬럼명이 생김
df['age+10'] =  df['age']+ 10

df

Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,컴공,여자,32
1,박길동,33,국어,남자,43
2,김길동,44,산업,트젠,54
3,맹길동,55,컴공,여자,65


In [55]:
#컴공찾기
#2~3지 방법

df['dept'].loc[0]

df.loc[0,'dept']

#앞번호가 행 뒷번호가 열
df.iloc[0,2]





'컴공'

In [57]:
# 3 행에 'dept'열의 값을 '인문'으로 변경
df['dept'].loc[3] = '인문쓰'
#df.loc[3,'dept'] = '인문2'
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['dept'].loc[3] = '인문쓰'


Unnamed: 0,name,age,dept,gender,age+10
0,홍길동,22,컴공,여자,32
1,맹길동,33,국어,남자,43
2,김길동,44,산업,트젠,54
3,맹길동,55,인문쓰,여자,65


###  컬럼 속성 추출

In [16]:
# 컬럼 속성 추출


In [17]:
# 특정 컬럼의 특정행 추출 -> 즉 특정셀 추출 (2번 인덱스의 dept 컬럼값은? )


In [60]:
# 30세 이상의 레코드 겁색
df['age']
df[df['age']>30]

Unnamed: 0,name,age,dept,gender,age+10
1,맹길동,33,국어,남자,43
2,김길동,44,산업,트젠,54
3,맹길동,55,인문쓰,여자,65


In [62]:
# 인덱스 1의 name 값을 '맹길동'로 변경하려면?
#컬럼찾고 0번부터 인덱스 기준으로 추가해주면 됩니다
df['name'].loc[2] = '맹길동'
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['name'].loc[2] = '맹길동'


Unnamed: 0,name,age,dept,gender,age+10
0,맹길동,22,컴공,여자,32
1,맹길동,33,국어,남자,43
2,맹길동,44,산업,트젠,54
3,맹길동,55,인문쓰,여자,65


 ## 여러행 추출
 

In [63]:
#여러행,열 추출은 [] [] 두개가 중요하다
df.loc[[1,3]]

Unnamed: 0,name,age,dept,gender,age+10
1,맹길동,33,국어,남자,43
3,맹길동,55,인문쓰,여자,65


## 여러 열 추출


In [21]:
df[['name','age']]


Unnamed: 0,name,age
0,홍길동,22
1,맹길동,33
2,김길동,44
3,맹길동,55


## 데이타 필터링

- 넘파이와 유사한 부분으로 더우 혼동하기 쉽다

- 판다스의 DataFrame와 Series에서도 다른 부분이 있어서 주의해야 한다


1. loc[] : 인덱스와 명칭으로 추출

2. iloc[] : 인덱스로 추출

3. ix[] : 명치 기반 인덱싱과 위치 기반 인덱싱 모두 사용 (*  그러나 곧 사라질 예정 )


위 3 연산자는 노련한 개발자들도 혼동하기에,
일반적으로 하나만 선택해서 사용하는 것을 권장한단다


In [22]:
# 명칭기반 인덱스 : 인덱스를 지정한 경우



In [23]:
# 특정 컬럼으로 인덱스를 지정


### 정렬과 T

In [24]:
# 나이를 오름차순으로
# df.sort_index(ascending=False)   # 인덱스 정렬 기본값이 ascending=1

#원본 안변함 False 해주면 높은순으로 나옴
#df2라는 복사본은 변하지만 df원본은 안변함 ~
# 전문가들은 원본이 변경하지 않는 것을 권장
#df2 = df.sort_values('age', ascending=False)
#df2






# 이건 원본까지 변함 
#df.sort_values('age', ascending=False, inplace=True)
#df


### 정보확인

In [64]:
# 총 데이터 건수와 데이타 타입등 정보 확인



df.info()
df.describe()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    4 non-null      object
 1   age     4 non-null      int64 
 2   dept    4 non-null      object
 3   gender  4 non-null      object
 4   age+10  4 non-null      int64 
dtypes: int64(2), object(3)
memory usage: 364.0+ bytes


Unnamed: 0,age,age+10
count,4.0,4.0
mean,38.5,48.5
std,14.200939,14.200939
min,22.0,32.0
25%,30.25,40.25
50%,38.5,48.5
75%,46.75,56.75
max,55.0,65.0


In [26]:
# 기본통계량 구하기 ( 총개수, 평균, 표준편차, 최소값, 4분위수 등)
