In [185]:
import pandas as pd
from numpy import random
import matplotlib.pyplot as plt

#### pandas.Series 구조

- 1차원(1D) 구조를 가지고 있음

In [186]:
# Series 구조로 생성하는 경우는 아주 드물다
df1 = pd.Series(['aaa', 'bbb', 'ccc', 'ddd'], name = "Name")
print(df1)
print(type(df1))

0    aaa
1    bbb
2    ccc
3    ddd
Name: Name, dtype: object
<class 'pandas.core.series.Series'>


In [187]:
df2 = pd.Series([13, 24, 31, 29], name = "Age")
print(pd.DataFrame(df2))
print()
print(df2)


   Age
0   13
1   24
2   31
3   29

0    13
1    24
2    31
3    29
Name: Age, dtype: int64


In [188]:
# 시리즈로 만들어진 데이터 하나로 합치기
# 단 데이터 프레임 구조라도 데이터 개수만 같으면 사용할 수 있다
# 두 개 이상의 데이터프레임 또는 시리즈 구조의 데이터를 병합할 때 사용
# 병합방법 : 행병합(행추가) -> axis = 0, 열병합(열추가) -> axis = 1


df0 = pd.concat([ df1, df2 ], axis = 1)
print(df0)
print(type(df0))

  Name  Age
0  aaa   13
1  bbb   24
2  ccc   31
3  ddd   29
<class 'pandas.core.frame.DataFrame'>


### pandas.DataFrame 구조

In [189]:
# pandas.DataFrame 생성 : 딕셔너리 구조 이용

df1 = pd.DataFrame({'Name' : ['aaa', 'bbb', 'ccc', 'ddd'],
                   'Age' : [33, 28, 45, 41],
                   'Sex' : ['male', 'female', 'male', 'female']})
df1

Unnamed: 0,Name,Age,Sex
0,aaa,33,male
1,bbb,28,female
2,ccc,45,male
3,ddd,41,female


In [190]:
# pandas.DataFrame 생성 : 리스트 구조 이용
# pandas.DataFrame([리스트 값], columns = [열이름 정의])


df1 = pd.DataFrame([['AAA', 33, 'male'], 
                   ['BBB', 28, 'female'], 
                   ['CCC', 45, 'male'], 
                   ['DDD', 41, 'female']], columns = ["Name" , 'Age', 'sex'])
print(df1)


  Name  Age     sex
0  AAA   33    male
1  BBB   28  female
2  CCC   45    male
3  DDD   41  female


In [191]:
# pandas.DataFrame 생성 : 리스트와 딕셔너리가 같이 있는 경우
#pandas.DataFrame( [ {딕셔너리1}, {딕셔너리2}, {딕셔너리3}, {딕셔너리4} )

df1 = pd.DataFrame( [{'Name' : 'aaa', 'Agee' : 33, 'sex' : 'male'},
                    {'Name' : 'bbb', 'Agee' : 28, 'sex' : 'female'},
                    {'Name' : 'ccc', 'Agee' : 45, 'sex' : 'male'},
                    {'Name' : 'ddd', 'Agee' : 41, 'sex' : 'female'},])
df1

Unnamed: 0,Name,Agee,sex
0,aaa,33,male
1,bbb,28,female
2,ccc,45,male
3,ddd,41,female


### Pandas 에서 NaN( 결측치 ) 처리

In [192]:
#csv 파일 가져오기 : pd.read_csv('디렉토리 경로 및 파일명' , encoding='형태에 맞춰서')
# encoding 옵션 : 기본 utf-8, 상황에 따라, cp949, ansi, utf-16
df1=pd.read_csv('./Data/성적표.csv', encoding = 'cp949')
print(df1)

      순번   이름         학과  남/여   학년  이론  실기
0    1.0  송윤재  환경디자인원예학과   여자    2 NaN NaN
1    2.0  강민형     사회복지학과   여자    3 NaN NaN
2    3.0  강예린  환경디자인원예학과   여자    3 NaN NaN
3    4.0  고보빈       경영학과   여자    4 NaN NaN
4    5.0  김다정     보건관리학과   여자    3 NaN NaN
5    6.0  김두언     상담심리학과   남자    2 NaN NaN
6    7.0  김민지       중국어과   여자    3 NaN NaN
7    8.0  김수현    화학생명과학과   여자    3 NaN NaN
8    9.0  김영서       중국어과   여자    4 NaN NaN
9   10.0  김예은     사회복지학과   여자    2 NaN NaN
10  11.0  김태우     식품영양학과   남자    3 NaN NaN
11  12.0  노예빈     경영정보학과   여자    3 NaN NaN
12  13.0  류원선       경영학과   남자    3 NaN NaN
13  14.0  박규리    화학생명과학과   여자    3 NaN NaN
14  15.0  박영수       경영학과   남자    4 NaN NaN
15  16.0  박진아       건축학과   여자    3 NaN NaN
16  17.0  박현경       경영학과   여자    2 NaN NaN
17  18.0  백주연       중국어과   여자    4 NaN NaN
18  19.0  서예선    IT융합공학과   여자    2 NaN NaN
19  20.0  송수빈       음악학과   여자    4 NaN NaN
20  21.0  안연주    영어영문학전공   여자    4 NaN NaN
21  22.0  양정원    영어영문학전공   여자    3 NaN NaN
22  23.0  염

In [193]:
# NaN 값 확인 DataFrame.isnull().sum() -> 각 열단위 NaN 확인
df1.isnull().sum()

순번      8
이름      8
학과      8
남/여     8
학년      7
이론     43
실기     43
dtype: int64

In [194]:
# NaN 값 처리 : 모든 데이터 NAN 인 데이터 행 삭제: DataFrame.dropna()
# dropna() 옵션 : default(생략시) -> how = 'any' : NaN이 있는 모든 행 삭제
# dropna() 옵션 : how = 'all' -> 행 전체가 NaN 일 때 삭제
# dorpna() 옵션 : thresh = 3 (thresh = 결측치 개수) -> NaN 이 3개 이상인 행 전체 삭제 

#df1.dropna(how = 'all')
df1.dropna(thresh = 3) # NaN이 3개 이상이면 제거

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2,,
1,2.0,강민형,사회복지학과,여자,3,,
2,3.0,강예린,환경디자인원예학과,여자,3,,
3,4.0,고보빈,경영학과,여자,4,,
4,5.0,김다정,보건관리학과,여자,3,,
5,6.0,김두언,상담심리학과,남자,2,,
6,7.0,김민지,중국어과,여자,3,,
7,8.0,김수현,화학생명과학과,여자,3,,
8,9.0,김영서,중국어과,여자,4,,
9,10.0,김예은,사회복지학과,여자,2,,


In [195]:
# dropna() 옵션 , axis = 1 열 전체가 NaN인 값 삭제
# defualt axis = 0
df1.dropna(how = 'all', axis = 1)


Unnamed: 0,순번,이름,학과,남/여,학년
0,1.0,송윤재,환경디자인원예학과,여자,2.0
1,2.0,강민형,사회복지학과,여자,3.0
2,3.0,강예린,환경디자인원예학과,여자,3.0
3,4.0,고보빈,경영학과,여자,4.0
4,5.0,김다정,보건관리학과,여자,3.0
5,6.0,김두언,상담심리학과,남자,2.0
6,7.0,김민지,중국어과,여자,3.0
7,8.0,김수현,화학생명과학과,여자,3.0
8,9.0,김영서,중국어과,여자,4.0
9,10.0,김예은,사회복지학과,여자,2.0


In [196]:
# 결측치를 수정한 데이터 적용하기

#df1.dropna(thresh = 3, inplace = True)
df1 = df1.dropna( thresh = 3)
df1

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2,,
1,2.0,강민형,사회복지학과,여자,3,,
2,3.0,강예린,환경디자인원예학과,여자,3,,
3,4.0,고보빈,경영학과,여자,4,,
4,5.0,김다정,보건관리학과,여자,3,,
5,6.0,김두언,상담심리학과,남자,2,,
6,7.0,김민지,중국어과,여자,3,,
7,8.0,김수현,화학생명과학과,여자,3,,
8,9.0,김영서,중국어과,여자,4,,
9,10.0,김예은,사회복지학과,여자,2,,


### pandas 모듈을 이용한 데이터 편집 및 관리

In [197]:
#실기 이론 점수 60-100 점 사이의 값으로 

df1['이론'] = random.randint(60, 101, size = len(df1))
df1['실기'] = random.randint(60, 101, size = len(df1))
print(df1.head(3))
display(df1.tail(3))

    순번   이름         학과 남/여 학년  이론  실기
0  1.0  송윤재  환경디자인원예학과  여자  2  62  99
1  2.0  강민형     사회복지학과  여자  3  82  81
2  3.0  강예린  환경디자인원예학과  여자  3  73  88


Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
32,33.0,정민주,음악학과,여자,3,75,83
33,34.0,정예슬,간호학과,여자,1,87,97
34,35.0,홍지호,영어통번역전공,남자,4,96,73


### [요구사항]

- "남/여" 열의 값을 남자 -> 1  여자-> 2 변경해서 새로운 열을 추가해보기
- 열 이름 - > 성별 코드
- df1 열 순서 : 순서, 이름, 성별, 성별코드, 학과, 학년, 이론, 실기

In [198]:
#df1['성별코드'] = [1 if xy == '남자' else 2 for xy in df1['남/여']]

성별코드 = []
for xy in df1['남/여']:
    if xy == "남자":
        성별코드.append(1)
    else:
        성별코드.append(2)

df1['성별코드'] = 성별코드 
# df1에 새로운 열 생성 후 데이터 입력()
# 단, csv 파일에 영향을 주지 않음
# 메모리에서 활용되고 있는 내용임

In [200]:
df1 = df1[['순번', '이름', '남/여','성별코드','학과','학년', '이론', '실기']]
df1

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기
0,1.0,송윤재,여자,2,환경디자인원예학과,2,62,99
1,2.0,강민형,여자,2,사회복지학과,3,82,81
2,3.0,강예린,여자,2,환경디자인원예학과,3,73,88
3,4.0,고보빈,여자,2,경영학과,4,89,95
4,5.0,김다정,여자,2,보건관리학과,3,89,85
5,6.0,김두언,남자,1,상담심리학과,2,79,75
6,7.0,김민지,여자,2,중국어과,3,100,60
7,8.0,김수현,여자,2,화학생명과학과,3,96,76
8,9.0,김영서,여자,2,중국어과,4,61,66
9,10.0,김예은,여자,2,사회복지학과,2,99,73


In [201]:
df1['합계'] = df1['이론'] + df1['실기']
df1['평균'] = df1['합계'] / 2
df1.head(3)

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
0,1.0,송윤재,여자,2,환경디자인원예학과,2,62,99,161,80.5
1,2.0,강민형,여자,2,사회복지학과,3,82,81,163,81.5
2,3.0,강예린,여자,2,환경디자인원예학과,3,73,88,161,80.5


#### Pandas.DataFrame 저장

- csv: DataFrame.tp_csv('디렉토리 경로 및 파일명.csv', index = False) # 구분자 기본 콤마(,), 인덱스 = 저장하지 않음
- txt: DataFrame.tp_csv('디렉토리 경로 및 파일명.txt', sep="\t", index = False) #구분자(sep)을 tab(\t)으로 설정
- xlsx: DataFrame.tp_excel('디렉토리 경로 및 파일명.xlsx', index = False, sheet_name = 'new_name')
-        엑셀 추가 모듈 설치해야 사용 가능 : 2003버전 = xlrd 설치
-        엑셀 추가 모듈 설치해야 사용 가능 : 2007버전이후 = openpyxl 설치
- html: DataFrame.tp_html('디렉토리 경로 및 파일명.html', index = False)
- csv: DataFrame.tp_csv('디렉토리 경로 및 파일명.csv', index = False, header = False) # 제목도 제거하고 저장할게요

In [174]:
# 기본 형식으로 저장 -> csv
#!pip install openpyxl

df1.to_csv('./data/성적1.csv')
df1.to_csv('./data/성적2.txt', sep = '\t', index = False)
df1.to_excel('./data/성적3.xlsx', header = False)
df1.to_html('./data/성적4.html', index = False)

### pandas.DataFrame 행/열 값 출력하기

- DataFrame.loc[indexr값, '열이름']
- DataFrame.loc[[index값1,index값2], ['열이름1', '열이름2]]

- DataFrame.iloc[행위치, 열위치]
- DataFrame.iloc[행시작위치:행종료위치, 열시작위치:열종료위치]


In [202]:
# 열 이름
df1.columns

Index(['순번', '이름', '남/여', '성별코드', '학과', '학년', '이론', '실기', '합계', '평균'], dtype='object')

In [203]:
df1[[ '이름','성별코드','학년', '평균']]

Unnamed: 0,이름,성별코드,학년,평균
0,송윤재,2,2,80.5
1,강민형,2,3,81.5
2,강예린,2,3,80.5
3,고보빈,2,4,92.0
4,김다정,2,3,87.0
5,김두언,1,2,77.0
6,김민지,2,3,80.0
7,김수현,2,3,86.0
8,김영서,2,4,63.5
9,김예은,2,2,86.0


In [204]:
df1[df1['남/여']=='여자']

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
0,1.0,송윤재,여자,2,환경디자인원예학과,2,62,99,161,80.5
1,2.0,강민형,여자,2,사회복지학과,3,82,81,163,81.5
2,3.0,강예린,여자,2,환경디자인원예학과,3,73,88,161,80.5
3,4.0,고보빈,여자,2,경영학과,4,89,95,184,92.0
4,5.0,김다정,여자,2,보건관리학과,3,89,85,174,87.0
6,7.0,김민지,여자,2,중국어과,3,100,60,160,80.0
7,8.0,김수현,여자,2,화학생명과학과,3,96,76,172,86.0
8,9.0,김영서,여자,2,중국어과,4,61,66,127,63.5
9,10.0,김예은,여자,2,사회복지학과,2,99,73,172,86.0
11,12.0,노예빈,여자,2,경영정보학과,3,81,75,156,78.0


#### 데이터의 index 값을 이용해 출력하는 방법
- DataFrame.loc[index 값] -> 단일 행 출력
- DataFrame.loc[index 시작값 : index종료값] -> 시작 ~종료값 다중 행 출력
- DataFrame.loc[index 시작값 : index종료값,''열이름', '열이름']] -> 시작값~종료값 다중 행에서 열이름 정보만 가져오기

In [205]:
# 1개의 행 데이터 출력
df1.loc[1]

순번         2.0
이름         강민형
남/여         여자
성별코드         2
학과      사회복지학과
학년           3
이론          82
실기          81
합계         163
평균        81.5
Name: 1, dtype: object

In [206]:
# index 값이 1~6인 데이터 출력
# 리스트 인덱싱이 아니다
# 메모리 주소값이 아니라, 메모리를 찍어준 데이터 자체다

df1.loc[1:6]

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
1,2.0,강민형,여자,2,사회복지학과,3,82,81,163,81.5
2,3.0,강예린,여자,2,환경디자인원예학과,3,73,88,161,80.5
3,4.0,고보빈,여자,2,경영학과,4,89,95,184,92.0
4,5.0,김다정,여자,2,보건관리학과,3,89,85,174,87.0
5,6.0,김두언,남자,1,상담심리학과,2,79,75,154,77.0
6,7.0,김민지,여자,2,중국어과,3,100,60,160,80.0


In [207]:
df1.loc[1:6, ['이름', '학과', '이론', '실기']] # 1번에서 6번 인덱스의 이름만 보고 싶다

Unnamed: 0,이름,학과,이론,실기
1,강민형,사회복지학과,82,81
2,강예린,환경디자인원예학과,73,88
3,고보빈,경영학과,89,95
4,김다정,보건관리학과,89,85
5,김두언,상담심리학과,79,75
6,김민지,중국어과,100,60


In [208]:
df1.loc[[1, 3, 4, 10], ['이름', '학과', '이론', '실기']]

Unnamed: 0,이름,학과,이론,실기
1,강민형,사회복지학과,82,81
3,고보빈,경영학과,89,95
4,김다정,보건관리학과,89,85
10,김태우,식품영양학과,91,63


### 데이터 위치값을 이용한 행/열 출력

- DataFrame.iloc -> index값, columns:열 이름값은 없다 라고 생각해라
- DataFrame.iloc[행위치, 열위치]
- DataFrame.iloc[행시작위치: 행종료위치, 열시작위치 : 열종료위치]

In [209]:
df1.iloc[1:6] # 행 위치가 1 부터 6 전까지

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
1,2.0,강민형,여자,2,사회복지학과,3,82,81,163,81.5
2,3.0,강예린,여자,2,환경디자인원예학과,3,73,88,161,80.5
3,4.0,고보빈,여자,2,경영학과,4,89,95,184,92.0
4,5.0,김다정,여자,2,보건관리학과,3,89,85,174,87.0
5,6.0,김두언,남자,1,상담심리학과,2,79,75,154,77.0


In [210]:
# 행위치가 1부터 6 전까지 '이름', '남/여', '학년' 데이터 출력

df1.iloc[1:6, [1,2,5]]

Unnamed: 0,이름,남/여,학년
1,강민형,여자,3
2,강예린,여자,3
3,고보빈,여자,4
4,김다정,여자,3
5,김두언,남자,2


In [211]:
df1.iloc[5:11, 1:6]

Unnamed: 0,이름,남/여,성별코드,학과,학년
5,김두언,남자,1,상담심리학과,2
6,김민지,여자,2,중국어과,3
7,김수현,여자,2,화학생명과학과,3
8,김영서,여자,2,중국어과,4
9,김예은,여자,2,사회복지학과,2
10,김태우,남자,1,식품영양학과,3


### DataFrame.sort_values()/DataFrame.sort_index()

In [215]:
# DataFrame의 값을 기준으로 정렬 : DataFrame.sort_values(by=['열이름'], ascending = True/False)
# 기본값 오름차순

df1=df1.sort_values(by=['학년'])
display(df1.head()) #display는 ipython에서 만 지원

df1.sort_values( by = ['평균'], ascending = False, inplace = True ) # 평균을 기준으로 내림차순
display(df1.head())

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
29,30.0,이정현,여자,2,환경디자인원예학과,1,95,92,187,93.5
33,34.0,정예슬,여자,2,간호학과,1,87,97,184,92.0
30,31.0,이주연,여자,2,경영정보학과,2,100,93,193,96.5
0,1.0,송윤재,여자,2,환경디자인원예학과,2,62,99,161,80.5
9,10.0,김예은,여자,2,사회복지학과,2,99,73,172,86.0


Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
30,31.0,이주연,여자,2,경영정보학과,2,100,93,193,96.5
18,19.0,서예선,여자,2,IT융합공학과,2,100,92,192,96.0
29,30.0,이정현,여자,2,환경디자인원예학과,1,95,92,187,93.5
3,4.0,고보빈,여자,2,경영학과,4,89,95,184,92.0
33,34.0,정예슬,여자,2,간호학과,1,87,97,184,92.0


In [221]:
# 정렬 대상이 2개 이상인 경우
# 학년을 기준으로 1차 오름 차순 정리하고 
# 평균을 기준으로 2차 내림차순 정리해라

df1.sort_values(by = ['학년', '평균'], ascending = [True, False], inplace = True)
df1.iloc[0:9]

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
29,30.0,이정현,여자,2,환경디자인원예학과,1,95,92,187,93.5
33,34.0,정예슬,여자,2,간호학과,1,87,97,184,92.0
30,31.0,이주연,여자,2,경영정보학과,2,100,93,193,96.5
18,19.0,서예선,여자,2,IT융합공학과,2,100,92,192,96.0
16,17.0,박현경,여자,2,경영학과,2,99,83,182,91.0
9,10.0,김예은,여자,2,사회복지학과,2,99,73,172,86.0
0,1.0,송윤재,여자,2,환경디자인원예학과,2,62,99,161,80.5
5,6.0,김두언,남자,1,상담심리학과,2,79,75,154,77.0
4,5.0,김다정,여자,2,보건관리학과,3,89,85,174,87.0


In [227]:
df1.loc[29:33] 
df1
#데이터 1번과 9번 사이의 값을 뽑아라
#정렬 시에 그 사이의 데이터는 몇개가 될줄 몰라

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
29,30.0,이정현,여자,2,환경디자인원예학과,1,95,92,187,93.5
33,34.0,정예슬,여자,2,간호학과,1,87,97,184,92.0
30,31.0,이주연,여자,2,경영정보학과,2,100,93,193,96.5
18,19.0,서예선,여자,2,IT융합공학과,2,100,92,192,96.0
16,17.0,박현경,여자,2,경영학과,2,99,83,182,91.0
9,10.0,김예은,여자,2,사회복지학과,2,99,73,172,86.0
0,1.0,송윤재,여자,2,환경디자인원예학과,2,62,99,161,80.5
5,6.0,김두언,남자,1,상담심리학과,2,79,75,154,77.0
4,5.0,김다정,여자,2,보건관리학과,3,89,85,174,87.0
13,14.0,박규리,여자,2,화학생명과학과,3,95,79,174,87.0


In [228]:
df1= df1.sort_index() # 기본값은 ascending = True
df1

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
0,1.0,송윤재,여자,2,환경디자인원예학과,2,62,99,161,80.5
1,2.0,강민형,여자,2,사회복지학과,3,82,81,163,81.5
2,3.0,강예린,여자,2,환경디자인원예학과,3,73,88,161,80.5
3,4.0,고보빈,여자,2,경영학과,4,89,95,184,92.0
4,5.0,김다정,여자,2,보건관리학과,3,89,85,174,87.0
5,6.0,김두언,남자,1,상담심리학과,2,79,75,154,77.0
6,7.0,김민지,여자,2,중국어과,3,100,60,160,80.0
7,8.0,김수현,여자,2,화학생명과학과,3,96,76,172,86.0
8,9.0,김영서,여자,2,중국어과,4,61,66,127,63.5
9,10.0,김예은,여자,2,사회복지학과,2,99,73,172,86.0


In [232]:
# index 값 재 설정
df1.reset_index() # 기존 index 값을 유지하면서 새로운 인덱스 추가 적용

Unnamed: 0,index,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
0,0,1.0,송윤재,여자,2,환경디자인원예학과,2,62,99,161,80.5
1,1,2.0,강민형,여자,2,사회복지학과,3,82,81,163,81.5
2,2,3.0,강예린,여자,2,환경디자인원예학과,3,73,88,161,80.5
3,3,4.0,고보빈,여자,2,경영학과,4,89,95,184,92.0
4,4,5.0,김다정,여자,2,보건관리학과,3,89,85,174,87.0
5,5,6.0,김두언,남자,1,상담심리학과,2,79,75,154,77.0
6,6,7.0,김민지,여자,2,중국어과,3,100,60,160,80.0
7,7,8.0,김수현,여자,2,화학생명과학과,3,96,76,172,86.0
8,8,9.0,김영서,여자,2,중국어과,4,61,66,127,63.5
9,9,10.0,김예은,여자,2,사회복지학과,2,99,73,172,86.0


In [239]:
# index 값 재 설정
df1.reset_index(drop = True) # 인덱스 값을 제거하고 새로운 인덱스 추가 적용

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
0,1.0,송윤재,여자,2,환경디자인원예학과,2,62,99,161,80.5
1,2.0,강민형,여자,2,사회복지학과,3,82,81,163,81.5
2,3.0,강예린,여자,2,환경디자인원예학과,3,73,88,161,80.5
3,4.0,고보빈,여자,2,경영학과,4,89,95,184,92.0
4,5.0,김다정,여자,2,보건관리학과,3,89,85,174,87.0
5,6.0,김두언,남자,1,상담심리학과,2,79,75,154,77.0
6,7.0,김민지,여자,2,중국어과,3,100,60,160,80.0
7,8.0,김수현,여자,2,화학생명과학과,3,96,76,172,86.0
8,9.0,김영서,여자,2,중국어과,4,61,66,127,63.5
9,10.0,김예은,여자,2,사회복지학과,2,99,73,172,86.0


### DataFrame 행/열 삭제

- DataFrame.drop(index = 숫자, axis = 0 ) # index 값이 숫자인 행 1개 전체 삭제
- DataFrame.drop(index = [숫자, 숫자, 숫자], axis = 0 ) # 여러개의 행 삭제
- DataFrame.drop(DataFrame[DataFrame['열이름'] <= 69].index) 열이름이 69보다 같거나 작다면 삭제해
- DataFrame.drop(DataFrame[['열이름1', '열이름2]], axis = 1) # 정의한 열을 삭제해

In [244]:
df1.drop(0) # index값이 0인 행삭제
df1.drop([0,2,4,6]) #index값이 0,2,4,6 인 데이터 행 삭제


Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
1,2.0,강민형,여자,2,사회복지학과,3,82,81,163,81.5
3,4.0,고보빈,여자,2,경영학과,4,89,95,184,92.0
5,6.0,김두언,남자,1,상담심리학과,2,79,75,154,77.0
7,8.0,김수현,여자,2,화학생명과학과,3,96,76,172,86.0
8,9.0,김영서,여자,2,중국어과,4,61,66,127,63.5
9,10.0,김예은,여자,2,사회복지학과,2,99,73,172,86.0
10,11.0,김태우,남자,1,식품영양학과,3,91,63,154,77.0
11,12.0,노예빈,여자,2,경영정보학과,3,81,75,156,78.0
12,13.0,류원선,남자,1,경영학과,3,67,76,143,71.5
13,14.0,박규리,여자,2,화학생명과학과,3,95,79,174,87.0


In [256]:
df1.drop(df1[df1['평균'] < 90].index)

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,합계,평균
3,4.0,고보빈,여자,2,경영학과,4,89,95,184,92.0
14,15.0,박영수,남자,1,경영학과,4,99,83,182,91.0
16,17.0,박현경,여자,2,경영학과,2,99,83,182,91.0
18,19.0,서예선,여자,2,IT융합공학과,2,100,92,192,96.0
29,30.0,이정현,여자,2,환경디자인원예학과,1,95,92,187,93.5
30,31.0,이주연,여자,2,경영정보학과,2,100,93,193,96.5
33,34.0,정예슬,여자,2,간호학과,1,87,97,184,92.0


In [260]:
#drop()으로 열을 삭제하는 이유 : 확인 후 데이터 적용이 가능
# 즉 inplace가 아닌 상태라서 쓰는 것이다 cpu에서만 놀기 때문에

df1.drop(['순번', '성별코드'], axis = 1) # 열 삭제
df1.drop(columns = ['학과', '합계'])

Unnamed: 0,순번,이름,남/여,성별코드,학년,이론,실기,평균
0,1.0,송윤재,여자,2,2,62,99,80.5
1,2.0,강민형,여자,2,3,82,81,81.5
2,3.0,강예린,여자,2,3,73,88,80.5
3,4.0,고보빈,여자,2,4,89,95,92.0
4,5.0,김다정,여자,2,3,89,85,87.0
5,6.0,김두언,남자,1,2,79,75,77.0
6,7.0,김민지,여자,2,3,100,60,80.0
7,8.0,김수현,여자,2,3,96,76,86.0
8,9.0,김영서,여자,2,4,61,66,63.5
9,10.0,김예은,여자,2,2,99,73,86.0


In [261]:
# 삭제 후 적용까지 한것
# 즉 메모리에서 직접 해버려, 메모리에서 완전히 제거

del df1['합계']
df1.head()

Unnamed: 0,순번,이름,남/여,성별코드,학과,학년,이론,실기,평균
0,1.0,송윤재,여자,2,환경디자인원예학과,2,62,99,80.5
1,2.0,강민형,여자,2,사회복지학과,3,82,81,81.5
2,3.0,강예린,여자,2,환경디자인원예학과,3,73,88,80.5
3,4.0,고보빈,여자,2,경영학과,4,89,95,92.0
4,5.0,김다정,여자,2,보건관리학과,3,89,85,87.0
