### pandas 모듈

In [10]:
import pandas as pd
from numpy import random
import matplotlib.pyplot as plt

#### pandas.Series 구조

In [11]:
df1=pd.Series(['AAA','BBB',"CCC","DDD"], name='Name')
print(df1)
print(type(df1))

0    AAA
1    BBB
2    CCC
3    DDD
Name: Name, dtype: object
<class 'pandas.core.series.Series'>


In [12]:
df2=pd.Series([33,28,45,51], name='Age')
print(df2)
df2=pd.DataFrame(df2)
print(df2)

0    33
1    28
2    45
3    51
Name: Age, dtype: int64
   Age
0   33
1   28
2   45
3   51


In [13]:
# 두개 이상의 데이터프레임 또는 시리즈 구조의 데이터를 병합할때 사용
# 병합방법: 행병합(행추가)-기본=>axis=0, 열병합(열추가)=>axis=1


df0=pd.concat([df1,df2], axis=1) #기준인 df1에 df2를 열추가한 결과는 df0에 저장
df0

Unnamed: 0,Name,Age
0,AAA,33
1,BBB,28
2,CCC,45
3,DDD,51


### pandas.Dataframe 구조

In [14]:
# pandas.DagaFrame 생성:딕셔너리 구조 이용
df1=pd.DataFrame({"Name":['AAA','BBB',"CCC","DDD"],
                  'Age':[33,28,45,51],
                  'Sex':['male','male','female','male']})
df1

Unnamed: 0,Name,Age,Sex
0,AAA,33,male
1,BBB,28,male
2,CCC,45,female
3,DDD,51,male


In [15]:
# pandas.DataFrame 생성: 리스트 구조 이용
# pandas.DataFrame([리스트 값], columns=[열이름 정의])
df1=pd.DataFrame([["AAA",33,"male"],["BBB",28,'male'],["CCC",34,"female"],
                  ['DDD',41,'male']], columns=["Name","Age","Sex"])
df1

Unnamed: 0,Name,Age,Sex
0,AAA,33,male
1,BBB,28,male
2,CCC,34,female
3,DDD,41,male


In [16]:
#pandas.DataFrame 생성: 리스트와 딕셔너리가 같이 있는 경우
#pandas.DataFrame([{딕셔너리1},{딕셔너리2}, {딕셔너리3}, {딕셔너리4}])

df1=pd.DataFrame([{"Name":'AAA','Age':33,'Sex':'male'},
                  {"Name":'BBB','Age':28,'Sex':'male'},
                  {"Name":'CCC','Age':34,'Sex':'female'},
                  {"Name":'DDD','Age':42,'Sex':'male'}])
df1

Unnamed: 0,Name,Age,Sex
0,AAA,33,male
1,BBB,28,male
2,CCC,34,female
3,DDD,42,male


### pandas에서 NaN(결측지) 처리

In [18]:
# csv 파일 가져도기: pd.read_csv(디렉토리 경로 및 파일명)
# encoding 옵션:기본 utf-8, 상황에 따라, cp949, ansi, utf-16 등 적용
df1=pd.read_csv('./data/성적표.csv', encoding='cp949')
df1

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2.0,,
1,2.0,강민형,사회복지학과,여자,3.0,,
2,3.0,강예린,환경디자인원예학과,여자,3.0,,
3,4.0,고보빈,경영학과,여자,4.0,,
4,5.0,김다정,보건관리학과,여자,3.0,,
5,6.0,김두언,상담심리학과,남자,2.0,,
6,7.0,김민지,중국어과,여자,3.0,,
7,8.0,김수현,화학생명과학과,여자,3.0,,
8,9.0,김영서,중국어과,여자,4.0,,
9,10.0,김예은,사회복지학과,여자,2.0,,


In [19]:
#NaN 값 확인 DataFrame.isnull().sum()=> 각 열단위 NaN 확인
df1.isnull().sum()

순번      8
이름      8
학과      8
남/여     8
학년      7
이론     43
실기     43
dtype: int64

In [20]:
#NaN 값 처리: 모든 데이터 NaN인 데이터 행 삭제:DataFrame.dropna()
#dropna()옵션:default(생략)=> how='any': NaN이 있는 모든 행 삭제



df1.dropna(how='all') #df1.drop(how='all'): 행 전체가 NaN인 행만 삭제

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2.0,,
1,2.0,강민형,사회복지학과,여자,3.0,,
2,3.0,강예린,환경디자인원예학과,여자,3.0,,
3,4.0,고보빈,경영학과,여자,4.0,,
4,5.0,김다정,보건관리학과,여자,3.0,,
5,6.0,김두언,상담심리학과,남자,2.0,,
6,7.0,김민지,중국어과,여자,3.0,,
7,8.0,김수현,화학생명과학과,여자,3.0,,
8,9.0,김영서,중국어과,여자,4.0,,
9,10.0,김예은,사회복지학과,여자,2.0,,


In [21]:
# dropna() 옵션: thresh=결측지 개수:=> 결측지 갯수가 임계치 이상인 데이터 모두 삭제

df1.dropna(thresh=3) #NaN이 3개 이상인 행에 대해서  행삭제

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2,,
1,2.0,강민형,사회복지학과,여자,3,,
2,3.0,강예린,환경디자인원예학과,여자,3,,
3,4.0,고보빈,경영학과,여자,4,,
4,5.0,김다정,보건관리학과,여자,3,,
5,6.0,김두언,상담심리학과,남자,2,,
6,7.0,김민지,중국어과,여자,3,,
7,8.0,김수현,화학생명과학과,여자,3,,
8,9.0,김영서,중국어과,여자,4,,
9,10.0,김예은,사회복지학과,여자,2,,


In [22]:
#dropna() 옵션: how='all': 열 전체가 NaN인 데이터를 찾아 삭제

df1.dropna(how='all', axis=1) #df1.drop(how='all'): 열 전체가 NaN인 열만 삭제

Unnamed: 0,순번,이름,학과,남/여,학년
0,1.0,송윤재,환경디자인원예학과,여자,2.0
1,2.0,강민형,사회복지학과,여자,3.0
2,3.0,강예린,환경디자인원예학과,여자,3.0
3,4.0,고보빈,경영학과,여자,4.0
4,5.0,김다정,보건관리학과,여자,3.0
5,6.0,김두언,상담심리학과,남자,2.0
6,7.0,김민지,중국어과,여자,3.0
7,8.0,김수현,화학생명과학과,여자,3.0
8,9.0,김영서,중국어과,여자,4.0
9,10.0,김예은,사회복지학과,여자,2.0


In [23]:
#df1.dropna(thresh=3, inplace=True)
df1=df1.dropna(thresh=3)
df1

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2,,
1,2.0,강민형,사회복지학과,여자,3,,
2,3.0,강예린,환경디자인원예학과,여자,3,,
3,4.0,고보빈,경영학과,여자,4,,
4,5.0,김다정,보건관리학과,여자,3,,
5,6.0,김두언,상담심리학과,남자,2,,
6,7.0,김민지,중국어과,여자,3,,
7,8.0,김수현,화학생명과학과,여자,3,,
8,9.0,김영서,중국어과,여자,4,,
9,10.0,김예은,사회복지학과,여자,2,,


### pandas 모듈을 이용한 데이터  편집 및 관리

In [24]:
# 이론, 실기 점수 60-100점사이의 값으로 무작위 입력
df1['이론']=random.randint(60,101, size=len(df1))
df1['실기']=random.randint(60,101, size=len(df1))

print(df1.head(3))
display(df1.tail(3))

    순번   이름         학과 남/여 학년  이론  실기
0  1.0  송윤재  환경디자인원예학과  여자  2  96  86
1  2.0  강민형     사회복지학과  여자  3  94  90
2  3.0  강예린  환경디자인원예학과  여자  3  78  87


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['이론']=random.randint(60,101, size=len(df1))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['실기']=random.randint(60,101, size=len(df1))


Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
32,33.0,정민주,음악학과,여자,3,90,67
33,34.0,정예슬,간호학과,여자,1,67,82
34,35.0,홍지호,영어통번역전공,남자,4,69,78


### {요구사항}
- 남/여 열의 값을 남자는 1로 여자는 2로 각각 변경해서 새로운 열 추가
- 열의 이름=> 성별 코드
- df1 열 순서: 순번, 이름, 성별, 성별코드, 학과, 학년, 이론 ,실기

In [25]:
# df1['성별코드']=[1 if xy =='남자' else 2 for xy in df1['남/여']]

성별코드=[] # 성별에 따라 1,2 가 들어갈 리스트 변수 생성

for xy in df1['남/여']:
    if xy=='남자':
        성별코드.append(1)
    else:
        성별코드.append(2)

df1['성별코드']=성별코드  # df에 새로운 열 생성 후 데이터 입력(열추가/계산필드 추가)
df1.head(3)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['성별코드']=성별코드  # df에 새로운 열 생성 후 데이터 입력(열추가/계산필드 추가)


Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기,성별코드
0,1.0,송윤재,환경디자인원예학과,여자,2,96,86,2
1,2.0,강민형,사회복지학과,여자,3,94,90,2
2,3.0,강예린,환경디자인원예학과,여자,3,78,87,2


In [26]:
df1=df1[['순번', '이름','학과', '남/여', '성별코드', '학년', '이론' ,'실기']]
df1.head(3)

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2,2,96,86
1,2.0,강민형,사회복지학과,여자,2,3,94,90
2,3.0,강예린,환경디자인원예학과,여자,2,3,78,87


In [27]:
df1['합계']=df1['이론']+df1['실기']
df1['평균']=df1['합계']/2
df1.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['합계']=df1['이론']+df1['실기']
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['평균']=df1['합계']/2


Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
0,1.0,송윤재,환경디자인원예학과,여자,2,2,96,86,182,91.0
1,2.0,강민형,사회복지학과,여자,2,3,94,90,184,92.0
2,3.0,강예린,환경디자인원예학과,여자,2,3,78,87,165,82.5
3,4.0,고보빈,경영학과,여자,2,4,62,99,161,80.5
4,5.0,김다정,보건관리학과,여자,2,3,70,61,131,65.5


#### Pandas.DataFrame 저장
- csv: DataFrame.to_csv('경로 및 파일명.csv', index=False) # 구분자 기본 ","
- txt: DataFrame.to_csv('경로 및 파일명.txt , sep="구분자", index=False) #\t
- xlsx:DataFrame.to_excel('경로 및 파일명.xlsx', index=False, sheet_name"new_name")
- 엑셀 추가모듈 설치해야 사용가능: 2003버전=xlrd 설치 , 2007버전 이상:openpyxl 설치
- html:DataFrame.to_html('경로 및 파일명.html')
- DataFrame.to_csv('경로 및 파일명.csv', index=False, header=False) #인덱스=> 저장 안함, 열이름=> 저장안함)

In [28]:
# 기본 형식으로 저장=>csv
df1.to_csv('./data/성적1.csv')
df1.to_csv('./data/성적2.txt' , sep="/", index=False)
df1.to_excel('./data/성적3.xlsx', header=False)
df1.to_html('./data/성적4.html', index=False)

### pandas.DataFrame 행/열 값 출력하기
- DataFrame.loc[index값,'열이름']
- DataFrame.loc[[index1값,index2값],['열이름','열이름2']]

- DataFrame.iloc[행위치,열위치]
- DataFrame.iloc[행시작위치:핸종료위치, 열시작위치:열종료위치]

In [29]:
#열 이름 확인: Dataframe.columns()
df1[['이름','남/여','학년','평균']].head()

Unnamed: 0,이름,남/여,학년,평균
0,송윤재,여자,2,91.0
1,강민형,여자,3,92.0
2,강예린,여자,3,82.5
3,고보빈,여자,4,80.5
4,김다정,여자,3,65.5


In [30]:
df1[df1['남/여']=='남자']

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
5,6.0,김두언,상담심리학과,남자,1,2,82,87,169,84.5
10,11.0,김태우,식품영양학과,남자,1,3,78,67,145,72.5
12,13.0,류원선,경영학과,남자,1,3,79,82,161,80.5
14,15.0,박영수,경영학과,남자,1,4,71,81,152,76.0
22,23.0,염효석,보건관리학과,남자,1,3,69,70,139,69.5
25,26.0,이기상,일본어과,남자,1,4,92,61,153,76.5
34,35.0,홍지호,영어통번역전공,남자,1,4,69,78,147,73.5


#### 데이터의 index 값을 이용해 출력하는 방법
- 1.DataFrame.loc[index값] => 행전체
- DataFrame.loc[index시작값: index종료값]=> 시작~종료값 다중 행 출력
- DataFrame.loc[index시작값:index종료값, ['열이름','열이름]]=> 시작~종료값 다중행에서 원하는 열만 출력

In [31]:
df1.loc[1] # 1개의 행 데이터 출력

순번         2.0
이름         강민형
학과      사회복지학과
남/여         여자
성별코드         2
학년           3
이론          94
실기          90
합계         184
평균        92.0
Name: 1, dtype: object

In [32]:
df1.loc[1:6] #index 값이 1~6인 데이터 출력

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
1,2.0,강민형,사회복지학과,여자,2,3,94,90,184,92.0
2,3.0,강예린,환경디자인원예학과,여자,2,3,78,87,165,82.5
3,4.0,고보빈,경영학과,여자,2,4,62,99,161,80.5
4,5.0,김다정,보건관리학과,여자,2,3,70,61,131,65.5
5,6.0,김두언,상담심리학과,남자,1,2,82,87,169,84.5
6,7.0,김민지,중국어과,여자,2,3,88,86,174,87.0


In [33]:
df1.loc[1:6, ['이름', '학과', '이론', '실기']] #index 값이 1~6인 데이터에서 이름만 출력

Unnamed: 0,이름,학과,이론,실기
1,강민형,사회복지학과,94,90
2,강예린,환경디자인원예학과,78,87
3,고보빈,경영학과,62,99
4,김다정,보건관리학과,70,61
5,김두언,상담심리학과,82,87
6,김민지,중국어과,88,86


In [34]:
df1.loc[[1,6,8,10], ['이름', '학과', '이론', '실기']]

Unnamed: 0,이름,학과,이론,실기
1,강민형,사회복지학과,94,90
6,김민지,중국어과,88,86
8,김영서,중국어과,66,77
10,김태우,식품영양학과,78,67


#### 데이터 위치값을 이용한 행/열 출력
- DataFrame.iloc=> index값, columns열 이름 값은 없다.
- DataFrame.iloc[행위치,열위치]
- DataFrame.iloc[행시작위치:행종료위치, 열시작위치:열종료위치]

In [37]:
df1.iloc[1:6, [1,4,7]] #행 위치가 1부터 6전까지 '이름', '남/여', '학과', 모든 데이터 출력

Unnamed: 0,이름,성별코드,실기
1,강민형,2,90
2,강예린,2,87
3,고보빈,2,99
4,김다정,2,61
5,김두언,1,87


In [38]:
df1.iloc[5:11, 1:6] #연속된 행/열 출력위치 입력 가능

Unnamed: 0,이름,학과,남/여,성별코드,학년
5,김두언,상담심리학과,남자,1,2
6,김민지,중국어과,여자,2,3
7,김수현,화학생명과학과,여자,2,3
8,김영서,중국어과,여자,2,4
9,김예은,사회복지학과,여자,2,2
10,김태우,식품영양학과,남자,1,3


### DataFrame.sort_values()/DataFrames.sort_index()

In [39]:
# DataFrame의 값을 기준으로 정렬: DataFrame.sort_values(by=['열이름'], ascending=Ture or False)
df1=df1.sort_values(by=['학년'], ascending=True )
display(df1.head())
df1.sort_values(by=['평균'], ascending=False, inplace=True) #평균을 기준으로 내림차순
display(df1.head())

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
29,30.0,이정현,환경디자인원예학과,여자,2,1,67,70,137,68.5
33,34.0,정예슬,간호학과,여자,2,1,67,82,149,74.5
0,1.0,송윤재,환경디자인원예학과,여자,2,2,96,86,182,91.0
5,6.0,김두언,상담심리학과,남자,1,2,82,87,169,84.5
18,19.0,서예선,IT융합공학과,여자,2,2,65,68,133,66.5


Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
26,27.0,이민영,경영학과,여자,2,3,90,100,190,95.0
1,2.0,강민형,사회복지학과,여자,2,3,94,90,184,92.0
0,1.0,송윤재,환경디자인원예학과,여자,2,2,96,86,182,91.0
7,8.0,김수현,화학생명과학과,여자,2,3,95,84,179,89.5
9,10.0,김예은,사회복지학과,여자,2,2,95,79,174,87.0


In [51]:
# 병렬 대상이 2개 이상인 경우
df1.sort_values(by=['학년','평균'], ascending=[True,False], inplace=True)
df1.loc[0:9] #index 값이 0-9 값

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
0,1.0,송윤재,환경디자인원예학과,여자,2,2,96,86,182,91.0
9,10.0,김예은,사회복지학과,여자,2,2,95,79,174,87.0


In [52]:
df1.iloc[0:9]

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
33,34.0,정예슬,간호학과,여자,2,1,67,82,149,74.5
29,30.0,이정현,환경디자인원예학과,여자,2,1,67,70,137,68.5
0,1.0,송윤재,환경디자인원예학과,여자,2,2,96,86,182,91.0
9,10.0,김예은,사회복지학과,여자,2,2,95,79,174,87.0
5,6.0,김두언,상담심리학과,남자,1,2,82,87,169,84.5
16,17.0,박현경,경영학과,여자,2,2,74,83,157,78.5
30,31.0,이주연,경영정보학과,여자,2,2,75,76,151,75.5
18,19.0,서예선,IT융합공학과,여자,2,2,65,68,133,66.5
26,27.0,이민영,경영학과,여자,2,3,90,100,190,95.0


In [54]:
df1=df1.sort_index(ascending=False)
df1

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
34,35.0,홍지호,영어통번역전공,남자,1,4,69,78,147,73.5
33,34.0,정예슬,간호학과,여자,2,1,67,82,149,74.5
32,33.0,정민주,음악학과,여자,2,3,90,67,157,78.5
31,32.0,장채연,간호학과,여자,2,3,95,68,163,81.5
30,31.0,이주연,경영정보학과,여자,2,2,75,76,151,75.5
29,30.0,이정현,환경디자인원예학과,여자,2,1,67,70,137,68.5
28,29.0,이여경,음악학과,여자,2,4,62,89,151,75.5
27,28.0,이아람,동물생명자원학과,여자,2,4,62,85,147,73.5
26,27.0,이민영,경영학과,여자,2,3,90,100,190,95.0
25,26.0,이기상,일본어과,남자,1,4,92,61,153,76.5


In [59]:
df1.sort_values(by=['학년','평균'], ascending=[True,False], inplace=True)
display(df1.head())

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
33,34.0,정예슬,간호학과,여자,2,1,67,82,149,74.5
29,30.0,이정현,환경디자인원예학과,여자,2,1,67,70,137,68.5
0,1.0,송윤재,환경디자인원예학과,여자,2,2,96,86,182,91.0
9,10.0,김예은,사회복지학과,여자,2,2,95,79,174,87.0
5,6.0,김두언,상담심리학과,남자,1,2,82,87,169,84.5


In [60]:
# index 값 재 설정
df1.reset_index() # 기존 index 값을 유지하면서 새로운 인덱스 추가

Unnamed: 0,index,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
0,33,34.0,정예슬,간호학과,여자,2,1,67,82,149,74.5
1,29,30.0,이정현,환경디자인원예학과,여자,2,1,67,70,137,68.5
2,0,1.0,송윤재,환경디자인원예학과,여자,2,2,96,86,182,91.0
3,9,10.0,김예은,사회복지학과,여자,2,2,95,79,174,87.0
4,5,6.0,김두언,상담심리학과,남자,1,2,82,87,169,84.5
5,16,17.0,박현경,경영학과,여자,2,2,74,83,157,78.5
6,30,31.0,이주연,경영정보학과,여자,2,2,75,76,151,75.5
7,18,19.0,서예선,IT융합공학과,여자,2,2,65,68,133,66.5
8,26,27.0,이민영,경영학과,여자,2,3,90,100,190,95.0
9,1,2.0,강민형,사회복지학과,여자,2,3,94,90,184,92.0


In [71]:
# index 값 재 설정
df1=df1.reset_index(drop=True) # 기존 index값을 제거하고 새로운 index 값 추가 적용
df1

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
0,34.0,정예슬,간호학과,여자,2,1,67,82,149,74.5
1,30.0,이정현,환경디자인원예학과,여자,2,1,67,70,137,68.5
2,1.0,송윤재,환경디자인원예학과,여자,2,2,96,86,182,91.0
3,10.0,김예은,사회복지학과,여자,2,2,95,79,174,87.0
4,6.0,김두언,상담심리학과,남자,1,2,82,87,169,84.5
5,17.0,박현경,경영학과,여자,2,2,74,83,157,78.5
6,31.0,이주연,경영정보학과,여자,2,2,75,76,151,75.5
7,19.0,서예선,IT융합공학과,여자,2,2,65,68,133,66.5
8,27.0,이민영,경영학과,여자,2,3,90,100,190,95.0
9,2.0,강민형,사회복지학과,여자,2,3,94,90,184,92.0


### DataFrame 행/열 삭제
- DataFrame.drop(index=0, axis=0) # 1개의 행 삭제, index값이 0인 데이터 행 삭제
- DataFrame.drop(index=[0,1,4,5] , axis=0) #여러개의 행 삭제
- DataFrame.drop(DataFrame[DataFrame['열이름'] <= 69].index) # 조건을 만족한 데이터 행 삭제
- DataFrame.drop(DataFrame['열이름', '열이름2], axis=1) # 정의한 열 삭제

In [85]:
df1.drop(df1[df1['평균']<90].index)

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
2,1.0,송윤재,환경디자인원예학과,여자,2,2,96,86,182,91.0
8,27.0,이민영,경영학과,여자,2,3,90,100,190,95.0
9,2.0,강민형,사회복지학과,여자,2,3,94,90,184,92.0


In [92]:
# drop()으로 열을 삭제하는 이유: 확인 후 데이터 적용이 가능

df1.drop(['순번','성별코드'], axis=1) #열 삭제
df1.drop(columns=['학과', '합계'])

Unnamed: 0,순번,이름,남/여,성별코드,학년,이론,실기,평균
0,34.0,정예슬,여자,2,1,67,82,74.5
1,30.0,이정현,여자,2,1,67,70,68.5
2,1.0,송윤재,여자,2,2,96,86,91.0
3,10.0,김예은,여자,2,2,95,79,87.0
4,6.0,김두언,남자,1,2,82,87,84.5
5,17.0,박현경,여자,2,2,74,83,78.5
6,31.0,이주연,여자,2,2,75,76,75.5
7,19.0,서예선,여자,2,2,65,68,66.5
8,27.0,이민영,여자,2,3,90,100,95.0
9,2.0,강민형,여자,2,3,94,90,92.0


In [None]:
#del df1['합계']  #즉시 삭제

### CCTV현황
- 전체 행이 NaN 인 데이터 삭제
- 2015년-2018년 까지 데이터 합계를 계산이후 2014년을 뺀 데이터를 '2014년 이전' 필드에 저장
- 2011~2014년 열 삭제
- 조건 2018년 데이터가 500미만인 데이터 행 삭제 연습