### pandas 모듈
- 참조: https://pandas.pydata.org/docs/getting_started/index.html#getting-started

In [1]:
#!pip install pandas

In [2]:
import pandas as pd
from numpy import random
import matplotlib.pyplot as plt

#### pandas.Series 구조

In [3]:
df1=pd.Series(['AAA', 'BBB', "CCC", "DDD"], name="Name")
print(df1)
print(type(df1))

0    AAA
1    BBB
2    CCC
3    DDD
Name: Name, dtype: object
<class 'pandas.core.series.Series'>


In [4]:
df2=pd.Series([33,28,45,41], name="Age")
print(df2)
print(type(df2))
df2=pd.DataFrame(df2)
print(df2)
print(type(df2))

0    33
1    28
2    45
3    41
Name: Age, dtype: int64
<class 'pandas.core.series.Series'>
   Age
0   33
1   28
2   45
3   41
<class 'pandas.core.frame.DataFrame'>


In [5]:
# 두개 이상의 데이터프레임 또는 시리즈 구조의 데이터를 병합할때 사용
# 병합방법: 행병합(행추가)-기본 => axis=0, 열병합(열추가) => axis=1

df0=pd.concat([df1, df2], axis=1)   # 기준인 df1에 df2를 열추가한 결과는 df0에 저장
df0

Unnamed: 0,Name,Age
0,AAA,33
1,BBB,28
2,CCC,45
3,DDD,41


### pandas.DataFrame 구조

In [6]:
# pandas.DataFrame 생성: 디셔너리 구조 이용

df1=pd.DataFrame({'Name':['AAA', 'BBB', "CCC", "DDD"],
                  'Age':[33,28,45,41], 
                  'Sex':['male', 'male', 'female', 'male']})
df1

Unnamed: 0,Name,Age,Sex
0,AAA,33,male
1,BBB,28,male
2,CCC,45,female
3,DDD,41,male


In [7]:
# pandas.DataFrame 생성: 리스트 구조 이용
# pandas.DataFrame([리스트 값], columns=[열이름 정의])
df1=pd.DataFrame([["AAA", 33, "male"],['BBB', 28, ], ['CCC', 45, "female"], 
                  ['DDD', 41, 'male']], columns=["Name", "Age", "Sex"])
df1

Unnamed: 0,Name,Age,Sex
0,AAA,33,male
1,BBB,28,
2,CCC,45,female
3,DDD,41,male


In [8]:
# pandas.DataFrame 생성: 리스트와 딕셔너리가 같이 있는 경우
# pandas.DataFrame([ {딕셔너리1}, {딕셔너리2}, {딕셔너리3}, {딕셔너리4}])

df1=pd.DataFrame([{'Name':'AAA','Age':33, 'Sex':'male'},
                  {'Name':'BBB','Age':28, 'Sex':'male'},
                  {'Name':'CCC','Age':45, 'Sex':'female'}, 
                  {'Name':'DDD','Age':41, 'Sex':'male'}])
df1

Unnamed: 0,Name,Age,Sex
0,AAA,33,male
1,BBB,28,male
2,CCC,45,female
3,DDD,41,male


### Pandas에서 NaN(결측지) 처리 

In [9]:
# csv 파일 가져오기: pd.read_csv('디렉토리 경로 및 파일명', encoding="???")
# encoding 옵션: 기본 utf-8, 상황에 따라, cp949, ansi, utf-16 등 적용

df1=pd.read_csv('./data/성적표.csv', encoding="cp949")
df1

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2.0,,
1,2.0,강민형,사회복지학과,여자,3.0,,
2,3.0,강예린,환경디자인원예학과,여자,3.0,,
3,4.0,고보빈,경영학과,여자,4.0,,
4,5.0,김다정,보건관리학과,여자,3.0,,
5,6.0,김두언,상담심리학과,남자,2.0,,
6,7.0,김민지,중국어과,여자,3.0,,
7,8.0,김수현,화학생명과학과,여자,3.0,,
8,9.0,김영서,중국어과,여자,4.0,,
9,10.0,김예은,사회복지학과,여자,2.0,,


In [10]:
# NaN 값 확인: DataFame.isnull().sum() => 각 열단위 NaN 확인
df1.isnull().sum()

순번      8
이름      8
학과      8
남/여     8
학년      7
이론     43
실기     43
dtype: int64

In [11]:
# NaN 값 처리: 모든 데이터 NaN인 데이터 행 삭제: DataFame.dropna()
# dropna() 옵션: default(생략) => how='any': NaN이 있는 모든 행 삭제 
df1.dropna()   # df1.dropna(how='any')

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기


In [12]:
# dropna() 옵션: how='all': 행 전체가 NaN인 데이터를 찾아 행 삭제

df1.dropna(how="all")   

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2.0,,
1,2.0,강민형,사회복지학과,여자,3.0,,
2,3.0,강예린,환경디자인원예학과,여자,3.0,,
3,4.0,고보빈,경영학과,여자,4.0,,
4,5.0,김다정,보건관리학과,여자,3.0,,
5,6.0,김두언,상담심리학과,남자,2.0,,
6,7.0,김민지,중국어과,여자,3.0,,
7,8.0,김수현,화학생명과학과,여자,3.0,,
8,9.0,김영서,중국어과,여자,4.0,,
9,10.0,김예은,사회복지학과,여자,2.0,,


In [13]:
# dropna() 옵션: thresh=결측지 개수 => 결측지 갯수가 임계치 이상인 데이터 모두 삭제 

df1.dropna(thresh=3)  # NaN이 3개 이상인 행에 대해서 행 삭제

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2,,
1,2.0,강민형,사회복지학과,여자,3,,
2,3.0,강예린,환경디자인원예학과,여자,3,,
3,4.0,고보빈,경영학과,여자,4,,
4,5.0,김다정,보건관리학과,여자,3,,
5,6.0,김두언,상담심리학과,남자,2,,
6,7.0,김민지,중국어과,여자,3,,
7,8.0,김수현,화학생명과학과,여자,3,,
8,9.0,김영서,중국어과,여자,4,,
9,10.0,김예은,사회복지학과,여자,2,,


In [14]:
# dropna() 옵션: how='all': 열 전체가 NaN인 데이터를 찾아 열 삭제

df1.dropna(how="all", axis=1) 

Unnamed: 0,순번,이름,학과,남/여,학년
0,1.0,송윤재,환경디자인원예학과,여자,2.0
1,2.0,강민형,사회복지학과,여자,3.0
2,3.0,강예린,환경디자인원예학과,여자,3.0
3,4.0,고보빈,경영학과,여자,4.0
4,5.0,김다정,보건관리학과,여자,3.0
5,6.0,김두언,상담심리학과,남자,2.0
6,7.0,김민지,중국어과,여자,3.0
7,8.0,김수현,화학생명과학과,여자,3.0
8,9.0,김영서,중국어과,여자,4.0
9,10.0,김예은,사회복지학과,여자,2.0


In [15]:
# df1.dropna(thresh=3, inplace=True)
df1=df1.dropna(thresh=3)
df1

Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2,,
1,2.0,강민형,사회복지학과,여자,3,,
2,3.0,강예린,환경디자인원예학과,여자,3,,
3,4.0,고보빈,경영학과,여자,4,,
4,5.0,김다정,보건관리학과,여자,3,,
5,6.0,김두언,상담심리학과,남자,2,,
6,7.0,김민지,중국어과,여자,3,,
7,8.0,김수현,화학생명과학과,여자,3,,
8,9.0,김영서,중국어과,여자,4,,
9,10.0,김예은,사회복지학과,여자,2,,


### pandas 모듈을 이용한 데이터 편집 및 관리

In [16]:
# 이론, 실기 wjatnfmf 60~100 사이의 값으로 무작위 입력
df1['이론']=random.randint(60, 101, size=len(df1))
df1['실기']=random.randint(60, 101, size=len(df1))
print(df1.head(3))
display(df1.tail(3))

    순번   이름         학과 남/여 학년   이론  실기
0  1.0  송윤재  환경디자인원예학과  여자  2  100  90
1  2.0  강민형     사회복지학과  여자  3   83  99
2  3.0  강예린  환경디자인원예학과  여자  3   94  90


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['이론']=random.randint(60, 101, size=len(df1))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['실기']=random.randint(60, 101, size=len(df1))


Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기
32,33.0,정민주,음악학과,여자,3,61,77
33,34.0,정예슬,간호학과,여자,1,72,75
34,35.0,홍지호,영어통번역전공,남자,4,85,81


### [요구사항]
- "남/여" 열의 값을 남자=>1, 여자=>2 각각 변경해서 새로운 열 추가
- 열 이름 => 성별코드
- df1 열 순서: 순번, 이름, 성별, 성별코드, 학과, 학년, 이론, 실기 

In [17]:
# df1['성별코드']=[1 if xy == "남자" else 2 for xy in df1['남/여']]

성별코드=[]     # 성별에 따라 1, 2가 들어갈 리스트 변수 생성
for xy in df1['남/여']:
    if xy == "남자":
        성별코드.append(1)
    else:
        성별코드.append(2)

df1['성별코드']=성별코드    # df1에 새로운 열 생성 후 데이터 입력(열추가/계산필드 추가)
df1.head(3)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['성별코드']=성별코드    # df1에 새로운 열 생성 후 데이터 입력(열추가/계산필드 추가)


Unnamed: 0,순번,이름,학과,남/여,학년,이론,실기,성별코드
0,1.0,송윤재,환경디자인원예학과,여자,2,100,90,2
1,2.0,강민형,사회복지학과,여자,3,83,99,2
2,3.0,강예린,환경디자인원예학과,여자,3,94,90,2


In [18]:
df1=df1[['순번', '이름','학과', '남/여', '성별코드', '학년', '이론', '실기']]
df1.head(3)

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기
0,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90
1,2.0,강민형,사회복지학과,여자,2,3,83,99
2,3.0,강예린,환경디자인원예학과,여자,2,3,94,90


In [19]:
df1['합계']=df1['이론']+df1['실기']
df1['평균']=df1['합계']/2
df1.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['합계']=df1['이론']+df1['실기']
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['평균']=df1['합계']/2


Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
0,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
1,2.0,강민형,사회복지학과,여자,2,3,83,99,182,91.0
2,3.0,강예린,환경디자인원예학과,여자,2,3,94,90,184,92.0
3,4.0,고보빈,경영학과,여자,2,4,69,95,164,82.0
4,5.0,김다정,보건관리학과,여자,2,3,99,73,172,86.0


### Pandas.DataFrame 저장
- csv: DataFrame.to_csv('경로 및 파일명.csv', index=False)  # 구분자 기본 콤마(,), 인덱스=>저장않함
- txt: DataFrame.to_csv('경로 및 파일명.txt', sep="\t", index=False) # 구분자(sep)를 탭(\t)으로 지정
- xlsx: DataFrame.to_excel('경로 및 파일명.xlsx', index=False, sheet_name='new_name')
-       엑셀 추가모듈 설치해야 사용 가능: 2003버전= xlrd 설치, 2007버전이상: openpyxl 설치
- html: DataFrame.to_html('경로 및 파일명.html')
-
- DataFrame.to_csv('경로 및 파일명.csv', index=False, header=False)  # 인덱스=>저장않함, 열이름=>저장않함

In [20]:
#!pip install openpyxl

In [21]:
# 기본 형식으로 저장=>csv
df1.to_csv('./data/성적1.csv')
df1.to_csv('./data/성적2.txt', sep="/", index=False)
df1.to_excel('./data/성적3.xlsx', header=False)
df1.to_html('./data/성적4.html', index=False)

### pandas.DataFrame 행/열 값 출력하기
- DataFrame.loc[indexr값, '열이름']
- DataFrame.loc[[index값1,index값2], ['열이름1', '열이름2]]<br><br>
- DataFrame.iloc[행위치, 열위치]
- DataFrame.iloc[행시작위치:행종료위치, 열시작위치:열종료위치]

In [22]:
# 열 이름 확인: DataFrame.columns()
df1[['이름', '남/여','학년','평균']].head()

Unnamed: 0,이름,남/여,학년,평균
0,송윤재,여자,2,95.0
1,강민형,여자,3,91.0
2,강예린,여자,3,92.0
3,고보빈,여자,4,82.0
4,김다정,여자,3,86.0


In [23]:
df1[df1['남/여']=='남자']

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
5,6.0,김두언,상담심리학과,남자,1,2,83,81,164,82.0
10,11.0,김태우,식품영양학과,남자,1,3,60,87,147,73.5
12,13.0,류원선,경영학과,남자,1,3,85,72,157,78.5
14,15.0,박영수,경영학과,남자,1,4,93,63,156,78.0
22,23.0,염효석,보건관리학과,남자,1,3,99,85,184,92.0
25,26.0,이기상,일본어과,남자,1,4,74,87,161,80.5
34,35.0,홍지호,영어통번역전공,남자,1,4,85,81,166,83.0


#### 데이터의 index 값을 이용해 출력하는 방법
- DataFrame.loc[indexr값] => 단일 행 출력
- DataFrame.loc[index시작값:index종료값] => 시작~종료값 다중 행 출력 
- DataFrame.loc[index시작값:index종료값, ['열이름', '열이름']] => 시작~종료값 다중 행에서 원하는 열만 출력 

In [24]:
df1.loc[1] # 1개의 행 데이터 출력

순번         2.0
이름         강민형
학과      사회복지학과
남/여         여자
성별코드         2
학년           3
이론          83
실기          99
합계         182
평균        91.0
Name: 1, dtype: object

In [25]:
df1.loc[1:6]  # index 값이 1 - 6 인 데이터 출력

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
1,2.0,강민형,사회복지학과,여자,2,3,83,99,182,91.0
2,3.0,강예린,환경디자인원예학과,여자,2,3,94,90,184,92.0
3,4.0,고보빈,경영학과,여자,2,4,69,95,164,82.0
4,5.0,김다정,보건관리학과,여자,2,3,99,73,172,86.0
5,6.0,김두언,상담심리학과,남자,1,2,83,81,164,82.0
6,7.0,김민지,중국어과,여자,2,3,65,78,143,71.5


In [26]:
df1.loc[1:6, ['이름']]  # index 값이 1 - 6 인 데이터에서 이름만 출력

Unnamed: 0,이름
1,강민형
2,강예린
3,고보빈
4,김다정
5,김두언
6,김민지


In [27]:
df1.loc[1:6, ['이름', '학과', '이론', '실기']]  # index 값이 1 - 6 인 데이터에서 여러 열값을 출력

Unnamed: 0,이름,학과,이론,실기
1,강민형,사회복지학과,83,99
2,강예린,환경디자인원예학과,94,90
3,고보빈,경영학과,69,95
4,김다정,보건관리학과,99,73
5,김두언,상담심리학과,83,81
6,김민지,중국어과,65,78


In [28]:
df1.loc[[1, 10, 4, 8], ['이름', '학과', '이론', '실기']]

Unnamed: 0,이름,학과,이론,실기
1,강민형,사회복지학과,83,99
10,김태우,식품영양학과,60,87
4,김다정,보건관리학과,99,73
8,김영서,중국어과,84,100


In [29]:
pd.concat([df1.loc[1:6, ['이름','학과']], df1.loc[8:15, ['이름','학과']], 
           df1.loc[22:28, ['이름','학과']]],axis=0)

Unnamed: 0,이름,학과
1,강민형,사회복지학과
2,강예린,환경디자인원예학과
3,고보빈,경영학과
4,김다정,보건관리학과
5,김두언,상담심리학과
6,김민지,중국어과
8,김영서,중국어과
9,김예은,사회복지학과
10,김태우,식품영양학과
11,노예빈,경영정보학과


#### 데이터 위치값을 이용한 행/열 출력 
- DataFrame.iloc => index값, columns:열 이름값은 없다
- DataFrame.iloc[행위치, 열위치]
- DataFrame.iloc[행시작위치:행종료위치, 열시작위치:열종료위치]

In [30]:
df1.iloc[1:6]  # 행 위치가 1 부터 6 전까지 모든 데이터 출력

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
1,2.0,강민형,사회복지학과,여자,2,3,83,99,182,91.0
2,3.0,강예린,환경디자인원예학과,여자,2,3,94,90,184,92.0
3,4.0,고보빈,경영학과,여자,2,4,69,95,164,82.0
4,5.0,김다정,보건관리학과,여자,2,3,99,73,172,86.0
5,6.0,김두언,상담심리학과,남자,1,2,83,81,164,82.0


In [31]:
df1.iloc[1:6, [1,3,5]]  # 행 위치가 1 부터 6 전까지 '이름', '남/여', '학년' 데이터 출력

Unnamed: 0,이름,남/여,학년
1,강민형,여자,3
2,강예린,여자,3
3,고보빈,여자,4
4,김다정,여자,3
5,김두언,남자,2


In [32]:
df1.iloc[[1, 6, 12,19], [1,3,5]]   # 비연속 데이터 출력

Unnamed: 0,이름,남/여,학년
1,강민형,여자,3
6,김민지,여자,3
12,류원선,남자,3
19,송수빈,여자,4


In [33]:
df1.iloc[[1, 6, 12,19], [1,3,5]] 

Unnamed: 0,이름,남/여,학년
1,강민형,여자,3
6,김민지,여자,3
12,류원선,남자,3
19,송수빈,여자,4


In [34]:
df1.iloc[5:11, 1:6]     # 연속된 행/열 출력 위치 입력 가능

Unnamed: 0,이름,학과,남/여,성별코드,학년
5,김두언,상담심리학과,남자,1,2
6,김민지,중국어과,여자,2,3
7,김수현,화학생명과학과,여자,2,3
8,김영서,중국어과,여자,2,4
9,김예은,사회복지학과,여자,2,2
10,김태우,식품영양학과,남자,1,3


### DataFrame.sort_values() /  DataFrame.sort_index()

In [35]:
# DataFrame의 값을 기준으로 정렬: DataFrame.sort_values(by=['열이름'], ascending=True/False)
df1=df1.sort_values(by=['학년'])  # ascending=True => 기본값 , 학년을 기준으로 오름차순 정렬
display(df1.head())
df1.sort_values(by=['평균'], ascending=False, inplace=True)  # 평균을 기준으로 내림차순 정렬
display(df1.head())

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
29,30.0,이정현,환경디자인원예학과,여자,2,1,81,89,170,85.0
33,34.0,정예슬,간호학과,여자,2,1,72,75,147,73.5
0,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
5,6.0,김두언,상담심리학과,남자,1,2,83,81,164,82.0
18,19.0,서예선,IT융합공학과,여자,2,2,72,85,157,78.5


Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
16,17.0,박현경,경영학과,여자,2,2,98,94,192,96.0
0,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
22,23.0,염효석,보건관리학과,남자,1,3,99,85,184,92.0
8,9.0,김영서,중국어과,여자,2,4,84,100,184,92.0
2,3.0,강예린,환경디자인원예학과,여자,2,3,94,90,184,92.0


In [37]:
# 정렬 대상이 2개 이상인 경우
df1.sort_values(by=['학년','평균'], ascending=[True, False], inplace=True)
df1.loc[0:9]    # index 값이 0~9 사이값

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
0,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
5,6.0,김두언,상담심리학과,남자,1,2,83,81,164,82.0
18,19.0,서예선,IT융합공학과,여자,2,2,72,85,157,78.5
30,31.0,이주연,경영정보학과,여자,2,2,92,62,154,77.0
9,10.0,김예은,사회복지학과,여자,2,2,86,66,152,76.0


In [39]:
df1.iloc[0:9]

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
29,30.0,이정현,환경디자인원예학과,여자,2,1,81,89,170,85.0
33,34.0,정예슬,간호학과,여자,2,1,72,75,147,73.5
16,17.0,박현경,경영학과,여자,2,2,98,94,192,96.0
0,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
5,6.0,김두언,상담심리학과,남자,1,2,83,81,164,82.0
18,19.0,서예선,IT융합공학과,여자,2,2,72,85,157,78.5
30,31.0,이주연,경영정보학과,여자,2,2,92,62,154,77.0
9,10.0,김예은,사회복지학과,여자,2,2,86,66,152,76.0
22,23.0,염효석,보건관리학과,남자,1,3,99,85,184,92.0


In [45]:
df1=df1.sort_index()  # ascending=True
df1.head()

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
0,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
1,2.0,강민형,사회복지학과,여자,2,3,83,99,182,91.0
2,3.0,강예린,환경디자인원예학과,여자,2,3,94,90,184,92.0
3,4.0,고보빈,경영학과,여자,2,4,69,95,164,82.0
4,5.0,김다정,보건관리학과,여자,2,3,99,73,172,86.0


In [47]:
df1.sort_values(by=['학년','평균'], ascending=[True, False], inplace=True)
display(df1.head())

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
29,30.0,이정현,환경디자인원예학과,여자,2,1,81,89,170,85.0
33,34.0,정예슬,간호학과,여자,2,1,72,75,147,73.5
16,17.0,박현경,경영학과,여자,2,2,98,94,192,96.0
0,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
5,6.0,김두언,상담심리학과,남자,1,2,83,81,164,82.0


In [48]:
# index 값 재 설정
df1.reset_index()   # 기존 index 값을 유지하면서 새로운 인덱스 추가 적용

Unnamed: 0,index,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
0,29,30.0,이정현,환경디자인원예학과,여자,2,1,81,89,170,85.0
1,33,34.0,정예슬,간호학과,여자,2,1,72,75,147,73.5
2,16,17.0,박현경,경영학과,여자,2,2,98,94,192,96.0
3,0,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
4,5,6.0,김두언,상담심리학과,남자,1,2,83,81,164,82.0
5,18,19.0,서예선,IT융합공학과,여자,2,2,72,85,157,78.5
6,30,31.0,이주연,경영정보학과,여자,2,2,92,62,154,77.0
7,9,10.0,김예은,사회복지학과,여자,2,2,86,66,152,76.0
8,2,3.0,강예린,환경디자인원예학과,여자,2,3,94,90,184,92.0
9,22,23.0,염효석,보건관리학과,남자,1,3,99,85,184,92.0


In [53]:
# index 값 재 설정(초기화)
df1=df1.reset_index(drop=True) # 기존 index 값을 제거하고 새로운 인덱스 값 추가 적용
df1.head()

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
0,30.0,이정현,환경디자인원예학과,여자,2,1,81,89,170,85.0
1,34.0,정예슬,간호학과,여자,2,1,72,75,147,73.5
2,17.0,박현경,경영학과,여자,2,2,98,94,192,96.0
3,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
4,6.0,김두언,상담심리학과,남자,1,2,83,81,164,82.0


### DataFrame 행/열 삭제
- DataFrame.drop(index=0, axis=0)            # 1개의 행 삭제, index값이 0인 데이터 행 삭제
- DataFrame.drop(index=[0,1,2], axis=0)      # 여러개의 행 삭제, index값이 0, 1, 2 인 데이터 행 삭제
- DataFrame.drop(DataFrame[DataFrame['열이름'] <= 69].index) # 조건을 만족한 데이터 행 삭제  <br><br>
- DataFrame.drop(DataFrame['열이름1', '열이름2], axis=1]     # 정의한 열 삭제

In [65]:
# df1 결과는 적용하지 않고 화면으로만 확인합니다.

df1.drop(0)   # index값이 0 인 행 삭제
df1.drop([0,2,4,6]) # index값이 0,2,4,6 인 데이터 행 삭제

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
1,34.0,정예슬,간호학과,여자,2,1,72,75,147,73.5
3,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
5,19.0,서예선,IT융합공학과,여자,2,2,72,85,157,78.5
7,10.0,김예은,사회복지학과,여자,2,2,86,66,152,76.0
8,3.0,강예린,환경디자인원예학과,여자,2,3,94,90,184,92.0
9,23.0,염효석,보건관리학과,남자,1,3,99,85,184,92.0
10,25.0,윤채린,경영정보학과,여자,2,3,89,95,184,92.0
11,2.0,강민형,사회복지학과,여자,2,3,83,99,182,91.0
12,32.0,장채연,간호학과,여자,2,3,79,95,174,87.0
13,5.0,김다정,보건관리학과,여자,2,3,99,73,172,86.0


In [75]:
df1[df1['평균']<90].index

Int64Index([ 0,  1,  4,  5,  6,  7, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22,
            23, 24, 26, 27, 28, 29, 30, 31, 32, 33, 34],
           dtype='int64')

In [68]:
df1.drop(df1[df1['평균']<90].index)

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,합계,평균
2,17.0,박현경,경영학과,여자,2,2,98,94,192,96.0
3,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,190,95.0
8,3.0,강예린,환경디자인원예학과,여자,2,3,94,90,184,92.0
9,23.0,염효석,보건관리학과,남자,1,3,99,85,184,92.0
10,25.0,윤채린,경영정보학과,여자,2,3,89,95,184,92.0
11,2.0,강민형,사회복지학과,여자,2,3,83,99,182,91.0
25,9.0,김영서,중국어과,여자,2,4,84,100,184,92.0


In [73]:
# drop()으로 열을 삭제하는 이유: 확인 후 데이터 적용이 가능

df1.drop(['순번', '성별코드'], axis=1)  # 열 삭제
df1.drop(columns=['학과', '합계'])

Unnamed: 0,순번,이름,남/여,성별코드,학년,이론,실기,평균
0,30.0,이정현,여자,2,1,81,89,85.0
1,34.0,정예슬,여자,2,1,72,75,73.5
2,17.0,박현경,여자,2,2,98,94,96.0
3,1.0,송윤재,여자,2,2,100,90,95.0
4,6.0,김두언,남자,1,2,83,81,82.0
5,19.0,서예선,여자,2,2,72,85,78.5
6,31.0,이주연,여자,2,2,92,62,77.0
7,10.0,김예은,여자,2,2,86,66,76.0
8,3.0,강예린,여자,2,3,94,90,92.0
9,23.0,염효석,남자,1,3,99,85,92.0


In [74]:
# del df1['합계']    # 즉시 삭제
df1.head()

Unnamed: 0,순번,이름,학과,남/여,성별코드,학년,이론,실기,평균
0,30.0,이정현,환경디자인원예학과,여자,2,1,81,89,85.0
1,34.0,정예슬,간호학과,여자,2,1,72,75,73.5
2,17.0,박현경,경영학과,여자,2,2,98,94,96.0
3,1.0,송윤재,환경디자인원예학과,여자,2,2,100,90,95.0
4,6.0,김두언,상담심리학과,남자,1,2,83,81,82.0


### CCTV 현황
- 전체 행이 NaN 인 데이터 삭제
- 2015년~2018년까지 데이터 합계를 계산 이후 2014년을 뺀 데이터를 '2014년이전' 필드에 저장
- 2011~2014년 열 삭제
- 조건 2018년 데이터가 500미만 인 데이터 행 삭제 연습