# Pandas 기본 사용법 익히기

- Numpy 활용법은 알았으니, 더미 데이터(csv)를 Numpy 로 변형해보자
- Pandas 를 활용하여 데이터 분석 기초를 쌓아보자

## 목차

1. [Numpy 를 활용한 csv file open](#1.-Numpy-를-활용한-csv-file-open)


2. [Pandas DataFrame 생성](#2.-Pandas-DataFrame-생성)


3. [기본 함수](#3.-기본-함수)
    - 3.1. [처음 N개 행 표시](#3.1.-처음-N개-행-표시)
    - 3.2. [마지막 5개 행 표시](#3.2.-마지막-5개-행-표시)
    - 3.3. [헤더 이름 지정하기](#3.3.-헤더-이름-지정하기)
    - 3.4. [데이터 타입 반환](#3.4.-데이터-타입-반환)
    - 3.5. [DataFrame 의 정보 출력](#3.5.-DataFrame-의-정보-출력)
    - 3.6. [컬럼 별 요약 통계량 출력](#3.6.-컬럼-별-요약-통계량-출력)
    - 3.7. [특정 데이터 조회](#3.7.-특정-데이터-조회)
        - 3.7.1. [특정 행 조회하기](#3.7.1.-특정-행-조회하기)
        - 3.7.2. [여러 행 조회](#3.7.2.-여러-행-조회)
        - 3.7.3. [특정 구간 조회](#3.7.3.-특정-구간-조회)
        - 3.7.4. [특정 행을 제외하고 조회](#3.7.4.-특정-행을-제외하고-조회)
        - 3.7.5. [특정 행 다른 방법으로 가져오기](#3.7.5.-특정-행-다른-방법으로-가져오기)
        - 3.7.6. [특정 열 조회](#3.7.6.-특정-열-조회)
        - 3.7.7. [특정 열 제외하고 조회](#3.7.7.-특정-열-제외하고-조회)
        - 3.7.8. [특정 범위의 열 가져오기](#3.7.8.-특정-범위의-열-가져오기)
        - 3.7.9. [특정 열 다른 방법으로 가져오기](#3.7.9.-특정-열-다른-방법으로-가져오기)
        - 3.7.10. [행과 열 조회하기](#3.7.10.-행과-열-조회하기)
    - 3.8. [행 삽입하기](#3.8.-행-삽입하기)
        - 3.8.1. [마지막 위치에 하나의 행 추가](#3.8.1.-마지막-위치에-하나의-행-추가)
        - 3.8.2. [마지막 위치에 여러 행 추가](#3.8.2.-마지막-위치에-여러-행-추가)
        - 3.8.3. [두 개의 DataFrame 합치기](#3.8.3.-두-개의-DataFrame-합치기)
        - 3.8.4. [중간에 데이터 삽입](#3.8.4.-중간에-데이터-삽입)
    - 3.9. [열 삽입하기](#3.9.-열-삽입하기)
        - 3.9.1. [마지막 위치에 하나의 열 추가](#3.9.1.-마지막-위치에-하나의-열-추가)
        - 3.9.2. [중간 위치에 열 추가](#3.9.2.-중간-위치에-열-추가)
    - 3.10. [행 삭제](#3.10.-행-삭제)
        - 3.10.1. [중복된 행 제거](#3.10.1.-중복된-행-제거)
        - 3.10.2. [index명 or index 순서 를 이용한 행 삭제](#3.10.2.-index명-or-index-순서를-이용한-행-삭제)
        - 3.10.3. [열 조건에 따라 행 삭제](#3.10.3.-열-조건에-따라-행-삭제)
    - 3.11. [열 삭제](#3.11.-열-삭제)
    - 3.12. [DataFrame 복사](#3.12.-DataFrame-복사)

In [1]:
import csv
import numpy as np
import pandas as pd

csv 파일을 읽는 방법엔 2가지가 존재한다.

1. Python 기본 file open 함수 사용 -> numpy 로 변형
2. numpy 의 file read 함수 사용

이 중 2번 방법을 사용해보자

## 1. Numpy 를 활용한 csv file open

In [2]:
def file_open_by_numpy():
    # np.loadtxt(구분자 = ',', 데이터 타입: string)
    np_arr = np.loadtxt('data/test_data.CSV', delimiter=",", encoding='cp949', dtype=str)
    return np_arr

In [3]:
arr = file_open_by_numpy()
print(arr)

[['이름' '나이' '성별' '직업' '사는곳']
 ['김현우' '25' '남' '교수' '경상남도']
 ['이태현' '28' '여' '군인' '경상북도']
 ['박현준' '36' '남' '기자' '서울/경기']
 ['최성민' '34' '남' '리포터' '강원도']
 ['정준우' '45' '남' '모델' '강원도']
 ['김준혁' '67' '여' '개발자' '서울/경기']
 ['이지훈' '32' '여' '카텐더' '충청북도']
 ['박준영' '24' '남' '학원강사' '전라북도']
 ['최준서' '34' '여' '개발자' '강원도']
 ['정준호' '54' '남' '화가' '충청북도']
 ['김지은' '23' '여' '학원강사' '경상북도']
 ['이수진' '52' '여' '변호사' '전라북도']
 ['박지현' '64' '남' '개발자' '강원도']
 ['최은지' '56' '여' '법무사' '서울/경기']
 ['정지원' '76' '남' '변호사' '강원도']
 ['김수빈' '54' '남' '학원강사' '충청북도']
 ['이은서' '25' '남' '판사' '경상북도']
 ['박지민' '34' '여' '개발자' '전라남도']
 ['최지연' '62' '여' '학원강사' '충청북도']
 ['정지윤' '15' '남' '검사' '서울/경기']
 ['김소은' '63' '여' '검사' '전라남도']
 ['이서현' '34' '남' '미술가' '전라북도']
 ['박수진' '43' '여' '개발자' '전라남도']
 ['최윤지' '46' '여' '뮤지컬배우' '전라북도']
 ['정은지' '65' '여' '학원강사' '경상북도']
 ['김하은' '78' '여' '게임기획자' '전라남도']
 ['이가영' '89' '남' '프로게이머' '서울/경기']
 ['박예린' '45' '남' '개발자' '제주도']
 ['최민서' '35' '남' '감정평가사' '경상북도']
 ['정은서' '67' '여' '개발자' '제주도']
 ['김태현' '17' '남' '빅데이터전문가' '전라북도']
 ['

위와 같이 2차원 배열 형태로 read 된다.

Type 을 출력해보자

In [4]:
type(arr)

numpy.ndarray

위의 데이터를 분석하기 위해 pandas 의 Dataframe 으로 변형시켜보자

## 2. Pandas DataFrame 생성

In [5]:
# 기본적인 데이터 프레임 생성
df = pd.DataFrame(arr)
df

Unnamed: 0,0,1,2,3,4
0,이름,나이,성별,직업,사는곳
1,김현우,25,남,교수,경상남도
2,이태현,28,여,군인,경상북도
3,박현준,36,남,기자,서울/경기
4,최성민,34,남,리포터,강원도
5,정준우,45,남,모델,강원도
6,김준혁,67,여,개발자,서울/경기
7,이지훈,32,여,카텐더,충청북도
8,박준영,24,남,학원강사,전라북도
9,최준서,34,여,개발자,강원도


In [6]:
# 컬럼명 지정하면서 생성하기
# 인덱스명도 지정하면서 할 수 있다.
columns=arr[0]
arr = np.delete(arr, 0, 0)
df = pd.DataFrame(arr, columns=columns)
df

Unnamed: 0,이름,나이,성별,직업,사는곳
0,김현우,25,남,교수,경상남도
1,이태현,28,여,군인,경상북도
2,박현준,36,남,기자,서울/경기
3,최성민,34,남,리포터,강원도
4,정준우,45,남,모델,강원도
5,김준혁,67,여,개발자,서울/경기
6,이지훈,32,여,카텐더,충청북도
7,박준영,24,남,학원강사,전라북도
8,최준서,34,여,개발자,강원도
9,정준호,54,남,화가,충청북도


---

## 3. 기본 함수

### 3.1. 처음 N개 행 표시

In [7]:
df.head(5)

Unnamed: 0,이름,나이,성별,직업,사는곳
0,김현우,25,남,교수,경상남도
1,이태현,28,여,군인,경상북도
2,박현준,36,남,기자,서울/경기
3,최성민,34,남,리포터,강원도
4,정준우,45,남,모델,강원도


---

### 3.2. 마지막 5개 행 표시

In [8]:
df.tail(5)

Unnamed: 0,이름,나이,성별,직업,사는곳
45,정은우,67,남,빅데이터전문가,충청남도
46,풀스택,37,남,모델,서울/경기
47,프론트,27,여,건축가,경상북도
48,백엔드,36,여,개발자,서울/경기
49,김장고,43,남,개발자,서울/경기


---

### 3.3. 헤더 이름 지정하기

In [9]:
headers = ['임시', '헤더', '이름', '지정', '하기']
df.columns = headers
df.head(5)

Unnamed: 0,임시,헤더,이름,지정,하기
0,김현우,25,남,교수,경상남도
1,이태현,28,여,군인,경상북도
2,박현준,36,남,기자,서울/경기
3,최성민,34,남,리포터,강원도
4,정준우,45,남,모델,강원도


In [10]:
headers = ['이름', '나이', '성별', '직업', '사는곳']
df.columns = headers
df.head(5)

Unnamed: 0,이름,나이,성별,직업,사는곳
0,김현우,25,남,교수,경상남도
1,이태현,28,여,군인,경상북도
2,박현준,36,남,기자,서울/경기
3,최성민,34,남,리포터,강원도
4,정준우,45,남,모델,강원도


---

### 3.4. 데이터 타입 반환

In [11]:
df.dtypes

이름     object
나이     object
성별     object
직업     object
사는곳    object
dtype: object

---

### 3.5. DataFrame 의 정보 출력

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      50 non-null     object
 1   나이      50 non-null     object
 2   성별      50 non-null     object
 3   직업      50 non-null     object
 4   사는곳     50 non-null     object
dtypes: object(5)
memory usage: 2.1+ KB


---

### 3.6. 컬럼 별 요약 통계량 출력
- __unique__: 열에있는 고유 한 개체의 수
- __top__: 가장 많이 사용된 데이터
- __freq__: 가장 많이 사용된 값의 빈도 수
- __NaN__: "숫자가 아님"을 나타낸다 - 통계에 대해 계산할 수 없다는 뜻

In [13]:
df.describe()

Unnamed: 0,이름,나이,성별,직업,사는곳
count,50,50,50,50,50
unique,50,33,2,28,9
top,김현우,34,남,개발자,서울/경기
freq,1,5,26,10,11


---

### 3.7. 특정 데이터 조회
- 참고 - [Pandas Docs - loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)
- `iloc()` 함수 사용
    - `row 번호` 로 조회 가능
- `loc()` 함수 사용
    - `index명` 으로 조회 가능

현재는 `index명`이 `Default(row 번호)`로 설정되어 있으므로 두 함수가 동일한 방식으로 사용된다.

#### 3.7.1. 특정 행 조회하기

In [14]:
df.loc[2]

이름       박현준
나이        36
성별         남
직업        기자
사는곳    서울/경기
Name: 2, dtype: object

#### 3.7.2. 여러 행 조회

In [15]:
df.loc[[2, 3]]

Unnamed: 0,이름,나이,성별,직업,사는곳
2,박현준,36,남,기자,서울/경기
3,최성민,34,남,리포터,강원도


#### 3.7.3. 특정 구간 조회

In [16]:
df.loc[1:4]

Unnamed: 0,이름,나이,성별,직업,사는곳
1,이태현,28,여,군인,경상북도
2,박현준,36,남,기자,서울/경기
3,최성민,34,남,리포터,강원도
4,정준우,45,남,모델,강원도


#### 3.7.4. 특정 행을 제외하고 조회

In [17]:
df.loc[df.index != 2]

Unnamed: 0,이름,나이,성별,직업,사는곳
0,김현우,25,남,교수,경상남도
1,이태현,28,여,군인,경상북도
3,최성민,34,남,리포터,강원도
4,정준우,45,남,모델,강원도
5,김준혁,67,여,개발자,서울/경기
6,이지훈,32,여,카텐더,충청북도
7,박준영,24,남,학원강사,전라북도
8,최준서,34,여,개발자,강원도
9,정준호,54,남,화가,충청북도
10,김지은,23,여,학원강사,경상북도


#### 3.7.5. 특정 행 다른 방법으로 가져오기
- True/False 배열을 통해 True 인 행만 가져오기
- 이 방법은 인덱스 개수와 동일한 True/False 배열을 사용해서 에러가 발생하지 않는다.

In [18]:
df.head(5).loc[[True, True, False, False, True]]

Unnamed: 0,이름,나이,성별,직업,사는곳
0,김현우,25,남,교수,경상남도
1,이태현,28,여,군인,경상북도
4,정준우,45,남,모델,강원도


#### 3.7.6. 특정 열 조회

In [19]:
df.loc[:, '이름']

0     김현우
1     이태현
2     박현준
3     최성민
4     정준우
5     김준혁
6     이지훈
7     박준영
8     최준서
9     정준호
10    김지은
11    이수진
12    박지현
13    최은지
14    정지원
15    김수빈
16    이은서
17    박지민
18    최지연
19    정지윤
20    김소은
21    이서현
22    박수진
23    최윤지
24    정은지
25    김하은
26    이가영
27    박예린
28    최민서
29    정은서
30    김태현
31    박현우
32    이민지
33    박지우
34    최수빈
35    정은혜
36    김지원
37    이지영
38    박지수
39    최승현
40    정윤서
41    김태우
42    이지민
43    박수현
44    최지훈
45    정은우
46    풀스택
47    프론트
48    백엔드
49    김장고
Name: 이름, dtype: object

In [20]:
# Column 이름을 배열 형태로 입력하면 DataFrame 형태(2차원)가 리턴된다.
df.loc[:, ['이름']]

Unnamed: 0,이름
0,김현우
1,이태현
2,박현준
3,최성민
4,정준우
5,김준혁
6,이지훈
7,박준영
8,최준서
9,정준호


#### 3.7.7. 특정 열 제외하고 조회

In [21]:
df.loc[:, df.columns != '나이']

Unnamed: 0,이름,성별,직업,사는곳
0,김현우,남,교수,경상남도
1,이태현,여,군인,경상북도
2,박현준,남,기자,서울/경기
3,최성민,남,리포터,강원도
4,정준우,남,모델,강원도
5,김준혁,여,개발자,서울/경기
6,이지훈,여,카텐더,충청북도
7,박준영,남,학원강사,전라북도
8,최준서,여,개발자,강원도
9,정준호,남,화가,충청북도


#### 3.7.8. 특정 범위의 열 가져오기

In [22]:
df.loc[:, '나이':'직업']

Unnamed: 0,나이,성별,직업
0,25,남,교수
1,28,여,군인
2,36,남,기자
3,34,남,리포터
4,45,남,모델
5,67,여,개발자
6,32,여,카텐더
7,24,남,학원강사
8,34,여,개발자
9,54,남,화가


#### 3.7.9. 특정 열 다른 방법으로 가져오기
- True/False 배열을 통해 True 인 행만 가져오기
- 이 방법은 Column 개수와 동일한 True/False 배열을 사용해서 에러가 발생하지 않는다.

In [23]:
df.loc[:, [True, True, False, False, True]]

Unnamed: 0,이름,나이,사는곳
0,김현우,25,경상남도
1,이태현,28,경상북도
2,박현준,36,서울/경기
3,최성민,34,강원도
4,정준우,45,강원도
5,김준혁,67,서울/경기
6,이지훈,32,충청북도
7,박준영,24,전라북도
8,최준서,34,강원도
9,정준호,54,충청북도


#### 3.7.10. 행과 열 조회하기

In [24]:
df.loc[2, '나이']

'36'

In [25]:
df.loc[[2, 5], ['이름', '직업']]

Unnamed: 0,이름,직업
2,박현준,기자
5,김준혁,개발자


---

### 3.8. 행 삽입하기

#### 3.8.1. 마지막 위치에 하나의 행 추가
- `loc()` 사용
- 하나의 리스트를 마지막에 추가하고 싶을 때 사용

In [26]:
# 컬럼명 지정하면서 생성하기
# 인덱스명도 지정하면서 할 수 있다.
arr = file_open_by_numpy()
columns=arr[0]
arr = np.delete(arr, 0, 0)
df = pd.DataFrame(arr, columns=columns)
df

Unnamed: 0,이름,나이,성별,직업,사는곳
0,김현우,25,남,교수,경상남도
1,이태현,28,여,군인,경상북도
2,박현준,36,남,기자,서울/경기
3,최성민,34,남,리포터,강원도
4,정준우,45,남,모델,강원도
5,김준혁,67,여,개발자,서울/경기
6,이지훈,32,여,카텐더,충청북도
7,박준영,24,남,학원강사,전라북도
8,최준서,34,여,개발자,강원도
9,정준호,54,남,화가,충청북도


In [27]:
df.loc[len(df)] = ['마지막', '99', '남', '무직', '서울/경기']
df.tail(5)

Unnamed: 0,이름,나이,성별,직업,사는곳
46,풀스택,37,남,모델,서울/경기
47,프론트,27,여,건축가,경상북도
48,백엔드,36,여,개발자,서울/경기
49,김장고,43,남,개발자,서울/경기
50,마지막,99,남,무직,서울/경기


#### 3.8.2. 마지막 위치에 여러 행 추가
- `append()` 활용
- 딕셔너리 형태를 DataFrame 에 추가하고 싶을 때 사용
- `ignore_index=True` 로 설정해야 인덱스가 기존 행의 뒷 번호로 잘 지정됨
- __주의사항__: Pandas 버전 업그레이드 시 사라질 수 있는 함수(concat 으로 대체)

In [28]:
df2 = pd.DataFrame({
    '이름': ['진짜마', '지막임'],
    '나이': ['98', '97'],
    '성별': ['여', '남'],
    '직업': ['개발자', '모델'],
    '사는곳': ['전라북도', '충청남도']
})
df2

Unnamed: 0,이름,나이,성별,직업,사는곳
0,진짜마,98,여,개발자,전라북도
1,지막임,97,남,모델,충청남도


#### 3.8.3. 두 개의 DataFrame 합치기
- `concat()` 사용

In [30]:
new_df = pd.concat([df, df2], ignore_index=True)
new_df

Unnamed: 0,이름,나이,성별,직업,사는곳
0,김현우,25,남,교수,경상남도
1,이태현,28,여,군인,경상북도
2,박현준,36,남,기자,서울/경기
3,최성민,34,남,리포터,강원도
4,정준우,45,남,모델,강원도
5,김준혁,67,여,개발자,서울/경기
6,이지훈,32,여,카텐더,충청북도
7,박준영,24,남,학원강사,전라북도
8,최준서,34,여,개발자,강원도
9,정준호,54,남,화가,충청북도


#### 3.8.4. 중간에 데이터 삽입
- `concat()` & `iloc` 사용
- `pd.concat([df.iloc[:N], 원하는 행, df.iloc[N:], ignore_index=True` 처럼 사용
    - N 번째에 새로운 DataFrame 을 넣고 싶을 때 위와 같이 사용

In [31]:
new_df = pd.concat([df.iloc[:3], df2, df.iloc[3:]], ignore_index=True)
new_df.head(10)

Unnamed: 0,이름,나이,성별,직업,사는곳
0,김현우,25,남,교수,경상남도
1,이태현,28,여,군인,경상북도
2,박현준,36,남,기자,서울/경기
3,진짜마,98,여,개발자,전라북도
4,지막임,97,남,모델,충청남도
5,최성민,34,남,리포터,강원도
6,정준우,45,남,모델,강원도
7,김준혁,67,여,개발자,서울/경기
8,이지훈,32,여,카텐더,충청북도
9,박준영,24,남,학원강사,전라북도


---

### 3.9. 열 삽입하기

#### 3.9.1. 마지막 위치에 하나의 열 추가
- `df[열이름] = 원소 리스트` 형태로 쉽게 사용 가능

In [32]:
df['연봉(만원)'] = [1000] * len(df)
df.head()

Unnamed: 0,이름,나이,성별,직업,사는곳,연봉(만원)
0,김현우,25,남,교수,경상남도,1000
1,이태현,28,여,군인,경상북도,1000
2,박현준,36,남,기자,서울/경기,1000
3,최성민,34,남,리포터,강원도,1000
4,정준우,45,남,모델,강원도,1000


#### 3.9.2. 중간 위치에 열 추가
- `insert()` 활용

In [33]:
df.insert(2, '국적', ['한국'] * len(df))
df.head()

Unnamed: 0,이름,나이,국적,성별,직업,사는곳,연봉(만원)
0,김현우,25,한국,남,교수,경상남도,1000
1,이태현,28,한국,여,군인,경상북도,1000
2,박현준,36,한국,남,기자,서울/경기,1000
3,최성민,34,한국,남,리포터,강원도,1000
4,정준우,45,한국,남,모델,강원도,1000


---

### 3.10. 행 삭제

Pandas 에서 자주 사용되는 데이터 삭제 기능들은 다음과 같다.
1. `dropna()` 를 이용한 결측 데이터 제거 ( `3.Pandas_Advanced` 에서 진행 )
    
2. `drop.duplicates` 를 이용한 중복 제거

3. `index명`, `index 순서` 를 이용한 행 삭제

4. 조건에 따른 행 삭제

#### 3.10.1. 중복된 행 제거

In [34]:
# 중복된 데이터를 강제로 추가
df.loc[len(df)] = ['마지막', '99', '미국', '남', '무직', '서울/경기', '0']
df.loc[len(df)] = ['마지막', '99', '미국', '남', '무직', '서울/경기', '0']
df.loc[len(df)] = ['마지막', '99', '미국', '남', '무직', '서울/경기', '0']
df.loc[len(df)] = ['마지막', '99', '미국', '남', '무직', '서울/경기', '0']
df.tail(5)

Unnamed: 0,이름,나이,국적,성별,직업,사는곳,연봉(만원)
50,마지막,99,한국,남,무직,서울/경기,1000
51,마지막,99,미국,남,무직,서울/경기,0
52,마지막,99,미국,남,무직,서울/경기,0
53,마지막,99,미국,남,무직,서울/경기,0
54,마지막,99,미국,남,무직,서울/경기,0


- 중복 데이터 조회

In [35]:
df.duplicated().sum()

np.int64(3)

In [36]:
df.drop_duplicates(inplace=True)
df

Unnamed: 0,이름,나이,국적,성별,직업,사는곳,연봉(만원)
0,김현우,25,한국,남,교수,경상남도,1000
1,이태현,28,한국,여,군인,경상북도,1000
2,박현준,36,한국,남,기자,서울/경기,1000
3,최성민,34,한국,남,리포터,강원도,1000
4,정준우,45,한국,남,모델,강원도,1000
5,김준혁,67,한국,여,개발자,서울/경기,1000
6,이지훈,32,한국,여,카텐더,충청북도,1000
7,박준영,24,한국,남,학원강사,전라북도,1000
8,최준서,34,한국,여,개발자,강원도,1000
9,정준호,54,한국,남,화가,충청북도,1000


#### 3.10.2. index명 or index 순서를 이용한 행 삭제

- index명 으로 삭제

In [37]:
df.drop([1, 2], inplace=True)
df

Unnamed: 0,이름,나이,국적,성별,직업,사는곳,연봉(만원)
0,김현우,25,한국,남,교수,경상남도,1000
3,최성민,34,한국,남,리포터,강원도,1000
4,정준우,45,한국,남,모델,강원도,1000
5,김준혁,67,한국,여,개발자,서울/경기,1000
6,이지훈,32,한국,여,카텐더,충청북도,1000
7,박준영,24,한국,남,학원강사,전라북도,1000
8,최준서,34,한국,여,개발자,강원도,1000
9,정준호,54,한국,남,화가,충청북도,1000
10,김지은,23,한국,여,학원강사,경상북도,1000
11,이수진,52,한국,여,변호사,전라북도,1000


- index 순서로 삭제

In [38]:
df.drop([df.index[0], df.index[1]], inplace=True)
df

Unnamed: 0,이름,나이,국적,성별,직업,사는곳,연봉(만원)
4,정준우,45,한국,남,모델,강원도,1000
5,김준혁,67,한국,여,개발자,서울/경기,1000
6,이지훈,32,한국,여,카텐더,충청북도,1000
7,박준영,24,한국,남,학원강사,전라북도,1000
8,최준서,34,한국,여,개발자,강원도,1000
9,정준호,54,한국,남,화가,충청북도,1000
10,김지은,23,한국,여,학원강사,경상북도,1000
11,이수진,52,한국,여,변호사,전라북도,1000
12,박지현,64,한국,남,개발자,강원도,1000
13,최은지,56,한국,여,법무사,서울/경기,1000


#### 3.10.3. 열 조건에 따라 행 삭제

In [39]:
idxs = df[df['나이'] > "50"].index
df.drop(idxs, inplace=True)
df

Unnamed: 0,이름,나이,국적,성별,직업,사는곳,연봉(만원)
4,정준우,45,한국,남,모델,강원도,1000
6,이지훈,32,한국,여,카텐더,충청북도,1000
7,박준영,24,한국,남,학원강사,전라북도,1000
8,최준서,34,한국,여,개발자,강원도,1000
10,김지은,23,한국,여,학원강사,경상북도,1000
16,이은서,25,한국,남,판사,경상북도,1000
17,박지민,34,한국,여,개발자,전라남도,1000
19,정지윤,15,한국,남,검사,서울/경기,1000
21,이서현,34,한국,남,미술가,전라북도,1000
22,박수진,43,한국,여,개발자,전라남도,1000


---

### 3.11. 열 삭제

필요한 열만 `loc()` 을 사용하여 가져와서 삽입한다.

In [40]:
df = df.loc[:, ['이름', '나이', '성별', '직업', '사는곳']]
df

Unnamed: 0,이름,나이,성별,직업,사는곳
4,정준우,45,남,모델,강원도
6,이지훈,32,여,카텐더,충청북도
7,박준영,24,남,학원강사,전라북도
8,최준서,34,여,개발자,강원도
10,김지은,23,여,학원강사,경상북도
16,이은서,25,남,판사,경상북도
17,박지민,34,여,개발자,전라남도
19,정지윤,15,남,검사,서울/경기
21,이서현,34,남,미술가,전라북도
22,박수진,43,여,개발자,전라남도


---

### 3.12. DataFrame 복사
- 대입 연산자 사용 시 마찬가지로 `얕은 복사` 가 발생한다. (원본 데이터가 변경된다)
- 원본 데이터 변경을 원치 않을 시 `copy()` 함수를 통해 `깊은 복사`를 해야한다.

In [41]:
# 데이터 새로 가져오기
arr = file_open_by_numpy()
columns=arr[0]
arr = np.delete(arr, 0, 0)
df = pd.DataFrame(arr, columns=columns)

In [42]:
df2 = df
df2['나이'] = 10
df.head()

Unnamed: 0,이름,나이,성별,직업,사는곳
0,김현우,10,남,교수,경상남도
1,이태현,10,여,군인,경상북도
2,박현준,10,남,기자,서울/경기
3,최성민,10,남,리포터,강원도
4,정준우,10,남,모델,강원도


In [43]:
df2 = df.copy()
df2['나이'] = 10
df.head()

Unnamed: 0,이름,나이,성별,직업,사는곳
0,김현우,10,남,교수,경상남도
1,이태현,10,여,군인,경상북도
2,박현준,10,남,기자,서울/경기
3,최성민,10,남,리포터,강원도
4,정준우,10,남,모델,강원도
