## Pandas
 * 파이썬에서 데이터를 시각적으로 간편하게 다룰 수 있도록 만들어진 라이브러리
 * 2차원 배열 데이터에 대한 집계, 시각화, 편집 등을 굉장히 쉽게 할 수 있게 해준다.

 **정형 데이터**를 다루는 라이브러리
 

In [1]:
import pandas as pd

## 데이터의 종류
* 정형 데이터(structured data)
  - 규칙에 의해서 정확하게 데이터가 존재하는 식의 데이터 형태
  *정해진 형태 (정형)
  - 엑셀, 'csv', 'RDBMS'
-대부분의 정형 데이터는 2차원 형식

** 반 정형 데이터 (semi structured data)
  - 약한 정형 데이터
  - 규칙은 존재하지만 반드시 지킬 필요는 없는 데이터의 형식
  - 없는 데이터는 없도록 설정한다.
  - 반 정형 데이터의 종류
    - JSON XML HTML NoSQL 등 문서의 형식으로 존재하는 데이터
    - '''python
    person_infos = [
      {"name" : "A", "age" : 30},
      {"age" : 34},
      {"name" : "C", "job": "Programmer"}]

* 비정형 데이터 (Unstructured data)
  * 정형 데이터의 반대 개념
  * 정해진 규칙이 없어서 값의 의미를 파악하기 힘든 데이터
  * 영상, 자연어, 음성, 주파수 등이 비정형데이터에 포함된다.

# Series, dataframe
  * Series: 한 종류의 데이터를 여러 개 모아 놓은 것
  * Dataframe: 'series'가 여러 개 모이면 'dataframe;이 된다.
  *RDBMS의 테이블과 같은 개념
  * R nxm

In [2]:
import pandas as pd
import numpy as np

np.random.seed(42)
data = np.random.randn(4)

temp_series = pd.Series(data)
temp_series

0    0.496714
1   -0.138264
2    0.647689
3    1.523030
dtype: float64

In [3]:
type(temp_series)

pandas.core.series.Series

## DataFrame
  * Series가 여러 개 모여서 하나의 데이터시트를 표현하면 DataFrame이 된다.

1. 리스트로 데이터프레임 만들기

In [4]:
# HTML에서 데이터를 크롤링했을 때 많이 사용되는 방법
sample_data = [["A", "마케팅", 30],
               ["B", "프로그래머", 27],
               ["C", "요리사", 34]]






In [5]:
pd.DataFrame(sample_data)

Unnamed: 0,0,1,2
0,A,마케팅,30
1,B,프로그래머,27
2,C,요리사,34


In [6]:
df = pd.DataFrame(sample_data)

In [7]:
df

Unnamed: 0,0,1,2
0,A,마케팅,30
1,B,프로그래머,27
2,C,요리사,34


In [8]:
df.columns = ["이름", "직업", "나이"]
df

Unnamed: 0,이름,직업,나이
0,A,마케팅,30
1,B,프로그래머,27
2,C,요리사,34


df = df.rename(columns={
    "이름": "name",
    "직업": "job",
    "나이": "age"
})
df

2. 딕셔너리로 데이터 프레임 만들기

In [9]:
sample_data = {
    "이름": ["AA", "BB", "CC"],
    "직업": ["경찰", "소방관", "군인"],
    "나이": [35, 31, 27]
}

pd.DataFrame(sample_data)

Unnamed: 0,이름,직업,나이
0,AA,경찰,35
1,BB,소방관,31
2,CC,군인,27


In [10]:
# 딕셔너리를 리스트로 모아서 데이터프레임 만들기
sample_data = [
    {
        "이름": "AAA",
        "나이": 35},
        {"이름": "BBB",
        "나이": 30},
        {"이름": "CCC",
        "나이": 33}
]

sample_data

[{'이름': 'AAA', '나이': 35}, {'이름': 'BBB', '나이': 30}, {'이름': 'CCC', '나이': 33}]

In [11]:
fruit_data = {
    "과일명": ["사과", "배", "딸기"],
    "원산지": ["국내산", "국내산", "미국산"],
    "가격": [1500, 4000, 10000],
    "세일가격": [1000, 3500, 7500]
        }

In [12]:
pd.DataFrame(fruit_data)

Unnamed: 0,과일명,원산지,가격,세일가격
0,사과,국내산,1500,1000
1,배,국내산,4000,3500
2,딸기,미국산,10000,7500


In [13]:
fruit_data = [["사과", "국내산", 2000, 1500],
              ["배", "국내산", 4500, 4000],
              ["망고", "태국", 2000, 1500],
              ["딸기", "일본", 3000, 2500],
              ["체리", "미국", 10000, 8500]
             ]

In [14]:
pd.DataFrame(fruit_data, columns= ["과일명", "원산지", "가격", "세일가격"])

Unnamed: 0,과일명,원산지,가격,세일가격
0,사과,국내산,2000,1500
1,배,국내산,4500,4000
2,망고,태국,2000,1500
3,딸기,일본,3000,2500
4,체리,미국,10000,8500


# CSV 파일 읽어오기
**csv 파일이란?**

*comma Seperated Value의 약자. 데이터가 콤마(,)로 구분되어있다.

*csv를 이용하면 순수하게 데이터만 가져올 수 있다. 엑셀이나 다른 데이터 포맷들보다 훨씬 빠르다.


In [15]:
pd.read_csv("./data/korean-idol.csv")

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [16]:
# 웹에 있는 csv파일 불러오기
url = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"

pd.read_csv(url)

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,11/16/21,11/17/21,11/18/21,11/19/21,11/20/21,11/21/21,11/22/21,11/23/21,11/24/21,11/25/21
0,,Afghanistan,33.939110,67.709953,0,0,0,0,0,0,...,156649,156739,156739,156812,156864,156896,156911,157015,157032,157144
1,,Albania,41.153300,20.168300,0,0,0,0,0,0,...,193856,194472,195021,195523,195988,195988,196611,197167,197776,198292
2,,Algeria,28.033900,1.659600,0,0,0,0,0,0,...,208245,208380,208532,208695,208839,208952,209111,209283,209463,209624
3,,Andorra,42.506300,1.521800,0,0,0,0,0,0,...,15929,15972,16035,16086,16086,16086,16299,16342,16426,16566
4,,Angola,-11.202700,17.873900,0,0,0,0,0,0,...,64940,64968,64985,64997,65011,65024,65033,65061,65080,65105
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
275,,Vietnam,14.058324,108.277199,0,2,2,2,2,2,...,1045397,1055246,1065469,1075094,1084625,1094514,1104835,1143967,1155778,1168228
276,,West Bank and Gaza,31.952200,35.233200,0,0,0,0,0,0,...,457390,457477,457729,457950,457950,457950,458448,458698,458956,459213
277,,Yemen,15.552727,48.516388,0,0,0,0,0,0,...,9936,9947,9950,9954,9955,9955,9961,9967,9972,9977
278,,Zambia,-13.133897,27.849332,0,0,0,0,0,0,...,210008,210020,210036,210043,210057,210070,210073,210090,210099,210112


# 판다스에서의 통계값, 요약, 정렬

In [17]:
df_idol = pd.read_csv("./data/korean-idol.csv")
df_idol

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


## 통계값 확인하기 -describe

In [18]:
# 숫자 형식의 데이터에 대한 통계요약
df_idol.describe()

Unnamed: 0,키,브랜드평판지수
count,13.0,15.0
mean,175.792308,5655856.0
std,5.820576,2539068.0
min,162.1,2925442.0
25%,174.0,3712344.0
50%,177.0,4668615.0
75%,179.2,7862214.0
max,183.0,10523260.0


* mean : 평균
* std : 표준편차
* min : 최솟값
* 25% : 1Q (전체 데잍 중 25% 지점에 있는 값)
* 75% : 3Q 
* 50%: 중간값 median
* max: 최댓값

## 데이터 프레임의 기본정보 확인 - 'info()'
* index 정보 (인덱스가 어떤 타입인지, 인덱스의 범위)
* column 정보 및 데이터 타입
* 누락값이 아닌 (non-null) 데이터의 개수
* 메모리 사용량

In [19]:
df_idol.info()
# info 바탕으로 어떤 유형의 데이터인지 확인한 다음에 데이터 분석하는 걸 추천한다고 하신다.. 쌤이 
# object는 숫자가 아닌 데이터 so 연산, 집계가 불가능 # int 어쩌구는 숫자데이터니까 연산가능

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


## 데이터 프레임의 형상 확인 -'shape'
* 데이터 프레임은 2차원 배열.
* shape을 사용했을 때는 행과 열의 개수 정보를 확인

In [20]:
df_idol.shape

(15, 8)

## 데이터 프레임의 상위/ 하위 정보 확인하기
* 상위: 'head(n)', 하위: 'tail(n)'
* 'head(n)': 상위n개의 데이터 출력
* 'tail(n)': 하위n개의 데이터 출력
밑에 있는 0,1,2 얘네가 인덱스임

In [21]:
df_idol.head(3)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745


## 데이터 정렬하기 - 'sort_index()', 'sort_values()'
* ascending=true : 오름차순
* ascending = false : 내림차순
## 인덱스 정렬하기
* 컬럼의 이름을 지정하지 않고 정렬하면 인덱스 기준 정렬

In [22]:
# 오름차순 정력
df_idol.sort_index()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [23]:
# 내림차순 정렬
df_idol.sort_values(by="키")

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308


## 두 개 이상의 컬럼을 사용해서 정렬
* 앞 쪽에 배치된 컬럼을 먼저 고려해서 정렬
* by =['키', '브랜드평판지수']
    * 첫 번째는 키로 정렬하고, 키가 같은 경우에는 브랜드평판지수로 정렬

In [24]:
df_idol.sort_values(by=["키", "브랜드평판지수"])

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308


In [25]:
df_idol.sort_values(by=["키", "브랜드평판지수"], ascending=[True, False])

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308


# 데이터 선택

## 컬럼 선택하기
    * 데이터 프레임에 대괄호('[]') 안에 컬럼 이름 또는 컬럼의 인덱스를 넣어서 선택
    * 컬럼의 이름을 사용하는 것을 **추천**

In [26]:
df_idol["이름"]

0       지민
1     지드래곤
2     강다니엘
3        뷔
4       화사
5       정국
6       민현
7       소연
8        진
9      하성운
10      태연
11     차은우
12      백호
13      JR
14      슈가
Name: 이름, dtype: object

In [27]:
type(df_idol["이름"])

pandas.core.series.Series

In [28]:
# 여러 칼럼을 동시 선택
column_names = ["이름", "그룹", "생년월일"]
df_idol[column_names]

Unnamed: 0,이름,그룹,생년월일
0,지민,방탄소년단,1995-10-13
1,지드래곤,빅뱅,1988-08-18
2,강다니엘,,1996-12-10
3,뷔,방탄소년단,1995-12-30
4,화사,마마무,1995-07-23
5,정국,방탄소년단,1997-09-01
6,민현,뉴이스트,1995-08-09
7,소연,아이들,1998-08-26
8,진,방탄소년단,1992-12-04
9,하성운,핫샷,1994-03-22


## 행(row) 선택
    1. slice 기법을 활용한 범위 선택

In [29]:
df_idol[3:8] #인덱스 3 ~ 인덱스7

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615


## 행과 열을 동시에 선택하기 - 'loc[]' ★★★★★
- 'location'의 약자
- 'loc[행 선택, 열 선택]'
       * 행 선택: 행의 인덱스 활용, True/False로 이루어진 조건 색인
       * 열 선택: 컬럼의 이름(들)

In [30]:
df_idol.loc[:,["이름", "키"]]

Unnamed: 0,이름,키
0,지민,173.6
1,지드래곤,177.0
2,강다니엘,180.0
3,뷔,178.0
4,화사,162.1
5,정국,178.0
6,민현,182.3
7,소연,
8,진,179.2
9,하성운,167.1


In [31]:
column_names = ["이름", "키", "브랜드평판지수"]

# 데이터 프레임의 인덱스를 따라간다. loc를 활용한다는 건 
# 값을 활용한다는 말이기 때문에 start ~ end가 슬라이싱 된다.
# (배열 인덱스를 따르는 게 아니다) end-1 규칙이 적용되지 않음 (end-1은 배열 인덱스니까)
df_idol.loc[3:8, column_names]

Unnamed: 0,이름,키,브랜드평판지수
3,뷔,178.0,8073501
4,화사,162.1,7650928
5,정국,178.0,5208335
6,민현,182.3,4989792
7,소연,,4668615
8,진,179.2,4570308


loc는 문자열, 정수, 날짜 등 다양한 타입의 인덱스를 활용할 때 사용. 일반적인 배열 인덱스의 법칙이 적용되지 않는다

# iloc (포지션 선택)
    * 배열의 인덱스 개념을 사용

In [32]:
df_idol.iloc[1:6,2:6]

Unnamed: 0,소속사,성별,생년월일,키
1,YG,남자,1988-08-18,177.0
2,커넥트,남자,1996-12-10,180.0
3,빅히트,남자,1995-12-30,178.0
4,RBW,여자,1995-07-23,162.1
5,빅히트,남자,1997-09-01,178.0


** loc vs iloc**
- 상황에 맞게 잘 쓰세요
      -'loc' : 보통 대부분의 데이터 분석을 할 때 주로 사용
      - 'iloc' : 머신러닝 파이프라인을 구축 시 DataFrame을 활용하지 못하는 상황에서 사용
      

   ## Boolean Indexing - 조건색인 ★★★★★
        - MySQL의'where'절에 해당하는 부분
        - 특정한 조건을 이용해서 그 조건을 만족하는('True') 데이터만 추출
            1. 조건 마스크를 생성한다.
                * True / False로 이루어진 배열을 만드는 것
                * 조건에 맞으면 True / 조건에 안 맞으면 False
            2. 생성된 조건 마스크를 행 위치에 집어 넣으면 끝!

In [33]:
# 키가 175 이상인 사람에 대한 조건 마스크
mask = df_idol["키"] >= 175
mask

0     False
1      True
2      True
3      True
4     False
5      True
6      True
7     False
8      True
9     False
10    False
11     True
12     True
13     True
14    False
Name: 키, dtype: bool

In [34]:
# 키가 178 이상인 사람의 이름, 그룹, 성별을 추출

In [35]:
mask = df_idol["키"] >= 178
column_names = ["이름", "그룹", "성별", "키"]
df_idol.loc[mask, column_names]


Unnamed: 0,이름,그룹,성별,키
2,강다니엘,,남자,180.0
3,뷔,방탄소년단,남자,178.0
5,정국,방탄소년단,남자,178.0
6,민현,뉴이스트,남자,182.3
8,진,방탄소년단,남자,179.2
11,차은우,아스트로,남자,183.0


결측치 (Null, None) 알아보기
NaN이란?
    * Not a number

In [36]:
df_idol.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


NaN이 어디에 있는지 확인하기 - isna()

In [37]:
df_idol.isna()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,True,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False,False


In [38]:
# 비슷한 함수로 isnull()
df_idol["키"].isnull()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7      True
8     False
9     False
10     True
11    False
12    False
13    False
14    False
Name: 키, dtype: bool

In [39]:
# 그룹이 없는 사람의 이름과 소속사와 생년월일 인덱싱
group_nan_mask = df_idol["그룹"].isnull()
df_idol.loc[group_nan_mask, ["이름", "소속사", "생년월일"]]

Unnamed: 0,이름,소속사,생년월일
2,강다니엘,커넥트,1996-12-10


##### NaN이 아닌 것을 찾기 - notnull()

In [40]:
df_idol["키"].notnull()

0      True
1      True
2      True
3      True
4      True
5      True
6      True
7     False
8      True
9      True
10    False
11     True
12     True
13     True
14     True
Name: 키, dtype: bool

In [41]:
height_not_null_mask = df_idol["키"].notnull()
df_idol[height_not_null_mask]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027


## 데이터 프레임 복사, 인덱스 설정, 변형
       * 그냥 베끼면 내가 할 수 있는 게 거의 없음,, 중요 !!

## 데이터 프레임 복사 - 'copy()'
* copy는 말 그대로 데이터 프레임을 복사할 때 사용
* 백업의 역할


new_df에 idol을 대입만 하면?

In [42]:
new_df = df_idol

In [43]:
new_df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [44]:
hex(id(df_idol)), hex(id(new_df)) #0~9ABCDEF (16진법)

('0x7fd97ab19af0', '0x7fd97ab19af0')

df_idol 다시 불러오기

In [45]:
df_idol = pd.read_csv("./data/korean-idol.csv")
df_idol.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [46]:
copy_df = df_idol.copy()
#원본 데이터 프레임 df_idol의 복사본을 새로 만들어서 copy_df에 넣음

In [47]:
hex(id(copy_df)), hex(id(df_idol))

('0x7fd958134130', '0x7fd958128520')

In [48]:
copy_df["쓸모 없는 컬럼"] =10

In [49]:
copy_df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,쓸모 없는 컬럼
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,10
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,10
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,10
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,10
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,10


In [50]:
df_idol.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


# 데이터 추가와 삭제

## row 추가하기
* dict 형식으로 데이터(row)를 만들어준 다음 append() 함수를 활용하여 데이터를 추가
* 반드시 ignore_index=True를 설정해야 한다.

In [51]:
df_idol.tail()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


In [52]:
new_data = {
    "이름": "소민호",
    "그룹": "뉴 그룹",
    "소속사": "돈 많이 주는 소속사",
    "성별": "남자",
    "생년월일": "1988-01-29",
    "키": 180.1,
    "혈액형": "AB",
    "브랜드평판지수": 123456789
}
df_idol.append(new_data, ignore_index=True)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


데이터 프레임을 변형할 때
* 함수를 이용한 변형
    * 변형된 데이터프레임을 리턴을 해준다
    - 'inplace=False' : 변형된 모양의 데이터 프레임 리턴
    - 'inplace=True' : 데이터 프레임에 실제 변형을 적용
    * 원본 데이터 프레임에 영향을 미치지 않는다
* 대입 연산자(=)를 이용한 변형
    - 원본 데이터 프레임이 바뀐다
    - 변형 전에 copy()를 이용해서 백업해놓고 변형하는 게 좋다.

In [53]:
df_idol.tail()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


# Column 추가
딕셔너리처럼 컬럼의 이름을 key로 지정하고 원하는 값을 넣어준다.

In [54]:
# 데이터 프레임 백업
df_copy = df_idol.copy()

df_idol.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [55]:
df_copy["국적"] = "대한민국"
df_copy.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국


# 지드래곤의 국적을 korea로 바꿔보기

In [56]:
name_mask = df_copy["이름"] =="지드래곤"
df_copy.loc[name_mask, "국적"] = "korea" # ⭐️⭐️⭐️⭐️⭐️⭐️
df_copy.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,korea
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국


# 통계값 다루기
    * 통계값은 항상 데이터 타입(Dtype)이 정수(int), 실수(float)

In [57]:
# 최소값(min)
df_idol["키"].max()

183.0

In [58]:
# 합계(sum)
df_idol["브랜드평판지수"].sum()

# 평균 (mean) / 최댓값 (max)

84837841

## 분산(var, variance), 표준편차(std, standard deviation)
* 분산과 표준편차는 데이터가 **평균으로부터 얼마나 떨어져있는지**에 대한 정도를 나타낸다.
$$

$$

* 표준편차는 분산에 루트를 씌운 것 (np.sqrt)

In [59]:
import numpy as np
data1 = np.array([1,3,5,7,9])
data2 = np.array([3,4,5,6,7])


data1, data2의 평균은 같다

In [60]:
data1.mean(), data2.mean()

(5.0, 5.0)

* 데이터의 분포가 큰 데이터: data1
* 데이터의 분포가 작은 데이터 : data2

In [61]:
# data1의 표준편차와 분산이 data2의 표준편차와 분산보다 크다.
def get_var(data):
    data_mean = data.mean()
    
    total = 0
    
    for d in data:
        total += (d - data_mean)**2
        
    return total / len(data)

d1_var = get_var(data1)
d2_var = get_var(data2)
    

In [62]:
d1_var, d2_var

(8.0, 2.0)

In [63]:
d1_std = np.sqrt(d1_var)
d2_std = np.sqrt(d2_var)

d1_std, d2_std

(2.8284271247461903, 1.4142135623730951)

In [64]:
data1.var(), data2.var()

(8.0, 2.0)

In [65]:
data1.std(), data2.std()

(2.8284271247461903, 1.4142135623730951)

키의 표준편차, 분산

In [66]:
df_idol['키'].std(), df_idol['키'].var()

(5.820575793175672, 33.879102564102595)

In [67]:
# 카운트(count)
df_idol['키'].count() #NaN을 제외한 데이터의 개수

13

# 결측값 처리하기

## 결측값 채우기 - fillna
NaN으로 나오는 값 채우기

In [68]:
df_idol["키"].fillna(0)

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       0.0
8     179.2
9     167.1
10      0.0
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

데이터 프레임에 NaN값을 채우기

In [69]:
# 데이터 백업
df_idol2 = df_idol.copy()

In [70]:
df_idol2["키"] = df_idol2["키"].fillna(0)
df_idol2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,0.0,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [71]:
# 키를 0이 아닌 평균으로 채워보기
df_idol3 = df_idol.copy()

In [72]:
mean_height = df_idol3['키'].mean()
mean_height

175.7923076923077

In [101]:
df_idol3["키"] = df_idol3["키"].fillna(mean_height)
df_idol3

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,175.792308,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [74]:
df_idol4 = df_idol.copy()

여자들의 키만 따로 평균을 구해서 넣어주기 NaN값 채우기 넣어주기

In [75]:
# 여자 키 구하기
woman_mask = df_idol4["성별"] == "여자" # 성별 여자인 사람 찾고
# 여자 키 추출
mean_woman_height = df_idol4.loc[woman_mask,"키"].mean() # 여자 키 평균값 도출
mean_woman_height

162.1

In [105]:
girl_height_filled = df_idol4.loc[woman_mask, '키'].fillna(mean_woman_height)
df_idol4.loc[woman_mask,'키'] = girl_height_filled
df_idol4

# 이걸 굳이 재정의 안하고 아래처럼 해도 실행됨!
# df_idol7 = df_idol.copy()
# df_idol7

# women_mask = df_idol7["성별"] == "여자"
# mean_women_h = df_idol7.loc[women_mask,"키"].mean()
# mean_women_h

# df_idol7["키"] = df_idol7["키"].fillna(mean_women_h)
# df_idol7

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,162.1,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


# 결측치가 있는 행을 제거 -dropna

In [77]:
# NaN 값이 있는 열을 삭제한다. 
df_idol.dropna(axis=1) # axis가 0 --> (0번 방향: 1차원 배열/ 행들이 추가되고 있음)

Unnamed: 0,이름,소속사,성별,생년월일,혈액형,브랜드평판지수
0,지민,빅히트,남자,1995-10-13,A,10523260
1,지드래곤,YG,남자,1988-08-18,A,9916947
2,강다니엘,커넥트,남자,1996-12-10,A,8273745
3,뷔,빅히트,남자,1995-12-30,AB,8073501
4,화사,RBW,여자,1995-07-23,A,7650928
5,정국,빅히트,남자,1997-09-01,A,5208335
6,민현,플레디스,남자,1995-08-09,O,4989792
7,소연,큐브,여자,1998-08-26,B,4668615
8,진,빅히트,남자,1992-12-04,O,4570308
9,하성운,스타크루이엔티,남자,1994-03-22,A,4036489


### 'Dropna'의 'axis'
* axis(0) = 행 삭제
* axis(1) = 열 삭제
표 전체는 2차원 배열 행은 axis가 0, 열은 axis가 1

### 'dropna'의 'how' 옵션
* how = any : NaN이 한 개라도 있으면 제거 - 기본값
* how = all : 데이터가 모두 NaN인 경우에만 제거


In [78]:
df_idol5 = df_idol.copy()

In [79]:
df_idol5.dropna(axis=0, how='all') # 행을 삭제할건데, 모든 데이터가 NaN이면 삭제 (all이니까)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [80]:
df_idol5.iloc[10] = np.nan # 10번 데이터를 다 NaN으로 바꿔줌
df_idol5

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0


In [81]:
df_idol5.dropna(axis=0, how='all') #그래서 10번 데이터가 다 사라짐

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0


In [82]:
df_idol5.dropna(axis=0, how='any') # 행을 삭제할건데, 어떤 데이터가 NaN이면 삭제 (any니까)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027.0
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654.0


# 중복 데이터 제거 - drop_duplicates()
* keep = 'first' : 첫번째 데이터를 남긴다
* keep = 'last' : 제일 마지막 데이터를 남긴다

In [83]:
df_idol['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [84]:
df_idol['키'].drop_duplicates() # keep='first'가 기본세팅이어서 안 써도 되나 봄

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
6     182.3
7       NaN
8     179.2
9     167.1
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [85]:
df_idol['키'].drop_duplicates(keep='last')

0     173.6
1     177.0
2     180.0
4     162.1
5     178.0
6     182.3
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

## 중복되는 행을 제거하기

In [86]:
df_idol.drop_duplicates('그룹') # 그룹 컬럼을 기준으로 중복된 행을 제거

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027


여러 개의 컬럼도 동시에 삭제 가능

In [87]:
df_idol.drop(['그룹', '소속사'],axis=1) # 컬럼 제거할 땐 axis=1, 행 제거시 axis=0

Unnamed: 0,이름,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,남자,1995-10-13,173.6,A,10523260
1,지드래곤,남자,1988-08-18,177.0,A,9916947
2,강다니엘,남자,1996-12-10,180.0,A,8273745
3,뷔,남자,1995-12-30,178.0,AB,8073501
4,화사,여자,1995-07-23,162.1,A,7650928
5,정국,남자,1997-09-01,178.0,A,5208335
6,민현,남자,1995-08-09,182.3,O,4989792
7,소연,여자,1998-08-26,,B,4668615
8,진,남자,1992-12-04,179.2,O,4570308
9,하성운,남자,1994-03-22,167.1,A,4036489


## 행 삭제
* 컬럼을 삭제할 때는 컬럼의 이름을 사용
* 행 삭제할때는 행의 index를 활용한다
* axis =0 으로 설정한다


In [88]:
df_idol.drop(3, axis=0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661


# 데이터 프레임의 인덱스를 바꾸기

In [89]:
df_new_index = df_idol.copy()

'set_index' 활용해서 인덱스로 지정할 컬럼을 지정

In [90]:
df_new_index = df_new_index.set_index("이름")
df_new_index

Unnamed: 0_level_0,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
소연,아이들,큐브,여자,1998-08-26,,B,4668615
진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [91]:
df_new_index.drop(['지민','슈가','백호','진'])

Unnamed: 0_level_0,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
소연,아이들,큐브,여자,1998-08-26,,B,4668615
하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
태연,소녀시대,SM,여자,1989-03-09,,A,3918661
차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027


In [92]:
df_new_index.loc["지민": "소연"]

Unnamed: 0_level_0,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
소연,아이들,큐브,여자,1998-08-26,,B,4668615
