In [1]:
import pandas as pd

## 실습에 활용한 예제

[국내 아이돌 평판지수 (csv)](http://bit.ly/ds-korean-idol)

## DataFrame 로드

In [3]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

## 1. copy (복사)

copy는 단어 그대로, dataframe을 복사할 때 사용합니다.

In [None]:
df.head()

df를 **새로운 변수(new_df)에 대입**해 주고, 새로운 변수에서 값을 바꾼다면, 원래의 DataFrame의 값은 어떻게 될까요?

In [None]:
new_df = df

In [None]:
new_df.head()

In [None]:
new_df['이름'] = 0

In [None]:
new_df.head()

In [None]:
df.head()

이렇게 되는 이유는 같은 메모리 주소를 참조하기 때문입니다.

In [None]:
hex(id(new_df))

In [None]:
hex(id(df))

굉장히 많은 분들이 실수를 하시는 부분입니다.

**원본 데이터를 유지 시키고, 새로운 변수에 복사할 때는 copy()를 사용해 주세요**

In [None]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

In [None]:
copy_df = df.copy()

In [None]:
hex(id(df))

In [None]:
hex(id(copy_df))

In [None]:
df.head()

In [None]:
copy_df.head()

In [None]:
copy_df['이름'] = 0

In [None]:
copy_df.head()

In [None]:
df.head()

## 2. row, column 추가 및 삭제

### 2-1. row의 추가

In [None]:
df.head()

dictionary 형태의 데이터를 만들어 준다음 **append()** 함수를 사용하여 데이터를 추가할 수 있습니다. 반드시, **ignore_index=True** 옵션을 같이 추가해 주셔야 에러가 안납니다!

In [None]:
df.append({'이름': '테디', '그룹': '테디그룹', '소속사': '끝내주는소속사', '성별': '남자', '생년월일': '1970-01-01', '키': 195.0, '혈액형': 'O', '브랜드평판지수': 12345678}, ignore_index=True)

In [None]:
df.tail()

또한, append() 한 뒤 다시 df에 대입해줘야 변경한 값이 유지 됩니다.

In [None]:
df = df.append({'이름': '테디', '그룹': '테디그룹', '소속사': '끝내주는소속사', '성별': '남자', '생년월일': '1970-01-01', '키': 195.0, '혈액형': 'O', '브랜드평판지수': 12345678}, ignore_index=True)

In [None]:
df.tail()

### 2-2. column 추가

column 추가는 매우 쉽습니다. 단순히 새로운 column을 만들고 값을 대입해주면, 자동으로 생성합니다.

In [None]:
df.head()

In [None]:
df['국적'] = '대한민국'

In [None]:
df.head()

전부 동일한 값이 추가 되면서, column도 추가된 것을 보실 수 있습니다.

만약, 값을 변경하고 싶다면, loc 함수를 활용해서 변경해 줄 수 있겠죠?

In [None]:
df.loc[ df['이름'] == '지드래곤' , '국적'] = 'korea'

In [None]:
df.head()

## 3. 통계값 다루기

In [None]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

통계값은 data type이 float나 int형 인 column을 다룹니다

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.describe()

### 3-1. min(최소값), max(최대값)

통계값은 data type이 float나 int형 인 column을 다룹니다

In [None]:
df['키'].min()

In [None]:
df['키'].max()

### 3-2. sum (합계), mean (평균)

In [None]:
df['키'].sum()

In [None]:
df['키'].mean()

### 3-3. var, variance(분산) / std, standard deviation (표준 편차)

* 분산과 표준편차는 데이터가 **평균으로부터 얼마나 떨어져 있는지 정도**를 나타냅니다.
* 분산은 **(데이터 - 평균) ** 2 을 모두 합한 값** / n
* 표준편차는 **분산의 루트**

In [7]:
import numpy as np

In [8]:
data_01 = np.array([1, 3, 5, 7, 9])
data_02 = np.array([3, 4, 5, 6, 7])

In [9]:
#data_01의 표준편차
np.sqrt(((1-5)**2 + (3-5)**2 + (5-5)**2 + (7-5)**2 + (9-5)**2 ) / 5)

2.8284271247461903

In [10]:
data_01.mean()

5.0

In [11]:
data_02.mean()

5.0

In [12]:
data_01.var(), data_02.var()

(8.0, 2.0)

In [13]:
np.sqrt(data_01.var()), np.sqrt(data_02.var())

(2.8284271247461903, 1.4142135623730951)

In [14]:
data_01.std(), data_02.std()

(2.8284271247461903, 1.4142135623730951)

주로 표준편자 (std)를 많이 사용하며, **데이터가 평균으로부터 얼마나 퍼져있는지 정도를 나타내는 지표라고 이해**하시면 됩니다.

In [None]:
df['키'].var()

In [None]:
df['키'].std()

### 3-4. 갯수를 세는 count

In [None]:
df['키'].count()

### 3.5. 중앙값

In [None]:
df['키'].median()

### 3.6. 최빈값 (mode)

In [None]:
df['키'].mode()

## 4. 피벗테이블 (pivot_table)

* 피벗테이블은 엑셀의 피벗테이블과 동일합니다.
* 데이터 열 중에서 **두 개의 열을 각각 행 인덱스, 열 인덱스로 사용**하여 데이터를 조회하여 펼쳐놓은 것을 의미합니다.
* 왼쪽에 나타나는 인덱스를 **행 인덱스, 상단에 나타나는 인덱스를 열 인덱스**라고 부릅니다.

In [4]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [5]:
pd.pivot_table(df, index='소속사', columns='혈액형', values='키')

혈액형,A,AB,B,O
소속사,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
RBW,162.1,,,
YG,177.0,,,
빅히트,175.8,178.0,,176.6
스타크루이엔티,167.1,,,
커넥트,180.0,,,
판타지오,,,183.0,
플레디스,,175.0,,179.15


In [None]:
# index는 행 인덱스
# columns는 열 인덱스
# values는 조회하고 싶은 값
pd.pivot_table(df, index='소속사', columns='혈액형', values='키')

In [None]:
# aggfunc에는 추가 계산 옵션 (np.sum, np.mean) - 기본값은 평균
pd.pivot_table(df, index='그룹', columns='혈액형', values='브랜드평판지수', aggfunc=np.mean)

## 5. GroupBy (그룹으로 묶어 보기)

* groupby는 데이터를 **그룹으로 묶어 분석**할 때 활용합니다.
* **소속사**별 키의 평균, **성별** 키의 평균 등 특정, 그룹별 통계 및 데이터의 성질을 확인하고자 할 때 활용합니다.

In [None]:
df.head()

In [None]:
df.groupby('소속사')

groupby와 함께 

* count() - 갯수
* sum() - 합계
* mean() - 평균
* var() - 분산
* std() - 표준편차
* min()/max() - 최소값, 최대값



In [None]:
df.groupby('소속사').count()

산술 통계는 자동으로 산술통계가 가능한 열만 출력됩니다.

In [None]:
df.groupby('그룹').mean()

In [None]:
df.groupby('성별').sum()

특정 열만 출력하고 싶다면?

In [None]:
df.groupby('혈액형')['키'].mean()

## 6. Multi-Index(복합 인덱스)

### 6-1. Multi-Index 적용

행 인덱스를 복합적으로 구성하고 싶은 경우는 인덱스를 리스트로 만들어 줍니다.

In [None]:
df.groupby(['혈액형', '성별']).mean()

### 6-2. Multi-Index 데이터 프레임을 피벗 테이블로 변환

Multi-Index로 된 데이터프레임을 피벗테이블 형태로 다시 변환해 줄 수 있습니다.

In [None]:
df2 = df.groupby(['혈액형', '성별']).mean()

In [None]:
df2

In [None]:
df2.unstack('혈액형')

In [None]:
df2.unstack('성별')

### 6-3. 인덱스 초기화 (reset_index)

reset_index() 는 Multi-Index로 구성된 데이터 프레임의 **인덱스를 초기화**해 줍니다.

In [None]:
df2

In [None]:
df2 = df2.reset_index()

In [None]:
df2