# BIG DATA ANALYSIS: Pandas
---

In [None]:
import sys
!{sys.executable} -m pip install pandas

In [None]:
import numpy as np
import pandas as pd

In [None]:
#초기 데이터 셋팅
data = np.random.randint(0,100,25).reshape((5,5))
columns = ['A','B','C','D','E']
df = pd.DataFrame(data, columns=columns)
df

## 1. 데이터프레임 (Dataframe)

### 1-1. 값 접근

In [None]:
# 열기준으로 선택
df['A']

In [None]:
# 여러 열 기준으로 선택
df[['A','D','E']]

In [None]:
# 행 기준으로 선택
df.loc[3]


In [None]:
# 특정 행-열에 있는 원소 선택
df.loc[3,'A']

In [None]:
# 특정 행-열들 에 있는 원소 선택
df.loc[[3,4],['A','B']]

In [None]:
# 상위 n개만 출력
df.head(n=3)

In [None]:
# 하위 n개만 출력
df.tail(n=3)

### 1-2. 조건부 선택

In [None]:
## 50보다 큰 원소들을 갖고 있는 셀은?
df>50


In [None]:
## 50보다 큰 원소들은?
df[df>50]

In [None]:
## 특정열이 50보다 큰 행은?
df[df['B']>50]

In [None]:
## 특정열들이 동시에 조건을 만족시키는 행은?
df[(df['B']>50)&(df['C']<70)]

### 1-3. 데이터 생성 삭제 갱신

In [None]:
# 새로운 열 추가
df['X'] = [0,0,0,0,0]

In [None]:
df

In [None]:
# 특정 열 삭제
df.drop('X', axis=1)

In [None]:
df

In [None]:
## 원본 데이터에서 삭제를 원할 시 inplace 속성을 True 적용
df.drop('X', axis=1, inplace=True)

In [None]:
df

In [None]:
df['Index'] = ["NOK","USD","EUR","GBP","KRW"]

In [None]:
df

In [None]:
## 인덱스 변경 (0,1,2,3,4) 대신 화폐단위로
df.set_index('Index',inplace=True)

In [None]:
df

In [None]:
df.loc['KRW']

In [None]:
# Numpy와 비슷하게 기본적인 수학 연산을 테이블 전체에 적용가능
df/10

In [None]:
# 다른 자료구조와 마찬가지로 데이터에 접근하여 변경 가능
df.loc['KRW']['A'] = 1000

In [None]:
df

## 2. 데이터 다루기

### 2-1. 빈 데이터 다루기

In [None]:
sample_data ={
    '나이':[23,np.nan,28],
    '성별':['여성',np.nan, '남성'],
    '키':[np.nan,np.nan,'175']
}
df = pd.DataFrame(sample_data)
df

In [None]:
# 하나라도 Nan (값이 없는) 행 제거하기
df.dropna()

In [None]:
# 하나라도 Nan (값이 없는) 열 제거하기
df.dropna(axis=1)

In [None]:
# 두개 이상의 Nan값인 행 제거하기
df.dropna(thresh=2)

In [None]:
# 성별의 Nan값 한번에 채우기
df['성별'].fillna('기타',inplace=True)
df

In [None]:
# 나이의 평균으로 빈 값 채우기
df['나이'].fillna(df['나이'].dropna().mean(),inplace=True)
df

In [None]:
# 키의 평균으로 빈 값 채우기
df['키'].fillna(df['키'].dropna().mean(),inplace=True)
df

### 2-2. 고급 선택: GroupBy

In [None]:
## Dictionary를 활용해서 Dataframe 생성가능
## 키가 열이 됨
sample_data ={
    '나이':[23,25,28,27,23,24],
    '전공':['컴퓨터','컴퓨터', '경영','경영','경제','기계'],
    '성별':['남','여', '여','남','여','남'],
    '학년':[1,1,2,1,3,2],
    '키':[170,165,175,178,170,176],
    '자퇴':[True,True,False,False,False,True]
}
df = pd.DataFrame(sample_data)
df

In [None]:
## 자퇴여부에 따른 학년의 중앙값
df[['학년','자퇴']].groupby('자퇴').median()

In [None]:
## 학년별 자퇴 비율
df[['학년','자퇴']].groupby('학년').mean()


In [None]:
## 쓸모없는 통계의 예
df[['키','자퇴']].groupby('자퇴').mean()

In [None]:
## 각 항목의 최대값도 구할 수 있음: 자퇴여부에 따른 그룹에서 최대값 (글자는 가나다순)
df.groupby('자퇴').max()

In [None]:
df.groupby('자퇴').min()

In [None]:
## 여러 정보를 한번에 보고 싶다면?
df.groupby('자퇴').describe().transpose()

### 2-3. 데이터 프레임간의 조작

In [None]:
dataset_A = {
    'A':['A1','A2','A3','A4'],
    'B':['B1','B2','B3','B4'],
    'C':['C1','C2','C3','C4'],    
}
dataset_B ={
    'A':['A5','A6','A7','A8'],
    'B':['B5','B6','B7','B8'],
    'C':['C5','C6','C7','C8'],
}
df1 = pd.DataFrame(dataset_A, index=[0,1,2,3])
df2 = pd.DataFrame(dataset_B, index=[4,5,6,7])

In [None]:
df1

In [None]:
df2

In [None]:
# 열 이름 기반으로 합치기
pd.concat([df1,df2])

In [None]:
# 행 이름 기반으로 합치기
pd.concat([df1,df2],axis=1)

In [None]:
dataset_B ={
    'D':['D5','D6','D7','D8'],
    'E':['E5','E6','E7','E8'],
    'F':['F5','F6','F7','F8'],
}
df2 = pd.DataFrame(dataset_B, index=[0,1,2,3])

In [None]:
# 행 이름 기반으로 합치기
pd.concat([df1,df2],axis=1)

In [None]:
dataset_A = {
    '학번':['201701','201702'],
    '평점':['A','B'],
}
dataset_B ={
    '학번':['201701','201702','201801','201802'],
    '나이':[20,19,21,20],
    '성별':['F','M','F','M'],
}
df1 = pd.DataFrame(dataset_A)
df2 = pd.DataFrame(dataset_B)

In [None]:
df1

In [None]:
df2

In [None]:
# 교집합
pd.merge(df1,df2,how='inner',on='학번')

In [None]:
# 합집합
pd.merge(df1,df2,how='outer',on='학번')

In [None]:
# 왼쪽 데이터 프레임 기준 (df1)
pd.merge(df1,df2,how='left',on='학번')

In [None]:
# 오른쪽 데이터 프레임 기준 (df1)
pd.merge(df1,df2,how='right',on='학번')

In [None]:
# Join을 이용한 방식 (왼쪽 데이터 프레임 기준)
df1.join(df2,lsuffix='_df1', rsuffix='_df2')

In [None]:
# Join을 이용한 방식 (오른쪽 데이터 프레임 기준)
df2.join(df1,lsuffix='_df2', rsuffix='_df1')

### 2-4. 그외 유용한 기능

In [None]:
df = pd.DataFrame([
['Jeff Bezos',112.4,55, 'United States',['Amazon']],
['Bill Gates',103.3,64, 'United States',['Microsoft']],
['Bernard Arnault',95.4,70, 'France',['LVMH']],
['Warren Buffett',79.5,88, 'United States',['Berkshire Hathaway']],
['Amancio Ortega',67.7 ,83, 'Spain', ['Zara']],
['Mark Zuckerberg',67.6,35, 'United States',['Facebook']],
['Larry Ellison',64.8,75, 'United States',['Oracle Corporation']],
['Michael Bloomberg',56.1,76, 'United States',['Bloomberg']],
['Larry Page',54.8,46,'United States',['Google']],
['Carlos Slim',54.3,79, 'Mexico',['América Móvil', 'Grupo Carso']],
], columns=['Name',"Net Worth","Age","Nationality","Companies"])

In [None]:
# 어떤 국적들이 있는지 확인
df['Nationality'].unique()

In [None]:
# 나라별 몇 명이 각각 있나?
df['Nationality'].value_counts()

In [None]:
# 기존값과 함수를 이용하여 새로운 값 생성가능
def billion(x):
    return x*10**9

df['Net Worth'].apply(billion)

In [None]:
# 회사 수
df['Companies'].apply(len)

In [None]:
## 평균 나이
df['Age'].mean()

In [None]:
## 재산 합
df['Net Worth'].sum()

In [None]:
## 나이 기준 정렬
df.sort_values(by='Age')

## 3. 데이터 읽기/쓰기

In [None]:
# 엑셀 파일 읽기
df = pd.read_excel('data/sample.xlsx',sheet_name='Sheet1', index_col=[0])
df

In [None]:
# JSON 타입으로
# 파일로 저장을 원할시: df.to_json("df.json")
df.to_json()

In [None]:
df.to_html()

In [None]:
df.to_latex()

In [None]:
df = pd.read_html("https://ko.wikipedia.org/wiki/%EC%98%81%ED%99%94_%EB%A7%A4%EC%B6%9C_%EC%88%9C%EC%9C%84_%EB%AA%A9%EB%A1%9D")

In [None]:
df[0]