# 판다스 데이터프레임 탐색

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%config InlineBackend.figure_format = 'retina'

# 1. 데이터프레임 탐색

- 데이터프레임 탐색은 데이터의 크기, 내용, 분포, 누락된 값 등을 확인할 수 있음

In [None]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/tips.csv'
tip = pd.read_csv(path)

# 확인
tip.head()

**[tips 데이터 셋 정보]**

- total_bill: 금액
- tip: 팁
- sex: 성별(Male, Female)
- smoker: 흡연 여부(Yes. No)
- day: 요일([Thur, Fri, Sat, Sun)
- time: 시간(Dinner, Lunch)
- size: 고객 수

In [None]:
tip.info()  
# 데이터 확인
# 'total_bill', 'tip'은 실수형(연속형)
# 'int' 정수형
# 'sex', 'smoker', 'day', 'time' 범주형

**[참고] 우선 익숙해져야 할 것들**

- head(): 상위 데이터 확인
- tail(): 하위 데이터 확인
- shape: 데이터프레임 크기
- index: 인덱스 정보 확인
- values: 값 정보 확인
- columns: 열 정보 확인
- dtypes: 열 자료형 확인
- info(): 열에 대한 상세한 정보 확인
- describe(): 기초통계정보 확인

![image.png](attachment:15b52551-7140-4f31-a558-7757a5b37baf.png)

$ $

$ $

# 2. 데이터, 크기 확인

##### 1) 데이터 확인 head(), tail()

In [None]:
# 상위 10개 행 데이터 확인
tip.head(10)

In [None]:
# 하위 10개 행 데이터 확인
tip.tail(10)

In [None]:
# 크기 확인 (rows, cols)값을 갖는 튜플 형태로 확인 가능
tip.shape 

##### 2) 열, 행 정보 index, values, shape,info

In [None]:
# 인덱스 확인
tip.index

In [None]:
# 값 확인
# values 속성 조회 결과는 Array.
tip.values

In [None]:
# 열 확인, 열이 둘 이상이기 때문에 column's'
tip.columns

In [None]:
# 열 자료형 확인, 열이 둘 이상이기 때문에 dtype's'
tip.dtypes

In [None]:
# 열 자료형, 값 개수 확인
tip.info()

##### 3) 기술통계 describe()
- 데이터의 정리, 요약, 해석, 표현 등을 통해 데이터가 갖는 특성을 나타내는 정보
- **describe()** 메소드 이용.
- 개수(count), 평균(mean), 표준편차(std), 최솟값(min), 최댓값(max), 사분위값 표시

In [None]:
# 기술 통계
tip.describe()

$ $

$ $

# 3. 정렬해서 보기

- **sort_values(by='' , ascending= )**
- **ascending** 옵션을 설정해 오름차순, 내림차순을 설정할 수 있습니다.
    - ascending=True: 오름차순 정렬(기본값)
    - ascending=False: 내림차순 정렬

##### 1) 단일 열 정렬

In [None]:
tip.sort_values(by='total_bill', ascending=False)
# 'total_bill'기준으로 내림차순 정렬
# 반영하려면 inplace=True 옵션 사용

##### 2) 복합 열 정렬

In [None]:
# 복합 열 정렬('total_bill', 'tip')
tip.sort_values(by=['total_bill', 'tip'], ascending=[False,True]).head(10)

# 'total_bill'기준으로 내림차순 --> 같을 경우는 'tip'기준으로 오름차순

$ $

$ $

# 4. 기본 집계 

##### 1) 교유값 확인
- 범주형 열인지 확인할 때 사용
- **.unique()** : 고유값 확인
- **.value_counts()** : 고유값 개수 확인

In [None]:
# day 열 고유값 확인
tip['day'].unique()

In [None]:
# day 열 고유값 개수 확인
tip['day'].value_counts()

## 각 범주에 몇 개씩 있는지 알 수 있음


# smoker 열 고유값 개수 확인
tip['smoker'].value_counts()

##### 2) 최빈값 확인
- **.mode()**

In [None]:
# day 열 최빈값 확인
tip['day'].mode()

##### 3) 기본 통계 메소드 사용

![image.png](attachment:d4923cec-f2fb-4d74-84b4-5cc7f70e3582.png)

- **axis=0**이 기본값이며, 전체 열 기준으로 합을 집계.
- **axis=1**은 전체 행 기준으로 집계.

In [None]:
# 리스트 만들기
stock = [[94500, 92100, 92200, 92300],
         [96500, 93200, 95900, 94300],
         [93400, 91900, 93400, 92100],
         [94200, 92100, 94100, 92400],
         [94500, 92500, 94300, 92600]]
dates = ['2019-02-15', '2019-02-16', '2019-02-17', '2019-02-18', '2019-02-19']
names = ['High', 'Low', 'Open', 'Close']

# 데이터프레임 만들기
df = pd.DataFrame(stock, index=dates, columns=names)

# 확인
df.head()

In [None]:
# 전체 열 기준 합
df.sum(axis=0)

# 막대그래프로 확인
df.sum(axis=0).plot(kind='bar')

In [None]:
# 전체 행 기준 합
df.sum(axis=1)

In [None]:
# tip데이터프레임에서 'total_bill'열의 총 합

tip['total_bill'].sum(axis=0)

In [None]:
# tip 열 최대값 조회
tip['tip'].max()

In [None]:
# total_bill과 tip 열 평균값 
tip[['total_bill', 'tip']].mean()


In [None]:
# tip['total_bill', 'tip'] 으로 작성하면 ['행', '열']로 인식함.
# 따라서 tip[['total_bill', 'tip']] 으로 괄호 두번 쓰임.

In [None]:
# total_bill, tip 열 중앙값 확인

tip[['total_bill', 'tip']].median()

In [None]:
# 표준편차
tip['tip'].std()