<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/title.png' width=500/></center>

# 2.데이터프레임 탐색

- 데이터프레임 탐색은 **데이터프레임**의 **키**와 **몸무게**를 재는 것이라 할 수 있습니다.
- 파일에서 불러온 데이터의 크기, 내용, 분포, 누락된 값 등을 확인할 수 있어야 합니다.
- 확인된 내용을 통해 데이터 전처리 필요 여부를 결정합니다.
- 데이터를 알아야 데이터를 분석할 수 있습니다.

In [None]:
# 라이브러리 불러오기
import pandas as pd

In [None]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/tips.csv'
tip = pd.read_csv(path)

**[tips 데이터 셋 정보]**

- total_bill: 금액
- tip: 팁
- sex: 성별(Male, Female)
- smoker: 흡연 여부(Yes. No)
- day: 요일(Thur, Fri, Sat, Sun)
- time: 시간(Dinner, Lunch)
- size: 고객 수

**[참고] 우선 익숙해져야 할 것들**

- head(): 상위 데이터 확인
- tail(): 하위 데이터 확인
- shape: 데이터프레임 크기
- index: 인덱스 정보 확인
- values: 값 정보 확인
- columns: 열 정보 확인
- dtypes: 열 자료형 확인
- info(): 열에 대한 상세한 정보 확인
- describe(): 기술통계정보 확인

<img src='https://raw.githubusercontent.com/jangrae/img/master/eda.png' width=700 align="left"/>

## 2.1.앞, 뒤 일부 데이터, 크기 확인

- **head(*n*), tail(*n*)** 메서드를 사용해 앞 뒤 데이터를 확인합니다.
- 개수를 지정하지 않으면 기본적으로 5개 행이 조회됩니다.

**1) 상위 데이터 확인**

In [None]:
# 상위 10개 행 데이터
tip.head(10)

**2) 하위 데이터 확인**

In [None]:
# 하위 3개 행 데이터
tip.tail(3)

**3) 크기 확인**

- **(rows, cols)** 값을 갖는 **튜플** 형태로 확인이 가능합니다.
- 데이터를 분석할 때 처리할 **데이터 양을 확인**하는 목적으로 많이 사용 합니다.

In [None]:
# 행 수와 열 수 확인
tip.shape

## 2.2.열, 행 정보 보기

**1) 인덱스 확인**

In [None]:
# 인덱스 확인
tip.index

**2) 값 확인**

- values 속성 조회 결과는 Array 입니다.

In [None]:
# 값 확인
tip.values

**3) 열 확인**

In [None]:
# 열 확인
tip.columns

**4) 자료형 확인**
- int64: 정수형 데이터(int)
- float64: 실수형 데이터(float)
- object: 문자열 데이터(string)

In [None]:
# 열 자료형 확인
tip.dtypes

In [None]:
# 열 자료형, 값 개수 확인
tip.info()

**5) 기술 통계 확인**

- 기술 통계(Descriptive Statistics)는 데이터의 정리, 요약, 해석, 표현 등을 통해 데이터가 갖는 특성을 나타내는 정보입니다.
- describe() 메서드는 데이터에 대한 많은 정보를 제공하는 매우 중요한 메서드입니다.
- 개수(count), 평균(mean), 표준편차(std), 최솟값(min), 사분위값(25%, 50%, 75%), 최댓값(max)을 표시합니다.

In [None]:
# 기술 통계
tip.describe()

- 일부 열에 대해서만 기술 통계를 확인할 수 있습니다.

In [None]:
# 기술 통계
tip[['total_bill', 'tip']].describe()

**[참고] 사분위에 대한 이해**

<img src='https://raw.githubusercontent.com/jangrae/img/master/quartile2.png' width=700 align="left"/>

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20.png' width=120 align="left"/>

[문1] 25%, 50%, 75% 값을 확인하세요.

<img src='https://raw.githubusercontent.com/jangrae/img/master/quartile_q.png' width=700 align="left"/>

[문2] 다음 경로의 파일을 읽어와 temp 데이터프레임을 선언하세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/weather.csv'

In [None]:
# 데이터 읽어오기



[문3] temp 데이터프레임 관련 정보를 확인하세요.

In [None]:
# 상위 데이터 확인


In [None]:
# 크기 확인


In [None]:
# 인덱스 확인


In [None]:
# 열 확인


In [None]:
# 열 자료형, 값 개수 확인


In [None]:
# 기술 통계 확인


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20e.png' width=45 align="left"/>

## 2.3.정렬해서 보기

- 인덱스를 기준으로 정렬하는 방법과 특정 열을 기준으로 정렬하는 방법이 있습니다.
- **sort_values()** 메서드로 **특정 열**을 기준으로 정렬합니다.
- **ascending** 옵션을 설정해 오름차순, 내림차순을 설정할 수 있습니다.
    - ascending=True: 오름차순 정렬(기본값)
    - ascending=False: 내림차순 정렬

In [None]:
# 단일 열 정렬
tip.sort_values(by='total_bill', ascending=False)

In [None]:
# 복합 열 정렬
tip.sort_values(by=['total_bill', 'tip'], ascending=[False, False])

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20.png' width=120 align="left"/>

[문1] 다음 경로의 파일을 읽어와 weather 데이터프레임을 선언하세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/weather.csv'

In [None]:
# 데이터 읽어오기



# 확인


[문2] 기온 열을 기준으로 내림차순 정렬해서 조회하세요.

In [None]:
# 내림차순 정렬


[문3] 최저기온 열을 기준으로 오름차순 정렬해서 조회하세요.

In [None]:
# 오름차순 정렬


[문4] 최저기온 열을 기준으로 오름차순 정렬해서 상위 10개 행만 조회하세요.

In [None]:
# 오름차순 정렬


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20e.png' width=45 align="left"/>

## 2.4.기본 집계

- 데이터를 좀더 이해하기 위해 고윳값, 합, 평균, 최댓값, 최솟값 등을 확인합니다.

### 2.4.1.고윳값 확인

- 범주형 열(열이 가진 값이 일정한 값인 경우, 성별, 등급 등)인지 확인할 때 사용합니다.

**1) 고윳값 확인**

- unique() 메서드로 고윳값을 확인하며, 결괏값은 배열 형태가 됩니다.

In [None]:
# day 열 고윳값 확인
tip['day'].unique()

**2) 고윳값과 개수 확인**

- value_counts() 메서드로 고윳값과 그 개수를 확인하며, 결괏값은 시리즈 형태가 됩니다.
- dropna 옵션을 생략하거나 dropna=True로 지정하면 NaN 값은 대상에서 제외합니다.

In [None]:
# day 열 고윳값 개수 확인
tip['day'].value_counts()

In [None]:
# smoker 열 고윳값 개수 확인
tip['smoker'].value_counts(normalize=False)

In [None]:
tip['smoker'].value_counts()

### 2.4.2.최빈값 확인

- 최빈값은 가장 많이 관측되는 수, 즉 주어진 값 중에서 가장 자주 나오는 값입니다.
- 예를 들어, {1, 3, 6, 6, 6, 7, 7, 12, 12, 17}의 최빈값은 6입니다.
- 최빈값은 산술 평균과 달리 유일한 값이 아닐 수도 있습니다.
- mode() 메서드로 최빈값을 확인할 수 있습니다.
- 최빈값이 여렷인 경우 행으로 구분되어 표시됩니다.

In [None]:
# day 열 최빈값 확인
tip['day'].mode()

In [None]:
# smoker 열 최빈값 확인
tip['smoker'].mode()

### 2.4.3.기본 집계 메서드 사용

- 데이터를 1차 집계 한 후 분석을 진행하는 경우가 많으므로 필히 알아두어야 할 내용입니다.
- 이후에 배우는 Groupby 기능에서 같이 사용됩니다.
- 우선 간단한 데이터프레임을 만들어 전체 집계를 해봅니디.

In [None]:
# 리스트 만들기
stock = [[94500, 92100, 92200, 92300],
         [96500, 93200, 95900, 94300],
         [93400, 91900, 93400, 92100],
         [94200, 92100, 94100, 92400],
         [94500, 92500, 94300, 92600]]
dates = ['2019-02-15', '2019-02-16', '2019-02-17', '2019-02-18', '2019-02-19']
names = ['High', 'Low', 'Open', 'Close']

# 데이터프레임 만들기
df = pd.DataFrame(stock, index=dates, columns=names)

# 확인
df.head()

<img src='https://raw.githubusercontent.com/jangrae/img/master/aggrigation.png' width=500 align="left"/>

- df.sum()은 df.sum(axis=0) 과 같으며 전체 열 기준으로 합을 집계합니다
- 전체 행 기준으로 집계를 하려면 df.sum(axis=1) 형태로 axis=1을 지정합니다.

In [None]:
# 전체 열 기준 합
df.sum()

In [None]:
# 전체 행 기준 합
df.sum(axis=1)

- tip 데이터프레임에 대한 집계를 수행해 봅니다.

In [None]:
# tip 데이터프레임 확인
tip.head()

In [None]:
# 전체 열 기준 합
tip.sum()

In [None]:
# total_bill 열 합계 조회
tip['total_bill'].sum()

In [None]:
# tip 열 최댓값 조회
tip['tip'].max()

In [None]:
# total_bill, tip 열 평균값 확인
tip[['total_bill', 'tip']].mean()

In [None]:
# total_bill, tip 열 중앙값 확인
tip[['total_bill', 'tip']].median()

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20.png' width=120 align="left"/>

[문1] 다음 경로의 파일을 읽어와 weather 데이터프레임을 선언하세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/weather.csv'

In [None]:
# 데이터 읽어오기



# 확인


[문2] 최고기온 최댓값을 확인하세요.

In [None]:
# 최고기온 열 최댓값


[문3] 최저기온, 극점최저기온 최솟값을 확인하세요.

In [None]:
# 최저기온, 극점최저기온 열 최솟값


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20e.png' width=45 align="left"/>

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_30.png' width=120 align="left"/>

[문1] pandas 라이브러리를 pd 별칭을 주어 불러오세요.

In [None]:
# 라이브러리 불러오기


[문2] 다음 경로의 파일을 읽어 admission 데이터프레임을 만드세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/admission.csv'
- 대소문자를 구분하니 주의하세요.

**데이터 셋 정보**

- GRE - GRE(Graduate Record Examination) 점수, 대학원 입학을 위한 표준화 시험 점수
- TOEFL - TOEFL(Test of English as a Foreign Language) 점수, 영어 능력 시험 점수
- RANK - 학부 출신 대학의 순위(1-4 등급, 1이 가장 높음)
- SOP	- Statement of Purpose 점수(0-5), 자기소개서의 평가 점수
- LOR	- Letter of Recommendation 점수(0-5), 추천서의 평가 점수
- GPA	- 학부 성적 평균(Grade Point Average, 0-10 척도)
- RESEARCH - 연구 경험 여부(1: 있음, 0: 없음)
- ADMIT - 대학원 입학 여부(1: 합격, 0: 불합격)

In [None]:
# 파일 읽어오기



[문3] 상위 10개 행을 확인하세요.

In [None]:
# 상위 10개 행 확인


[문4] 행과 열의 개수를 확인하세요.

In [None]:
# 크기 확인


[문5] 각 열의 값 개수와 데이터 형식등을 한 번에 확인하세요.

In [None]:
# 열 정보 확인


[문6] 기술통계정보를 확인하세요.

In [None]:
# 기술통계정보 확인


[문7] 범주형 값을 갖는 RANK 열의 고윳값과 그들의 개수를 확인하세요.

In [None]:
# 고윳값 개수 확인


[문8] GRE, GPA 열의 평균값을 한 번에 확인하세요.

In [None]:
# GRE, GPA 열 평균값


[문9] GRE 열을 기준으로 오름차순으로 정렬해 확인하세요.

In [None]:
# GRE 열 기준 오름차순 정렬


[문10] 다음 요구사항에 따라 구문을 순서대로 작성하고 확인하세요.

- RANK 열을 기준으로 오름차순, RANK 열 값이 같으면 GPA 열을 기준으로 내림차순으로 정렬해 tmp 테이터프레임으로 선언하세요.
- tmp 데이터프레임 인덱스 초기화 하세요.(단, 기존 인덱스 제거)
- tmp 데이터프레임을 확인하세요.

In [None]:
# RANK + GPA 열 기준 오름차순, 내림차순 정렬


# 인덱스 초기화


# 확인


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_30e.png' width=45 align="left"/>