<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/title.png' width=500/></center>

<center>- Pandas의 모든 것을 배우지 않습니다. 데이터 전처리에 대한 부분만 학습 대상이 됩니다 -</center>

# 학습 목표

- 데이터프레임에 대한 다양한 정보를 확인해 데이터를 이해할 수 있습니다.
- 특히 결측치(NaN값) 존재 여부를 확인할 수 있습니다.
- 기본적인 집계 함수를 사용해 데이터를 이해할 수 있습니다.
- 데이터프레임을 원하는 순서로 정렬해 데이터를 확인할 수 있습니다.

# 3. 데이터프레임 정보 확인

- 파일에서 불러온 데이터의 크기, 내용, 분포, 누락된 값 등을 확인할 수 있어야 합니다.
- 확인된 내용을 통해 데이터 전처리 필요 여부를 결정합니다.
- 데이터를 알아야 데이터를 분석할 수 있습니다.

In [None]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

In [None]:
# Titanic 데이터 불러오기
file_path = 'https://raw.githubusercontent.com/Jangrae/csv/master/titanic_simple.csv'
titanic = pd.read_csv(file_path, sep=',', skipinitialspace=True)  
titanic.head()

**[참고] 우선 익숙해져야 할 것들**

- shape: 데이터프레임 크기
- index: 인덱스 정보 확인
- values: 값 정보 확인
- columns: 열 정보 확인
- dtypes: 열 자료형 확인
- info(): 열에 대한 상세한 정보 확인
- describe(): 기초통계정보 확인

## 3.1. 앞, 뒤 일부 데이터, 크기 확인

- **head(*n*), tail(*n*)** 메소드를 사용해 앞 뒤 데이터를 확인합니다.
- 갯수를 지정하지 않으면 기본적으로 5개 행이 조회됩니다.

**1) 앞쪽 데이터 확인**

In [None]:
# 첫 5개 행 데이터
titanic.head()

In [None]:
# 첫 10개 행 데이터
titanic.head(10)

**2) 뒤쪽 데이터 확인**

In [None]:
# 마지막 5개 행 데이터
titanic.tail()

In [None]:
# 마지막 3개 행 데이터
titanic.tail(3)

**3) 크기 확인**

- **(rows, cols)** 값을 갖는 **튜플** 형태로 확인이 가능합니다.
- 데이터를 분석할 때 처리할 **데이터 양을 확인**하는 목적으로 많이 사용 합니다.

In [None]:
# 데이터프레임 행수와 열수 확인
titanic.shape

In [None]:
# 데이터프레임 행수 확인
titanic.shape[0]

In [None]:
# 데이터프레임 열수 확인
titanic.shape[1]

## 3.2. 열, 행 정보 보기

**1) 인덱스 확인**

In [None]:
titanic.index

**2) 값 확인**

In [None]:
titanic.values

**3) 열 확인**

In [None]:
titanic.columns

**4) 자료형 확인**
- int64: 정수형 데이터(int)
- float64: 실수형 데이터(float)
- object: 문자열 데이터(string)

In [None]:
# 각 열의 자료형 확인
titanic.dtypes

**5) 자료형, NaN가 아닌 개수, 데이터 형식 동시 확인**

In [None]:
# 열에 대한 좀더 자세한 정보 확인
titanic.info()

In [None]:
# 열 이름과 자료형만 확인
titanic.info(null_counts=False)

**6) 기초 통계 정보 보기**
- 개수(count), 평균(mean), 표준편차(std), 최솟값(min), 중간값(25%, 50%, 75%), 최댓값(max)을 표시합니다.

In [None]:
# 기초통계량
titanic.describe()

## 3.3. 정렬해서 보기

- **sort_index()** 메소드: **인덱스**를 기준으로 정렬합니다.
- **sort_values()** 메소드: **특정 열**을 기준으로 정렬합니다

**1) 인덱스를 기준으로 정렬**

In [None]:
# 데이터프레임 확인
titanic.head()

In [None]:
# 인덱스로 내림차순 정렬
titanic.sort_index(ascending=False)

**2) 열 값을 기준으로 정렬**

In [None]:
# Fare 열의 값으로 정렬
titanic.sort_values(by='Fare', ascending=False)

In [None]:
# Fare, Age 열의 값으로 정렬
titanic.sort_values(by=['Fare', 'Age'], ascending=[False, True])

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

아래 주어진 데이터프레임을 확인하고, 이어지는 셀에 코드를 완성해 보세요.

In [None]:
# 데이터프레임 만들기
dates = pd.date_range('20200201', periods=10)
nums = np.random.randn(10, 4)
df = pd.DataFrame(nums, index=dates, columns=list('ABCD'))
df.head()

In [None]:
# 날짜를 기준으로 내림차순 정렬해서 보기
df.sort_index(ascending=False)

In [None]:
# A열을 기준으로 내림차순 정렬해서 보기
df.sort_values(by=['A'], ascending=False)

In [None]:
# B열을 기준으로 오름차순 정렬해서 보기
df.sort_values(by=['B'], ascending=True)

In [None]:
# C열을 기준으로 내림차순 정렬해서 보기
df.sort_values(by=['C'], ascending=False)

In [None]:
# D열을 기준으로 오름차순 정렬해서 보기
df.sort_values(by=['D'], ascending=True)

## <center>수고하셨습니다</center>
<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/end.png' width=200/></center>