# Pandas 기초 - 파일 읽기와 기본 정보

외부 파일(CSV)을 읽어오고 데이터의 기본 정보를 확인하는 방법을 학습합니다.

**학습 목표:**
- CSV 파일 읽기 (`read_csv`)
- 데이터 미리보기 (`head`, `tail`)
- 기본 정보 확인 (`info`, `describe`, `shape`)
- 인덱스/값 기준 정렬 (`sort_index`, `sort_values`)

---
## 실습에 사용할 예제 파일

[국내 아이돌 평판지수 (csv)](http://bit.ly/ds-korean-idol)

In [None]:
# pandas 라이브러리 import
import pandas as pd

## 1. 파일 읽어오기 (csv)

In [None]:
# pd.read_csv(): URL 또는 파일 경로에서 CSV 파일을 읽어 DataFrame으로 변환
df = pd.read_csv('http://bit.ly/ds-korean-idol')

In [None]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [None]:
# head() : 맨 앞의 5행의 데이터를 출력한다.
df.head(5)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [None]:
# tail() : 맨 끝에서5개의 데이터를 출력한다.
df.tail(7)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


## 2. 기본 정보 알아보기 (index, column, info)

### 2-1. column(열) 출력하기

In [None]:
# pandas에서 dtype이 object인 경우 -> 문자열
df.columns

Index(['name', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'], dtype='object')

2-2. column(열) 이름 재정의하기

In [None]:
new_col = ['name', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수']

In [None]:
df.columns = new_col

In [None]:
df.columns

Index(['name', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'], dtype='object')

In [None]:
df.rename

In [None]:
df

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### 2-2. index(행) 출력하기

In [None]:
df.index

RangeIndex(start=0, stop=15, step=1)

### 2-3. info 는 기본적인 row(행)의 정보와 데이터 타입을 알려줍니다.

**tip.** info 메소드는 주로 빠진 값 (null 값)과 데이터 타입을 볼 때 활용합니다.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   name     15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


## 3. 통계 정보 알아보기 (describe)

In [None]:
df.describe()

Unnamed: 0,키,브랜드평판지수
count,13.0,15.0
mean,175.792308,5655856.0
std,5.820576,2539068.0
min,162.1,2925442.0
25%,174.0,3712344.0
50%,177.0,4668615.0
75%,179.2,7862214.0
max,183.0,10523260.0


## 4. 형태(shape) 알아보기

* shape는 tuple 형태로 반환되며, 첫번째는 row, 두번째는 column의 숫자를 의미합니다

In [None]:
df.shape

(15, 8)

In [None]:
df

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


## 5. 상위 5개, 하위 5개의 정보만 보기

가장 자주쓰는 메소드 중 하나인 head(), tail()입니다.

* head()   상위 5개 row 출력
* tail()   하위 5개 row 출력
* head(3)  상위 3개 row 출력
* tail(2)  하위 2개 row 출력

In [None]:
df.head()

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [None]:
df.tail()

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


In [None]:
df.head(3)

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745


In [None]:
df.tail(2)

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


## 7. 정렬하기

### 7-1. 오름차순 정렬 (default)

In [None]:
df.sort_index()

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### 7-2. 내림차순 index 정렬

In [None]:
df.sort_index(ascending=False)

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335


## 8. column 별로 정렬

### 8-1. 오름차순 정렬

In [None]:
df.sort_values(by='키')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308


### 8-2. 내림차순 정렬

In [None]:
df.sort_values(by='키', ascending=False)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


### [BONUS] 복수 정렬

In [None]:
# 정렬 기준 1번 :'키', 키가 동일한 경우 정렬기준 2번
df.sort_values(by=['키', '브랜드평판지수'])

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308


In [None]:
df.sort_values(by=['키', '브랜드평판지수'], ascending=False)

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


---
## 정리

| 메서드/속성 | 설명 |
|------------|------|
| `pd.read_csv()` | CSV 파일을 DataFrame으로 읽기 |
| `df.head(n)` | 상위 n개 행 출력 (기본값: 5) |
| `df.tail(n)` | 하위 n개 행 출력 (기본값: 5) |
| `df.columns` | column 이름 확인/변경 |
| `df.index` | index 확인 |
| `df.info()` | 데이터 타입, 결측값 개수 확인 |
| `df.describe()` | 숫자형 column의 통계 정보 |
| `df.shape` | (행 개수, 열 개수) 튜플 반환 |
| `df.sort_index()` | 인덱스 기준 정렬 |
| `df.sort_values(by='column')` | 특정 column 값 기준 정렬 |

**정렬 옵션:**
- `ascending=True`: 오름차순 (기본값)
- `ascending=False`: 내림차순