# **Chapter 02. 파이썬을 활용한 데이터 전처리**

---
**< 목차 >**
> 2-4. Pandas 란?<br>
2-5. csv, excel 파일 읽고 쓰기, 요약 정보 한눈에 확인하기<br>
2-6. 데이터 슬라이싱을 통해 Pandas 익숙해지기<br>
2-7. 통계값 계산 및 정렬 방법 익히기<br>
2-8. 피벗 테이블(pivot table) 기능과 그룹 통계(groupby)

## 2-4. Pandas 란?
> - ***Python Data Analysis***의 줄임말로, 데이터 조작과 분석을 위한 Python 라이브러리이다.
- 표 형식의 데이터를 비롯해 다양한 형태의 데이터를 다루는 데 특화되어 있다.
- 보통 NumPy, SciPy, matplotlib과 같은 라이브러리와 함께 쓰이는 경우가 많다.

> 일반적으로 Pandas를 임포트할 때 `pd`를 사용한다.

In [1]:
import pandas as pd

## 2-5. csv, excel 파일 읽기, 요약 정보 한눈에 확인하기

### 2-5-1. Pandas 자료구조 직접 만들기
> - Pandas에서는 `Series`와 `DataFrame` 두 가지의 자료구조를 사용한다.
    - Series : 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조
    - DataFrame : 표 같은 스프레드시트 형식의 자료구조
    - Series가 모여서 DataFrame이 된다.
- Pandas에서 사용하는 이러한 자료구조는 **리스트(list)**나 **딕셔너리(dict)**를 활용하여 직접 생성할 수 있다.

**리스트(list)**로 만들기

> `pd.Series()`로 Series형 자료를 만들 수 있다.

In [2]:
mylist = [1,2,3,4]
mySeries = pd.Series(mylist)
mySeries

0    1
1    2
2    3
3    4
dtype: int64

> `pd.DataFrame()`로 DataFrame형 자료를 만들 수 있다.

In [4]:
mylists = [['James', 'Male', 'USA'],
           ['Bob', 'Male', 'UK'],
           ['Anna', 'Female', 'USA']]
df = pd.DataFrame(mylists)
df
# 컬럼명은 따로 지정해주지 않으면 0,1,2 순서의 인덱스로 설정된다.

Unnamed: 0,0,1,2
0,James,Male,USA
1,Bob,Male,UK
2,Anna,Female,USA


> 컬럼명을 지정하고 싶은 경우 `columns` 옵션을 추가하면 된다.

In [5]:
df = pd.DataFrame(mylists, columns=['이름','성별','나라'])
df

Unnamed: 0,이름,성별,나라
0,James,Male,USA
1,Bob,Male,UK
2,Anna,Female,USA


**딕셔너리(dict)**로 만들기
> 딕셔너리의 경우 리스트와 만드는 방법은 같으나,<br>key값을 바로 컬럼으로 인식하여 데이터프레임을 만들어주기 때문에 좀 더 편리하다.

In [6]:
mydict = {'이름' : ['James', 'Bob', 'Anna'],
          '성별' : ['Male', 'Male', 'Female'],
          '나라' : ['USA', 'UK', 'USA']}
df = pd.DataFrame(mydict)
df

Unnamed: 0,이름,성별,나라
0,James,Male,USA
1,Bob,Male,UK
2,Anna,Female,USA


### 2-5-2. csv 파일 읽고 쓰기

In [7]:
# 드라이브 마운트
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


> 파일 읽기
- `read_csv(파일경로)` : csv 파일을 읽어온다.

In [8]:
# csv 파일이 저장된 경로
csv_path = '/content/drive/MyDrive/Colab_Notebooks/데이터분석_강의/part.2-파이썬-데이터-분석-및-머신러닝-기초-강의자료-및-부가자료-20220420t061728z-001/Part.2 파이썬 데이터 분석 및 머신러닝 기초 강의자료 및 부가자료/02. 파이썬을 활용한 데이터 전처리/kpop_idols.csv'

In [11]:
# 파일 읽기
df = pd.read_csv(csv_path)
df

Unnamed: 0,Profile,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Birthplace,Other Group,Former Group,Gender,Position,Instagram,Twitter
0,Profile,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44,Jeonju,"TTS, Oh!GG",,F,"Leader, Main Vocalist",taeyeon_ss,
1,,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43,California,,,F,,svnnynight,
2,,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50,San Francisco,TTS,,F,,xolovestephi,
3,,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48,Incheon,,,F,,watasiwahyo,
4,,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45,Goyang,,,F,,yulyulk,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1589,,Ririka,Kishida Ririka,키시다 리리카,리리카,2002-07-02,ILY:1,Japan,,162,0,,,,F,,,
1590,,Nayu,Kim Yewon,김예원,나유,2002-07-23,ILY:1,South Korea,,0,0,,,,F,,,
1591,,Elva,Lee Yonghwa,이용화,엘바,2003-05-05,ILY:1,South Korea,,0,0,,,,F,,,
1592,,Lily,Lily Jin Morrow,릴리 진 머로우,릴리,2002-10-17,NMIXX,Australia,South Korea,0,0,Marysville,,,F,,,


> 파일 쓰기
- `to_csv(파일경로)` : csv 파일을 저장한다.

In [12]:
# csv 파일을 저장할 경로 (마지막은 파일을 저장할 이름)
csv_path = '/content/save_file.csv'

In [13]:
# 파일 저장
df.to_csv(csv_path)

### 2-5-3. excel 파일 일고 쓰기