# Pandas

- 파이썬에서 사용하는 데이터분석 라이브러리
- 행과 열로 이루어진 데이터 객체를 만들 수 있음
- 크게 두가지 데이터 타입이 있음

#### Series
- Index와 Value로 이루어진 데이터 타입

#### DataFrame
- Index와 Value와 Column으로 이루어진 데이터 타입
- Column은 Series로 이루어짐
- 엑셀의 테이블 형태과 유사함

In [1]:
import numpy as np
import pandas as pd
#pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)

import warnings
warnings.filterwarnings(action='ignore')

* * *

## Series

### 1. Series 생성

In [2]:
# list를 활용하여 series 생성하기
# list의 index => series의 index, list의 value => series의 value
series1 = pd.Series([1, 6, 7, 3])
series1

0    1
1    6
2    7
3    3
dtype: int64

In [3]:
# dictionary를 활용하여 series 생성하기
# dictionary의 key => series의 index, dictionary의 value => series의 value
series2 = pd.Series({'A' : 90, 'B' : 80, 'C' : 70, 'D': 60})
series2

A    90
B    80
C    70
D    60
dtype: int64

### 2. Series 관련 메소드

In [4]:
# 값 확인
series1.values

array([1, 6, 7, 3])

In [5]:
# 인덱스 확인
series1.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
# 자료형 확인
series1.dtypes

dtype('int64')

In [7]:
# series의 이름 설정
series1.name = '석차 기준'
series1

0    1
1    6
2    7
3    3
Name: 석차 기준, dtype: int64

In [8]:
# series의 인덱스의 이름 설정
series1.index.name = '석차'
series1

석차
0    1
1    6
2    7
3    3
Name: 석차 기준, dtype: int64

In [9]:
# 인덱스 변경 가능
series1.index = ['W', 'X', 'Y', 'Z']
series1

W    1
X    6
Y    7
Z    3
Name: 석차 기준, dtype: int64

In [10]:
series1.index

Index(['W', 'X', 'Y', 'Z'], dtype='object')

### 3. Series 인덱싱

In [11]:
series2

A    90
B    80
C    70
D    60
dtype: int64

In [12]:
# series.index_name
series2.A

90

In [13]:
# series['index_name']
series2['A']

90

In [14]:
# seires[['index_name_1', 'index_name_2', ...]]
# 여러 개를 한번에 인덱싱 할 수 있음
series2[['A', 'B']]

A    90
B    80
dtype: int64

In [15]:
# offset index를 사용할 수도 있음
series2[0:2]

A    90
B    80
dtype: int64

### 4. Series 필터링

In [16]:
# boolean
series2>=80

A     True
B     True
C    False
D    False
dtype: bool

In [17]:
# filtering
series2[series2>=80]

A    90
B    80
dtype: int64

### 5. Series 연산

In [18]:
# series끼리 연산 가능
series1 = pd.Series([1, 2, 3, 4])
series2 = pd.Series([5, 6, 7, 8])

series1+series2

0     6
1     8
2    10
3    12
dtype: int64

* * *

## DataFrame

column : 열(세로) / row : 행(가로)

### 1. 데이터프레임 생성

In [19]:
df1 = pd.DataFrame(columns=["Food", "Price"])
df1

Unnamed: 0,Food,Price


In [20]:
# 리스트로 생성
df1["Food"] = ["마라샹궈", "마라탕"]
df1["Price"] = [15000, 8000]
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000


In [21]:
# 딕셔너리로 생성
food = ["꿔바로우", "순대국밥"]
price = [16000, 8000]
dic = {"Food":food, "Price":price}
df2 = pd.DataFrame(dic, index=['A','B'])
df2

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [22]:
# 컬럼을 인덱스로 설정
df2.set_index("Food")

Unnamed: 0_level_0,Price
Food,Unnamed: 1_level_1
꿔바로우,16000
순대국밥,8000


### 2. 데이터프레임 인덱싱

In [23]:
df2

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [24]:
# loc을 통해 인덱스로 접근
df2.loc["B"]

Food     순대국밥
Price    8000
Name: B, dtype: object

In [25]:
# iloc을 통해 인덱스 자리수로 접근 (0부터 시작)
df2.iloc[1]

Food     순대국밥
Price    8000
Name: B, dtype: object

In [26]:
# 컬럼명으로 접근
df2['Food']

A    꿔바로우
B    순대국밥
Name: Food, dtype: object

In [27]:
# 조건(boolean)으로 접근
df2[df2.Price > 10000]

Unnamed: 0,Food,Price
A,꿔바로우,16000


### 3. 데이터프레임 추가 및 삭제

In [28]:
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000


In [29]:
# loc을 이용하여 row 추가
df1.loc[2] = ["양꼬치", "12000"]
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000
2,양꼬치,12000


##### Row 삭제

In [30]:
# drop을 통해 row/column 삭제 
# axis=0(default) => row 삭제 
# axis=1 => column 삭제
df1_ = df1.drop(1)
df1_

Unnamed: 0,Food,Price
0,마라샹궈,15000
2,양꼬치,12000


In [31]:
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000
2,양꼬치,12000


In [32]:
df1_

Unnamed: 0,Food,Price
0,마라샹궈,15000
2,양꼬치,12000


In [33]:
# 해당 데이터프레임에서 삭제하는 방법
df1.drop(1, inplace=True)
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
2,양꼬치,12000


In [34]:
# reset_index를 통해 인덱스 재정렬
# 옵션이 없을 시에는 삭제된 index도 따로 index라는 column으로 저장됨
df1__ = df1.reset_index()
df1__

Unnamed: 0,index,Food,Price
0,0,마라샹궈,15000
1,2,양꼬치,12000


In [35]:
# 다음과 같이 실행하면 저장하지 않음
df1 = df1.reset_index(drop=True)
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,양꼬치,12000


##### Column 삭제

In [36]:
# axis=1 로 하면 칼럼 삭제
df1__.drop("Price", axis=1)

Unnamed: 0,index,Food
0,0,마라샹궈
1,2,양꼬치


**Concat**

In [37]:
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,양꼬치,12000


In [38]:
df2

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [40]:
# 수평축(axis=0, default)으로 concat
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,양꼬치,12000
A,꿔바로우,16000
B,순대국밥,8000


In [42]:
# 수직축(axis=1)으로 concat
df4 = pd.concat([df2, df2], axis=1)
df4

Unnamed: 0,Food,Price,Food.1,Price.1
A,꿔바로우,16000,꿔바로우,16000
B,순대국밥,8000,순대국밥,8000


**merge**

In [43]:
df3

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,양꼬치,12000
A,꿔바로우,16000
B,순대국밥,8000


In [44]:
df5 = pd.DataFrame({'Food': ['마라샹궈', '초밥', '부대찌개', '순대국밥'], 
                    'Country': ['중국', '일본', '한국', '한국']})
df5

Unnamed: 0,Food,Country
0,마라샹궈,중국
1,초밥,일본
2,부대찌개,한국
3,순대국밥,한국


In [45]:
# inner로 하면 key값이 둘 다 있는 것만
pd.merge(df3, df5, how='inner', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000,중국
1,순대국밥,8000,한국


In [46]:
# outer로 하면 key값이 한 데이터프레임에만 있어도 병합
pd.merge(df3, df5, how='outer', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000.0,중국
1,양꼬치,12000.0,
2,꿔바로우,16000.0,
3,순대국밥,8000.0,한국
4,초밥,,일본
5,부대찌개,,한국


In [47]:
# left로 하면 왼쪽에 있는 데이터 프레임의 'on' 기준
pd.merge(df3, df5, how='left', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000,중국
1,양꼬치,12000,
2,꿔바로우,16000,
3,순대국밥,8000,한국


In [48]:
# right로 하면 오른쪽에 있는 데이터 프레임의 'on' 기준
pd.merge(df3, df5, how='right', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000.0,중국
1,초밥,,일본
2,부대찌개,,한국
3,순대국밥,8000.0,한국


### 5. 데이터 불러오기 및 저장하기

In [None]:
# 데이터 읽기
# 절대 경로
titanic = pd.read_csv('titanic.csv')
titanic = pd.read_csv('C:/Users/kiyj1/OneDrive - 연세대학교 (Yonsei University)/문서/YBIGTA/pandas_numpy_신입교육세션/titanic.csv')

In [None]:
# head를 통해 데이터 맨 앞부분 확인
# 기본 5개
titanic.head()

In [None]:
# shape를 통해 데이터의 row, column 길이 확인 가능
titanic.shape

In [None]:
# tail을 통해 데이터 뒷부분 확인
# 기본 5개
titanic.tail()

In [None]:
# 디폴트는 5개지만 보려는 갯수를 조정할 수 있음
# display를 사용해 print처럼 확인 가능

display(titanic.head(2))
display(titanic.tail(2))

In [None]:
# info를 통해 nan과 데이터 타입, 전체 데이터 수 등 확인 가능
type(titanic.info())

In [None]:
# 데이터 타입 변경 가능
titanic.Survived = titanic.Survived.astype('object')

In [None]:
titanic.info()

In [None]:
# describe를 이용하여 통계값 확인 (단, 수치형만)
titanic.describe()

In [None]:
# 컬럼명 확인
titanic.columns

In [None]:
# 불러오는 설정을 달리해서 가져올 수 있음
titanic2= pd.read_csv("titanic.csv", 
                      usecols=["PassengerId","Age", "Survived"], 
                      nrows=10,
                     index_col="PassengerId")
titanic2

In [None]:
# 다시 저장하기
titanic2.to_csv("titanic2.csv", index=False)

# index=False를 하지 않으면 인덱스까지 새로운 컬럼(Unnamed: 0)으로 저장됨
# 이 경우, 인덱스인 PassengerId column이 저장
titanic2.to_csv("titanic3.csv")

---

## Pandas 주요 함수

**`apply`**

In [None]:
titanic.head(2)

In [None]:
# apply를 이용해 함수를 적용할 수 있음
def is_adult(age):
    if age < 20 :
        return 'not adult'
    if age >= 20 :
        return 'adult'

In [None]:
titanic['is_adult'] = titanic['Age'].apply(is_adult)
titanic.tail()

**`lambda`**

In [None]:
# lambda 함수를 통해서도 쓸 수 있음
# 파이썬은 lambda와 리스트 컴프리헨션을 잘 써야 처리 속도가 빠르므로
# apply는 항상 lambda와 쓰시기를 추천합니다
titanic['is_adult'] = titanic['Age'].apply(lambda x: 'adult' if x< 20 else 'not_adult')
titanic.head()

**`sort`**

In [None]:
# 원하는 칼럼을 선택해 그것을 기준으로 오름차순 정렬
titanic.sort_values('Pclass').head()

In [None]:
# ascending=False로 하면 내림차순
titanic.sort_values('Pclass', ascending=False).head()

**`isnull`**

In [None]:
titanic.info()

In [None]:
# null 값 확인
titanic[titanic["Age"].isnull()]

In [None]:
# null 값 아닌 것 확인
titanic[titanic["Age"].notnull()]

**`dropna`**

In [None]:
# 결측치 제거
# titanic.dropna(inplace=True)
titanic_notnull = titanic.dropna()

#titanic_notnull = titanic.dropna(axis=1) 하면
# null 값인 column 자체를 다 삭제할 수 있음.
titanic_notnull[titanic_notnull['Age'].isnull()]

**`unique`**

In [None]:
titanic.head()

In [None]:
# unique값이 뭔지 확인
titanic.Embarked.unique()

**`value_counts`**

In [None]:
# unique값들이 각각 얼마나 있는지 확인
titanic.Survived.value_counts()

**`groupby`**

In [None]:
titanic_sample = titanic[['Name', 'Age', 'Pclass', 'Fare', 'Sex']]
titanic_sample.head()

In [None]:
# size를 통해 해당 칼럼을 모은 후 개수 확인
titanic_sample.groupby("Pclass").size()

In [None]:
# 두가지 기준으로 groupby한 후에 개수도 확인 가능
titanic_sample.groupby(["Pclass", "Sex"]).size()

In [None]:
# groupby로 모은 후 agg를 통해 다양한 통계를 낼 수 있음(min, max, mean, sum, median)
# 이상치가 있네요 이런 것은 나중에 EDA 과정에서 제거해야 됩니다
titanic_sample.groupby("Pclass").agg((["min","max","mean"]))