# Pandas Basics

## 1. 데이터 프레임의 이해

In [1]:
import pandas as pd

In [None]:
movie = pd.read_csv('data/movie.csv')
movie.head()

In [None]:
index = movie.index
index

In [None]:
columns = movie.columns
columns

In [None]:
data = movie.values
type(data)

In [None]:
index.values

In [None]:
columns.values

In [None]:
movie.dtypes

In [None]:
movie.get_dtype_counts()


## 2. Series


### 2.1. Series 생성

In [None]:
movie['director_name']

### 2.2. Series 메서드

In [None]:
# Series 메서드
"""
head() : 데이터일부를표시
value_counts() : 고유값의빈도수계산(Series만지원) / normalize=True로설정하면상대빈도
size, shape, len(x) : 원소개수계산
count():결측치를제외한개수
min(), max(), mean(), median(), std(), sum()
describe() : 요약통계량제공(개수, 평균, 표준편차, 최소값, 4분위수, 최대값)
quantile() : 정확한분위수계산
isnull():결측치체크<-> notnull()
fillna() : 결측치를한번에특정값으로변환
dropna() : 결측치제거
hasnans: 하나라도결측치가있으면True (Series만지원)
astype() : 데이터형식변경(결측치가있는경우오류)
"""

In [None]:
director = movie['director_name']
director.head()

In [None]:
score = movie['imdb_score']
score.head()

In [None]:
# 가장 유용한 메서드, 
director.value_counts()

In [None]:
# normalize=True 모든 값을 값의 합으로 나누어 상대 빈도를 반환
director.value_counts(normalize=True)

In [None]:
director.size

In [None]:
director.shape

In [None]:
len(director)

In [None]:
director.count()

In [None]:
score.describe()

In [None]:
# 분위수
score.quantile(0.2)

In [None]:
s = pd.Series([1, 2, 3, 4])
s.quantile(.5)

In [None]:
s.quantile([.25, .5, .75])

In [None]:
director.isnull()

In [None]:
director.isnull().sum()

In [None]:
director_fill = director.fillna('Unknown')
print(director.count(), director_fill.count())

In [None]:
director_drop = director.dropna()
print(director.size, director_drop.size)

In [None]:
director.hasnans # Nan 파악

In [None]:
score.astype(int)

### 2.3. 메서드 체인

In [None]:
director.value_counts().head()

In [None]:
score.fillna(0).astype(int).head()

## 3. 열과 행 다루기

In [None]:
# movie_title열을 인덱스로 설정할 수 있다. 이 때 기존 인덱스는 없어진다.
movie2 = movie.set_index('movie_title')
movie2

In [None]:
movie2 = pd.read_csv('data/movie.csv', index_col='movie_title')
movie2.head()

In [None]:
"""
reset_index 명령으로 인덱스를 보통의 자료열로 바꿀 수도 있다. 
이 때 인덱스 열은 자료열의 가장 선두로 삽입된다. 
데이터프레임의 인덱스는 정수로 된 디폴트 인덱스로 바뀐다.
"""
movie2 = movie2.reset_index()
movie2

In [None]:
movie_rename = movie.rename(index={0:'아바타'}, columns={'color':'색깔','director_name':'감독이름'})
movie_rename

In [None]:
# 컬럼을 리스트로 생성
col = movie.columns
col_list = col.tolist()
col_list

In [None]:
col_list[0]='색깔'
col_list[1]='감독이름'
col_list

In [None]:
movie.columns = col_list
movie.head()

In [None]:
movie.drop(range(10), axis='index')

In [None]:
movie.drop(['색깔','감독이름'], axis='columns')

In [None]:
movie['has_seen'] = 0
movie

In [None]:
# 컬럼위치
avg_index = movie.columns.get_loc('duration') + 1
avg_index

In [None]:
"""
DataFrameName.insert (loc, column, value, allow_duplicates = False)
loc : loc은 새로운 열을 삽입하고자하는 열의 위치 인 정수. 
      해당 위치의 기존 열이 오른쪽으로 이동.
column : column은 삽입 할 열의 이름 인 문자열. 
value : 삽입 할 값
allow_duplicates :동일한 이름의 열이 존재하는지 여부 확인.
"""
movie.insert(loc=avg_index, column='평균리뷰수', value=movie['num_critic_for_reviews']/movie['duration'])
movie

In [None]:
type(movie[['감독이름']])

## 1. DataFrame 열 선택

### 1.1. 리스트를 사용한 열 선택

In [None]:
movie = pd.read_csv('data/movie.csv')
movie.head()

In [None]:
movie_actor = movie[['actor_1_name','actor_2_name','actor_3_name']]
movie_actor.head()

In [None]:
movie[['director_name']].head()

In [None]:
cols = ['actor_1_name','actor_2_name','actor_3_name']
movie[cols].head()

### 1.2. 메서드를 사용한 열 선택

In [None]:
movie.get_dtype_counts() # 각 특정 데이터 형식의 열 개수 출력

In [None]:
movie.select_dtypes(include=['int64']).head() # 정수열 만 선택

In [None]:
# 수치로 된 모든 열 선택
movie.select_dtypes(include=['number']).head() 

In [None]:
# 열 선택하는 또 다른 방법 filter
# facebook 이라는 문자열을 이름에 포함하고 있는 모든 열을 검색
movie.filter(like='facebook').head()

In [None]:
# filter 메서드를 사용하면 regex 매개변수를 통해 정규식을 사용해
# 열을 검색가능, 여기서는 이름에 숫자가 포함되 있느 모든 열 검색
movie.filter(regex='\d').head()

## 2. 전체 DataFrame 연산

### 2.1. Series 속성과 메서드 사용

In [None]:
# dataframe의 행(row)와 열(column) 개수를 가진 2개의 숫자를 
# tuple로 반환
movie.shape

In [None]:
# dataframe의 전체원소 개수 반환
movie.size

In [None]:
# 차원수 반환
movie.ndim

In [None]:
# 행의 개수 반환
len(movie)

In [None]:
# 각 열에 누락값을 제외한 개수
movie.count()

In [None]:
movie.min() # max, mean, median, std

In [None]:
# 앞단계에서 계산한 모든 기술 통계량과 분위수를 한꺼번에 계산
movie.describe() 

### 2.2. 메서드 체인 사용

In [None]:
movie.isnull().head()

In [None]:
movie.isnull().sum()

In [None]:
movie.isnull().sum().sum()

In [None]:
movie.isnull().any().any()

In [None]:
# 백슬래시(\) 줄바꿈을 하지 못하게 하는 방법으로 
# 한줄의 하나의 메서드만 나열, 가독성을 높이고 중간에 주석을 달 수 있다
movie.select_dtypes(['object'])\
    .fillna('')\
    .max()

In [None]:
(movie.select_dtypes(include=['number'])+0.00001).head()

In [None]:
(movie.select_dtypes(include=['number'])+0.00001).round(-2).head()

## 3. 대학 캠퍼스의 다양성 지수 발견

In [None]:
college = pd.read_csv('data/college.csv', index_col='INSTNM')
college_ug = college.filter(like='UGDS_')
college_ug.head()

In [None]:
(college_ug.isnull().sum(axis=1)>0).sum()

In [None]:
college_ug = college_ug.dropna(how='all')
college_ug.isnull().sum()

In [None]:
diversity_metric = (college_ug>=0.15).sum(axis=1)
diversity_metric.head()

In [None]:
diversity_metric.value_counts()

In [None]:
diversity_metric.sort_values(ascending=False).head()