# Pandas는 무엇인가요?
데이터 분석 및 가공에 사용되는 파이썬 라이브러리

In [4]:
import pandas as pd

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [6]:
data_frame = pd.read_csv('./data/friend_list.csv')
data_frame.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


# DataFrame은 무엇인가요?
- 가로축과 세로축이 있는 엑셀과 유사한 데이터구조
- 가로축은 Raw(행), 세로축은 Column(열)이

In [7]:
# 데이터프레임 행과 열 갯수 확인
data_frame.shape

(6, 3)

In [9]:
# 데이터프레임 앞 뒤 확인
data_frame.head(3)
data_frame.tail(3)

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


Unnamed: 0,name,age,job
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


# Series는 무엇인가요?
- DataFrame의 컬럼(행)은 모두 시리즈

In [10]:
type(data_frame.job)

pandas.core.series.Series

In [11]:
# 시리즈의 함수 예제입니다.
data_frame.job = data_frame.job.str.upper()
data_frame.head()

Unnamed: 0,name,age,job
0,John,20,STUDENT
1,Jenny,30,DEVELOPER
2,Nate,30,TEACHER
3,Julia,40,DENTIST
4,Brian,45,MANAGER


### Series 특징
- 시리즈는 단순히 파이썬 리스트를 간직한 오브젝트  
- 리스트를 파라미터로 주면 바로 시리즈가 생성
- 시리즈는 데이터 가공 및 분석이 파이썬 리스트보다 쉬움

In [17]:
# 시리즈 생성 방법
s1 = pd.Series(['one', 'two', 'three'])
s2 = pd.Series([1, 2, 3])

In [18]:
type(s1)
s1

pandas.core.series.Series

0      one
1      two
2    three
dtype: object

In [19]:
type(s2)
s2

pandas.core.series.Series

0    1
1    2
2    3
dtype: int64

In [21]:
# 시리즈로 데이터프레임 생성 방법
pd.DataFrame({'word':s1, 'num':s2})

Unnamed: 0,word,num
0,one,1
1,two,2
2,three,3


# Pandas를 사용 이유

- 엑셀과 유사하면서 데이터의 수정/가공 및 분석이 용이    
- 데이터 가공을 위한 수많은 함수를 지원  
- Numpy 기반으로 데이터 처리가 상당히 빠름  

# 파일(csv, excel, txt)을 DataFrame으로 가져오기
- 데이터프레임 (dataframe)은 2차원 자료구조
- 로우와 컬럼으로 엑셀 형식과 유사 
- 기본적으로 csv 포맷을 지원하지만, 구분자로 컬럼이 구분되어 있는 데이터는 모두 지원 가능  
- read_csv 함수로 파일을 데이터프레임으로 호출 가능

In [22]:
df = pd.read_csv('data/friend_list.csv')

In [23]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


### csv 파일이 아닌 파일을 호출하는 예제  


In [25]:
# txt이지만, 쉼표로 컬럼이 구분되어 있는 형태
df = pd.read_csv('./data/friend_list.txt')

In [26]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


### txt, excel 파일 데이터프레임으로 변환 가능
- 컬럼이 쉼표로 구분되어 있지 않을 경우에도 컬럼을 구별할 수 있는 기준만 있으면 데이터프레임을 변환 가능
- delimiter 파라미터에 구분자를 지정해서 사용 가능  

In [29]:
# 탭을 기준으로 텍스트 파일을 데이터프레임으로 가져옴
df = pd.read_csv('data/friend_list_tab.txt', delimiter = "\t")

In [30]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


### 파일에 데이터 헤더가 없는 경우, header = None으로 지정  
- 헤더가 없는 경우 첫 행이 데이터 헤더로 들어가는 것을 방지해줌.

In [31]:
df = pd.read_csv('data/friend_list_no_head.csv')

In [32]:
df

Unnamed: 0,John,20,student
0,Jenny,30,developer
1,Nate,30,teacher
2,Julia,40,dentist
3,Brian,45,manager
4,Chris,25,intern


In [33]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None)

In [34]:
df.head()

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


### 데이터에 헤더가 없을 경우 컬럼 이름 추가 방법

In [35]:
df.columns = ['name', 'age', 'job']

In [36]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [37]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None, names=['name', 'age', 'job'])

In [38]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


# 데이터프레임을 파이썬 코드로 생성하기

## 딕셔너리로 데이터프레임 생성하기
- 파이썬의 기본 자료구조인 딕셔너리로 데이터프레임 생성 가능

In [49]:
friend_dict_list = [{'name': 'Jone', 'age': 20, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list)

In [50]:
df.head()

Unnamed: 0,name,age,job
0,Jone,20,student
1,Jenny,30,developer
2,Nate,30,teacher


### 생성한 데이터프레임 컬럼 순서 변경

In [51]:
df = df[['job', 'age', 'name']]

In [52]:
df.head()

Unnamed: 0,job,age,name
0,student,20,Jone
1,developer,30,Jenny
2,teacher,30,Nate


## list로 데이터프레임 생성하기
리스트로 데이터프레임을 생성하는 예제입니다.

In [114]:
friend_list = [ ['John', 20, 'student'],['Jenny', 30, 'developer'],['Nate', 30, 'teacher'] ]
column_name = ['name', 'age', 'job']
df = pd.DataFrame(friend_list, columns=column_name)

In [115]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


# 파일로 데이터프레임을 저장하기
- to_csv 함수를 사용하여 파일로 저장하실 수 있습니다.

In [98]:
df.to_csv('friend_list_from_df.csv')

![image.png](attachment:image.png)

In [100]:
df.to_csv('friend_list_from_df.txt')

![image.png](attachment:image.png)

### 저장할 때 옵션
- 기본적으로 header와 index는 True가 기본값
- **header = False** 는 컬럼 이름을 파일에 저장하지 않겠다라는 의미
- **index = False** 는 로우 인덱스를 파일에 저장하지 않겠다라는 의미

In [103]:
df.to_csv('friend_list_from_df.csv', header = True, index = True)

![image.png](attachment:image.png)

In [101]:
df.to_csv('friend_list_from_df.csv', header = False, index = False)

![image.png](attachment:image.png)

# raw (행) 선택

## 인덱스로 raw (행) 선택하기

In [116]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


#### raw 1부터 3까지 순차적으로 선택

In [117]:
df[1:3]

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


#### 순차적이지 않은 raw 선택

In [119]:
df.loc[[0,2]]
df.loc[[2,1]]

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,30,teacher


Unnamed: 0,name,age,job
2,Nate,30,teacher
1,Jenny,30,developer


## column값에 따른 raw 선택하기
- 특정 조건에 따라 원하는 행만 출력 가능

In [120]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [121]:
df_filtered = df[df.age > 25]

In [122]:
df_filtered

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [123]:
df_filtered = df[(df.age >25) & (df.name == 'Nate')]

In [124]:
df_filtered

Unnamed: 0,name,age,job
2,Nate,30,teacher


# 컬럼 필터하기

## 인덱스로 필터하기

In [129]:
friend_list = [ ['John', 20, 'student'],['Jenny', 30, 'developer'],['Nate', 30, 'teacher'] ]
df = pd.DataFrame.from_records(friend_list)
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


#### 모든 로우를 보여주되, 컬럼은 0부터 1까지만 출력

In [130]:
df.iloc[:, 0:2]

Unnamed: 0,0,1
0,John,20
1,Jenny,30
2,Nate,30


#### 모든 로우를 보여주되, 컬럼 0와 2만 출력

In [131]:
df.iloc[:,[0,2]]

Unnamed: 0,0,2
0,John,student
1,Jenny,developer
2,Nate,teacher


## 컬럼 이름으로 필터하기

In [133]:
# you can create column header for no header data at once
df = pd.read_csv('data/friend_list_no_head.csv', header = None, names=['name', 'age', 'job'])
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [134]:
df_filtered = df[['name', 'age']]
df_filtered

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [135]:
df.filter(items=['age', 'job'])

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


#### 원하는 글자를 가진 컬럼만 출력

In [137]:
# select columns containing 'a'
df.filter(like='a',axis=1)

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [140]:
# select columns containing 'b'
df.filter(like='b',axis=1)

Unnamed: 0,job
0,student
1,developer
2,teacher
3,dentist
4,manager
5,intern


# raw(행) 삭제 (drop

#### 로우 인덱스로 로우 삭제

In [141]:
friend_dict_list = [{'age': 20, 'job': 'student'},
         {'age': 30, 'job': 'developer'},
         {'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, index = ['John', 'Jenny', 'Nate'])

In [143]:
df

Unnamed: 0,age,job
John,20,student
Jenny,30,developer
Nate,30,teacher


**드롭된 결과는 데이터프레임에 저장되지 않음**

**저장하고 싶을 경우, 결과를 데이터프레임에 따로 저장 or inplace=True 입력**

In [145]:
df.drop(['John', 'Nate'])
df

Unnamed: 0,age,job
Jenny,30,developer


Unnamed: 0,age,job
John,20,student
Jenny,30,developer
Nate,30,teacher


#### 삭제된 결과를 데이터프레임에 저장

In [146]:
df = df.drop(['John', 'Nate'])

In [147]:
df

Unnamed: 0,age,job
Jenny,30,developer


### 드롭된 결과를 바로 데이터프레임에 저장하는 방법
- inplace = True 키워드를 사용하면, 따로 저장할 필요없이, 삭제된 결과가 데이터프레임에 반영

In [148]:
friend_dict_list = [{'age': 20, 'job': 'student'},
         {'age': 30, 'job': 'developer'},
         {'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, index = ['John', 'Jenny', 'Nate'])

In [149]:
df

Unnamed: 0,age,job
John,20,student
Jenny,30,developer
Nate,30,teacher


In [150]:
df.drop(['John', 'Nate'], inplace = True)

In [151]:
df

Unnamed: 0,age,job
Jenny,30,developer


## 로우 인덱스로 드롭하기

In [152]:
friend_dict_list = [{'name': 'Jone', 'age': 20, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list)

In [153]:
df

Unnamed: 0,name,age,job
0,Jone,20,student
1,Jenny,30,developer
2,Nate,30,teacher


#### 로우 인덱스로 삭제

In [154]:
df = df.drop(df.index[[0,2]])

In [155]:
df

Unnamed: 0,name,age,job
1,Jenny,30,developer


## 컬럼값으로 로우 삭제

In [157]:
friend_dict_list = [{'name': 'Jone', 'age': 20, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job
0,Jone,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [158]:
df = df[df.age != 30]

In [159]:
df

Unnamed: 0,name,age,job
0,Jone,20,student


# 컬럼 드롭하기

In [160]:
friend_dict_list = [{'name': 'Jone', 'age': 20, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job
0,Jone,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [161]:
df = df.drop('age', axis=1)

In [162]:
df

Unnamed: 0,name,job
0,Jone,student
1,Jenny,developer
2,Nate,teacher


# 컬럼 추가 또는 변경하기

In [163]:
friend_dict_list = [{'name': 'Jone', 'age': 15, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'age', 'job'])
df

Unnamed: 0,name,age,job
0,Jone,15,student
1,Jenny,30,developer
2,Nate,30,teacher


#### 새로운 컬럼을 기본값과 함께 추가

In [164]:
df['salary'] = 0

In [165]:
df

Unnamed: 0,name,age,job,salary
0,Jone,15,student,0
1,Jenny,30,developer,0
2,Nate,30,teacher,0


#### 기존 컬럼값을 가지고 새로운 컬럼을 생성

In [166]:
friend_dict_list = [{'name': 'Jone', 'age': 15, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'age', 'job'])
df

Unnamed: 0,name,age,job
0,Jone,15,student
1,Jenny,30,developer
2,Nate,30,teacher


#### 넘파이를 사용하셔서, 한줄에 새로운 컬럼값을 생성하실 수도 있습니다.

In [167]:
import numpy as np
df['salary'] = np.where(df['job'] != 'student' , 'yes', 'no')

In [168]:
df

Unnamed: 0,name,age,job,salary
0,Jone,15,student,no
1,Jenny,30,developer,yes
2,Nate,30,teacher,yes


In [169]:
friend_dict_list = [{'name': 'John', 'midterm': 95, 'final': 85},
         {'name': 'Jenny', 'midterm': 85, 'final': 80},
         {'name': 'Nate', 'midterm': 10, 'final': 30}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'midterm', 'final'])
df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30


#### 기존에 있는 두 컬럼값을 더해서 새로운 컬럼을 만들기 가능

In [170]:
df['total'] = df['midterm'] + df['final']

In [171]:
df

Unnamed: 0,name,midterm,final,total
0,John,95,85,180
1,Jenny,85,80,165
2,Nate,10,30,40


In [172]:
df['average'] = df['total'] / 2

In [173]:
df

Unnamed: 0,name,midterm,final,total,average
0,John,95,85,180,90.0
1,Jenny,85,80,165,82.5
2,Nate,10,30,40,20.0


#### 리스트에 조건별 값을 담아서, 새로운 컬럼 추가

In [174]:
grades = []

for row in df['average']:
    if row >= 90:
        grades.append('A')
    elif row >= 80:
        grades.append('B')
    elif row >= 70:
        grades.append('C')
    else:
        grades.append('F')
        
df['grade'] = grades

In [175]:
df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,A
1,Jenny,85,80,165,82.5,B
2,Nate,10,30,40,20.0,F


# apply 함수 
- apply를 사용할 경우 깔끔하게 컬럼의 값을 변경가능

In [176]:
def pass_or_fail(row):
    print(row)
    if row != "F":
        return 'Pass'
    else:
        return 'Fail'

In [177]:
df.grade = df.grade.apply(pass_or_fail)

A
B
F


In [178]:
df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,Pass
1,Jenny,85,80,165,82.5,Pass
2,Nate,10,30,40,20.0,Fail


#### apply를 사용해서 연월일의 정보에서 연도만 추출

In [179]:
date_list = [{'yyyy-mm-dd': '2000-06-27'},
         {'yyyy-mm-dd': '2002-09-24'},
         {'yyyy-mm-dd': '2005-12-20'}]
df = pd.DataFrame(date_list, columns = ['yyyy-mm-dd'])
df

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-24
2,2005-12-20


In [180]:
def extract_year(row):
    return row.split('-')[0]

In [181]:
df['year'] = df['yyyy-mm-dd'].apply(extract_year)

In [182]:
df

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2005-12-20,2005


### apply 함수에 파라미터 전달하기
- 키워드 파라미터를 사용하면, apply가 적용된 함수에 파라미터를 전달 가능

In [183]:
def extract_year(year, current_year):
    return current_year - int(year)

In [184]:
df['age'] = df['year'].apply(extract_year, current_year=2018)
df

Unnamed: 0,yyyy-mm-dd,year,age
0,2000-06-27,2000,18
1,2002-09-24,2002,16
2,2005-12-20,2005,13


### apply 함수에 한 개 이상의 파라미터 전달하기
키워드 파라미터를 추가하면, 원하는 만큼의 파라미터를 함수에 전달 가능

In [185]:
def get_introduce(age, prefix, suffix):
    return prefix + str(age) + suffix

In [186]:
df['introduce'] = df['age'].apply(get_introduce, prefix="I am ", suffix=" years old")
df

Unnamed: 0,yyyy-mm-dd,year,age,introduce
0,2000-06-27,2000,18,I am 18 years old
1,2002-09-24,2002,16,I am 16 years old
2,2005-12-20,2005,13,I am 13 years old


### apply 함수에 여러개의 컬럼을 동시에 전달하기
axis=1이라는 키워드 파라미터를 apply 함수에 전달하면, 모든 컬럼을 지정된 함수에서 사용 가능

In [188]:
def get_introduce2(row):
    return "I was born in "+str(row.year)+" my age is "+str(row.age)

df.introduce = df.apply(get_introduce2, axis=1)

In [189]:
df

Unnamed: 0,yyyy-mm-dd,year,age,introduce
0,2000-06-27,2000,18,I was born in 2000 my age is 18
1,2002-09-24,2002,16,I was born in 2002 my age is 16
2,2005-12-20,2005,13,I was born in 2005 my age is 13


### Map 함수로 컬럼 추가 및 변경하기
파라미터로 함수를 전달하면 apply 함수와 동일하게 컬럼값을 추가 및 변경 가능

In [190]:
def extract_year(row):
    return row.split('-')[0]

date_list = [{'yyyy-mm-dd': '2000-06-27'},
         {'yyyy-mm-dd': '2002-09-24'},
         {'yyyy-mm-dd': '2005-12-20'}]
df = pd.DataFrame(date_list, columns = ['yyyy-mm-dd'])
df

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-24
2,2005-12-20


In [191]:
df['year'] = df['yyyy-mm-dd'].map(extract_year)
df

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2005-12-20,2005


**파라미터로 딕셔너리를 전달하면 컬럼값을 쉽게 원하는 값으로 변경 가능**


**기존의 컬럼값은 딕셔너리의 key로 사용되고, 해당되는 value의 값으로 컬럼값이 변경**

In [192]:
job_list = [{'age': 20, 'job': 'student'},
         {'age': 30, 'job': 'developer'},
         {'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(job_list)
df

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher


In [193]:
df.job = df.job.map({"student":1,"developer":2,"teacher":3})
df

Unnamed: 0,age,job
0,20,1
1,30,2
2,30,3


### Applymap
데이터프레임 전체의 각각의 값을 한번에 변경시키실 때 사용면 좋음

In [194]:
x_y = [{'x': 5.5, 'y': -5.6},
         {'x': -5.2, 'y': 5.5},
         {'x': -1.6, 'y': -4.5}]
df = pd.DataFrame(x_y)
df

Unnamed: 0,x,y
0,5.5,-5.6
1,-5.2,5.5
2,-1.6,-4.5


In [195]:
df = df.applymap(np.around)
df

Unnamed: 0,x,y
0,6.0,-6.0
1,-5.0,6.0
2,-2.0,-4.0


# 데이터프레임에 로우 추가하기

In [196]:
friend_dict_list = [{'name': 'John', 'midterm': 95, 'final': 85},
         {'name': 'Jenny', 'midterm': 85, 'final': 80},
         {'name': 'Nate', 'midterm': 10, 'final': 30}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'midterm', 'final'])
df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30


In [197]:
df2 = pd.DataFrame([['Ben', 50,50]], columns = ['name', 'midterm', 'final'])

In [198]:
df2.head()

Unnamed: 0,name,midterm,final
0,Ben,50,50


In [199]:
df.append(df2, ignore_index=True)

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30
3,Ben,50,50


# Group by
데이터에서 정보를 취하기 위해서 그룹별로 묶는 방법

In [200]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"}
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [205]:
groupby_sex = df.groupby('sex')
groupby_sex.count()

Unnamed: 0_level_0,name,major
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,6,6
male,5,5


In [204]:
groupby_major = df.groupby('major')
groupby_major.count()

Unnamed: 0_level_0,name,sex
major,Unnamed: 1_level_1,Unnamed: 2_level_1
Computer Science,4,4
Economics,3,3
Physics,1,1
Psychology,3,3


In [206]:
for name, group in groupby_major:
    print(name + ": " + str(len(group)))
    print(group)
    print()

Computer Science: 4
       name             major     sex
0      John  Computer Science    male
1      Nate  Computer Science    male
6  Jeniffer  Computer Science  female
7    Edward  Computer Science    male

Economics: 3
    name      major     sex
4  Janny  Economics  female
5   Yuna  Economics  female
9  Wendy  Economics  female

Physics: 1
      name    major   sex
2  Abraham  Physics  male

Psychology: 3
     name       major     sex
3   Brian  Psychology    male
8    Zara  Psychology  female
10   Sera  Psychology  female



#### 그룹 객체를 다시 데이터프레임으로 생성

In [207]:
df_major_cnt = pd.DataFrame({'count' : groupby_major.size()}).reset_index()
df_major_cnt

Unnamed: 0,major,count
0,Computer Science,4
1,Economics,3
2,Physics,1
3,Psychology,3


In [208]:
groupby_sex = df.groupby('sex')

#### 학교의 남녀 성비가 균등하다는 정보 확인

In [209]:
for name, group in groupby_sex:
    print(name + ": " + str(len(group)))
    print(group)
    print()

female: 6
        name             major     sex
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female

male: 5
      name             major   sex
0     John  Computer Science  male
1     Nate  Computer Science  male
2  Abraham           Physics  male
3    Brian        Psychology  male
7   Edward  Computer Science  male



In [210]:
df_sex_cnt = pd.DataFrame({'count' : groupby_sex.size()}).reset_index()
df_sex_cnt

Unnamed: 0,sex,count
0,female,6
1,male,5


# 중복 데이터 삭제하기


In [211]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"},
                {'name': 'John', 'major': "Computer Science", 'sex': "male"},
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


## 중복된 데이터 확인 하기

In [212]:
df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
dtype: bool

#### drop_duplicates 함수로 중복 데이터 삭제

In [213]:
# 중복 데이터 John 삭제
df = df.drop_duplicates()

In [214]:
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [215]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Nate', 'major': None, 'sex': "male"},
                {'name': 'John', 'major': "Computer Science", 'sex': None},
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


#### name 컬럼이 똑같을 경우, 중복된 데이터라고 표시하

In [216]:
df.duplicated(['name'])

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11     True
dtype: bool

#### keep 값을 first 또는 last라고 값을 줘서 중복된 값 중, 어느값을 살릴 지 결정 가능 (기본적으로 first로 설정되어 있음)

In [217]:
df.drop_duplicates(['name'], keep='last')

Unnamed: 0,name,major,sex
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female
10,Nate,,male
11,John,Computer Science,


In [218]:
# 원본 반영 X
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


# None 처리 하기

In [219]:
school_id_list = [{'name': 'John', 'job': "teacher", 'age': 40},
                {'name': 'Nate', 'job': "teacher", 'age': 35},
                {'name': 'Yuna', 'job': "teacher", 'age': 37},
                {'name': 'Abraham', 'job': "student", 'age': 10},
                {'name': 'Brian', 'job': "student", 'age': 12},
                {'name': 'Janny', 'job': "student", 'age': 11},
                {'name': 'Nate', 'job': "teacher", 'age': None},
                {'name': 'John', 'job': "student", 'age': None}
         ]
df = pd.DataFrame(school_id_list, columns = ['name', 'job', 'age'])
df

Unnamed: 0,name,job,age
0,John,teacher,40.0
1,Nate,teacher,35.0
2,Yuna,teacher,37.0
3,Abraham,student,10.0
4,Brian,student,12.0
5,Janny,student,11.0
6,Nate,teacher,
7,John,student,


## Null 또는 NaN 확인하기

In [220]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    8 non-null      object 
 1   job     8 non-null      object 
 2   age     6 non-null      float64
dtypes: float64(1), object(2)
memory usage: 320.0+ bytes


In [221]:
df.isna()

Unnamed: 0,name,job,age
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,True
7,False,False,True


In [222]:
df.isnull()

Unnamed: 0,name,job,age
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,True
7,False,False,True


## Null 또는 NaN 값 변경하기
- Null을 0으로 설정

In [224]:
tmp = df
tmp["age"] = tmp["age"].fillna(0)
tmp

Unnamed: 0,name,job,age
0,John,teacher,40.0
1,Nate,teacher,35.0
2,Yuna,teacher,37.0
3,Abraham,student,10.0
4,Brian,student,12.0
5,Janny,student,11.0
6,Nate,teacher,0.0
7,John,student,0.0


#### 0으로 설정하기 보다는 선생님의 중간 나이, 학생의 중간 나이로, 각각의 직업군에 맞게 Null값을 변경

In [225]:
# fill missing age with median age for each group (teacher, student)
df["age"].fillna(df.groupby("job")["age"].mean(), inplace=True)
#df["age"].fillna(df.groupby("job")["age"].transform("median"), inplace=True)

In [226]:
df

Unnamed: 0,name,job,age
0,John,teacher,40.0
1,Nate,teacher,35.0
2,Yuna,teacher,37.0
3,Abraham,student,10.0
4,Brian,student,12.0
5,Janny,student,11.0
6,Nate,teacher,0.0
7,John,student,0.0


# Unique
- 컬럼에 여러 값이 있을 때, 중복되지 않는 값을 확인

In [227]:
job_list = [{'name': 'John', 'job': "teacher"},
                {'name': 'Nate', 'job': "teacher"},
                {'name': 'Fred', 'job': "teacher"},
                {'name': 'Abraham', 'job': "student"},
                {'name': 'Brian', 'job': "student"},
                {'name': 'Janny', 'job': "developer"},
                {'name': 'Nate', 'job': "teacher"},
                {'name': 'Obrian', 'job': "dentist"},
                {'name': 'Yuna', 'job': "teacher"},
                {'name': 'Rob', 'job': "lawyer"},
                {'name': 'Brian', 'job': "student"},
                {'name': 'Matt', 'job': "student"},
                {'name': 'Wendy', 'job': "banker"},
                {'name': 'Edward', 'job': "teacher"},
                {'name': 'Ian', 'job': "teacher"},
                {'name': 'Chris', 'job': "banker"},
                {'name': 'Philip', 'job': "lawyer"},
                {'name': 'Janny', 'job': "basketball player"},
                {'name': 'Gwen', 'job': "teacher"},
                {'name': 'Jessy', 'job': "student"}
         ]
df = pd.DataFrame(job_list, columns = ['name', 'job'])

#### 컬럼(시리즈)의 unique() 함수를 사용하여, 중복 없이, 컬럼에 있는 모든 값들을 출력 가능

In [228]:
print( df.job.unique() )

['teacher' 'student' 'developer' 'dentist' 'lawyer' 'banker'
 'basketball player']


#### 각 유니크한 값별로 몇개의 데이터가 속하는 지 value_counts() 함수로 확인 가능

In [229]:
df.job.value_counts()

teacher              8
student              5
banker               2
lawyer               2
dentist              1
developer            1
basketball player    1
Name: job, dtype: int64

# 두개의 데이터프레임 합치기

In [230]:
l1 = [{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "student"},
      {'name': 'Fred', 'job': "developer"}]

l2 = [{'name': 'Ed', 'job': "dentist"},
      {'name': 'Jack', 'job': "farmer"},
      {'name': 'Ted', 'job': "designer"}]
         
df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df2 = pd.DataFrame(l2, columns = ['name', 'job'])

In [232]:
df1
df2

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer


Unnamed: 0,name,job
0,Ed,dentist
1,Jack,farmer
2,Ted,designer


## pd.concat
두번째 데이터프레임을 첫번째 데이터프레임의 새로운 로우(행)로 결합

In [233]:
frames = [df1, df2]
result = pd.concat(frames, ignore_index=True)

In [234]:
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
3,Ed,dentist
4,Jack,farmer
5,Ted,designer


## df.append
두번째 데이터프레임을 첫번째 데이터프레임의 새로운 로우(행)로 합칩니다.

In [237]:
l1 = [{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "student"},
      {'name': 'Fred', 'job': "developer"}]

l2 = [{'name': 'Ed', 'job': "dentist"},
      {'name': 'Jack', 'job': "farmer"},
      {'name': 'Ted', 'job': "designer"}]
         
df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df2 = pd.DataFrame(l2, columns = ['name', 'job'])

In [238]:
df1
df2

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer


Unnamed: 0,name,job
0,Ed,dentist
1,Jack,farmer
2,Ted,designer


In [239]:
result = df1.append(df2, ignore_index=True)
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
3,Ed,dentist
4,Jack,farmer
5,Ted,designer


## pd.concat
두번째 데이터프레임을 첫번째 데이터프레임의 새로운 컬럼(열)으로 결함

In [242]:
l1 = [{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "student"},
      {'name': 'Jack', 'job': "developer"}]

l2 = [{'age': 25, 'country': "U.S"},
      {'age': 30, 'country': "U.K"},
      {'age': 45, 'country': "Korea"}]
         
df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df2 = pd.DataFrame(l2, columns = ['age', 'country'])

In [244]:
df1
df2

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Jack,developer


Unnamed: 0,age,country
0,25,U.S
1,30,U.K
2,45,Korea


In [248]:
result = pd.concat([df1, df2], axis=1)
result

Unnamed: 0,name,job,age,country
0,John,teacher,25,U.S
1,Nate,student,30,U.K
2,Jack,developer,45,Korea


In [249]:
result = pd.concat([df1, df2], axis=1, ignore_index=True)
result

Unnamed: 0,0,1,2,3
0,John,teacher,25,U.S
1,Nate,student,30,U.K
2,Jack,developer,45,Korea


# 두개의 리스트를 묶어서 데이터프레임으로 생성하기

In [250]:
label = [1,2,3,4,5]
prediction = [1,2,2,5,5]

comparison = pd.DataFrame(
    {'label': label,
     'prediction': prediction
    })

comparison

Unnamed: 0,label,prediction
0,1,1
1,2,2
2,3,2
3,4,5
4,5,5
