In [2]:
import pandas as pd

# 파일을 데이터프레임으로 불러오기
데이터프레임 (dataframe)은 2차원 자료구조입니다. 로우와 컬럼으로 엑셀 형식과 유사합니다.  
기본적으로 csv 포맷을 지원하지만, 구분자로 컬럼이 구분되어 있는 데이터는 모두 지원합니다.  
read_csv 함수로 파일을 데이터프레임으로 호출할 수 있습니다.

In [3]:
df = pd.read_csv('data/friend_list.csv')

In [4]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


아래는 csv 파일이 아닌 파일을 호출하는 예제입니다.  
파일명은 txt이지만, 쉼표로 컬럼이 구분되어 있는 파일입니다.

In [5]:
df = pd.read_csv('data/friend_list.txt')

In [6]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


만약 파일의 컬럼들이 쉼표로 구분되어 있지 않을 경우라도, delimiter 파라미터에 구분자를 지정해줘서  
컬럼을 제대로 나줘줄 수 있습니다. 아래는 탭으로 컬럼이 구분된 경우의 예제입니다.

In [7]:
df = pd.read_csv('data/friend_list_tab.txt', delimiter = "\t")

In [8]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


만약 파일에 데이터 헤더가 없을 경우, header = None으로 지정해줘서,  
첫번째 데이터가 데이터 헤더로 들어가는 것을 방지해줘야합니다.

In [9]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None)

In [10]:
df.head()

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


헤더가 없는 데이터를 데이터프레임으로 호출했을 경우,  
아래와 같이 데이터프레임 생성 후에, 컬럼 헤더를 지정해주실 수 있습니다.

In [11]:
df.columns = ['name', 'age', 'job']

In [12]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


또한, 파일을 데이터프레임으로 호출하는 동시에, 헤더를 아래와 같이 지정해주실 수도 있습니다.

In [13]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None, names=['name', 'age', 'job'])

In [14]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


# 데이터프레임을 파이썬 코드로 생성하기

## 딕셔너리로 데이터프레임 생성하기
파이썬의 기본 자료구조로 데이터프레임 생성이 가능합니다.  
아래의 예제는 딕셔너리로 데이터프레임을 생성하는 예제입니다.

In [15]:
friend_dict_list = [{'name': 'Jone', 'age': 20, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list)

In [16]:
df.head()

Unnamed: 0,age,job,name
0,20,student,Jone
1,30,developer,Jenny
2,30,teacher,Nate


데이터프레임 생성 시, 컬럼의 순서가 뒤바뀔 수 있습니다.  
아래와 같이 컬럼을 원하시는 순서로 지정하실 수 있습니다.

In [17]:
df = df[['name', 'age', 'job']]

In [18]:
df.head()

Unnamed: 0,name,age,job
0,Jone,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## OrderedDict로 데이터프레임 생성하기
OrderedDict 자료구조로 데이터프레임을 생성하면, 컬럼의 순서가 뒤바뀌지 않습니다.

In [19]:
from collections import OrderedDict

In [20]:
friend_ordered_dict = OrderedDict([ ('name', ['John', 'Jenny', 'Nate']),
          ('age', [20, 30, 30]),
          ('job', ['student', 'developer', 'teacher']) ] )
df = pd.DataFrame.from_dict(friend_ordered_dict)

In [21]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## list로 데이터프레임 생성하기
리스트로 데이터프레임을 생성하는 예제입니다.

In [22]:
friend_list = [ ['John', 20, 'student'],['Jenny', 30, 'developer'],['Nate', 30, 'teacher'] ]
column_name = ['name', 'age', 'job']
df = pd.DataFrame.from_records(friend_list, columns=column_name)

In [23]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [24]:
friend_list = [ 
                ['name',['John', 'Jenny', 'Nate']],
                ['age',[20,30,30]],
                ['job',['student', 'developer', 'teacher']] 
              ]
df = pd.DataFrame.from_items(friend_list)

In [25]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


# 파일로 데이터프레임을 저장하기

아래는 데이터프레임을 헤더와 함께 저장하는 예제입니다.

In [26]:
friend_list = [ 
                ['name',['John', 'Jenny', 'nate']],
                ['age',[20,30,30]],
                ['job',['student', 'developer', 'teacher']] 
              ]
df = pd.DataFrame.from_items(friend_list)

In [27]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,nate,30,teacher


to_csv 함수를 사용하여 파일로 저장하실 수 있습니다.

In [28]:
df.to_csv('friend_list_from_df.csv')

아래는 헤더가 없는 데이터프레임의 예제입니다.

In [29]:
friend_list = [ ['John', 20, 'student'],['Jenny', 30, 'developer'],['Nate', 30, 'teacher'] ]
df = pd.DataFrame.from_records(friend_list)

In [30]:
df.head()

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


to_csv 함수로 파일로 저장하실 수 있습니다.

In [31]:
df.to_csv('friend_list_from_df.csv')

사실 파일의 확장자명은 원하시는대로 주셔도 무방합니다.

In [32]:
df.to_csv('friend_list_from_df.txt')

기본적으로, 헤더와 인덱스값은 주시지 않아도, 기본적으로 True로 설정되어 있습니다.

In [33]:
df.to_csv('friend_list_from_df.csv', header = True, index = True)

**header = False** 는 컬럼 이름을 파일에 저장하지 않겠다라는 의미입니다. 예제에서 0,1,2가 헤더에 저장되지 않습니다.   
**index = False** 는 로우 인덱스를 파일에 저장하지 않겠다라는 의미입니다.  예제에서 0,1,2가 로우 인덱스에 저장되지 않습니다.

In [34]:
df.to_csv('friend_list_from_df.csv', header = False, index = False)

헤더 정보를 원하실 경우, header 키워드로 컬럼 이름을 파일에 저장하실 수 있습니다.

In [35]:
df.to_csv('friend_list_from_df.csv', header = ['name', 'age', 'job'])

아래는 **None** 값이 있는 데이터프레임의 예제입니다.

In [36]:
friend_list = [ 
                ['name',['John', None, 'nate']],
                ['age',[20,None,30]],
                ['job',['student', 'developer', 'teacher']] 
              ]
df = pd.DataFrame.from_items(friend_list)

In [37]:
df.head()

Unnamed: 0,name,age,job
0,John,20.0,student
1,,,developer
2,nate,30.0,teacher


In [38]:
df.to_csv('friend_list_from_df.csv')

**na_rep** 을 사용하시면 **None** 을 원하시는 값으로 쉽게 변경하실 수 있습니다.

In [39]:
df.to_csv('friend_list_from_df.csv', na_rep = '-')

# 로우 선택하기

## 인덱스로 로우 선택하기

In [40]:
friend_list = [ 
                ['name',['John', 'Jenny', 'Nate']],
                ['age',[20,30,30]],
                ['job',['student', 'developer', 'teacher']] 
              ]
df = pd.DataFrame.from_items(friend_list)

In [41]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


아래는 로우 인덱스를 사용하여 로우1부터 3까지 순차적으로 선택하는 예제입니다.

In [42]:
df[1:3]

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


아래는 순차적이지 않은 로우를 선택하는 예제입니다.

In [43]:
df.loc[[0,2]]

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,30,teacher


In [44]:
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## 컬럼값에 따른 로우 선택하기
마치 데이터베이스에 쿼리를 전달하듯, 특정한 컬럼값을 충족하는 로우만 선택하실 수 있습니다.

In [45]:
df_filtered = df[df.age > 25]

In [46]:
df_filtered

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [47]:
df_filtered = df.query('age>25')

In [48]:
df_filtered

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [49]:
df_filtered = df[(df.age >25) & (df.name == 'Nate')]

In [50]:
df_filtered

Unnamed: 0,name,age,job
2,Nate,30,teacher


In [51]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


# 컬럼 필터하기

## 인덱스로 필터하기

In [52]:
friend_list = [ ['John', 20, 'student'],['Jenny', 30, 'developer'],['Nate', 30, 'teacher'] ]
df = pd.DataFrame.from_records(friend_list)
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


모든 로우를 보여주되, 컬럼은 0부터 1까지만 출력하는 예제입니다.

In [53]:
df.iloc[:, 0:2]

Unnamed: 0,0,1
0,John,20
1,Jenny,30
2,Nate,30


모든 로우를 보여주되, 컬럼 0와 2만 출력하는 예제입니다.

In [54]:
df.iloc[:,[0,2]]

Unnamed: 0,0,2
0,John,student
1,Jenny,developer
2,Nate,teacher


In [55]:
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## 컬럼 이름으로 필터하기

In [56]:
# you can create column header for no header data at once
df = pd.read_csv('data/friend_list_no_head.csv', header = None, names=['name', 'age', 'job'])
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [57]:
df_filtered = df[['name', 'age']]
df_filtered

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [58]:
df.filter(items=['age', 'job'])

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


In [59]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


원하는 글자를 가진 로우를 보여줍니다.

In [60]:
# select columns containing 'a'
df.filter(like='a',axis=1)

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


정규식으로 필터도 가능합니다.

In [61]:
# select columns using regex
df.filter(regex='b$',axis=1)

Unnamed: 0,job
0,student
1,developer
2,teacher
3,dentist
4,manager
5,intern


# 로우 드롭하기

로우 인덱스로 로우를 드롭할 수 있습니다.

In [62]:
friend_dict_list = [{'age': 20, 'job': 'student'},
         {'age': 30, 'job': 'developer'},
         {'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, index = ['John', 'Jenny', 'Nate'])

In [63]:
df.head()

Unnamed: 0,age,job
John,20,student
Jenny,30,developer
Nate,30,teacher


드롭된 결과는 데이터프레임에 저장되지 않습니다. 저장하고 싶으실 경우, 결과를 데이터프레임에 따로 저장하셔야 합니다.

In [64]:
df.drop(['John', 'Nate'])

Unnamed: 0,age,job
Jenny,30,developer


In [65]:
df

Unnamed: 0,age,job
John,20,student
Jenny,30,developer
Nate,30,teacher


드롭된 결과를 데이터프레임에 저장하는 예제입니다.

In [66]:
df = df.drop(['John', 'Nate'])

In [67]:
df

Unnamed: 0,age,job
Jenny,30,developer


### 드롭된 결과를 바로 데이터프레임에 저장하는 방법
inplace 키워드를 사용하시면, 따로 저장할 필요없이, 드롭된 결과가 데이터프레임에 반영됩니다.

In [68]:
friend_dict_list = [{'age': 20, 'job': 'student'},
         {'age': 30, 'job': 'developer'},
         {'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, index = ['John', 'Jenny', 'Nate'])

In [69]:
df.drop(['John', 'Nate'], inplace = True)

In [70]:
df

Unnamed: 0,age,job
Jenny,30,developer


## 로우 인덱스로 드롭하기

In [71]:
friend_dict_list = [{'name': 'Jone', 'age': 20, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list)

In [72]:
df

Unnamed: 0,age,job,name
0,20,student,Jone
1,30,developer,Jenny
2,30,teacher,Nate


로우 인덱스로 드롭하는 예제입니다.

In [73]:
df = df.drop(df.index[[0,2]])

In [74]:
df

Unnamed: 0,age,job,name
1,30,developer,Jenny


## 컬럼값으로 로우 드롭하기

In [75]:
friend_dict_list = [{'name': 'Jone', 'age': 20, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,age,job,name
0,20,student,Jone
1,30,developer,Jenny
2,30,teacher,Nate


In [76]:
df = df[df.age != 30]

In [77]:
df

Unnamed: 0,age,job,name
0,20,student,Jone


# 컬럼 드롭하기

In [78]:
friend_dict_list = [{'name': 'Jone', 'age': 20, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,age,job,name
0,20,student,Jone
1,30,developer,Jenny
2,30,teacher,Nate


In [79]:
df = df.drop('age', axis=1)

In [80]:
df

Unnamed: 0,job,name
0,student,Jone
1,developer,Jenny
2,teacher,Nate


# 컬럼 추가하기

In [81]:
friend_dict_list = [{'name': 'Jone', 'age': 15, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'age', 'job'])
df

Unnamed: 0,name,age,job
0,Jone,15,student
1,Jenny,30,developer
2,Nate,30,teacher


아래와 같은 방법으로 새로운 컬럼을 기본값과 함께 추가하실 수 있습니다.

In [82]:
df['salary'] = 0

In [83]:
df

Unnamed: 0,name,age,job,salary
0,Jone,15,student,0
1,Jenny,30,developer,0
2,Nate,30,teacher,0


기존 컬럼값을 가지고 새로운 컬럼을 생성하는 예제입니다.

In [84]:
friend_dict_list = [{'name': 'Jone', 'age': 15, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'age', 'job'])
df

Unnamed: 0,name,age,job
0,Jone,15,student
1,Jenny,30,developer
2,Nate,30,teacher


넘파이를 사용하셔서, 한줄에 새로운 컬럼값을 생성하실 수도 있습니다.

In [85]:
import numpy as np
df['salary'] = np.where(df['job'] != 'student' , 'yes', 'no')

In [86]:
df

Unnamed: 0,name,age,job,salary
0,Jone,15,student,no
1,Jenny,30,developer,yes
2,Nate,30,teacher,yes


In [87]:
friend_dict_list = [{'name': 'John', 'midterm': 95, 'final': 85},
         {'name': 'Jenny', 'midterm': 85, 'final': 80},
         {'name': 'Nate', 'midterm': 10, 'final': 30}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'midterm', 'final'])
df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30


아래는 기존에 있는 두 컬럼값을 더해서 새로운 컬럼을 만드는 예제입니다.

In [88]:
df['total'] = df['midterm'] + df['final']

In [89]:
df

Unnamed: 0,name,midterm,final,total
0,John,95,85,180
1,Jenny,85,80,165
2,Nate,10,30,40


기존의 컬럼을 사용하여 새로운 컬럼을 만드는 예제입니다.

In [90]:
df['average'] = df['total'] / 2

In [91]:
df

Unnamed: 0,name,midterm,final,total,average
0,John,95,85,180,90.0
1,Jenny,85,80,165,82.5
2,Nate,10,30,40,20.0


아래와 같이, 리스트에 조건별 값을 담아서, 새로운 컬럼으로 추가시킬 수 있습니다.

In [92]:
grades = []

for row in df['average']:
    if row >= 90:
        grades.append('A')
    elif row >= 80:
        grades.append('B')
    elif row >= 70:
        grades.append('C')
    else:
        grades.append('F')
        
df['grade'] = grades

In [93]:
df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,A
1,Jenny,85,80,165,82.5,B
2,Nate,10,30,40,20.0,F


apply 함수 사용 예제입니다.  
apply를 사용하시면, 깔끔하게 컬럼의 값을 변경하는 코드를 구현하실 수 있습니다.

In [94]:
def pass_or_fail(row):
    print(row)
    if row != "F":
        return 'Pass'
    else:
        return 'Fail'

In [95]:
df.grade = df.grade.apply(pass_or_fail)

A
B
F


In [96]:
df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,Pass
1,Jenny,85,80,165,82.5,Pass
2,Nate,10,30,40,20.0,Fail


apply를 사용해서 연월일의 정보에서 연도만 빼보는 예제입니다.

In [97]:
date_list = [{'yyyy-mm-dd': '2000-06-27'},
         {'yyyy-mm-dd': '2002-09-24'},
         {'yyyy-mm-dd': '2005-12-20'}]
df = pd.DataFrame(date_list, columns = ['yyyy-mm-dd'])
df

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-24
2,2005-12-20


In [98]:
def extract_year(row):
    return row.split('-')[0]

In [99]:
df['year'] = df['yyyy-mm-dd'].apply(extract_year)

In [100]:
df

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2005-12-20,2005


# 데이터프레임에 로우 추가하기

In [101]:
friend_dict_list = [{'name': 'John', 'midterm': 95, 'final': 85},
         {'name': 'Jenny', 'midterm': 85, 'final': 80},
         {'name': 'Nate', 'midterm': 10, 'final': 30}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'midterm', 'final'])
df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30


In [102]:
df2 = pd.DataFrame([['Ben', 50,50]], columns = ['name', 'midterm', 'final'])

In [103]:
df2.head()

Unnamed: 0,name,midterm,final
0,Ben,50,50


In [104]:
df.append(df2, ignore_index=True)

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30
3,Ben,50,50


# Group by
데이터에서 정보를 취하기 위해서 그룹별로 묶는 방법에 대해 알아보겠습니다.

In [105]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"}
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [106]:
groupby_major = df.groupby('major')

In [107]:
groupby_major.groups

{'Computer Science': Int64Index([0, 1, 6, 7], dtype='int64'),
 'Economics': Int64Index([4, 5, 9], dtype='int64'),
 'Physics': Int64Index([2], dtype='int64'),
 'Psychology': Int64Index([3, 8, 10], dtype='int64')}

here we can see, computer science has mostly man, while economic has mostly woman students

In [108]:
for name, group in groupby_major:
    print(name + ": " + str(len(group)))
    print(group)
    print()

Computer Science: 4
       name             major     sex
0      John  Computer Science    male
1      Nate  Computer Science    male
6  Jeniffer  Computer Science  female
7    Edward  Computer Science    male

Economics: 3
    name      major     sex
4  Janny  Economics  female
5   Yuna  Economics  female
9  Wendy  Economics  female

Physics: 1
      name    major   sex
2  Abraham  Physics  male

Psychology: 3
     name       major     sex
3   Brian  Psychology    male
8    Zara  Psychology  female
10   Sera  Psychology  female



그룹 객체를 다시 데이터프레임으로 생성하는 예제입니다.

In [109]:
df_major_cnt = pd.DataFrame({'count' : groupby_major.size()}).reset_index()
df_major_cnt

Unnamed: 0,major,count
0,Computer Science,4
1,Economics,3
2,Physics,1
3,Psychology,3


In [110]:
groupby_sex = df.groupby('sex')

아래의 출력을 통해, 이 학교의 남녀 성비가 균등하다는 정보를 알 수 있습니다.

In [111]:
for name, group in groupby_sex:
    print(name + ": " + str(len(group)))
    print(group)
    print()

female: 6
        name             major     sex
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female

male: 5
      name             major   sex
0     John  Computer Science  male
1     Nate  Computer Science  male
2  Abraham           Physics  male
3    Brian        Psychology  male
7   Edward  Computer Science  male



In [112]:
df_sex_cnt = pd.DataFrame({'count' : groupby_sex.size()}).reset_index()
df_sex_cnt

Unnamed: 0,sex,count
0,female,6
1,male,5


# 중복 데이터 드롭하기
중복된 데이터 드롭하는 방법에 대해 알아보겠습니다.

In [113]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"},
                {'name': 'John', 'major': "Computer Science", 'sex': "male"},
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


## 중복된 데이터 확인 하기

In [114]:
df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
dtype: bool

drop_duplicates 함수로 중복 데이터를 삭제하는 예제입니다.

In [115]:
df = df.drop_duplicates()

In [116]:
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [117]:
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Nate', 'major': None, 'sex': "male"},
                {'name': 'John', 'major': "Computer Science", 'sex': None},
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


name 컬럼이 똑같을 경우, 중복된 데이터라고 표시하라는 예제입니다.

In [118]:
df.duplicated(['name'])

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11     True
dtype: bool

keep 값을 first 또는 last라고 값을 줘서 중복된 값 중, 어느값을 살릴 지 결정하실 수 있습니다.  
기본적으로 first로 설정되어 있습니다.

In [119]:
df.drop_duplicates(['name'], keep='last')

Unnamed: 0,name,major,sex
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female
10,Nate,,male
11,John,Computer Science,


In [120]:
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


# None 처리 하기

In [121]:
school_id_list = [{'name': 'John', 'job': "teacher", 'age': 40},
                {'name': 'Nate', 'job': "teacher", 'age': 35},
                {'name': 'Yuna', 'job': "teacher", 'age': 37},
                {'name': 'Abraham', 'job': "student", 'age': 10},
                {'name': 'Brian', 'job': "student", 'age': 12},
                {'name': 'Janny', 'job': "student", 'age': 11},
                {'name': 'Nate', 'job': "teacher", 'age': None},
                {'name': 'John', 'job': "student", 'age': None}
         ]
df = pd.DataFrame(school_id_list, columns = ['name', 'job', 'age'])
df

Unnamed: 0,name,job,age
0,John,teacher,40.0
1,Nate,teacher,35.0
2,Yuna,teacher,37.0
3,Abraham,student,10.0
4,Brian,student,12.0
5,Janny,student,11.0
6,Nate,teacher,
7,John,student,


## Null 또는 NaN 확인하기

In [122]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
name    8 non-null object
job     8 non-null object
age     6 non-null float64
dtypes: float64(1), object(2)
memory usage: 272.0+ bytes


In [123]:
df.isna()

Unnamed: 0,name,job,age
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,True
7,False,False,True


In [124]:
df.isnull()

Unnamed: 0,name,job,age
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,True
7,False,False,True


## Null 또는 NaN 값 변경하기

아래는 Null을 0으로 설정하는 예제입니다.

In [125]:
tmp = df
tmp["age"] = tmp["age"].fillna(0)
tmp

Unnamed: 0,name,job,age
0,John,teacher,40.0
1,Nate,teacher,35.0
2,Yuna,teacher,37.0
3,Abraham,student,10.0
4,Brian,student,12.0
5,Janny,student,11.0
6,Nate,teacher,0.0
7,John,student,0.0


0으로 설정하기 보다는 선생님의 중간 나이, 학생의 중간 나이로, 각각의 직업군에 맞게 Null값을 변경해줍니다.

In [126]:
# fill missing age with median age for each group (teacher, student)
df["age"].fillna(df.groupby("job")["age"].transform("median"), inplace=True)

In [127]:
df

Unnamed: 0,name,job,age
0,John,teacher,40.0
1,Nate,teacher,35.0
2,Yuna,teacher,37.0
3,Abraham,student,10.0
4,Brian,student,12.0
5,Janny,student,11.0
6,Nate,teacher,0.0
7,John,student,0.0
