# Pandas란?

데이터 분석 및 가공에 사용되는 파이썬 라이브러리

사용 빈도가 매우 높음, 엑셀과 상당히 유사

데이터의 수정/가공 및 분석이 용이하고, 데이터 가공을 위한 수많은 함수를 지원

Numpy 기반으로 데이터 처리가 상당히 빠름  


In [1]:
import pandas as pd
import numpy as np

In [4]:
friends = [['신동엽',20,'연예인','music'], 
           [None,None,'교수','art'], 
           ['김새롬',18,'학생','study'], 
           ['이영자',45,'상담사','talk'], 
           ['강호동',38,'연예인','talk']]

df = pd.DataFrame.from_records(friends)
df

Unnamed: 0,0,1,2,3
0,신동엽,20.0,연예인,music
1,,,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk


In [5]:
# header 없는 데이터 header 넣어서 파일로 저장
df.to_csv('dataSet/friends_out5.csv', header = ['name', 'age', 'job', 'hobby'])

아래는 **None** 값이 있는 데이터프레임의 예제

In [7]:
friends = [['신동엽',20,'연예인','music'], 
           [None,None,'교수','art'], 
           ['김새롬',18,'학생','study'], 
           ['이영자',45,'상담사','talk'], 
           ['강호동',38,'연예인','talk']]

df = pd.DataFrame.from_records(friends)
df

Unnamed: 0,0,1,2,3
0,신동엽,20.0,연예인,music
1,,,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk


In [8]:
df.head()

Unnamed: 0,0,1,2,3
0,신동엽,20.0,연예인,music
1,,,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk


In [10]:
df.to_csv('dataSet/friends_out6.csv')

In [11]:
# 문자열 컬럼 영역엔 None로 표현, 숫자 컬럼에는 NaN로 표현
# DataFrame 생성시 None로 일괄 처리 했었음
df

Unnamed: 0,0,1,2,3
0,신동엽,20.0,연예인,music
1,,,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk


**na_rep** 을 사용하시면 **None** 을 원하시는 값으로 쉽게 변경하실 수 있습니다.

In [12]:
df.to_csv('dataSet/friends_out7.csv', na_rep = '-')

In [16]:
# 결측치를 -- 으로 변환해서 새로운 DataFrame 만들고 출력해보기
# fillna() : na(null)값을 다른 값으로 변환해주는 함수
tmp = df
tmp = tmp.fillna("--")
tmp

Unnamed: 0,0,1,2,3
0,신동엽,20,연예인,music
1,--,--,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [17]:
df

Unnamed: 0,0,1,2,3
0,신동엽,20.0,연예인,music
1,,,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk


## 예제 구성 - 학생들의 중간, 기말 고사 성적

>* 다양한 연산식을 적용하여 새로운 컬럼을 추가해 보기

In [18]:
friend_dict_list = [{'이름': '나학생1', '중간고사점수': 95, '기말고사점수': 85},
         {'이름': '나학생2', '중간고사점수': 85, '기말고사점수': 80},
         {'이름': '나학생3', '중간고사점수': 10, '기말고사점수': 30}]

df = pd.DataFrame(friend_dict_list, columns = ['이름', '중간고사점수', '기말고사점수'])
df

Unnamed: 0,이름,중간고사점수,기말고사점수
0,나학생1,95,85
1,나학생2,85,80
2,나학생3,10,30


In [19]:
df["total"] = 0
df

Unnamed: 0,이름,중간고사점수,기말고사점수,total
0,나학생1,95,85,0
1,나학생2,85,80,0
2,나학생3,10,30,0


In [20]:
# total 컬럼 삭제
#del(df["total"])
df.drop("total", axis=1)
df

Unnamed: 0,이름,중간고사점수,기말고사점수
0,나학생1,95,85
1,나학생2,85,80
2,나학생3,10,30


In [47]:
# ??? 총점을 구한된 새로운 컬럼 추가하기
#df.apply(lambda x : x.max() - x.min())
df['총점'] = df["중간고사점수"] + df["기말고사점수"]
#df['총점'] = df.iloc[:,1] + df.iloc[:,2] # 둘다 됨!!

In [48]:
df.iloc[:,1] + df.iloc[:,2]

0    180
1    165
2     40
dtype: int64

In [54]:
df

Unnamed: 0,이름,중간고사점수,기말고사점수,총점
0,나학생1,95,85,180
1,나학생2,85,80,165
2,나학생3,10,30,40


In [55]:
# ??? 총점을 기준으로 평균을 구하고 DataFrame 컬럼으로 추가하기

df['평균'] = df["총점"] / 2

In [56]:
df

Unnamed: 0,이름,중간고사점수,기말고사점수,총점,평균
0,나학생1,95,85,180,90.0
1,나학생2,85,80,165,82.5
2,나학생3,10,30,40,20.0


### 힌트
>* 1. DataFrame의 '평균' 컬럼값을 for in 반복문을 통해서 출력해 보기

>* 2. 리스트 생성해서 DataFrame에 '등급'이라는 컬럼으로 추가해 보고 drop으로 삭제하기

>* 3. list 에 새로운 데이터 추가를 위한 append() 활용해 보기

In [63]:
df["평균"] # series 형태(for문안에 사용 가능)

0    90.0
1    82.5
2    20.0
Name: 평균, dtype: float64

In [59]:
#? 평균 컬럼값을 for in 문장 통해서 출력해 보기
for value in df["평균"]:
    print(value)

90.0
82.5
20.0


In [60]:
# 새로운 컬럼 추가
df['등급'] =  ['A', 'B', 'C']

In [64]:
df

Unnamed: 0,이름,중간고사점수,기말고사점수,총점,평균,등급
0,나학생1,95,85,180,90.0,A
1,나학생2,85,80,165,82.5,B
2,나학생3,10,30,40,20.0,C


In [79]:
df = df.drop('등급', axis=1)

apply 함수 사용 예제입니다.  
apply를 사용하시면, 깔끔하게 컬럼의 값을 변경하는 코드를 구현하실 수 있습니다.

In [111]:
# ? 힌트를 기반으로 직접 만들어 보기
# 등급 컬럼 추가하기
# 리스트에 조건별 값을 담아서, 새로운 컬럼으로 추가해 보기
# 이미 존재하는 평균 데이터를 기반으로 if ~ elif ~ else문장으로 A~ 등급
# 비교 연산식, 조건식...

# 빈 list 객체 생성
score = []
for x in df["평균"]:
    if x >= 90:
        score.append("A")
    elif x >= 80:
        score.append("B")
    else:
        score.append("F")
        
df["등급"] = score
df

Unnamed: 0,이름,중간고사점수,기말고사점수,총점,평균,등급
0,나학생1,95,85,180,90.0,A
1,나학생2,85,80,165,82.5,B
2,나학생3,10,30,40,20.0,F


In [107]:
# apply 함수에서 호출되는 사용자 정의 함수
# def 문법은 사용자들이 직접 함수 개발 의미
# apply() 호출시 어떤 컬럼에서 호출되냐에 따라 모든 컬럼 값을 parameter로 자동 반영
# java script 보다도 더 함출된 표현식들이 있음
def pass_or_fail(row):
    #print(row)
    if row != "F":
        return 'Pass'
    else:
        return 'Fail'

In [112]:
df.등급

0    A
1    B
2    F
Name: 등급, dtype: object

In [113]:
# 함수명만 기입 - apply() 함수는 input값을 원소단위로 쪼개서 계산 - 즉, DataFrame -> 열, 열 -> 각 원소
#df.등급 = df.등급.apply(pass_or_fail)

# lambda 함수 이용 (위의 함수 - pass_or_fail()과 같은 기능)
# lambda함수 로직
#     lambda input값 : 출력값(true일 때) if 조건 else 출력값(false일 때)
# df.등급의 원소들이 x가 됨!!!(즉, 값 하나)
df.등급 = df.등급.apply(lambda x : "Fail" if x == "F" else "Pass" )

In [114]:
df

Unnamed: 0,이름,중간고사점수,기말고사점수,총점,평균,등급
0,나학생1,95,85,180,90.0,Pass
1,나학생2,85,80,165,82.5,Pass
2,나학생3,10,30,40,20.0,Fail


apply를 사용해서 연월일의 정보에서 연도만 빼보기

In [115]:
date_list = [{'yyyy-mm-dd': '2000-06-27'},
         {'yyyy-mm-dd': '2002-09-24'},
         {'yyyy-mm-dd': '2018-12-20'}]

df = pd.DataFrame(date_list, columns = ['yyyy-mm-dd'])

df

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-24
2,2018-12-20


In [116]:
def extract_year(row):
    return row.split('-')[0]

In [117]:
# 년도만 분리해서 'year'라는 새로운 컬럼 추가히기
df['year'] = df['yyyy-mm-dd'].apply(extract_year)

In [118]:
df

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2018-12-20,2018


### apply 함수에 파라미터 전달하기
키워드 파라미터를 이용하여, apply가 적용된 함수에 파라미터를 전달하기

In [119]:
# 현재 년도를 기준으로 DataFrame에 저장된 년도의 컬럼값과 빼기를 해서 몇년도가 지났는지를 계산하는 함수

def extract_year(year, current_year):
    return current_year - int(year)

In [120]:
# extract_year 함수를 호출하고 age 컬럼을 DataFrame에 추가하기

df['age'] = df['year'].apply(extract_year, current_year=2018)
df

Unnamed: 0,yyyy-mm-dd,year,age
0,2000-06-27,2000,18
1,2002-09-24,2002,16
2,2018-12-20,2018,0


### apply 함수에 한 개 이상의 파라미터 전달하기
키워드 파라미터를 추가해주시면, 원하시는만큼의 파라미터를 함수에 전달 가능합니다.

In [121]:
def getInfo(age, prefix, suffix):
    return prefix + str(age) + suffix

In [122]:
df['info'] = df['age'].apply(getInfo, prefix="내 나이는 ", suffix=" 살")
df

Unnamed: 0,yyyy-mm-dd,year,age,info
0,2000-06-27,2000,18,내 나이는 18 살
1,2002-09-24,2002,16,내 나이는 16 살
2,2018-12-20,2018,0,내 나이는 0 살


In [None]:
df = df.drop('introduce', axis=1)
df

# 데이터프레임에 로우 추가하기

In [125]:
friend_dict_list = [{'이름': '나학생1', '중간고사점수': 95, '기말고사점수': 85},
         {'이름': '나학생2', '중간고사점수': 85, '기말고사점수': 80},
         {'이름': '나학생3', '중간고사점수': 10, '기말고사점수': 30}]

df = pd.DataFrame(friend_dict_list, columns = ['이름', '중간고사점수', '기말고사점수'])
df

Unnamed: 0,이름,중간고사점수,기말고사점수
0,나학생1,95,85
1,나학생2,85,80
2,나학생3,10,30


In [126]:
#? 컬럼 이름 추가하기

df2 = pd.DataFrame([['나학생4', 50,50]], columns = ['이름', '중간고사점수', '기말고사점수'])

In [127]:
df2.head()

Unnamed: 0,이름,중간고사점수,기말고사점수
0,나학생4,50,50


In [128]:
# 각각의 DataFrame 객체들의 index가 적용 따라서 재정렬 필요
# 해결책 : ignore_index=True
df.append(df2)

Unnamed: 0,이름,중간고사점수,기말고사점수
0,나학생1,95,85
1,나학생2,85,80
2,나학생3,10,30
0,나학생4,50,50


In [129]:
df.append(df2, ignore_index=True)

Unnamed: 0,이름,중간고사점수,기말고사점수
0,나학생1,95,85
1,나학생2,85,80
2,나학생3,10,30
3,나학생4,50,50


# Group by

데이터에서 정보를 취하기 위해서 그룹별로 묶는 방법에 대해 학습 하기

In [130]:
student_list = [{'name': 'John', 'major': "Computer Science", 'gender': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'gender': "male"},
                {'name': 'Abraham', 'major': "Physics", 'gender': "male"},
                {'name': 'Brian', 'major': "Psychology", 'gender': "male"},
                {'name': 'Janny', 'major': "Economics", 'gender': "female"},
                {'name': 'Yuna', 'major': "Economics", 'gender': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'gender': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'gender': "male"},
                {'name': 'Zara', 'major': "Psychology", 'gender': "female"},
                {'name': 'Wendy', 'major': "Economics", 'gender': "female"},
                {'name': 'Sera', 'major': "Psychology", 'gender': "female"}
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'gender'])
df

Unnamed: 0,name,major,gender
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


In [142]:
#? 전공(major)으로 group by하기
groupby_major = df.groupby("major")
groupby_major

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x000000000677CDD8>

In [132]:
# 전공별 그룹 정보 확인
groupby_major.groups

{'Computer Science': Int64Index([0, 1, 6, 7], dtype='int64'),
 'Economics': Int64Index([4, 5, 9], dtype='int64'),
 'Physics': Int64Index([2], dtype='int64'),
 'Psychology': Int64Index([3, 8, 10], dtype='int64')}

In [144]:
groupby_major

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x000000000677CDD8>

In [134]:
type(groupby_major)

pandas.core.groupby.groupby.DataFrameGroupBy

In [135]:
groupby_major.name

<pandas.core.groupby.groupby.SeriesGroupBy object at 0x0000000006662A90>

In [136]:
groupby_major.gender

<pandas.core.groupby.groupby.SeriesGroupBy object at 0x0000000006662978>

In [137]:
groupby_major.major

<pandas.core.groupby.groupby.SeriesGroupBy object at 0x0000000006662470>

In [138]:
for name, group in groupby_major:
    print(name + ": " + str(len(group)))
    print(group)
    print()

Computer Science: 4
       name             major  gender
0      John  Computer Science    male
1      Nate  Computer Science    male
6  Jeniffer  Computer Science  female
7    Edward  Computer Science    male

Economics: 3
    name      major  gender
4  Janny  Economics  female
5   Yuna  Economics  female
9  Wendy  Economics  female

Physics: 1
      name    major gender
2  Abraham  Physics   male

Psychology: 3
     name       major  gender
3   Brian  Psychology    male
8    Zara  Psychology  female
10   Sera  Psychology  female



### 그룹 객체를 다시 데이터프레임으로 생성하기

In [139]:
df_major_cnt = pd.DataFrame({'count' : groupby_major.size()})
df_major_cnt

Unnamed: 0_level_0,count
major,Unnamed: 1_level_1
Computer Science,4
Economics,3
Physics,1
Psychology,3


In [140]:
df_major_cnt = pd.DataFrame({'count' : groupby_major.size()}).reset_index()
df_major_cnt

Unnamed: 0,major,count
0,Computer Science,4
1,Economics,3
2,Physics,1
3,Psychology,3


### Lab - ? 학교의 남녀 성비가 균등하다는 정보 알아보기

>* gender 별로 그룹화 하기

>* 그룹 단위로 이름, 전공, 성별 출력하기

>* 성별 인원스로 새로운 DataFrame 생성하기

In [146]:
groupby_gender = df.groupby('gender')
groupby_gender

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x00000000066F4470>

In [147]:
#? 그룹별 정보를 반복문 통해서 자유롭게 출력해 보기

for name, group in groupby_gender:
    print(name + ": " + str(len(group)))
    print(group)
    print()

female: 6
        name             major  gender
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female

male: 5
      name             major gender
0     John  Computer Science   male
1     Nate  Computer Science   male
2  Abraham           Physics   male
3    Brian        Psychology   male
7   Edward  Computer Science   male



In [148]:
df_gender_cnt = pd.DataFrame({'count' : groupby_gender.size()}).reset_index()
df_gender_cnt

Unnamed: 0,gender,count
0,female,6
1,male,5
