# Pandas 학습

> 데이터 분석을 위한 모듈

> 주요 library
        - pandas & numpy
        
> DataFrame
        - Series 구성
> Series
        - column 구조의 데이터 구조

In [42]:
# pandas 사용을 위한 필수 설정

import pandas as pd
import numpy as np

### 기초 익히기

In [43]:
# Series 생성해서 DataFrame 만들기 연습
# 결측치 적용
s = pd.Series([1,2,3])
s

0    1
1    2
2    3
dtype: int64

In [44]:
# np.nan으로 결측치 반영 가능
# 단, Series의 데이터들은 float값으로 간주
s = pd.Series([1,2,3,np.nan,4])
s

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
dtype: float64

In [45]:
s = pd.Series([1,2,3,4])
s

0    1
1    2
2    3
3    4
dtype: int64

In [46]:
# 특정 일자를 기준으로 자동으로 날짜 증가
dates = pd.date_range('20180812', periods=6)
dates

DatetimeIndex(['2018-08-12', '2018-08-13', '2018-08-14', '2018-08-15',
               '2018-08-16', '2018-08-17'],
              dtype='datetime64[ns]', freq='D')

In [47]:
# np.random.randn(6, 4) : 6x4 matrix에 float값 난수로 채워줌(standard normal dist에서 난수 뽑음)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=["A","B","C","D"])
df

Unnamed: 0,A,B,C,D
2018-08-12,-0.042321,-1.794888,-0.463519,0.201467
2018-08-13,-1.435254,-1.928223,-0.407719,0.803189
2018-08-14,0.140779,0.294537,-0.673254,0.371367
2018-08-15,0.780396,-2.16752,-0.321322,-0.870287
2018-08-16,0.685219,0.548771,1.060207,-0.50112
2018-08-17,-1.606568,0.276,0.902448,-0.158656


In [48]:
# DataFrame의 데이터 값들만 검색
df.values

array([[-0.04232148, -1.79488752, -0.46351866,  0.20146665],
       [-1.43525438, -1.9282227 , -0.40771885,  0.8031889 ],
       [ 0.14077948,  0.29453714, -0.67325418,  0.37136702],
       [ 0.78039577, -2.1675199 , -0.32132217, -0.87028655],
       [ 0.68521855,  0.5487712 ,  1.06020667, -0.50111998],
       [-1.60656758,  0.27599973,  0.90244755, -0.15865648]])

In [49]:
# DataFrame의 index값만 검색
df.index

DatetimeIndex(['2018-08-12', '2018-08-13', '2018-08-14', '2018-08-15',
               '2018-08-16', '2018-08-17'],
              dtype='datetime64[ns]', freq='D')

In [50]:
# DataFrame의 cloumn명만 검색
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [51]:
# DataFrame의 정보 출력(R의 str()와 비슷한 기능)
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 6 entries, 2018-08-12 to 2018-08-17
Freq: D
Data columns (total 4 columns):
A    6 non-null float64
B    6 non-null float64
C    6 non-null float64
D    6 non-null float64
dtypes: float64(4)
memory usage: 240.0 bytes


In [52]:
# Series는 info() 함수 제공 X
#s.info()

In [53]:
# DataFrame의 요약 데이터 출력 (R의 summary()와 같음)
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.246292,-0.79522,0.01614,-0.025673
std,1.037035,1.289002,0.75822,0.608827
min,-1.606568,-2.16752,-0.673254,-0.870287
25%,-1.087021,-1.894889,-0.449569,-0.415504
50%,0.049229,-0.759444,-0.364521,0.021405
75%,0.549109,0.289903,0.596505,0.328892
max,0.780396,0.548771,1.060207,0.803189


In [54]:
# oracle db 시에 정렬 옵션 - desc(내림차순), asc(오름차순)

# "B" column 기준 오름차순 정렬 (True는 생략 가능)
df.sort_values(by="B", ascending=True)

Unnamed: 0,A,B,C,D
2018-08-15,0.780396,-2.16752,-0.321322,-0.870287
2018-08-13,-1.435254,-1.928223,-0.407719,0.803189
2018-08-12,-0.042321,-1.794888,-0.463519,0.201467
2018-08-17,-1.606568,0.276,0.902448,-0.158656
2018-08-14,0.140779,0.294537,-0.673254,0.371367
2018-08-16,0.685219,0.548771,1.060207,-0.50112


In [55]:
# "A" column 기준 내림차순 정렬
df.sort_values(by="A", ascending=False)

Unnamed: 0,A,B,C,D
2018-08-15,0.780396,-2.16752,-0.321322,-0.870287
2018-08-16,0.685219,0.548771,1.060207,-0.50112
2018-08-14,0.140779,0.294537,-0.673254,0.371367
2018-08-12,-0.042321,-1.794888,-0.463519,0.201467
2018-08-13,-1.435254,-1.928223,-0.407719,0.803189
2018-08-17,-1.606568,0.276,0.902448,-0.158656


In [56]:
# 열 하나 출력
df["A"]

2018-08-12   -0.042321
2018-08-13   -1.435254
2018-08-14    0.140779
2018-08-15    0.780396
2018-08-16    0.685219
2018-08-17   -1.606568
Freq: D, Name: A, dtype: float64

In [57]:
# 행 여러개 출력
df[2:4]

Unnamed: 0,A,B,C,D
2018-08-14,0.140779,0.294537,-0.673254,0.371367
2018-08-15,0.780396,-2.16752,-0.321322,-0.870287


In [58]:
# 행 index명으로 출력
df["2018-08-12" :"2018-08-14"]

Unnamed: 0,A,B,C,D
2018-08-12,-0.042321,-1.794888,-0.463519,0.201467
2018-08-13,-1.435254,-1.928223,-0.407719,0.803189
2018-08-14,0.140779,0.294537,-0.673254,0.371367


## loc()
> - 데이터를 슬라이싱 하는 문법으로 처리<br>
> - loc[index, columns]<br>
        : index는 범위 설정 문법
        : columns는 list 형태로 처리 가능

In [59]:
# loc[행범위, 열범위] - indexing 할 때 전체는 ":"으로 사용
# 범위 지정시 ","로 구분시에는 [](리스트)로 묶어줌
#            ":" 로 구분시에는 그냥 사용(슬라이싱)
df.loc[:,["A","B"]]

Unnamed: 0,A,B
2018-08-12,-0.042321,-1.794888
2018-08-13,-1.435254,-1.928223
2018-08-14,0.140779,0.294537
2018-08-15,0.780396,-2.16752
2018-08-16,0.685219,0.548771
2018-08-17,-1.606568,0.276


In [60]:
# 특정 행의 범위 이용 출력(슬라이싱 사용)
df.loc["2018-08-12":"2018-08-15",["A","B"]]

Unnamed: 0,A,B
2018-08-12,-0.042321,-1.794888
2018-08-13,-1.435254,-1.928223
2018-08-14,0.140779,0.294537
2018-08-15,0.780396,-2.16752


In [61]:
# 오류!!!
# 행(index)의 경우는 무조건 범위로만 지정 가능!!! - 리스트 처리 불가!!
#df.loc[["2018-08-12","2018-08-13"],["A","B"]]

df.loc["2018-08-12":"2018-08-13", ["A","B"]]

Unnamed: 0,A,B
2018-08-12,-0.042321,-1.794888
2018-08-13,-1.435254,-1.928223


## iloc()
> - loc 함수와 달리 행과 열의 번호를 이용해서 데이터 활용<br>


In [62]:
# 3행 값 출력
df.iloc[3]
#df.loc["2018-08-15"]와 같은 결과
#df.loc["2018-08-15",] 와 같은 결과
#df.loc["2018-08-15",:]와 같은 결과

A    0.780396
B   -2.167520
C   -0.321322
D   -0.870287
Name: 2018-08-15 00:00:00, dtype: float64

In [63]:
## 오류
# loc()는 행(index)의 경우는 무조건 범위로만 지정 가능!!! - 리스트 처리 불가!!
#df.loc[["2018-08-12","2018-08-13"],["A","B"]]

# iloc는 행도 list형태로 선택 가능!!
df.iloc[[1,3],[2,3]]

Unnamed: 0,C,D
2018-08-13,-0.407719,0.803189
2018-08-15,-0.321322,-0.870287


In [64]:
# 존재하는 DataFrame의 구조 및 모든 데이터 복사 붙여넣기
# 혹시 sql문장에서도 이미 존재하는 table의 복제본 table 생성
# dept table의 복제본인 dept2 table
# create table dept2 as select * from dept;

df2 = df.copy()
df2

Unnamed: 0,A,B,C,D
2018-08-12,-0.042321,-1.794888,-0.463519,0.201467
2018-08-13,-1.435254,-1.928223,-0.407719,0.803189
2018-08-14,0.140779,0.294537,-0.673254,0.371367
2018-08-15,0.780396,-2.16752,-0.321322,-0.870287
2018-08-16,0.685219,0.548771,1.060207,-0.50112
2018-08-17,-1.606568,0.276,0.902448,-0.158656


In [65]:
# df2의 구조에 새로운 컬럼 추가해 보기
# numpy의 nan 속성으로 결측치 반영
df2["E"] = {1,2,3,4,np.nan,6}
df2

Unnamed: 0,A,B,C,D,E
2018-08-12,-0.042321,-1.794888,-0.463519,0.201467,
2018-08-13,-1.435254,-1.928223,-0.407719,0.803189,1.0
2018-08-14,0.140779,0.294537,-0.673254,0.371367,2.0
2018-08-15,0.780396,-2.16752,-0.321322,-0.870287,3.0
2018-08-16,0.685219,0.548771,1.060207,-0.50112,4.0
2018-08-17,-1.606568,0.276,0.902448,-0.158656,6.0


In [66]:
type(df2)

pandas.core.frame.DataFrame

In [67]:
# 해당 열에 데이터 존재 여부 확인 - isin()
# E열에 1이나 3이 있는지 확인(여러개 값도 확인 가능)
df2["E"].isin([1,3])

2018-08-12    False
2018-08-13     True
2018-08-14    False
2018-08-15     True
2018-08-16    False
2018-08-17    False
Freq: D, Name: E, dtype: bool

In [70]:
# 로직 : lambda - 람다 함수, 익명 함수, 수식으로만 구성된 함수
# 로직 - 모든 컬럼값의 최대, 최소값 빼기한 결과치
# x에는 몇건의 데이터값? - x는 한 개의 열
df.apply(lambda x : x.max() - x.min())

A    2.386963
B    2.716291
C    1.733461
D    1.673475
dtype: float64

In [80]:
# lambda 함수에 어떤 식으로 들어가는지 확인
df.apply(lambda x : print(x))
#df.apply(lambda x : x) # 위의 식과 약간 다름(DataFrame 형태)
#df.apply(lambda x : len(x)) # 각 6개씩 들어감
#df.apply(lambda x : print(type(x)))  # series로 받아옴
# - Series 객체 타입 개수 확인 로직 변환
# - 함축된 표현만의 언어 - 스칼라

2018-08-12   -0.042321
2018-08-13   -1.435254
2018-08-14    0.140779
2018-08-15    0.780396
2018-08-16    0.685219
2018-08-17   -1.606568
Freq: D, Name: A, dtype: float64
2018-08-12   -1.794888
2018-08-13   -1.928223
2018-08-14    0.294537
2018-08-15   -2.167520
2018-08-16    0.548771
2018-08-17    0.276000
Freq: D, Name: B, dtype: float64
2018-08-12   -0.463519
2018-08-13   -0.407719
2018-08-14   -0.673254
2018-08-15   -0.321322
2018-08-16    1.060207
2018-08-17    0.902448
Freq: D, Name: C, dtype: float64
2018-08-12    0.201467
2018-08-13    0.803189
2018-08-14    0.371367
2018-08-15   -0.870287
2018-08-16   -0.501120
2018-08-17   -0.158656
Freq: D, Name: D, dtype: float64


A    None
B    None
C    None
D    None
dtype: object

In [83]:
df["A"].max()

0.7803957676727974

### 이미 존재하는 파일의 내용으로 DataFrame 생성하기

In [84]:
# friends.csv 파일로 DataFrame 객체 생성
df = pd.read_csv("dataSet/friends.csv")
df

Unnamed: 0,이름,나이,직업,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [85]:
# 이름만 출력
df["이름"]
# df.이름 # 같은 결과!!

0    신동엽
1    유재석
2    김새롬
3    이영자
4    강호동
Name: 이름, dtype: object

In [114]:
# freindsTab.txt 로부터 DataFrame 객체 생성하기
# read_csv(), 구분자는 tab(\t)
df2 = pd.read_csv("dataSet/friendsTab.txt", sep="\s+") # or delimiter

df2

Unnamed: 0,이름,나이,직업,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [100]:
# 컬럼명 추가

# 컬럼의 속성명 없이 데이터로만 구성된 file은 고려사항이 있음

# 1라인 데이터가 header 정보처럼 사용됨
df = pd.read_csv("dataSet/friendsNoHead.csv")
df

Unnamed: 0,신동엽,20,연예인,music
0,유재석,41,교수,art
1,김새롬,18,학생,study
2,이영자,45,상담사,talk
3,강호동,38,연예인,talk


In [104]:
df = pd.read_csv("dataSet/friendsNoHead.csv", header=None)
df

Unnamed: 0,0,1,2,3
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [107]:
# 컬럼명 추가 및 변경
df.columns = ["name","age","job","hobby"]
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [108]:
# 생성과 동시에 header 이름 설정
df = pd.read_csv("dataSet/friendsNoHead.csv", header=None, names=["name","age","job","hobby"])
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [118]:
# 딕셔너리로 데이터 프레임 생성하기
# 기본적으로 선언된 컬럼 순서 보장 안 함
# 가공 또는 OrderedDict 모듈 사용
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'}]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,age,hobby,job,name
0,20,music,연예인,신동엽
1,41,art,교수,유재석
2,18,study,학생,김새롬
3,45,talk,상담사,이영자
4,38,talk,연예인,강호동


In [119]:
df.columns

Index(['age', 'hobby', 'job', 'name'], dtype='object')

In [122]:
# 컬럼 순서 설정하기
df = df[["name","age","job","hobby"]]
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [126]:
# 리스트로 데이터 프레임 생성하기(header 없는 데이터 - 리스트로 구성되어 값만 들어 있음)

friends = [['신동엽',20,'연예인','music'], 
           ['유재석',41,'교수','art'], 
           ['김새롬',18,'학생','study'], 
           ['이영자',45,'상담사','talk'], 
           ['강호동',38,'연예인','talk']]

df = pd.DataFrame.from_records(friends, columns=["name","age","job","hobby"])
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [128]:
# 데이터값 비교
df.job == "연예인"

0     True
1    False
2    False
3    False
4     True
Name: job, dtype: bool

In [132]:
# 가공된 DataFrame을 csv로 생성하기 - but 왼쪽의 행번호까지 같이 들어감
# csv or txt 등의 확장자 자유롭게 생성, 자동으로 index가 int로 반영
# index 속성은 기본이 True
#df.to_csv("dataSet/f1_out.csv")

# index=None(or False)로 index번호 저장 안됨!!
df.to_csv("dataSet/f1_out.csv", index=None) # or False

In [139]:
# drop( 삭제 )
# DB table - drop table table명, drop sequence sequence명, ...
# pandas의 drop은 특정 컬럼 또는 행 삭제
# drop만 하면 원본은 삭제 안됨!! -> 변수에 넣어야 함
# drop() - axis가 생략된 경우 axis=0(행)

df = df.drop(4)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk


In [147]:
# 열 삭제 (axis=1)
df.drop("job", axis=1)

Unnamed: 0,name,age,hobby
0,신동엽,20,music
1,유재석,41,art
2,김새롬,18,study
3,이영자,45,talk


In [None]:
# 여러 열 삭제 (axis=1) - 리스트형태만 가능(슬라이싱 불가)
df.drop(["job","hobby"], axis=1)

In [152]:
# 여러 행 삭제 (axis=0이 default) - 리스트형태만 가능(슬라이싱 불가)
df.drop([2,3], axis=0)

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art


In [153]:
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk


In [166]:
# sql 문장의 like 연산자
# S로 시작, 단 두 음절로 되어있는 데이터만 검색
#   select * from table where ename like 'S_';
# S로 시작하는 데이터 검색(음절 개수 무관)
#   select * from table where ename like 'S%';

# column명에 "a"가 포함된 column만 검색
df.filter(like="a", axis=1)

Unnamed: 0,name,age
0,신동엽,20
1,유재석,41
2,김새롬,18
3,이영자,45


In [162]:
# n으로 시작하는 컬럼명의 데이터 검색(정규표현식 사용)
# filter의 axis default는 1(column)
df.filter(regex="^n", axis=1)

Unnamed: 0,name
0,신동엽
1,유재석
2,김새롬
3,이영자


In [170]:
# b로 끝나는 job의 컬럼 데이터 검색
df.filter(regex="b$", axis=1)

Unnamed: 0,job
0,연예인
1,교수
2,학생
3,상담사


In [182]:
# 0, 3번째 row 데이터 삭제
df.drop([0,3], axis=0)
#df.drop(df.index[[0,3]]) # 위와 같은 결과

Unnamed: 0,name,age,job,hobby
1,유재석,41,교수,art
2,김새롬,18,학생,study


In [210]:
# 딕셔너리로 데이터 프레임 생성하기

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'}]

df = pd.DataFrame(friend_dict_list, columns=["name","age","job","hobby"])
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [204]:
# salary 컬럼 추가 단, 모든 데이터 값은 0
#df["salary"] = [0,0,0,0,0]
df["salary"] = 0 # 모두 같은 값으로 할 때는 이렇게 해도 됨
df

Unnamed: 0,name,age,job,hobby,salary
0,신동엽,20,연예인,music,0
1,유재석,41,교수,art,0
2,김새롬,18,학생,study,0
3,이영자,45,상담사,talk,0
4,강호동,38,연예인,talk,0


In [208]:
# numpy를 이용해서 학생일 경우엔 no, 학생이 아닐 경우엔 yes
# np.where(조건, true, false) - 3항 연산자

df["salary"] = np.where(df["job"] != "학생", "yes", "no")
df

Unnamed: 0,name,age,job,hobby,salary
0,신동엽,20,연예인,music,yes
1,유재석,41,교수,art,yes
2,김새롬,18,학생,study,no
3,이영자,45,상담사,talk,yes
4,강호동,38,연예인,talk,yes


## 중복 데이터 처리 기술

In [218]:
# 중복 데이터

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df=df[['name', 'age', 'job', 'hobby']] # 순서 정의

df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [216]:
df.duplicated() # 중복인 것 찾아줌

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

In [217]:
# 중복 제거해줌
df = df.drop_duplicates()
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [229]:
# 컬럼명으로 중복 데이터 삭제하기

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df=df[['name', 'age', 'job', 'hobby']] # 순서 정의

df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [232]:
# 중복되는 데이터 제거할 열 설정 및 삭제할 위치 지정(last, first)
df.drop_duplicates(["name"], keep="last") # 마지막 중복 데이터를 남김

Unnamed: 0,name,age,job,hobby
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


## 결측치 처리하기

In [255]:
# age가 None

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df = df[['name', 'age', 'job', 'hobby']]
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music


In [237]:
df.info() # age에 결측치 존재

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
name     6 non-null object
age      5 non-null float64
job      6 non-null object
hobby    6 non-null object
dtypes: float64(1), object(3)
memory usage: 272.0+ bytes


In [245]:
df.isna() # null인지 확인
#df.isnull() # 같은 결과

Unnamed: 0,name,age,job,hobby
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,False,False,False


In [251]:
# null 또는 Nan 값을 변경하기
# fillna() : na 값을 찾아서 0으로 채우자 -> 원본에도 반영됨....ㅜㅜ
tmp = df
tmp["age"] = tmp["age"].fillna(0)
tmp

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,0.0,연예인,music


In [252]:
df # 원본에도 반영됨....ㅜㅜ

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,0.0,연예인,music


In [262]:
# age가 None
# 결측치를 가설검정처럼 동일한 직업을 가진 사람들의 평균값으로 대체하려함
'''
 고려사항 - job을 직업군 별로 그룹화
 - job을 직업군 별로 그룹화 - groupby
 - 평균 구하기 - median
 - 이미 존재하는 DataFrame의 결측치값 변경(변형)하기 - transform
'''

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df = df[['name', 'age', 'job', 'hobby']]
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music


In [264]:
df["age"].fillna(df.groupby("job")["age"].transform("median"), inplace=True) # inplace=True해야 NaN 값에 채워줌
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,29.0,연예인,music


## 중복 데이터 관련된 unique 처리 기술 학습
> 컬럼에 여러값들이 있을 때 중복 없이 어떤 데이터들이 있는지 확인하기

In [265]:
# Unique data

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' : '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                     {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'},
                     {'name': '고현정', 'age': 44, 'job': '가수', 'hobby':'music'},
                     {'name': '박민영', 'age': 22, 'job': '학생', 'hobby':'art'},
                     {'name': '박서준', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '박보검', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' : '이효리', 'age' : 28, 'job' : '교수', 'hobby' : 'talk'},
                    {'name': '이상순', 'age': 29, 'job': '주부', 'hobby':'music'}]

df = pd.DataFrame(friend_dict_list)
df = df[['name', 'age', 'job', 'hobby']]
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music
6,고현정,44.0,가수,music
7,박민영,22.0,학생,art
8,박서준,18.0,학생,study
9,박보검,45.0,상담사,talk


In [269]:
# Series의 함수 - 중복 제거한 값만 출력해줌 (sql과 비슷 - distinct)
# select distinct job from emp;

print(df.job.unique()) 

['연예인' '교수' '학생' '상담사' '가수' '주부']


In [270]:
type(df.job)

pandas.core.series.Series

In [271]:
df.job.value_counts()

학생     3
연예인    3
상담사    2
교수     2
주부     1
가수     1
Name: job, dtype: int64

## 두 개의 DataFrame 병합하기 - row 기준

In [272]:
# 두개의 DataFrame 병합하기

l1 = [{'name': '이효리', 'job': "교수"},
      {'name': '이상순', 'job': "학생"},
      {'name': '박보검', 'job': "개발자"}]

l2 = [{'name': '신동엽', 'job': "치과의사"},
      {'name': '이영자', 'job': "농부"},
      {'name': '정찬우', 'job': "연예인"}]
         
df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df2 = pd.DataFrame(l2, columns = ['name', 'job'])

In [273]:
df1

Unnamed: 0,name,job
0,이효리,교수
1,이상순,학생
2,박보검,개발자


In [274]:
df2

Unnamed: 0,name,job
0,신동엽,치과의사
1,이영자,농부
2,정찬우,연예인


In [277]:
# df1 하위로 df2가 병합 단, 개별 index가 유지 및 컬럼명 유지로 인한 불완전한 결과
df3 = [df1, df2]
df3

[  name  job
 0  이효리   교수
 1  이상순   학생
 2  박보검  개발자,   name   job
 0  신동엽  치과의사
 1  이영자    농부
 2  정찬우   연예인]

In [279]:
# 병합된 것을 DataFrame형태로 변환해줌 - ignore_index=True : 개별 인덱스 무시하겠다!
df4 = pd.concat(df3, ignore_index=True)
df4

Unnamed: 0,name,job
0,이효리,교수
1,이상순,학생
2,박보검,개발자
3,신동엽,치과의사
4,이영자,농부
5,정찬우,연예인


## 두 개의 DataFrame 병합하기 - column 기준

In [280]:
# 두개의 DataFrame 병합하기

l1 = [{'name': '이효리', 'job': "교수"},
      {'name': '이상순', 'job': "학생"},
      {'name': '박보검', 'job': "개발자"}]

l2 = [{'name': '신동엽', 'job': "치과의사"},
      {'name': '이영자', 'job': "농부"},
      {'name': '정찬우', 'job': "연예인"}]
         
df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df2 = pd.DataFrame(l2, columns = ['name', 'job'])

In [281]:
df1

Unnamed: 0,name,job
0,이효리,교수
1,이상순,학생
2,박보검,개발자


In [282]:
df2

Unnamed: 0,name,job
0,신동엽,치과의사
1,이영자,농부
2,정찬우,연예인


In [284]:
# concat 함수로 병합해보기
df3 = [df1, df2]
df4 = pd.concat(df3, ignore_index=True, axis=1)
df4

Unnamed: 0,0,1,2,3
0,이효리,교수,신동엽,치과의사
1,이상순,학생,이영자,농부
2,박보검,개발자,정찬우,연예인


In [286]:
df4.columns = ["이름","직업","이름","직업"]
df4

Unnamed: 0,이름,직업,이름.1,직업.1
0,이효리,교수,신동엽,치과의사
1,이상순,학생,이영자,농부
2,박보검,개발자,정찬우,연예인
