# Pandas 학습 

1. 데이터 분석을 위한 모듈
2. excel과 가장 큰 차이점 : Pandas는 대용량 데이터 처리가 가능
3. 데이터 분석 및 데이터 가공에 절대적으로 사용되는 library
4. 주요 학습 내용
> 1. DataFrame - excel의 다수의 컬럼들을 보유한 table과 동일하다 간주
> 2. series - DataFrame을 구성하는 column 간주

**참고**

주피터 노트북 익스텐션을 활용하여 생산성 높이기
>pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install


In [None]:
# !pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install

## 기초 익히기
> 이미 존재하는 파일의 내용으로 DataFrame 생성하기 <br>
> 중복 데이터 제거 <br>
> 결측시 처리

## DataFrame  & Series 구조 
> https://pandas.pydata.org/docs/getting_started/index.html <br>
    


In [2]:
# 전처리를 위한 library import

import numpy as np
import pandas as pd

In [1]:
!pip show pandas

Name: pandas
Version: 1.1.3
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: None
Author-email: None
License: BSD
Location: c:\users\hyuns\anaconda3\lib\site-packages
Requires: python-dateutil, numpy, pytz
Required-by: statsmodels, seaborn


기초 익히기

In [9]:
df = pd.DataFrame(
    ...:     {
        ...:         "Name": [
            ...:             "Braund, Mr. Owen Harris",
            ...:             "Allen, Mr. William Henry",
            ...:             "Bonnell, Miss. Elizabeth",
            ...:],
        ...:         "Age": [22, 35, 58],
        ...:         "Sex": ["male", "male", "female"],
        ...: }
    ...:)
df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [3]:
array = pd.Series(['하나','둘','셋'], index = ['a','b','c'])
array

a    하나
b     둘
c     셋
dtype: object

In [10]:
# 시리즈 - 정수값으로 생성시 자동으로 int64 
# 시리즈 생성 문법

s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

In [7]:
type(s)

pandas.core.series.Series

In [17]:
s.values

array([1, 2, 3], dtype=int64)

In [18]:
s.index

RangeIndex(start=0, stop=3, step=1)

In [None]:
# 결측치 - 데이터값이 없음을 의미 nan(not a number)
# not a number - js에서 숫자가 아님을 의미하는 표현법
# python에서는 결측치 표현
# data를 관리하기 위해서는 간혹 결측치도 임의로 생생해야 할 경우도 있음

In [21]:
s = pd.Series([1,np.nan,3,4,5,np.nan])
s

0    1.0
1    NaN
2    3.0
3    4.0
4    5.0
5    NaN
dtype: float64

In [22]:
# 시리즈가 보유하고 있는 결측치를 제외한 유효한 데이터 개수 count
s.count()

4

In [26]:
# fillna() -> 결측치를 특정 값으로 치환하여 출력
s.fillna('끄아아아ㅏ')
s

0    1.0
1    NaN
2    3.0
3    4.0
4    5.0
5    NaN
dtype: float64

In [11]:
# 결측치 삭제

s = s.dropna()
print(s)

0    1
1    2
2    3
dtype: int64


## 날짜와 문자열 데이터 다루기 


- Python의 datetime모듈

>date : 연, 월, 일

>time : 시간, 분, 초, 마이크로초(백만분의 1초)

>datetime : date와 time요소

- Pandas의 Timestamp

>날짜와 시간 모두 포함 : 나노초(10억분의 1초) 단위의 정밀도


- timedelta

>날짜의 덧셈과 뺄셈에 유용



### 특정 날짜를 기준으로 DataFrame생성해 보기 

In [12]:
#date_range(시작일, 범위)  >>  시작일부터 해당 범위 날짜까지 자동 생성

datas = pd.date_range('20210628', periods=6)
datas

DatetimeIndex(['2021-06-28', '2021-06-29', '2021-06-30', '2021-07-01',
               '2021-07-02', '2021-07-03'],
              dtype='datetime64[ns]', freq='D')

**날짜를 index로 적용하여 data frame 객체 생성**

In [31]:


type(datas)

pandas.core.indexes.datetimes.DatetimeIndex

In [32]:
# 6 by 4 의 data form 생성, 데이터는 난수값으로 채움

# 실수의 난수 발생 함수
np.random.randn(6,4)

array([[-0.54110196,  0.79932557,  1.19370034, -0.20184519],
       [ 0.28829354,  0.91310897,  1.19266348,  1.24553098],
       [ 0.56902305, -0.61268714, -0.25652073, -1.0501914 ],
       [-0.3215259 ,  0.55474905, -0.07272845, -2.50874859],
       [-1.36677005,  0.17582899, -0.70421449, -0.77215632],
       [-1.48428224,  1.68064931,  0.41297253, -2.22456181]])

In [37]:
# 정수의 난수 발생 함수
# np.random.randint(a,b) >> a이상 b 미만의 랜덤 정수

np.random.randint(12)

1

In [13]:
# 6행 4열의 구조로 날짜를 보유한 datas 변수값을 index로 쓰는 data 객체

df = pd.DataFrame(np.random.randn(6,4),index = datas)
df

Unnamed: 0,0,1,2,3
2021-06-28,-0.552403,0.668657,0.102918,0.475524
2021-06-29,1.037899,-1.102675,-1.338095,1.402438
2021-06-30,1.293468,-0.044303,0.30769,0.454256
2021-07-01,-0.766361,-1.332648,0.795531,-0.433651
2021-07-02,1.025194,-0.384751,0.099058,-2.107904
2021-07-03,0.60684,-1.915646,1.60684,-0.949317


In [18]:
# 컬럼명 가공

df = pd.DataFrame(np.random.randn(6, 4), index=datas, columns=['a','b','c','d'])
df

Unnamed: 0,a,b,c,d
2021-06-28,-0.989273,-0.856404,0.202107,0.692656
2021-06-29,-0.413202,0.324129,0.480883,0.370575
2021-06-30,-0.789582,0.811613,1.57474,-1.229983
2021-07-01,-0.825689,0.200366,0.924081,0.837395
2021-07-02,-0.279097,0.651851,0.995261,1.077934
2021-07-03,-1.479415,-1.44747,-0.895945,1.527406


In [15]:
# df의 value
print(df.values)
print(df.index)
print(df.columns)

[[-0.55240265  0.66865733  0.10291844  0.47552405]
 [ 1.03789872 -1.10267537 -1.33809483  1.40243827]
 [ 1.2934684  -0.04430302  0.30769017  0.45425611]
 [-0.76636073 -1.33264829  0.79553111 -0.43365078]
 [ 1.02519374 -0.38475103  0.09905756 -2.10790379]
 [ 0.60684044 -1.91564606  1.60684033 -0.94931731]]
DatetimeIndex(['2021-06-28', '2021-06-29', '2021-06-30', '2021-07-01',
               '2021-07-02', '2021-07-03'],
              dtype='datetime64[ns]', freq='D')
RangeIndex(start=0, stop=4, step=1)


In [19]:
# 특정 컬럼을 기준으로 data 정렬

df.sort_values(by='b', ascending=False)

Unnamed: 0,a,b,c,d
2021-06-30,-0.789582,0.811613,1.57474,-1.229983
2021-07-02,-0.279097,0.651851,0.995261,1.077934
2021-06-29,-0.413202,0.324129,0.480883,0.370575
2021-07-01,-0.825689,0.200366,0.924081,0.837395
2021-06-28,-0.989273,-0.856404,0.202107,0.692656
2021-07-03,-1.479415,-1.44747,-0.895945,1.527406


In [84]:
# 특정 컬럼들 값만 도출해보기

#  df['a','b']  >> 에러

# 다중 컬럼 검색시 반드시 list로 변환해서 작업

df[['a','b']]

Unnamed: 0,a,b
2021-06-28,0.768593,1.004366
2021-06-29,0.113031,1.543546
2021-06-30,0.047515,-0.103326
2021-07-01,0.409604,0.211436
2021-07-02,-1.098644,0.02334
2021-07-03,0.085537,-1.754057


In [20]:
# dot 연산자를 활용하여 특정 컬럼 검색

df.a

2021-06-28   -0.989273
2021-06-29   -0.413202
2021-06-30   -0.789582
2021-07-01   -0.825689
2021-07-02   -0.279097
2021-07-03   -1.479415
Freq: D, Name: a, dtype: float64

In [8]:
df.index
df['2021-06-28':'2021-07-01']

NameError: name 'df' is not defined

In [21]:
df[0:4]

Unnamed: 0,a,b,c,d
2021-06-28,-0.989273,-0.856404,0.202107,0.692656
2021-06-29,-0.413202,0.324129,0.480883,0.370575
2021-06-30,-0.789582,0.811613,1.57474,-1.229983
2021-07-01,-0.825689,0.200366,0.924081,0.837395


In [93]:
# iloc(index location의 약자) 속성을 통해서 검색 가능
# .iloc(index, column)
df.iloc[0:2,0:2]

Unnamed: 0,a,b
2021-06-28,0.768593,1.004366
2021-06-29,0.113031,1.543546


### file로 부터 데이터 read해서 date 타입 이해하기

In [22]:
df = pd.read_csv('dataset/01.date_data.csv')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    10 non-null     object
 1   Birth   10 non-null     object
 2   email   10 non-null     object
dtypes: object(3)
memory usage: 368.0+ bytes


In [23]:
# format='%Y-%m-%d %H:%M:%S'

df.columns

Index(['Name', 'Birth', 'email'], dtype='object')

In [24]:
df.values

array([['이순신', '2021-01-01 9:10', 'happy@gmail.com '],
       ['홍길동', '2021-01-08 9:20', '  1004@NAVER.COM'],
       ['유관순', '2021-02-01 10:20', ' Iron at yahoo.co.kr '],
       ['이이', '2021-02-02 11:40', '\tlee@gmail.com'],
       ['김구', '2021-02-28 15:10', 'kim@daum.net\t'],
       ['윤봉길', '2021-04-10 19:20', 'yeon@daum.ac.kr'],
       ['강감찬', '2021-06-30 21:20', 'kkc@gmail.com'],
       ['신사임당', '2021-07-20 23:30', 'monther@NAVER.COM '],
       ['을지문덕', '2021-08-28 11:48', '    ygmd@daum.net'],
       ['유재석', '2021-09-01 3:12', 'yjs at gmail.com']], dtype=object)

In [30]:
# object 즉 문자열 타입을 datetime 타입으로 변환하는 구조

df['Birth'] = pd.to_datetime(df['Birth'],format='%Y-%m-%d %H:%M:%S')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 09:10:00,happy@gmail.com
1,홍길동,2021-01-08 09:20:00,1004@NAVER.COM
2,유관순,2021-02-01 10:20:00,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40:00,\tlee@gmail.com
4,김구,2021-02-28 15:10:00,kim@daum.net\t
5,윤봉길,2021-04-10 19:20:00,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20:00,kkc@gmail.com
7,신사임당,2021-07-20 23:30:00,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48:00,ygmd@daum.net
9,유재석,2021-09-01 03:12:00,yjs at gmail.com


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   Name    10 non-null     object        
 1   Birth   10 non-null     datetime64[ns]
 2   email   10 non-null     object        
dtypes: datetime64[ns](1), object(2)
memory usage: 368.0+ bytes


###  경과일 계산

- timedelta64[??] : 날짜의 덧셈 뺄셈이 유용
  - Y : 연 
  - M : 월 
  - D : 일 
  - m : 분 
  - s : 초

In [41]:
eday = df['Birth'] - pd.to_datetime('2019-11-01')

In [44]:
# 연산된 결과값 경과일을 1일을 기준으로 일 data만 도출

eday.astype('timedelta64[Y]').astype('int')

0    1
1    1
2    1
3    1
4    1
5    1
6    1
7    1
8    1
9    1
Name: Birth, dtype: int32

## 인덱서(indexer)

### iloc(index location)
- 데이터 프레임의 부분집합 선택을 위한 도구
- iloc는 정수로만 선택
- 여러 개의 정수 위치를 선택하려면 리스트 전달
- 동일한 간격으로 선택하려면 슬라이스 표기

In [45]:
df = pd.read_csv('dataset/01.date_data.csv')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [57]:
df.iloc[1]

Name                  홍길동
Birth     2021-01-08 9:20
email      1004@NAVER.COM
Name: 1, dtype: object

In [58]:
df.iloc[[1,2],0]

1    홍길동
2    유관순
Name: Name, dtype: object

In [66]:
df.iloc[1:3,:2]

Unnamed: 0,Name,Birth
1,홍길동,2021-01-08 9:20
2,유관순,2021-02-01 10:20


### loc 속성

- 데이터들을 slicing 하는 기술
- loc[index, columns]
- loc는 레이블로만 선택
- 여러 개의 레이블을 선택하려면 리스트 전달
- 동일한 간격으로 선택하려면 슬라이스 표기 사용
- 마지막 레이블까지 포함

In [69]:
df = pd.read_csv('dataset/01.date_data.csv')
print(df.head(3))
print(df.tail(4))

  Name             Birth                  email
0  이순신   2021-01-01 9:10       happy@gmail.com 
1  홍길동   2021-01-08 9:20         1004@NAVER.COM
2  유관순  2021-02-01 10:20   Iron at yahoo.co.kr 
   Name             Birth               email
6   강감찬  2021-06-30 21:20       kkc@gmail.com
7  신사임당  2021-07-20 23:30  monther@NAVER.COM 
8  을지문덕  2021-08-28 11:48       ygmd@daum.net
9   유재석   2021-09-01 3:12    yjs at gmail.com


In [72]:
df.loc[:5, ['Name','email']]

Unnamed: 0,Name,email
0,이순신,happy@gmail.com
1,홍길동,1004@NAVER.COM
2,유관순,Iron at yahoo.co.kr
3,이이,\tlee@gmail.com
4,김구,kim@daum.net\t
5,윤봉길,yeon@daum.ac.kr


In [74]:
# 데이터 수정
df.iloc[0,0] = '김순신'
df

Unnamed: 0,Name,Birth,email,"(0, 0)"
0,김순신,2021-01-01 9:10,happy@gmail.com,김순신
1,홍길동,2021-01-08 9:20,1004@NAVER.COM,김순신
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr,김순신
3,이이,2021-02-02 11:40,\tlee@gmail.com,김순신
4,김구,2021-02-28 15:10,kim@daum.net\t,김순신
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr,김순신
6,강감찬,2021-06-30 21:20,kkc@gmail.com,김순신
7,신사임당,2021-07-20 23:30,monther@NAVER.COM,김순신
8,을지문덕,2021-08-28 11:48,ygmd@daum.net,김순신
9,유재석,2021-09-01 3:12,yjs at gmail.com,김순신


### 이미 존재하는 파일의 내용을 기반으로 DataFrame 생성하기

In [1]:
df = pd.read_csv('dataset/02.friends.csv')
df

NameError: name 'pd' is not defined

In [82]:
# 새로운 data 추가
df['좋아하는 숫자'] = [22,33,44,55,77]
df

Unnamed: 0,이름,나이,직업,hobby,좋아하는 숫자
0,신동엽,20,연예인,music,22
1,유재석,41,교수,art,33
2,김새롬,18,학생,study,44
3,이영자,45,상담사,talk,55
4,강호동,38,연예인,talk,77


In [84]:
# 특정 컬럼 삭제

del df['좋아하는 숫자']
df

Unnamed: 0,이름,나이,직업,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [88]:
df.loc[4,'직업'] = '운동선수'
df

Unnamed: 0,이름,나이,직업,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,운동선수,talk


In [90]:
#tab으로 data 구분 (tab seperated value)
# >> 구분자 속성으로 , 가 아닌 tab 구분자를 사용!

df = pd.read_csv('dataset/03.friendsTab.txt')
df

Unnamed: 0,이름\t나이\t직업\thobby
0,신동엽\t20\t연예인\tmusic
1,유재석\t41\t교수\tart
2,김새롬\t18\t학생\tstudy
3,이영자\t45\t상담사\ttalk
4,강호동\t38\t연예인\ttalk


In [91]:
df = pd.read_csv('dataset/03.friendsTab.txt', delimiter='\t')
df

Unnamed: 0,이름,나이,직업,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [6]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'}]
type(friend_dict_list)
friend_dict_list = pd.DataFrame(friend_dict_list)
friend_dict_list

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [95]:
# names라는 속성을 통해 컬럼명 추가

df = pd.read_csv('dataset/04.friendsTabNoHead.txt', delimiter='\t', names=['name','age','job','hobby'])
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


### 중복 데이터 제거 기술

In [103]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [99]:
# sal 컬럼 추가. 학생의 경우 no, 나머지는 yes 넣음
df['sal'] = 0

# numpy의 3항 연산식 >> where 이라는 함수!!
# np.where(조건식, 조건식 true일 때, 조건식 false일 때)
df['sal'] = np.where(df['job'] != '학생','yes','no')
df

Unnamed: 0,name,age,job,hobby,sal
0,신동엽,20,연예인,music,yes
1,유재석,41,교수,art,yes
2,김새롬,18,학생,study,no
3,이영자,45,상담사,talk,yes
4,강호동,38,연예인,talk,yes


### 파이썬의 data를 DataFrame 객체로 변환

- dict의 key를 dataframe의 series명으로 자동 변환

In [127]:
# step02 - 속성으로 선별해서 삭제

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [118]:
# 중복 data의 여부 확인 가능 함수
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

In [122]:
# 중복이 True인 series 삭제
# df에 대입하지 않으면 원본은 그대로 유지 

df = df.drop_duplicates()
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [123]:
# keep 속성으로 마지막 중복 data 유지하고 첫번째 data 삭제

df = df.drop_duplicates(keep='last')
df

Unnamed: 0,name,age,job,hobby
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [124]:
# step03 - 동명이인일 경우에 선별해서 삭제

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 50, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,50,연예인,music


In [128]:
# inplace=True >> 바로 원본 수정!

df.drop_duplicates('name',keep='first',inplace=True)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [None]:
# step04 - 원본 DataFrame 자체에 수정 사항 바로 반영하는 속성

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 50, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df

### 결측치 처리

In [149]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'} ]
df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music


In [130]:
#index명 5라는 위치의 신동엽의 age는 결측치
# info() non-null 값으로 결측치 여부 확인 가능
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    6 non-null      object 
 1   age     5 non-null      float64
 2   job     6 non-null      object 
 3   hobby   6 non-null      object 
dtypes: float64(1), object(3)
memory usage: 320.0+ bytes


In [143]:
# null값 확인하는 함수. NULL이면 True가 출력

df.isnull()

Unnamed: 0,name,age,job,hobby
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,True,False,False


In [140]:
df.fillna(30, inplace=True)
df.iloc[5,1] = 22
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,22.0,연예인,music


In [148]:
df['age'].sum()
df['age'].mean()
df['age'].max()

45.0

In [151]:
df.fillna(df['age'].mean(), inplace=True)
df


Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,32.4,연예인,music


### 그룹화 하기

In [165]:
# None 값을 0 값으로 치환

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df['age'].fillna(0, inplace=True)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,0.0,연예인,music


In [155]:
df.groupby('job')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002419293F700>

In [156]:
#value_counts() >> data별 개수 counting

df.value_counts()

name  age   job  hobby
이영자   45.0  상담사  talk     1
유재석   41.0  교수   art      1
신동엽   20.0  연예인  music    1
      0.0   연예인  music    1
김새롬   18.0  학생   study    1
강호동   38.0  연예인  talk     1
dtype: int64

In [157]:
df['hobby'].value_counts()

music    2
talk     2
art      1
study    1
Name: hobby, dtype: int64

In [161]:
# 취미별 grouping 후 연산이 가능한 시리즈의 값의 계산 결과를 자동 도출
df.groupby('job').mean()

Unnamed: 0_level_0,age
job,Unnamed: 1_level_1
교수,41.0
상담사,45.0
연예인,19.333333
학생,18.0


1. job 종류 확인 : unique()
2. job 별 개수 확인 :  value_counts()

In [163]:
df['job'].unique()

array(['연예인', '교수', '학생', '상담사'], dtype=object)

In [169]:
# null값 넣기

df.iloc[5,1] = np.nan
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music


In [173]:
# 결측치를 중앙값으로 치환
# job 별로 그룹핑 되어있는 곳의 age를 job 별로 중앙값으로 치환!

df['age'] = df.groupby('job')['age'].transform('median')
df

Unnamed: 0,name,age,job,hobby
0,신동엽,29.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,29.0,연예인,talk
5,신동엽,29.0,연예인,music


In [213]:
# 데이터 제공

friend_dict_list = [{
    'name': '신동엽',
    'age': 20,
    'job': '연예인',
    'hobby': 'music'
}, {
    'name': '유재석',
    'age': 41,
    'job': '교수',
    'hobby': 'art'
}, {
    'name': '김새롬',
    'age': 18,
    'job': '학생',
    'hobby': 'study'
}, {
    'name': '이영자',
    'age': 45,
    'job': '상담사',
    'hobby': 'talk'
}, {
    'name': '강호동',
    'age': 38,
    'job': '연예인',
    'hobby': 'talk'
}, {
    'name': '신동엽',
    'age': None,
    'job': '연예인',
    'hobby': 'music'
}, {
    'name': '고현정',
    'age': 44,
    'job': '가수',
    'hobby': 'music'
}, {
    'name': '박민영',
    'age': 22,
    'job': '학생',
    'hobby': 'art'
}, {
    'name': '박서준',
    'age': 18,
    'job': '학생',
    'hobby': 'study'
}, {
    'name': '박보검',
    'age': 45,
    'job': '상담사',
    'hobby': 'talk'
}, {
    'name': '이효리',
    'age': 28,
    'job': '교수',
    'hobby': 'talk'
}, {
    'name': '이상순',
    'age': 29,
    'job': '주부',
    'hobby': 'music'
}]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music
6,고현정,44.0,가수,music
7,박민영,22.0,학생,art
8,박서준,18.0,학생,study
9,박보검,45.0,상담사,talk


In [190]:
df.groupby('job').mean()

Unnamed: 0_level_0,age
job,Unnamed: 1_level_1
가수,44.0
교수,34.5
상담사,45.0
연예인,29.0
주부,29.0
학생,19.333333


In [192]:
# age를 job 값으로 그룹지은 후 해당 그룹들의 age 값을 mean 한 뒤 그 mean 값을 age값으로 대입

df['age'] = df.groupby('job')['age'].transform('mean')
df

Unnamed: 0,name,age,job,hobby
0,신동엽,29.0,연예인,music
1,유재석,34.5,교수,art
2,김새롬,19.333333,학생,study
3,이영자,45.0,상담사,talk
4,강호동,29.0,연예인,talk
5,신동엽,29.0,연예인,music
6,고현정,44.0,가수,music
7,박민영,19.333333,학생,art
8,박서준,19.333333,학생,study
9,박보검,45.0,상담사,talk


### 조건 기반 필터링

- Pandas의 비교 및 논리 연산자
- 비교 연산자는 기본 연산자를 사용
- AND : &
- OR : |
- NOT : ~
- 논리 연산에 기본 연산자를 사용할 경우 객체
전체의 참을 계산하기 때문에 오류 발생
- 각 표현은 괄호로 묶는 것은 권장

In [195]:
aa = df.name == '신동엽'
bb = df.job == '연예인'

aa & bb

0      True
1     False
2     False
3     False
4     False
5      True
6     False
7     False
8     False
9     False
10    False
11    False
dtype: bool

In [196]:
# 조건에 맞는 값만을 가져와서 새로운 표 만들기 가능

df2 = df[aa&bb]
df2

Unnamed: 0,name,age,job,hobby
0,신동엽,29.0,연예인,music
5,신동엽,29.0,연예인,music


<hr>

**미션**

1. hobby 종류 확인
2. hobby 종류의 총수 확인
3. 종류별 개수

### 두개의 DataFrame 병합하기 - row 기준

In [197]:
l1 = [{
    'name': '이효리',
    'job': "교수"
}, {
    'name': '이상순',
    'job': "학생"
}, {
    'name': '박보검',
    'job': "개발자"
}]

l2 = [{
    'name': '신동엽',
    'job': "치과의사"
}, {
    'name': '이영자',
    'job': "농부"
}, {
    'name': '정찬우',
    'job': "연예인"
}]

In [198]:
df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df2 = pd.DataFrame(l2, columns = ['name', 'job'])

print(df1)
print(type(df1))
print(df1.ndim)
print(df1.shape)

print('-'*20)

print(df2)

  name  job
0  이효리   교수
1  이상순   학생
2  박보검  개발자
<class 'pandas.core.frame.DataFrame'>
2
(3, 2)
--------------------
  name   job
0  신동엽  치과의사
1  이영자    농부
2  정찬우   연예인


In [199]:
# 두개의 dataframe을 하나로 결함(merge)

df_all = pd.concat([df1,df2])
df_all

Unnamed: 0,name,job
0,이효리,교수
1,이상순,학생
2,박보검,개발자
0,신동엽,치과의사
1,이영자,농부
2,정찬우,연예인


In [210]:
# 두 개의 dataframe이 좌우로 결합
# axis=1 >> 컬럼을 추가하는 구조로 결합
# axis=0 >> 상하로 결합

df_all = pd.concat([df1,df2],axis=0)
df_all

Unnamed: 0,name,job
0,이효리,교수
1,이상순,학생
2,박보검,개발자
0,신동엽,치과의사
1,이영자,농부
2,정찬우,연예인


In [212]:
# index 재정리가 필요
# concat([결합시킬 데이터들], axis, ignore_index = True)
df_all = pd.concat([df1,df2],axis=0, ignore_index=True)
df_all

Unnamed: 0,name,job
0,이효리,교수
1,이상순,학생
2,박보검,개발자
3,신동엽,치과의사
4,이영자,농부
5,정찬우,연예인


# Pandas 학습 

1. 데이터 분석을 위한 모듈
2. excel과 가장 큰 차이점 : Pandas는 대용량 데이터 처리가 가능
3. 데이터 분석 및 데이터 가공에 절대적으로 사용되는 library
4. 주요 학습 내용
> 1. DataFrame - excel의 다수의 컬럼들을 보유한 table과 동일하다 간주
> 2. series - DataFrame을 구성하는 column 간주

**참고**

주피터 노트북 익스텐션을 활용하여 생산성 높이기
>pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install


In [None]:
# !pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install

## 기초 익히기
> 이미 존재하는 파일의 내용으로 DataFrame 생성하기 <br>
> 중복 데이터 제거 <br>
> 결측시 처리

## DataFrame  & Series 구조 
> https://pandas.pydata.org/docs/getting_started/index.html <br>
    


In [None]:
# 전처리를 위한 library import

import numpy as np
import pandas as pd

In [None]:
!pip show pandas

기초 익히기

In [None]:
# 시리즈 - 정수값으로 생성시 자동으로 int64 

s = pd.Series([1, 2, 3])
s

In [None]:
type(s)

In [None]:
s.values

In [None]:
s.index

## 날짜와 문자열 데이터 다루기 


- Python의 datetime모듈

>date : 연, 월, 일

>time : 시간, 분, 초, 마이크로초(백만분의 1초)

>datetime : date와 time요소

- Pandas의 Timestamp

>날짜와 시간 모두 포함 : 나노초(10억분의 1초) 단위의 정밀도


- timedelta

>날짜의 덧셈과 뺄셈에 유용



### 특정 날짜를 기준으로 DataFrame생성해 보기 

In [None]:
datas = pd.date_range('20210628', periods=6)
datas

### file로 부터 데이터 read해서 date 타입 이해하기

###  경과일 계산

- timedelta64[??]
  - Y : 연 
  - M : 월 
  - D : 일 
  - m : 분 
  - s : 초

## 인덱서(indexer)

### iloc
- 데이터 프레임의 부분집합 선택을 위한 도구
- iloc는 정수로만 선택
- 여러 개의 정수 위치를 선택하려면 리스트 전달
- 동일한 간격으로 선택하려면 슬라이스 표기

In [None]:
df = pd.read_csv('dataset/01.date_data.csv')
df

### loc 속성

- 데이터들을 slicing 하는 기술
- loc[index, columns]
- loc는 레이블로만 선택
- 여러 개의 레이블을 선택하려면 리스트 전달
- 동일한 간격으로 선택하려면 슬라이스 표기 사용
- 마지막 레이블까지 포함

In [None]:
df = pd.read_csv('dataset/01.date_data.csv')
df

### 이미 존재하는 파일의 내용을 기반으로 DataFrame 생성하기

In [None]:
df = pd.read_csv('dataset/02.friends.csv')
df

In [None]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'}]
type(friend_dict_list)

### 중복 데이터 제거 기술

In [None]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df

In [None]:
# step02 - 속성으로 선별해서 삭제

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df

In [None]:
# step03 - 동명이인일 경우에 선별해서 삭제

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 50, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df

In [None]:
# step04 - 원본 DataFrame 자체에 수정 사항 바로 반영하는 속성

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 50, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df

### 결측치 처리

In [None]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'} ]
df = pd.DataFrame(friend_dict_list)
df

In [None]:
df.info()

### 그룹화 하기

In [None]:
# None 값을 0 값으로 치환

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df['age'].fillna(0, inplace=True)
df

1. job 종류 확인 : unique()
2. job 별 개수 확인 :  value_counts()

In [None]:
# 데이터 제공

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' : '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                     {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'},
                     {'name': '고현정', 'age': 44, 'job': '가수', 'hobby':'music'},
                     {'name': '박민영', 'age': 22, 'job': '학생', 'hobby':'art'},
                     {'name': '박서준', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '박보검', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' : '이효리', 'age' : 28, 'job' : '교수', 'hobby' : 'talk'},
                    {'name': '이상순', 'age': 29, 'job': '주부', 'hobby':'music'}]

df = pd.DataFrame(friend_dict_list)
df

### 조건 기반 필터링

- Pandas의 비교 및 논리 연산자
- 비교 연산자는 기본 연산자를 사용
- AND : &
- OR : |
- NOT : ~
- 논리 연산에 기본 연산자를 사용할 경우 객체
전체의 참을 계산하기 때문에 오류 발생
- 각 표현은 괄호로 묶는 것은 권장

### 두개의 DataFrame 병합하기 - row 기준

In [None]:
l1 = [{'name': '이효리', 'job': "교수"},
      {'name': '이상순', 'job': "학생"},
      {'name': '박보검', 'job': "개발자"}]

l2 = [{'name': '신동엽', 'job': "치과의사"},
      {'name': '이영자', 'job': "농부"},
      {'name': '정찬우', 'job': "연예인"}]
         

In [None]:
df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df2 = pd.DataFrame(l2, columns = ['name', 'job'])

print(df1)
print(type(df1))
print(df1.ndim)
print(df1.shape)

print('-'*20)

print(df2)

<hr>

**미션**

1. hobby 종류 확인 : unique() list로 반환
2. hobby 종류의 총수 확인 : unique()의 결과를 len 으로 개수 확인
3. 종류별 개수 : value_counts()로 범주별 counting

In [215]:
print(df.hobby.unique())
print(df.hobby.value_counts())

['music' 'art' 'study' 'talk']
music    4
talk     4
art      2
study    2
Name: hobby, dtype: int64
