# Pandas 학습 

1. 데이터 분석을 위한 모듈 : 절대적(중학생 과제 작품으로도 사용)
2. excel과 가장 큰 차이점 : Pandas는 대용량 데이터 처리가 가능
3. 데이터 분석 및 데이터 가공에 절대적으로 사용되는 library
4. 주요 학습 내용
> 1. DataFrame - excel의 다수의 컬럼들을 보유한 table과 동일하다 간주
> 2. series - DataFrame을 구성하는 column 간주

**참고**

주피터 노트북 익스텐션을 활용하여 생산성 높이기
>pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install

사용하는 기술

>pep8 코딩 컨벤션 체크 및 포멧 정리 기능 <br>
>목차


In [1]:
# !pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install

## 기초 익히기
> 이미 존재하는 파일의 내용으로 DataFrame 생성하기 <br>
> 중복 데이터 제거 <br>
> 결측시 처리

## DataFrame  & Series 구조 
> https://pandas.pydata.org/docs/getting_started/index.html <br>
    


In [23]:
# 전처리를 위한 library import
# as 키워드는 library 별칭 부여 : pd 관습적으로 사용

import pandas as pd
import numpy as np

In [9]:
!pip show pandas
# Requires : pandas가 필요로하는 아이들

Name: pandas
Version: 1.1.3
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: None
Author-email: None
License: BSD
Location: c:\users\tjsdu\anaconda3\lib\site-packages
Requires: pytz, numpy, python-dateutil
Required-by: statsmodels, seaborn


In [11]:
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

df

# tabular data : 테이블형테의 데이터

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


기초 익히기

In [17]:
# 시리즈 - 정수값으로 생성시 자동으로 int64 (64비트 저장 가능한 함수)
# 시리즈 생성 문법

s = pd.Series([1, 2, 3])   # 시리즈 객체
s

0    1
1    2
2    3
dtype: int64

In [18]:
print(s)

0    1
1    2
2    3
dtype: int64


In [19]:
type(s)

pandas.core.series.Series

In [20]:
# 시리즈 객체가 보유한 데이터
s.values

array([1, 2, 3], dtype=int64)

In [22]:
# 실제로 stop의 값은 -1 해서 보는 것이 편하다
s.index

RangeIndex(start=0, stop=3, step=1)

In [29]:
# 결측치 - 데이터값이 없음을 의미, NaN(Not a Number)
# Not a Number : js에서 숫자가 아님을 의미하는 표현법
# python에선 결측치 의미

# 명시적으로 시리즈에 결츨치 적용
# numpy api 결측치 표현
# 데이터를 관리하기 위해서는 간혹 결측치도 임의로 생성해야 할 경우도 있음

s = pd.Series([1, np.nan, 3, 4, np.nan, 6])
s


0    1.0
1    NaN
2    3.0
3    4.0
4    NaN
5    6.0
dtype: float64

In [30]:
# 시리즈가 보유하고 있는 결측치를 제외한 유효한 데이터 개수 counting
s.count()

4

In [34]:
# 가령 데이터로 연산 작업들을 수행
# 최상의 output을 위해서 결측치 처리(삭제? 대체?(평균? 중앙값? 최빈값?..))

s.fillna(0)   # 결측치를 0으로 치환한 새로운 시리즈 생성

s = s.fillna(99)  # 0으로 치환한 시리즈를 재대입
s

0     1.0
1    99.0
2     3.0
3     4.0
4    99.0
5     6.0
dtype: float64

In [37]:
s = pd.Series([1, np.nan, 3, 4, np.nan, 6])
print(s)

s = s.fillna(0)
print(s)

0    1.0
1    NaN
2    3.0
3    4.0
4    NaN
5    6.0
dtype: float64
0    1.0
1    0.0
2    3.0
3    4.0
4    0.0
5    6.0
dtype: float64


In [38]:
# 결측치 삭제 : dropna()
s = pd.Series([1, np.nan, 3, 4, np.nan, 6])
print(s)

s = s.dropna()
print(s)


0    1.0
1    NaN
2    3.0
3    4.0
4    NaN
5    6.0
dtype: float64
0    1.0
2    3.0
3    4.0
5    6.0
dtype: float64


## 날짜와 문자열 데이터 다루기 


- Python의 datetime모듈

>date : 연, 월, 일

>time : 시간, 분, 초, 마이크로초(백만분의 1초)

>datetime : date와 time요소

- Pandas의 Timestamp

>날짜와 시간 모두 포함 : 나노초(10억분의 1초) 단위의 정밀도


- timedelta

>날짜의 덧셈과 뺄셈에 유용



### 특정 날짜를 기준으로 DataFrame생성해 보기 

In [40]:
# 6일치의 날짜, 데이터 생성
# date_range(시작일, 범위) : 시작일로부터 해당 범위날짜까지 자동 생성
datas = pd.date_range('20210628', periods=6)
datas

DatetimeIndex(['2021-06-28', '2021-06-29', '2021-06-30', '2021-07-01',
               '2021-07-02', '2021-07-03'],
              dtype='datetime64[ns]', freq='D')

**날짜를 index로 적용해서 DataFrame 객체 생성**

In [44]:
type(datas)

pandas.core.indexes.datetimes.DatetimeIndex

In [61]:
# 6by4  : 6행 4열 구조의 DataFrame 생성, 데이터는 자동 생성되는 난수값 활용

# 실수의 난수 발생 함수
np.random.randn(2, 3)

array([[-0.53301118, -0.52850025,  0.19081051],
       [-0.20840396,  0.2113991 , -0.36897902]])

In [59]:
# 정수의 난수 발생 함수(0~11까지)
np.random.randint(12)

6

In [77]:
# randn() :  구조 포함한 난수 발생
# randint() : 범위에 해당하는 하나의 정수값만 발생

np.random.randint(2 ,3)   # 2 - 3이전까지의 정수 난수 발생

2

In [79]:
# 6행 4열의 구조로 날짜를 보유한 datas 변수값을 index로 구성하는  DataFrame 객체

# Pandas로 데이터 처리시에는 Numpy 모듈을필수

df = pd.DataFrame(np.random.randn(6, 4), index=datas)
df

Unnamed: 0,0,1,2,3
2021-06-28,0.521691,-0.213015,0.263896,0.209402
2021-06-29,-0.361497,-0.310209,1.576226,-1.876283
2021-06-30,1.356905,-1.036921,0.146845,-1.822982
2021-07-01,-0.228236,-0.075285,-1.378638,-0.330138
2021-07-02,-1.010123,-0.000454,1.902103,1.977331
2021-07-03,-0.297875,-0.714168,1.285406,0.767105


In [81]:
# 컬럼명 가공

df = pd.DataFrame(np.random.randn(6, 4), index=datas,
                  columns=['a', 'b', 'c', 'd'])
df

Unnamed: 0,a,b,c,d
2021-06-28,1.164638,-0.351942,-0.318904,-0.345312
2021-06-29,0.320817,-2.553037,-0.693545,0.175388
2021-06-30,0.602542,-1.865399,1.285543,-0.531536
2021-07-01,0.072562,0.691708,-0.00959,0.236834
2021-07-02,-0.920264,-0.65704,-0.678975,-1.685601
2021-07-03,-0.87859,-0.479164,-0.950027,0.224658


In [85]:
# df의 value
df.values

array([[ 1.16463805, -0.35194155, -0.3189044 , -0.34531165],
       [ 0.32081722, -2.55303663, -0.69354533,  0.17538757],
       [ 0.60254185, -1.86539935,  1.28554347, -0.53153573],
       [ 0.07256177,  0.69170764, -0.00958963,  0.23683439],
       [-0.9202636 , -0.65703969, -0.67897473, -1.6856014 ],
       [-0.87858972, -0.47916395, -0.95002697,  0.22465806]])

In [86]:
# df의 index
df.index

DatetimeIndex(['2021-06-28', '2021-06-29', '2021-06-30', '2021-07-01',
               '2021-07-02', '2021-07-03'],
              dtype='datetime64[ns]', freq='D')

In [88]:
# df의 columns
df.columns

Index(['a', 'b', 'c', 'd'], dtype='object')

In [90]:
# 차후에 ML(머신러닝),DL(데이터러닝?)시에 데이터 구조를 한눈에 자주 보아야 함

df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 6 entries, 2021-06-28 to 2021-07-03
Freq: D
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       6 non-null      float64
 1   b       6 non-null      float64
 2   c       6 non-null      float64
 3   d       6 non-null      float64
dtypes: float64(4)
memory usage: 240.0 bytes


In [92]:
# 기초통계 확인 가능한 함수
# 가령 빌게이츠 급여가 포함된 동네 주민의 급여들이 활용데이터라 할 경우
# 이상치? 결측치? 확인을 위해서 기초 통계를 보고  max()에서 빌게이츠 급여와 75% 지점 갭이 
# 너무 크면 이상하다(이상치)로 간주하는 분석 기법도 있음

df.describe()


Unnamed: 0,a,b,c,d
count,6.0,6.0,6.0,6.0
mean,0.060284,-0.869146,-0.227583,-0.320928
std,0.827602,1.160073,0.810952,0.743287
min,-0.920264,-2.553037,-0.950027,-1.685601
25%,-0.640802,-1.563309,-0.689903,-0.48498
50%,0.196689,-0.568102,-0.49894,-0.084962
75%,0.532111,-0.383747,-0.086918,0.21234
max,1.164638,0.691708,1.285543,0.236834


In [93]:
df = pd.DataFrame(np.random.randn(6, 4), index=datas,
                  columns=['a', 'b', 'c', 'd'])
df

Unnamed: 0,a,b,c,d
2021-06-28,1.321231,-0.589168,-1.066446,0.11258
2021-06-29,1.221925,-0.482155,0.292517,-1.622621
2021-06-30,0.262097,1.31776,-0.958715,2.559832
2021-07-01,-0.244387,1.019444,0.175718,-2.594205
2021-07-02,1.03791,-0.018358,0.607609,0.508705
2021-07-03,-1.074677,-0.557977,-1.259721,-1.613394


In [96]:
# b 컬럼에 대한 오름차순 정렬 설정
# 오름차순 : ascending=True
# 내림차순 : ascending=False

df.sort_values(by='b', ascending=False)

Unnamed: 0,a,b,c,d
2021-06-30,0.262097,1.31776,-0.958715,2.559832
2021-07-01,-0.244387,1.019444,0.175718,-2.594205
2021-07-02,1.03791,-0.018358,0.607609,0.508705
2021-06-29,1.221925,-0.482155,0.292517,-1.622621
2021-07-03,-1.074677,-0.557977,-1.259721,-1.613394
2021-06-28,1.321231,-0.589168,-1.066446,0.11258


In [105]:
# 특정 컬럼들 값만 도출해보자
# [] 연산자와 컬럼명으로 컬럼 도출

df['a']



2021-06-28    1.321231
2021-06-29    1.221925
2021-06-30    0.262097
2021-07-01   -0.244387
2021-07-02    1.037910
2021-07-03   -1.074677
Freq: D, Name: a, dtype: float64

In [106]:
# dot 연산자를 활용하여 특정 컬럼 검색
df.a

2021-06-28    1.321231
2021-06-29    1.221925
2021-06-30    0.262097
2021-07-01   -0.244387
2021-07-02    1.037910
2021-07-03   -1.074677
Freq: D, Name: a, dtype: float64

In [103]:
df['a', 'b']   # error

KeyError: ('a', 'b')

In [107]:
# 하나 이상의 컬럼들은 list 구조로 적용
# df[] : x=특정 컬럼을 도출함을 의미하는 문법
# ['a', 'b'] :  a와 b 컬럼을 의미
# 다중 컬럼 검색시에는 반드시 list로 변환해서 작업

df[ ['a', 'b'] ]

Unnamed: 0,a,b
2021-06-28,1.321231,-0.589168
2021-06-29,1.221925,-0.482155
2021-06-30,0.262097,1.31776
2021-07-01,-0.244387,1.019444
2021-07-02,1.03791,-0.018358
2021-07-03,-1.074677,-0.557977


In [109]:
# index로 데이터 검색(도출)
df.index

DatetimeIndex(['2021-06-28', '2021-06-29', '2021-06-30', '2021-07-01',
               '2021-07-02', '2021-07-03'],
              dtype='datetime64[ns]', freq='D')

In [111]:
# : 을 기준으로 slicing해서 데이터 도출
# index 명으로 

df['2021-06-28' : '2021-07-01']  # 시작일:끝일자

Unnamed: 0,a,b,c,d
2021-06-28,1.321231,-0.589168,-1.066446,0.11258
2021-06-29,1.221925,-0.482155,0.292517,-1.622621
2021-06-30,0.262097,1.31776,-0.958715,2.559832
2021-07-01,-0.244387,1.019444,0.175718,-2.594205


In [113]:
# index의 위치값인 순번(index)으로 데이터 도출
# 0 부터 4-1 = 3ㅇ 즉 4 이전까지 의미
df[0:4]

Unnamed: 0,a,b,c,d
2021-06-28,1.321231,-0.589168,-1.066446,0.11258
2021-06-29,1.221925,-0.482155,0.292517,-1.622621
2021-06-30,0.262097,1.31776,-0.958715,2.559832
2021-07-01,-0.244387,1.019444,0.175718,-2.594205


In [121]:
# iloc 라는 속성을 통해서 검색 - index location의 약어
# iloc[index, columns]

df.iloc[0:2, 0:2]

Unnamed: 0,a,b
2021-06-28,1.321231,-0.589168
2021-06-29,1.221925,-0.482155


In [122]:
!dir

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 0A95-6BBF

 C:\210510datascience\07.pythonLID 디렉터리

2021-06-28  오후 12:41    <DIR>          .
2021-06-28  오후 12:41    <DIR>          ..
2021-06-28  오후 12:31    <DIR>          .ipynb_checkpoints
2021-06-28  오후 12:04         1,177,088 0628pandas수업내용.hwp
2021-06-28  오전 11:20             1,799 0628_학습내용.txt
2021-06-28  오전 10:13    <DIR>          dataset
2021-06-28  오후 12:41            63,136 step01_PandasBasic_s.ipynb
2021-06-28  오후 12:31            26,947 step02_PandasReview_s.ipynb
               4개 파일           1,268,970 바이트
               4개 디렉터리  30,391,181,312 바이트 남음


### file로 부터 데이터 read해서 date 타입 이해하기

In [125]:
# 01.date_data.csv
# csv 파일의 내용을 read하면서 DataFrame 객체로 생성
# DataFrame 객체의 장점은 다양한 함수가 있기때문에 조작 및 정제 가능

# 가정사항 :  csv 파일은 제공받음, 단 raw는 보존, 정제 및 분석을 위해서는 최적인 상태로 가공 및

# 문제점 찾기 - \t?, at?



# 사용 빈도가 매우 높음
df = pd.read_csv('dataset/01.date_data.csv')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [126]:
# dtypes : 문자열 타입을 object타입으로 표현
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    10 non-null     object
 1   Birth   10 non-null     object
 2   email   10 non-null     object
dtypes: object(3)
memory usage: 368.0+ bytes


In [127]:
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [128]:
# format='%Y-%m-%d %H:%M:%S'

df.columns

Index(['Name', 'Birth', 'email'], dtype='object')

In [129]:
df.values

array([['이순신', '2021-01-01 9:10', 'happy@gmail.com '],
       ['홍길동', '2021-01-08 9:20', '  1004@NAVER.COM'],
       ['유관순', '2021-02-01 10:20', ' Iron at yahoo.co.kr '],
       ['이이', '2021-02-02 11:40', '\tlee@gmail.com'],
       ['김구', '2021-02-28 15:10', 'kim@daum.net\t'],
       ['윤봉길', '2021-04-10 19:20', 'yeon@daum.ac.kr'],
       ['강감찬', '2021-06-30 21:20', 'kkc@gmail.com'],
       ['신사임당', '2021-07-20 23:30', 'monther@NAVER.COM '],
       ['을지문덕', '2021-08-28 11:48', '    ygmd@daum.net'],
       ['유재석', '2021-09-01 3:12', 'yjs at gmail.com']], dtype=object)

In [130]:
df.index

RangeIndex(start=0, stop=10, step=1)

In [131]:
df['Birth']

0     2021-01-01 9:10
1     2021-01-08 9:20
2    2021-02-01 10:20
3    2021-02-02 11:40
4    2021-02-28 15:10
5    2021-04-10 19:20
6    2021-06-30 21:20
7    2021-07-20 23:30
8    2021-08-28 11:48
9     2021-09-01 3:12
Name: Birth, dtype: object

In [134]:
df.Birth

0     2021-01-01 9:10
1     2021-01-08 9:20
2    2021-02-01 10:20
3    2021-02-02 11:40
4    2021-02-28 15:10
5    2021-04-10 19:20
6    2021-06-30 21:20
7    2021-07-20 23:30
8    2021-08-28 11:48
9     2021-09-01 3:12
Name: Birth, dtype: object

In [135]:
# object 즉 문자열 타입의 datetime 타입으로 변환하는 구조

df['Birth'] = pd.to_datetime(df['Birth'], format='%Y-%m-%d %H:%M:%S')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 09:10:00,happy@gmail.com
1,홍길동,2021-01-08 09:20:00,1004@NAVER.COM
2,유관순,2021-02-01 10:20:00,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40:00,\tlee@gmail.com
4,김구,2021-02-28 15:10:00,kim@daum.net\t
5,윤봉길,2021-04-10 19:20:00,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20:00,kkc@gmail.com
7,신사임당,2021-07-20 23:30:00,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48:00,ygmd@daum.net
9,유재석,2021-09-01 03:12:00,yjs at gmail.com


In [137]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   Name    10 non-null     object        
 1   Birth   10 non-null     datetime64[ns]
 2   email   10 non-null     object        
dtypes: datetime64[ns](1), object(2)
memory usage: 368.0+ bytes


In [139]:
df['Birth']

0   2021-01-01 09:10:00
1   2021-01-08 09:20:00
2   2021-02-01 10:20:00
3   2021-02-02 11:40:00
4   2021-02-28 15:10:00
5   2021-04-10 19:20:00
6   2021-06-30 21:20:00
7   2021-07-20 23:30:00
8   2021-08-28 11:48:00
9   2021-09-01 03:12:00
Name: Birth, dtype: datetime64[ns]

In [141]:
# 2019-01-01 : 문자열
# pd.to_datetime('2019-01-01') : 문자열을 datetime 즉 날짜 관한 타입으로 변환
# - : 경과일

eday = df['Birth'] - pd.to_datetime('2019-01-01')
eday

0   731 days 09:10:00
1   738 days 09:20:00
2   762 days 10:20:00
3   763 days 11:40:00
4   789 days 15:10:00
5   830 days 19:20:00
6   911 days 21:20:00
7   931 days 23:30:00
8   970 days 11:48:00
9   974 days 03:12:00
Name: Birth, dtype: timedelta64[ns]

###  경과일 계산

- timedelta64[??]
  - Y : 연 
  - M : 월 
  - D : 일 
  - m : 분 
  - s : 초

In [147]:
# 경과일을 day 즉 일을 기준으로 일 데이터만 도출
# 아쉬운점 : 표현의미 없을 경우 삭제시도 astype()함수로 체이닝 기술 적용

eday.astype('timedelta64[D]')

0    731.0
1    738.0
2    762.0
3    763.0
4    789.0
5    830.0
6    911.0
7    931.0
8    970.0
9    974.0
Name: Birth, dtype: float64

In [148]:
# 최종적으로 int로 정제
eday.astype('timedelta64[D]').astype('int')

0    731
1    738
2    762
3    763
4    789
5    830
6    911
7    931
8    970
9    974
Name: Birth, dtype: int32

## 인덱서(indexer)

### iloc(index location)
- 데이터 프레임의 부분집합 선택을 위한 도구
- iloc는 정수로만 선택
- 여러 개의 정수 위치를 선택하려면 리스트 전달
- 동일한 간격으로 선택하려면 슬라이스 표기
- iloc[index] or iloc[index, column]

In [149]:
df = pd.read_csv('dataset/01.date_data.csv')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [150]:
df.iloc[2]

Name                       유관순
Birth         2021-02-01 10:20
email     Iron at yahoo.co.kr 
Name: 2, dtype: object

In [151]:
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [152]:
df.iloc[0, 0]

'이순신'

In [159]:
df.iloc[1:3, 0]

1    홍길동
2    유관순
Name: Name, dtype: object

In [162]:
df.iloc[4, 2]

'kim@daum.net\t'

In [163]:
df.head()    # DataFrame의 앞 부분 역역 5개의 index 반환

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t


In [164]:
# index 1~2 까지의 모든 컬럼 DataFrame 관점에서 시리즈 검색
df.iloc[1:3, :]

Unnamed: 0,Name,Birth,email
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr


In [175]:
df.tail() 

Unnamed: 0,Name,Birth,email
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [176]:
# 모든 row들이면서 Name, Birth 시리즈 값만 만환
df.loc[:, ['Name', 'Birth']]

Unnamed: 0,Name,Birth
0,김순신,2021-01-01 9:10
1,홍길동,2021-01-08 9:20
2,유관순,2021-02-01 10:20
3,이이,2021-02-02 11:40
4,김구,2021-02-28 15:10
5,윤봉길,2021-04-10 19:20
6,강감찬,2021-06-30 21:20
7,신사임당,2021-07-20 23:30
8,을지문덕,2021-08-28 11:48
9,유재석,2021-09-01 3:12


In [174]:
# 데이터 수정
print(df.iloc[0, 0])
print(df.loc[0, 'Name'])
print(df.loc[:, 'Name'])

김순신
김순신
0     김순신
1     홍길동
2     유관순
3      이이
4      김구
5     윤봉길
6     강감찬
7    신사임당
8    을지문덕
9     유재석
Name: Name, dtype: object


In [171]:
df.loc[0, 'Name'] = '김순신'
df.head()

Unnamed: 0,Name,Birth,email
0,김순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t


### loc 속성

- 데이터들을 slicing 하는 기술
- loc[index, columns]
- loc는 레이블로만 선택
- 여러 개의 레이블을 선택하려면 리스트 전달
- 동일한 간격으로 선택하려면 슬라이스 표기 사용
- 마지막 레이블까지 포함

In [181]:
df = pd.read_csv('dataset/01.date_data.csv')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [183]:
df.head()

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t


In [192]:
# 새로운 시리즈(컬럼) 추가 

df['age'] = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
df


Unnamed: 0,Name,Birth,email,age
0,이순신,2021-01-01 9:10,happy@gmail.com,10
1,홍길동,2021-01-08 9:20,1004@NAVER.COM,20
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr,30
3,이이,2021-02-02 11:40,\tlee@gmail.com,40
4,김구,2021-02-28 15:10,kim@daum.net\t,50
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr,60
6,강감찬,2021-06-30 21:20,kkc@gmail.com,70
7,신사임당,2021-07-20 23:30,monther@NAVER.COM,80
8,을지문덕,2021-08-28 11:48,ygmd@daum.net,90
9,유재석,2021-09-01 3:12,yjs at gmail.com,100


- file로부터 데이터 read해서 DataFrame
- DataFrame의 특정 데이터값 적출
- DataFrame의 특정 데이터값 수정
- 새로운 Series 추가
- 결측치 처리 (대체 (fillna()/ 삭제(dropna())

In [193]:
# 특정 Series 삭제하는 구문

del df['age']  # java script와 동일
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


In [None]:
type(df)

### 이미 존재하는 파일의 내용을 기반으로 DataFrame 생성하기

In [194]:
df = pd.read_csv('dataset/02.friends.csv')
df

Unnamed: 0,이름,나이,직업,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [196]:
type(df)

pandas.core.frame.DataFrame

In [198]:
df.loc[3, '나이']

45

In [216]:
df = pd.read_csv('dataset/03.friendsTab.txt')
print(df)

print('*'*20)
# 문제점 발견 : tab으로 데이터 구분(tab seperated value(tsv)), 확장자 = tsv
# tsv의 포멧은 문제가 없는에 DataFrame으로 변환시 문제 발생
# 해결책 : read_csv() 구분자 속성으로 . 가구분자가 아닌 tab 구분자로 명시
# 03.friendsTab.txt


df = pd.read_csv('dataset/03.friendsTab.txt', delimiter='\t')
print(df)

     이름\t나이\t직업\thobby
0  신동엽\t20\t연예인\tmusic
1     유재석\t41\t교수\tart
2   김새롬\t18\t학생\tstudy
3   이영자\t45\t상담사\ttalk
4   강호동\t38\t연예인\ttalk
********************
    이름  나이   직업  hobby
0  신동엽  20  연예인  music
1  유재석  41   교수    art
2  김새롬  18   학생  study
3  이영자  45  상담사   talk
4  강호동  38  연예인   talk


In [208]:
df = pd.read_csv('dataset/04.friendsTabNoHead.txt', delimiter='\t')
print(df)

# 문제점 : data가 마치 header 처럼 쓰임
# 해결 : 새로운 컬럼명 추가

   신동엽  20  연예인  music
0  유재석  41   교수    art
1  김새롬  18   학생  study
2  이영자  45  상담사   talk
3  강호동  38  연예인   talk


In [209]:
df.columns

Index(['신동엽', '20', '연예인', 'music'], dtype='object')

In [213]:
# header가 없는 외부 파일 read시에  header미 적용 설정
# 데이터가 column으로 적용되지 않음

df = pd.read_csv('dataset/04.friendsTabNoHead.txt', delimiter='\t', header=None)
print(df)

     0   1    2      3
0  신동엽  20  연예인  music
1  유재석  41   교수    art
2  김새롬  18   학생  study
3  이영자  45  상담사   talk
4  강호동  38  연예인   talk


In [218]:
# header 즉 column 정보 추가

df = pd.read_csv('dataset/04.friendsTabNoHead.txt',
                 delimiter='\t', names=['이름', '나이', '직업', '취미'])
print(df)

    이름  나이   직업     취미
0  신동엽  20  연예인  music
1  유재석  41   교수    art
2  김새롬  18   학생  study
3  이영자  45  상담사   talk
4  강호동  38  연예인   talk


In [220]:
df

Unnamed: 0,이름,나이,직업,취미
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [221]:
# sal 급여 시리즈 추가, 단 학생인 경우엔 급여는 no로 변환 , non-학생은 yes값으로 변환
# 값에 따른 데이터 적용(조건별 값 차별화)

# sal 이라는 컬럼에 0 값으로 적용
df['sal'] = 0
df

Unnamed: 0,이름,나이,직업,취미,sal
0,신동엽,20,연예인,music,0
1,유재석,41,교수,art,0
2,김새롬,18,학생,study,0
3,이영자,45,상담사,talk,0
4,강호동,38,연예인,talk,0


In [225]:
# job이 학생을 제외한 모든 친구들은 sal에 yes
# 3항 연산자 : 조건식? 조건식이 true인 경우 실행, 조건식이 false인 경우 실행
df['직업'] == '학생'

# 암기
# 삼항 연산식을 Numpy 의 where 이라는 함수의 parameter로 적용시 syntax
# np.where(조건식, 조건식이 True인 경우 실행, 조건식이 False인 경우 실행)

df['sal'] = np.where(df['직업'] != '학생', 'YES', 'NO')
df

Unnamed: 0,이름,나이,직업,취미,sal
0,신동엽,20,연예인,music,YES
1,유재석,41,교수,art,YES
2,김새롬,18,학생,study,NO
3,이영자,45,상담사,talk,YES
4,강호동,38,연예인,talk,YES


### python의 데이터로 DataFrame객체로 변환하기

- dict의 key를 DataFrame의 Series명으로 자동변환
- 차후에 데이터 수집 및 관리시에 어떤 구조로 데이터를 수집하고 취합해야 하는지 설계 가능

In [227]:
# 딕셔너리들로 구성된 하나의 list

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'},
                    {'name': '유재석', 'age': 41, 'job': '교수', 'hobby': 'art'},
                    {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby': 'study'},
                    {'name': '이영자', 'age': 45, 'job': '상담사', 'hobby': 'talk'},
                    {'name':  '강호동', 'age': 38, 'job': '연예인', 'hobby': 'talk'}]
type(friend_dict_list)

list

In [230]:
df = pd.DataFrame(friend_dict_list)
print(df)
print(type(df))

  name  age  job  hobby
0  신동엽   20  연예인  music
1  유재석   41   교수    art
2  김새롬   18   학생  study
3  이영자   45  상담사   talk
4  강호동   38  연예인   talk
<class 'pandas.core.frame.DataFrame'>


### 중복 데이터 제거 기술

In [231]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'},
                    {'name': '유재석', 'age': 41, 'job': '교수', 'hobby': 'art'},
                    {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby': 'study'},
                    {'name': '이영자', 'age': 45, 'job': '상담사', 'hobby': 'talk'},
                    {'name':  '강호동', 'age': 38, 'job': '연예인', 'hobby': 'talk'},
                    {'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'}]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [233]:
# duplicated() : 중복 데이터 여부 확인 가능한 함수
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

In [236]:
# drop_duplicates() : duplicated()의 값이 true인 데이터를 삭제, 중복된 데이터 삭제하는 함수
df.drop_duplicates()
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [237]:
# step02 - 속성으로 선별해서 삭제

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'},
                    {'name': '유재석', 'age': 41, 'job': '교수', 'hobby': 'art'},
                    {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby': 'study'},
                    {'name': '이영자', 'age': 45, 'job': '상담사', 'hobby': 'talk'},
                    {'name':  '강호동', 'age': 38, 'job': '연예인', 'hobby': 'talk'},
                    {'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'}]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [239]:
# keep 속성으로 마지막 중복 데이터 유지하고 첫번째 데이터 삭제
# hint는 parameter에서 SHIFT TAB으로 확인
df.drop_duplicates(keep='last')

Unnamed: 0,name,age,job,hobby
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [240]:
# step03 - 동명이인일 경우에 선별해서 삭제

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'},
                    {'name': '유재석', 'age': 41, 'job': '교수', 'hobby': 'art'},
                    {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby': 'study'},
                    {'name': '이영자', 'age': 45, 'job': '상담사', 'hobby': 'talk'},
                    {'name':  '강호동', 'age': 38, 'job': '연예인', 'hobby': 'talk'},
                    {'name': '신동엽', 'age': 50, 'job': '연예인', 'hobby': 'music'}]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,50,연예인,music


In [242]:
# 원본 DataFrame에서 수정해서 새로 생성된 DataFrame 객체
# df에 대입하지 않을 경우 원본 유지되는 구조

df.drop_duplicates('name', keep='last')

Unnamed: 0,name,age,job,hobby
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,50,연예인,music


In [243]:
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,50,연예인,music


In [244]:
# step04 - 원본 DataFrame 자체에 수정 사항 바로 반영하는 속성

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'},
                    {'name': '유재석', 'age': 41, 'job': '교수', 'hobby': 'art'},
                    {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby': 'study'},
                    {'name': '이영자', 'age': 45, 'job': '상담사', 'hobby': 'talk'},
                    {'name':  '강호동', 'age': 38, 'job': '연예인', 'hobby': 'talk'},
                    {'name': '신동엽', 'age': 50, 'job': '연예인', 'hobby': 'music'}]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,50,연예인,music


In [246]:
# inplace=True : 원본에 실제 변경 사항을 여과없이 적용, 원본 수정

df.drop_duplicates('name', keep='last', inplace=True)
df

Unnamed: 0,name,age,job,hobby
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,50,연예인,music


In [249]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 1 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    5 non-null      object
 1   age     5 non-null      int64 
 2   job     5 non-null      object
 3   hobby   5 non-null      object
dtypes: int64(1), object(3)
memory usage: 200.0+ bytes


### 결측치 처리

In [277]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'},
                    {'name': '유재석', 'age': 41, 'job': '교수', 'hobby': 'art'},
                    {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby': 'study'},
                    {'name': '이영자', 'age': 45, 'job': '상담사', 'hobby': 'talk'},
                    {'name':  '강호동', 'age': 38, 'job': '연예인', 'hobby': 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby': 'music'}]
df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music


In [278]:
# index명 5 라는 위치의 신동엽의 age는 결측치
# info() 로 non-null 값으로 결측치 여부 확인 가능

# 저 결측치를 어떻게 처리할까?
# age는 절대 결측치일리가 없음, 나이가 없는 친구가 없기 때문
# age의 Non은 어떻게 할까? 지울까? 대체?(평균? 중앙값? 최빈값?....)


df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    6 non-null      object 
 1   age     5 non-null      float64
 2   job     6 non-null      object 
 3   hobby   6 non-null      object 
dtypes: float64(1), object(3)
memory usage: 320.0+ bytes


In [280]:
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music


In [282]:
# null(결측치, NaN과 동일한 표현)
# isnull() : null값 확인 함수, True 값을 표현하는 것은 NaN에 해당하는 데이터인 경우

df.isnull()

Unnamed: 0,name,age,job,hobby
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,True,False,False


In [283]:
# age시리즈에 대한 총합

df['age'].sum()

162.0

In [286]:
# age 시리즈에 대한 평균

df['age'].mean()

32.4

In [288]:
df['age'].max()

45.0

In [289]:
df['age'].min()

18.0

In [291]:
# 결측치 어떤 값으로 치환?
# age의 평균을 구해서 df의 age 값이 결측치에 한해서만 평균값 적용

# df['age'].mean() - age의 평균
# fillna(결측치에 적용될 데이터, inplace=True(갱신된내용 원본에 적용))
# 남성?여성? 빈도에 맞춰서 남성이 많다면 남성 평균으로만 적용


df.fillna(df['age'].mean(), inplace=True)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,32.4,연예인,music


### 그룹화 하기

In [398]:
# None 값을 0 값으로 치환

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'},
                    {'name': '유재석', 'age': 41, 'job': '교수', 'hobby': 'art'},
                    {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby': 'study'},
                    {'name': '이영자', 'age': 45, 'job': '상담사', 'hobby': 'talk'},
                    {'name':  '강호동', 'age': 38, 'job': '연예인', 'hobby': 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby': 'music'}]

df = pd.DataFrame(friend_dict_list)
df['age'].fillna(df['age'].mean(), inplace=True)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,32.4,연예인,music


In [352]:
df.groupby('job')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000018AFDC671F0>

1. job 종류 확인 : unique()
2. job 별 개수 확인 :  value_counts()

In [353]:
df.value_counts()

name  age   job  hobby
이영자   45.0  상담사  talk     1
유재석   41.0  교수   art      1
신동엽   32.4  연예인  music    1
      20.0  연예인  music    1
김새롬   18.0  학생   study    1
강호동   38.0  연예인  talk     1
dtype: int64

In [354]:
# value_counts() : 데이터별 개수 counting

df['job'].value_counts()

연예인    3
학생     1
교수     1
상담사    1
Name: job, dtype: int64

In [355]:
df['hobby'].value_counts()

talk     2
music    2
study    1
art      1
Name: hobby, dtype: int64

In [356]:
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,32.4,연예인,music


In [357]:
# 취미별 grouping 후에 연산이 가능한 Series의 값의 합을 자동 도출

df.groupby('hobby').sum()

Unnamed: 0_level_0,age
hobby,Unnamed: 1_level_1
art,41.0
music,52.4
study,18.0
talk,83.0


In [358]:
# select distinct job from emp

df['job'].unique()

array(['연예인', '교수', '학생', '상담사'], dtype=object)

In [359]:
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,32.4,연예인,music


In [360]:
# np.nan : 결측치 표현
# test를 위해서 결측치 추가

df.iloc[5, 1] = np.nan
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music


In [361]:
df.groupby('job')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000018AFDC673A0>

In [362]:
df.groupby('job')['age']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000018AFE508100>

In [363]:
# 중앙값(데이터를 오름차순으로 나열해서 가운데 값을 의미)으로 치환
# 치환
# job별로 그룹핑/그룹핑되어있는 job별로 각 중앙값 도출
# 그 중앙값으로 반환

# 중앙값 특징 : 홀수라면 정말 정 중앙 데이타 의미
# 짝수인 경우 중앙 두개의 데이터더하고 나누기 2한 데이터값이 중앙값

# 전체 나열했을 경우 - 18, 29, 29, 41, 45
# job별로 그룹핑 후 - 
df['age'] = df.groupby('job')['age'].transform('median')
df

Unnamed: 0,name,age,job,hobby
0,신동엽,29.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,29.0,연예인,talk
5,신동엽,29.0,연예인,music


In [364]:
df['age'] = df.groupby('job')['hooby'].transform('median')
df

KeyError: 'Column not found: hooby'

In [373]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'},
                    {'name': '유재석', 'age': 41, 'job': '교수', 'hobby': 'art'},
                    {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby': 'study'},
                    {'name': '이영자', 'age': 45, 'job': '상담사', 'hobby': 'talk'},
                    {'name': '강호동', 'age': 38, 'job': '연예인', 'hobby': 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby': 'music'},
                    {'name': '가', 'age': 44, 'job': '연예인', 'hobby': 'music'},
                    {'name': '나', 'age': 22, 'job': '연예인', 'hobby': 'art'},
                    {'name': '다', 'age': 18, 'job': '연예인', 'hobby': 'study'},
                    {'name': '라', 'age': 45, 'job': '연예인', 'hobby': 'talk'},
                    {'name': '마', 'age': 28, 'job': '연예인', 'hobby': 'talk'},
                   {'name': '바', 'age': 45, 'job': '연예인', 'hobby': 'talk'}]

df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music
6,가,44.0,연예인,music
7,나,22.0,연예인,art
8,다,18.0,연예인,study
9,라,45.0,연예인,talk


In [374]:
df.groupby('job').sum()
# 18, 20, 22, 28, 38, 44, 45, 45

Unnamed: 0_level_0,age
job,Unnamed: 1_level_1
교수,41.0
상담사,45.0
연예인,260.0
학생,18.0


In [375]:
# 18, 20, 22, 28, 38, 44, 45 : 중앙값이 (28+38)/2 이므로 연예인들의 나이는 33로 대체됨
df['age'] = df.groupby('job')['age'].transform('median')
df

Unnamed: 0,name,age,job,hobby
0,신동엽,33.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,33.0,연예인,talk
5,신동엽,33.0,연예인,music
6,가,33.0,연예인,music
7,나,33.0,연예인,art
8,다,33.0,연예인,study
9,라,33.0,연예인,talk


In [None]:
# 데이터 제공

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby': 'music'},
                    {'name': '유재석', 'age': 41, 'job': '교수', 'hobby': 'art'},
                    {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby': 'study'},
                    {'name': '이영자', 'age': 45, 'job': '상담사', 'hobby': 'talk'},
                    {'name': '강호동', 'age': 38, 'job': '연예인', 'hobby': 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby': 'music'},
                    {'name': '고현정', 'age': 44, 'job': '가수', 'hobby': 'music'},
                    {'name': '박민영', 'age': 22, 'job': '학생', 'hobby': 'art'},
                    {'name': '박서준', 'age': 18, 'job': '학생', 'hobby': 'study'},
                    {'name': '박보검', 'age': 45, 'job': '상담사', 'hobby': 'talk'},
                    {'name': '이효리', 'age': 28, 'job': '교수', 'hobby': 'talk'},
                    {'name': '이상순', 'age': 29, 'job': '주부', 'hobby': 'music'}]

df = pd.DataFrame(friend_dict_list)
df

### 조건 기반 필터링

- Pandas의 비교 및 논리 연산자
- 비교 연산자는 기본 연산자를 사용
- AND : &
- OR : |
- NOT : ~
- 논리 연산에 기본 연산자를 사용할 경우 객체
전체의 참을 계산하기 때문에 오류 발생
- 각 표현은 괄호로 묶는 것은 권장

In [378]:
df.head()

Unnamed: 0,name,age,job,hobby
0,신동엽,33.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,33.0,연예인,talk


In [379]:
# == : 값의 동등비교 연산자

df.name == '신동엽'

0      True
1     False
2     False
3     False
4     False
5      True
6     False
7     False
8     False
9     False
10    False
11    False
Name: name, dtype: bool

In [382]:
f1 = df.name == '김새롬'
f2 = df.job == '학생'

f1 & f2

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
dtype: bool

In [383]:
# True값을 보유한 값을 기준으로 새로운 DataFrame 객체 생성
# 데이터 조작

df2 = df[f1 & f2]

In [384]:
df2

Unnamed: 0,name,age,job,hobby
2,김새롬,18.0,학생,study


### 두개의 DataFrame 병합하기 - row 기준

In [3]:
import pandas as pd

In [6]:
l1 = [{'name': '이효리', 'job': "교수"},
      {'name': '이상순', 'job': "학생"},
      {'name': '박보검', 'job': "개발자"}]

l2 = [{'name': '신동엽', 'job': "치과의사"},
      {'name': '이영자', 'job': "농부"},
      {'name': '정찬우', 'job': "연예인"}]

In [8]:
l1

[{'name': '이효리', 'job': '교수'},
 {'name': '이상순', 'job': '학생'},
 {'name': '박보검', 'job': '개발자'}]

In [9]:
type(l1)

list

In [10]:
# list를 기준으로 DataFrame 생성, columns속성으로 컬럼명을 명시

df1 = pd.DataFrame(l1, columns=['name', 'job'])
df2 = pd.DataFrame(l2, columns=['name', 'job'])

print(df1)
print(type(df1))
print(df1.ndim)      # 2차원
print(df1.shape)    # (3, 2) 즉 3행 2열

print('-'*20)

print(df2)

  name  job
0  이효리   교수
1  이상순   학생
2  박보검  개발자
<class 'pandas.core.frame.DataFrame'>
2
(3, 2)
--------------------
  name   job
0  신동엽  치과의사
1  이영자    농부
2  정찬우   연예인


In [388]:
# 두개의 DataFrame을 하나로 결합(merge)
# concat(결합시킬데이터, axis, ignore_index=True) 결합함수
# 결함시킬 데이터 = list / axis=0(위아래), axis=1(좌우), index재정렬

# 기본적으론 위아래로 결합

df_all = pd.concat([df1, df2])
df_all

Unnamed: 0,name,job
0,이효리,교수
1,이상순,학생
2,박보검,개발자
0,신동엽,치과의사
1,이영자,농부
2,정찬우,연예인


In [389]:
# 두개의 DataFrame을 좌우로 결합
# 기준이 되는 축
# axis=1 : 컬럼 즉 Series를 추가하는 구조로 결합
df_all = pd.concat([df1, df2], axis=1)
df_all

Unnamed: 0,name,job,name.1,job.1
0,이효리,교수,신동엽,치과의사
1,이상순,학생,이영자,농부
2,박보검,개발자,정찬우,연예인


In [393]:
# 두개의 DataFrame을 위아래로 결합, row들을 증가하는 구조
# axis=0 (필수암기)

df_all = pd.concat([df1, df2], axis=0)
df_all

Unnamed: 0,name,job
0,이효리,교수
1,이상순,학생
2,박보검,개발자
0,신동엽,치과의사
1,이영자,농부
2,정찬우,연예인


In [396]:
# index의 재 정리가 필요
# ignore_index=True : 기준 index의 설정은 무시하고 새롭게 설정
df_all = pd.concat([df1, df2], axis=0, ignore_index=True)
df_all

Unnamed: 0,name,job
0,이효리,교수
1,이상순,학생
2,박보검,개발자
3,신동엽,치과의사
4,이영자,농부
5,정찬우,연예인


<hr>

**미션**

1. hobby 종류 확인 : unique로 list로 변환
2. hobby 종류의 총수 확인 : unique()와 결과를 len()으로 개수 확인
3. 종류별 개수 : value_counts()로 범주별 counting

In [399]:
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,32.4,연예인,music


In [403]:
print(df.hobby.unique())    #  ['music' 'art' 'study' 'talk']
print(len(df.hobby.unique()))  # 4
print(df.hobby.value_counts())

['music' 'art' 'study' 'talk']
4
talk     2
music    2
study    1
art      1
Name: hobby, dtype: int64
