## 결측치를 포함하는 열 제거
* .dropna(행/열, 삭제방향)

In [1]:
import numpy as np
import pandas as pd

pd.set_option('display.max_columns', 50)
pd.set_option('display.width', 100)
pd.set_option('display.max_colwidth', 250)

In [14]:
a = pd.DataFrame([[1,np.nan,3], [np.nan,8,10], [15,20,18]])
a

Unnamed: 0,0,1,2
0,1.0,,3
1,,8.0,10
2,15.0,20.0,18


In [15]:
# 열 기준 결측치 제거
a.dropna(axis=1)

Unnamed: 0,2
0,3
1,10
2,18


In [16]:
# 행 기준 결측치 제거  : axis=0 (기본)
a.dropna()
# a.dropna(axis=0)

Unnamed: 0,0,1,2
2,15.0,20.0,18


## 대체값 채우기
* .fillna(대체값, 기준대체값, 축방향)
* method라는 속성을 이용해서 대체값을 넣을 기준 지정

In [18]:
a.fillna(0) # NaN이 0으로 대체

Unnamed: 0,0,1,2
0,1.0,0.0,3
1,0.0,8.0,10
2,15.0,20.0,18


### NaN 기준 행의 앞(위)/뒤(아래) 값으로 대체 
### axis=0(행)을 지정한 것과 동일

In [22]:
# forward fill 앞의 값으로 대체
a.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2
0,1.0,1.0,3.0
1,,8.0,10.0
2,15.0,20.0,18.0


In [23]:
# backward fill 뒤의 값으로 대체
a.fillna(method='bfill', axis=1)

Unnamed: 0,0,1,2
0,1.0,3.0,3.0
1,8.0,8.0,10.0
2,15.0,20.0,18.0


## 데이터프레임에 새로운 항목 추가
* 열을 추가할때는 객체명[새로운컬럼명] = 값목록 
* 행을 추가할때는 객체면.append(Series/Dict 객체)

In [25]:
b = pd.DataFrame()
b

In [27]:
# 열추가
b['name'] = ['혜교','지현','수지']
b['kor'] = [76,87,98]
b['eng'] = [54,65,76]
b['mat'] = [43,76,90]

b

Unnamed: 0,name,kor,eng,mat
0,혜교,76,54,43
1,지현,87,65,76
2,수지,98,76,90


In [42]:
# b = pd.DataFrame()

hekyo = pd.Series(['혜교','76','54','43'], index=['name','kor','eng','mat'])
b = b.append(hekyo, ignore_index=True)

b

Unnamed: 0,name,kor,eng,mat
0,혜교,76,54,43


In [43]:
jihyun = pd.Series(['지현','87','65','76'], index=['name','kor','eng','mat'])
b = b.append(jihyun, ignore_index=True)

b

Unnamed: 0,name,kor,eng,mat
0,혜교,76,54,43
1,지현,87,65,76


In [44]:
# 행을 추가하기 위해 데이터프레임 객체 생성하는 경우
# 반드시 행 인덱스를 지정해야 함
persion = pd.DataFrame({'name':'수지', 'kor':'98','eng':'76', 'mat':'90'}, index=[2, ])

In [48]:
b = b.append(persion)

In [49]:
b

Unnamed: 0,name,kor,eng,mat
0,혜교,76,54,43
1,지현,87,65,76
2,수지,98,76,90


## 데이터프레임에서 rank 다루기
* rank(정렬방법)
* 기본적으로 오름차순 처리
* 동일한 값들은 그것들의 평균값으로 순위지정

In [55]:
b.rank()

Unnamed: 0,name,kor,eng,mat
0,3.0,1.0,1.0,1.0
1,2.0,2.0,2.0,2.0
2,1.0,3.0,3.0,3.0


In [53]:
b.rank(ascending=False)

Unnamed: 0,name,kor,eng,mat
0,1.0,3.0,3.0,3.0
1,2.0,2.0,2.0,2.0
2,3.0,1.0,1.0,1.0


In [64]:
data = [7,-2,7,4,2,0,4]
df = pd.Series(data)

df.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [59]:
df.rank(method='min')

0    6.0
1    1.0
2    6.0
3    4.0
4    3.0
5    2.0
6    4.0
dtype: float64

In [62]:
# df.rank(method='min')
# df.rank(method='max')
df.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [68]:
# df = pd.Series(data)

# df.str.len()
# df.str.lower()
# df.str.upper()
# df.str.swapcase()  # 대/소문자 역변환
# df.str.strip()     # 공백 제거
# df.str.split(',')

In [69]:
# df.str.contains('123')
# df.str.contains('T')
# df.str.contains('es')

## oneshot-encoding 데이터프레임
* 하나의 True와 나머지가 False인 인코딩을 의미
* 컴퓨터는 문자보다 숫자를 더 잘 처리함
* 따라서, 단어/기호를 숫자형태로 바꾸는 기법 필요
* 범주형 데이터로 구성된 분류문제를 푸는 머신러닝/딥러닝에 주로 이용
* 예를 들어 과일이미지를 이용해서 과일 이름을 판별하는 경우 
    + 사과/복숭아/오렌지
    + 1   /  2   /  3
    + 100/ 010/ 001

In [71]:
# df.str.get_dummies()
# # Tom = 00010
# # Vin = 00001

AttributeError: Can only use .str accessor with string values!

## 데이터프레임 필터링
* 조건을 만족하는 특정 데이터를 추출하려면 []에 조건연산자를 사용한 조건식을 작성하면 됨



In [73]:
product = pd.read_csv('csv/products.csv')
product.head()

Unnamed: 0,prodid,prodname,stock,price,maker
0,p01,그냥만두,5000,4500,대한식품
1,p02,매운쫄면,2500,5500,민국푸드
2,p03,쿵떡파이,3600,2600,한빛제과
3,p04,맛난초콜렛,1250,2500,한빛제과
4,p05,얼큰라면,2200,1200,대한식품


In [80]:
# 제조업체가 한빛제과인 상품, 가격 추출
search = product.maker == '한빛제과'

# 조건과 일치하는 모든 컬럼 출력
product[search]

Unnamed: 0,prodid,prodname,stock,price,maker
2,p03,쿵떡파이,3600,2600,한빛제과
3,p04,맛난초콜렛,1250,2500,한빛제과
6,p07,달콤비스켓,1650,1500,한빛제과


In [81]:
product[search]['prodname']  # 조건과 일치하는 특정 컬럼 출력

2     쿵떡파이
3    맛난초콜렛
6    달콤비스켓
Name: prodname, dtype: object

In [82]:
# 조건과 일치하는 특정 컬럼들 출력
product[search][['prodname','price']]

Unnamed: 0,prodname,price
2,쿵떡파이,2600
3,맛난초콜렛,2500
6,달콤비스켓,1500


In [87]:
# 민국푸드에서 생산중인 상품중 가격이 3000원 이상인 상품은?
search = product.maker == '민국푸드' & product.price >= 3000

product[search][['prodname','price']]

In [91]:
phone = pd.read_csv('csv/phone02.csv')

phone.head()

Unnamed: 0,makeyear,buyyear,dispsize,age,height,weight,phonetime,pctime,lteamount
0,2015,2015,5.0,45,173,75,60,500,100
1,2014,2015,4.5,27,176,59,70,30,50
2,2015,2015,5.0,29,183,65,120,300,200
3,2015,2016,5.0,28,172,63,80,60,190
4,2015,2015,5.0,24,179,65,90,30,500


In [96]:
search = phone.makeyear == 2015

phone[search]

Unnamed: 0,makeyear,buyyear,dispsize,age,height,weight,phonetime,pctime,lteamount
0,2015,2015,5.0,45,173,75,60,500,100
2,2015,2015,5.0,29,183,65,120,300,200
3,2015,2016,5.0,28,172,63,80,60,190
4,2015,2015,5.0,24,179,65,90,30,500
9,2015,2014,5.0,42,177,79,40,480,30
11,2015,2015,5.5,37,171,70,90,360,200
12,2015,2016,5.5,35,173,69,60,120,150
13,2015,2015,6.0,41,181,88,60,120,130
14,2015,2015,5.5,10,178,89,70,60,140
15,2015,2015,5.0,35,169,70,50,90,80


In [92]:
search = phone.buyyear == 2015

phone[search]

Unnamed: 0,makeyear,buyyear,dispsize,age,height,weight,phonetime,pctime,lteamount
0,2015,2015,5.0,45,173,75,60,500,100
1,2014,2015,4.5,27,176,59,70,30,50
2,2015,2015,5.0,29,183,65,120,300,200
4,2015,2015,5.0,24,179,65,90,30,500
10,2014,2015,4.5,32,167,62,130,300,400
11,2015,2015,5.5,37,171,70,90,360,200
13,2015,2015,6.0,41,181,88,60,120,130
14,2015,2015,5.5,10,178,89,70,60,140
15,2015,2015,5.0,35,169,70,50,90,80
18,2015,2015,4.5,29,188,83,140,240,600


In [94]:
search = phone.dispsize ==  4.5

phone[search][['age','height','weight']]

Unnamed: 0,age,height,weight
1,27,176,59
8,30,175,70
10,32,167,62
18,29,188,83


In [95]:
search = phone.age >= 35
phone[search][['makeyear','dispsize']]

Unnamed: 0,makeyear,dispsize
0,2015,5.0
6,2016,6.0
7,2014,5.0
9,2015,5.0
11,2015,5.5
12,2015,5.5
13,2015,6.0
15,2015,5.0
16,2016,5.5


## 데이터프레임 그룹핑
* 특정조건에 따라 데이터들을 그룹으로 묶어서 집계함수를 적용하고 통계함수를 이용한 정보 출력
* 이로써 해당 그룹의 특성을 알아볼 수 있음
* groupby(조건열),(집계함수)

In [100]:
city = ['서울','서울','서울','부산','부산','부산','인천','인천']
year = [2015, 2010, 2005, 2015, 2010, 2005, 2015, 2020]
pop = [9904312, 9631482, 9762546, 3448737, 3393191, 1122454, 5533343, 5513651]
region = ['수도권', '수도권', '수도권', '경상권', '경상권', '경상권', '수도권', '수도권' ]
          


In [101]:
data = {'도시':city, '연도':year, '인구':pop, '지역':region}

df = pd.DataFrame(data)

df.head()

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권


In [102]:
groupby = df.groupby('도시')
groupby.groups

{'부산': [3, 4, 5], '서울': [0, 1, 2], '인천': [6, 7]}

In [104]:
# 반복처리를 통해해 그룹핑 결과 출력
for nm, gp in groupby:
    print(f'{nm} \n {gp}')
    

부산 
    도시    연도       인구   지역
3  부산  2015  3448737  경상권
4  부산  2010  3393191  경상권
5  부산  2005  1122454  경상권
서울 
    도시    연도       인구   지역
0  서울  2015  9904312  수도권
1  서울  2010  9631482  수도권
2  서울  2005  9762546  수도권
인천 
    도시    연도       인구   지역
6  인천  2015  5533343  수도권
7  인천  2020  5513651  수도권


In [109]:
pd.set_option('display.float_format','{:.2f}'.format)

In [119]:
# 그룹핑 결과에 집계함수 적용
groupby.agg(np.sum)
groupby.agg(np.mean)

Unnamed: 0_level_0,연도,인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2010.0,2654794.0
서울,2010.0,9766113.33
인천,2017.5,5523497.0


In [111]:
groupby.sum()
groupby.mean()

Unnamed: 0_level_0,연도,인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2010.0,2654794.0
서울,2010.0,9766113.33
인천,2017.5,5523497.0


In [112]:
groupby['인구'].sum()
groupby['인구'].mean()



도시
부산   2654794.00
서울   9766113.33
인천   5523497.00
Name: 인구, dtype: float64

In [128]:
# 년도별 총 인구수
df.groupby('연도').sum().style.format('{:,}')

Unnamed: 0_level_0,인구
연도,Unnamed: 1_level_1
2005,10885000
2010,13024673
2015,18886392
2020,5513651


In [131]:
# 지역별 연도별 총 인구수
df.groupby(['지역','연도']).sum().style.format('{:,}')

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,연도,Unnamed: 2_level_1
경상권,2005,1122454
경상권,2010,3393191
경상권,2015,3448737
수도권,2005,9762546
수도권,2010,9631482
수도권,2015,15437655
수도권,2020,5513651


### 미국 질병통제센터에서 수집한 연도별 신생아 성별 출생수 데이터
* 1969 ~ 2008


In [134]:
births = pd.read_csv('csv/births.csv')

births.head()
births.tail()

Unnamed: 0,year,month,day,gender,births
15542,2008,10,,M,183219
15543,2008,11,,F,158939
15544,2008,11,,M,165468
15545,2008,12,,F,173215
15546,2008,12,,M,181235


In [145]:
# 연도별 출생수  :: Series로 구성되잇을때 format 법
births.groupby('year')['births'].sum().map('{:,}명'.format)

year
1969    3,600,206명
1970    3,737,800명
1971    3,563,548명
1972    3,266,235명
1973    3,146,125명
1974    3,170,631명
1975    3,153,556명
1976    3,176,476명
1977    3,332,159명
1978    3,338,300명
1979    3,499,795명
1980    3,617,981명
1981    3,635,515명
1982    3,685,457명
1983    3,642,821명
1984    3,673,568명
1985    3,765,064명
1986    3,760,695명
1987    3,813,216명
1988    3,913,793명
1989    4,045,693명
1990    4,162,917명
1991    4,115,342명
1992    4,069,428명
1993    4,004,523명
1994    3,956,925명
1995    3,903,012명
1996    3,894,874명
1997    3,884,329명
1998    3,945,192명
1999    3,963,465명
2000    4,063,823명
2001    4,031,531명
2002    4,027,376명
2003    4,096,092명
2004    4,118,907명
2005    4,145,619명
2006    4,273,225명
2007    4,324,008명
2008    4,255,156명
Name: births, dtype: object

In [147]:
# 월별 출생수는?
births.groupby('month')['births'].sum().map('{:,}명'.format)

month
1     12,364,197명
2     11,541,178명
3     12,678,844명
4     12,085,891명
5     12,624,972명
6     12,521,070명
7     13,367,556명
8     13,528,007명
9     13,252,831명
10    12,954,950명
11    12,197,967명
12    12,656,915명
Name: births, dtype: object

In [155]:
# 1969년의 월별 출생수는
search = births.year == 1969
b1969 = births[search]

b1969.head()
b1969.groupby('month')['births'].sum()

month
1     293940
2     270786
3     296550
4     282638
5     289124
6     291610
7     318356
8     321034
9     312620
10    311972
11    297054
12    314522
Name: births, dtype: int64

In [156]:
births.groupby('gender')['births'].sum()

gender
F    74035823
M    77738555
Name: births, dtype: int64

In [158]:
# 연도별 성별 출생수 
births.groupby(['year', 'gender'])['births'].sum()

year  gender
1969  F         1753634
      M         1846572
1970  F         1819164
      M         1918636
1971  F         1736774
                 ...   
2006  M         2188268
2007  F         2111890
      M         2212118
2008  F         2077929
      M         2177227
Name: births, Length: 80, dtype: int64