In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.set_option('display.max_columns', 50)

In [3]:
pd.set_option('display.width', 100)

In [4]:
pd.set_option('display.max_colwidth', 250)

In [7]:
a = pd.DataFrame([
    [1, np.nan, 3],
    [np.nan, 8, 10],
    [15, 20, 18]])

In [8]:
a

Unnamed: 0,0,1,2
0,1.0,,3
1,,8.0,10
2,15.0,20.0,18


### 열을 기준으로 결측치 삭제 : axis=1

In [9]:
a.dropna(axis=1)

Unnamed: 0,2
0,3
1,10
2,18


In [12]:
a.dropna(axis=0)

Unnamed: 0,0,1,2
2,15.0,20.0,18


### 결측치를 포함하는 열 제거
+ dropna(행/열, 삭제방향)

In [13]:
a.dropna()

Unnamed: 0,0,1,2
2,15.0,20.0,18


### 대체값 채우기 : fillna
+ fillna(대체값, 기준대체값, 축방향)
+ method 라는 속성을 이용해서 대체값을 넣을 기준 지정

In [18]:
a.fillna(0) # NaN을 0으로 대체

Unnamed: 0,0,1,2
0,1.0,0.0,3
1,0.0,8.0,10
2,15.0,20.0,18


#### NaN 기준 행의 앞(위)/뒤(아래) 값으로 대체
#### axis=0과 동일

In [20]:
a.fillna(method='ffill') #앞

Unnamed: 0,0,1,2
0,1.0,,3
1,1.0,8.0,10
2,15.0,20.0,18


In [19]:
a.fillna(method='bfill') #뒤

Unnamed: 0,0,1,2
0,1.0,8.0,3
1,15.0,8.0,10
2,15.0,20.0,18


In [21]:
a.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2
0,1.0,1.0,3.0
1,,8.0,10.0
2,15.0,20.0,18.0


In [22]:
a.fillna(method='bfill', axis=1)

Unnamed: 0,0,1,2
0,1.0,3.0,3.0
1,8.0,8.0,10.0
2,15.0,20.0,18.0


#### 데이터 프레임에 새로운 항목 추가하기
+ 열을 추가할 때는 객체명[새로운 컬럼명] = 값 목록 사용
+ 행을 추가할 때는 객체명.append(Series/Dict객체) 사용

In [23]:
b = pd.DataFrame()
b

In [24]:
b['name'] = ['혜교', '지현', '수지']
b['kor'] = [76,87,98]
b['eng'] = [54,65,76]
b['mat'] = [43,76,90]
b

Unnamed: 0,name,kor,eng,mat
0,혜교,76,54,43
1,지현,87,65,76
2,수지,98,76,90


In [42]:
b1 = pd.DataFrame()

In [43]:
hekyo = pd.Series(['혜교', 76, 54, 43], index=['name', 'kor', 'eng', 'mat'])
jihyun = pd.Series(['지현', 87, 65, 76], index=['name', 'kor', 'eng', 'mat'])


In [44]:
b1.append(hekyo, ignore_index=True)
b1.append(jihyun, ignore_index=True)
b1

In [46]:
person = pd.DataFrame({'name':'수지', 'kor':98, 'eng':76, 'mat':90}, index=[2,])
person

Unnamed: 0,name,kor,eng,mat
2,수지,98,76,90


In [47]:
b1 = b1.append(person)
b1

Unnamed: 0,name,kor,eng,mat
2,수지,98,76,90


#### 데이터프레임에서 rank 다루기
+ rank(정렬방법)
+ 기본적으로 오름차순으로 처리
+ 동일한 값들은 그것들의 평균값으로 순위지정

In [48]:
b.rank()

Unnamed: 0,name,kor,eng,mat
0,3.0,1.0,1.0,1.0
1,2.0,2.0,2.0,2.0
2,1.0,3.0,3.0,3.0


In [53]:
b.rank(ascending=False)

Unnamed: 0,name,kor,eng,mat
0,1.0,3.0,3.0,3.0
1,2.0,2.0,2.0,2.0
2,3.0,1.0,1.0,1.0


In [57]:
data = [7,-2,7,4,2,0,4]
df = pd.Series(data)
df.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [55]:
df.rank(method='min') # 동일 순위 지정 방법 = 최소값 지정

0    6.0
1    1.0
2    6.0
3    4.0
4    3.0
5    2.0
6    4.0
dtype: float64

In [56]:
df.rank(method='max') # 동일 순위 지정 방법 = 최대값 지정

0    7.0
1    1.0
2    7.0
3    5.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [59]:
df.rank(method='first') #동일순위 - 선착순

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

#### 문자열 처리
+ 문자열 관련 함수를 적용하려면 먼저 str 함수로 문자형으로 변환해야 함

In [62]:
data1 = ['Tom', '  James  ', np.nan, 12345, 'Vin', 'Steve']
df = pd.Series(data1)
df.str.len()

0    3.0
1    9.0
2    NaN
3    NaN
4    3.0
5    5.0
dtype: float64

In [66]:
df.str.lower()


0          tom
1      james  
2          NaN
3          NaN
4          vin
5        steve
dtype: object

In [65]:
df.str.upper()

0          TOM
1      JAMES  
2          NaN
3          NaN
4          VIN
5        STEVE
dtype: object

In [67]:
df.str.swapcase()

0          tOM
1      jAMES  
2          NaN
3          NaN
4          vIN
5        sTEVE
dtype: object

In [71]:
df.str.strip()

0      Tom
1    James
2      NaN
3      NaN
4      Vin
5    Steve
dtype: object

In [72]:
df.str.split(',')

0          [Tom]
1    [  James  ]
2            NaN
3            NaN
4          [Vin]
5        [Steve]
dtype: object

In [74]:
df.str.contains('123')

0    False
1    False
2      NaN
3      NaN
4    False
5    False
dtype: object

In [75]:
df.str.contains('T')

0     True
1    False
2      NaN
3      NaN
4    False
5    False
dtype: object

In [76]:
df.str.contains('es')

0    False
1     True
2      NaN
3      NaN
4    False
5    False
dtype: object

In [77]:
df.str.find('123') # 일치문자의 인덱스 출력

0   -1.0
1   -1.0
2    NaN
3    NaN
4   -1.0
5   -1.0
dtype: float64

In [78]:
df.str.find('es')

0   -1.0
1    5.0
2    NaN
3    NaN
4   -1.0
5   -1.0
dtype: float64

In [80]:
df.str.find('m')

0    2.0
1    4.0
2    NaN
3    NaN
4   -1.0
5   -1.0
dtype: float64

In [81]:
df.str.findall('m') # 일치문자의 문자가 리스트 출력

0    [m]
1    [m]
2    NaN
3    NaN
4     []
5     []
dtype: object

In [82]:
df.str.findall('e')

0        []
1       [e]
2       NaN
3       NaN
4        []
5    [e, e]
dtype: object

### onehot - encoding 데이터프레임
+ 하나의 True와 나머지가 False인 인코딩을 의미
+ 컴퓨터는 문자보다 숫자를 더 잘 처리함
+ 따라서, 단어/기호를 숫자형태로 바꾸는 기법 필요
+ 범주형 데이터로 구성된 분류문제를 푸는 머신러닝/딥러닝에 주로 사용
+ 예를 들어 과일이미지를 이용해서 과일이름을 판별하는 경우
+ 사과/복숭아/오렌지
+ 1   /  2   / 3 -> 100 / 010 / 001

In [83]:
df.str.get_dummies()
### Tom = 00010
### Vin = 00001

Unnamed: 0,James,12345,Steve,Tom,Vin
0,0,0,0,1,0
1,1,0,0,0,0
2,0,0,0,0,0
3,0,1,0,0,0
4,0,0,0,0,1
5,0,0,1,0,0


### 데이터프레임 필터링
+ 조건을 만족하는 특정 데이터를 추출하려면 []에 조건연산자를 사용한 조건식을 작성하면 됨

In [84]:
products = pd.read_csv('data/products.csv')
products.head()

Unnamed: 0,prodid,prodname,stock,price,maker
0,p01,그냥만두,5000,4500,대한식품
1,p02,매운쫄면,2500,5500,민국푸드
2,p03,쿵떡파이,3600,2600,한빛제과
3,p04,맛난초콜렛,1250,2500,한빛제과
4,p05,얼큰라면,2200,1200,대한식품


#### 제조업체가 한빛제과인 상품 추출

In [89]:
search = products.maker == "한빛제과"
products[search]

Unnamed: 0,prodid,prodname,stock,price,maker
2,p03,쿵떡파이,3600,2600,한빛제과
3,p04,맛난초콜렛,1250,2500,한빛제과
6,p07,달콤비스켓,1650,1500,한빛제과


In [90]:
products[search]['prodname']

2     쿵떡파이
3    맛난초콜렛
6    달콤비스켓
Name: prodname, dtype: object

In [91]:
products[search][['prodname', 'price']]

Unnamed: 0,prodname,price
2,쿵떡파이,2600
3,맛난초콜렛,2500
6,달콤비스켓,1500


#### 민국푸드에서 생산중인 상품 중 가격이 3000원 이상인 상품 추출

In [97]:
search1 = products.maker == "민국푸드"
search2 = products.price >= 3000
# search1 = (products.maker == "민국푸드") & (products.price >= 3000)

In [93]:
products[search1][search2]['prodname']

  """Entry point for launching an IPython kernel.


1    매운쫄면
Name: prodname, dtype: object

In [94]:
products[search1]['prodname']

1    매운쫄면
5    통통우동
Name: prodname, dtype: object

In [98]:
phone = pd.read_csv('data/phone02.csv')
phone.head()

Unnamed: 0,makeyear,buyyear,dispsize,age,height,weight,phonetime,pctime,lteamount
0,2015,2015,5.0,45,173,75,60,500,100
1,2014,2015,4.5,27,176,59,70,30,50
2,2015,2015,5.0,29,183,65,120,300,200
3,2015,2016,5.0,28,172,63,80,60,190
4,2015,2015,5.0,24,179,65,90,30,500


In [100]:
search4 = phone.makeyear == 2015
search5 = phone.buyyear == 2015
search6 = phone.dispsize == 4.5
search7 = phone.age >= 35

In [108]:
phone[search4]

Unnamed: 0,makeyear,buyyear,dispsize,age,height,weight,phonetime,pctime,lteamount
0,2015,2015,5.0,45,173,75,60,500,100
2,2015,2015,5.0,29,183,65,120,300,200
3,2015,2016,5.0,28,172,63,80,60,190
4,2015,2015,5.0,24,179,65,90,30,500
9,2015,2014,5.0,42,177,79,40,480,30
11,2015,2015,5.5,37,171,70,90,360,200
12,2015,2016,5.5,35,173,69,60,120,150
13,2015,2015,6.0,41,181,88,60,120,130
14,2015,2015,5.5,10,178,89,70,60,140
15,2015,2015,5.0,35,169,70,50,90,80


In [109]:
phone[search5]

Unnamed: 0,makeyear,buyyear,dispsize,age,height,weight,phonetime,pctime,lteamount
0,2015,2015,5.0,45,173,75,60,500,100
1,2014,2015,4.5,27,176,59,70,30,50
2,2015,2015,5.0,29,183,65,120,300,200
4,2015,2015,5.0,24,179,65,90,30,500
10,2014,2015,4.5,32,167,62,130,300,400
11,2015,2015,5.5,37,171,70,90,360,200
13,2015,2015,6.0,41,181,88,60,120,130
14,2015,2015,5.5,10,178,89,70,60,140
15,2015,2015,5.0,35,169,70,50,90,80
18,2015,2015,4.5,29,188,83,140,240,600


In [104]:
phone[search6][['age', 'height', 'weight']]

Unnamed: 0,age,height,weight
1,27,176,59
8,30,175,70
10,32,167,62
18,29,188,83


In [105]:
phone[search7][['makeyear', 'dispsize']]

Unnamed: 0,makeyear,dispsize
0,2015,5.0
6,2016,6.0
7,2014,5.0
9,2015,5.0
11,2015,5.5
12,2015,5.5
13,2015,6.0
15,2015,5.0
16,2016,5.5


In [106]:
sarda = pd.DataFrame()

In [107]:
sarda['city'] = ['서울', '서울', '서울', '부산', '부산', '부산', '인천', '인천']
sarda['year'] = [2015, 2010, 2005, 2015, 2010, 2005, 2015, 2010]
sarda['pop'] = [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203]
sarda['region'] = ['수도권', '수도권', '수도권', '경상권', '경상권', '경상권', '수도권', '수도권']
sarda

Unnamed: 0,city,year,pop,region
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


### 데이터프레임 그룹핑
+ 특정조건에 따라 데이터들을 그룹으로 묶어서 집계함수를 적용하고 통계함수를 이용한 정보 출력
+ 이로서 해당 그룹의 특성을 알아볼 수 있음
+ groupby(조건열).(집계함수)

#### 도시별 인구수 

In [113]:
groupby = sarda.groupby('city')
groupby.groups

{'부산': [3, 4, 5], '서울': [0, 1, 2], '인천': [6, 7]}

#### 반복처리를 통해 그룹핑 결과 출력

In [115]:
for nm, gp in groupby:
    print(f'{nm} \n {gp}')

부산 
   city  year      pop region
3   부산  2015  3448737    경상권
4   부산  2010  3393191    경상권
5   부산  2005  3512547    경상권
서울 
   city  year      pop region
0   서울  2015  9904312    수도권
1   서울  2010  9631482    수도권
2   서울  2005  9762546    수도권
인천 
   city  year      pop region
6   인천  2015  2890451    수도권
7   인천  2010   263203    수도권


### 그룹핑 결과에 집계함수 적용

In [118]:
pd.set_option('display.float_format', '{:.2f}'.format)

In [129]:
groupby.agg(np.sum).style.format('{:,}') #연도까지 합산
groupby.agg(np.mean).style.format('{:,.2f}')

Unnamed: 0_level_0,year,pop
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2010.0,3451491.67
서울,2010.0,9766113.33
인천,2012.5,1576827.0


In [120]:
groupby.sum()
groupby.mean()  # 연도까지 합산

Unnamed: 0_level_0,year,pop
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2010.0,3451491.67
서울,2010.0,9766113.33
인천,2012.5,1576827.0


In [124]:
groupby['pop'].sum()  # 도시별 총인구

city
부산    10354475
서울    29298340
인천     3153654
Name: pop, dtype: int64

In [123]:
groupby['pop'].mean()  # 도시별 평균인구

city
부산   3451491.67
서울   9766113.33
인천   1576827.00
Name: pop, dtype: float64

In [130]:
groupby2 = sarda.groupby('year')
groupby2.groups

{2005: [2, 5], 2010: [1, 4, 7], 2015: [0, 3, 6]}

In [159]:
groupby2b = sarda.groupby('year')['pop'].sum()
groupby2b

year
2005    13275093
2010    13287876
2015    16243500
Name: pop, dtype: int64

In [160]:
groupby2c = sarda.groupby(['region','year']).sum()
groupby2c['pop']

region  year
경상권     2005     3512547
        2010     3393191
        2015     3448737
수도권     2005     9762546
        2010     9894685
        2015    12794763
Name: pop, dtype: int64

In [131]:
for nm, gp in groupby2:
    print(f'{nm} \n {gp}')

2005 
   city  year      pop region
2   서울  2005  9762546    수도권
5   부산  2005  3512547    경상권
2010 
   city  year      pop region
1   서울  2010  9631482    수도권
4   부산  2010  3393191    경상권
7   인천  2010   263203    수도권
2015 
   city  year      pop region
0   서울  2015  9904312    수도권
3   부산  2015  3448737    경상권
6   인천  2015  2890451    수도권


In [132]:
groupby2['pop'].sum()

year
2005    13275093
2010    13287876
2015    16243500
Name: pop, dtype: int64

In [134]:
groupby3 = sarda.groupby('region')
groupby3.groups

{'경상권': [3, 4, 5], '수도권': [0, 1, 2, 6, 7]}

In [135]:
groupby3['pop'].sum()

region
경상권    10354475
수도권    32451994
Name: pop, dtype: int64

In [136]:
births = pd.read_csv('data/births.csv')
births.head()

Unnamed: 0,year,month,day,gender,births
0,1969,1,1.0,F,4046
1,1969,1,1.0,M,4440
2,1969,1,2.0,F,4454
3,1969,1,2.0,M,4548
4,1969,1,3.0,F,4548


In [138]:
groupby4 = births.groupby('year')

In [139]:
groupby4['births'].sum()

year
1969    3600206
1970    3737800
1971    3563548
1972    3266235
1973    3146125
1974    3170631
1975    3153556
1976    3176476
1977    3332159
1978    3338300
1979    3499795
1980    3617981
1981    3635515
1982    3685457
1983    3642821
1984    3673568
1985    3765064
1986    3760695
1987    3813216
1988    3913793
1989    4045693
1990    4162917
1991    4115342
1992    4069428
1993    4004523
1994    3956925
1995    3903012
1996    3894874
1997    3884329
1998    3945192
1999    3963465
2000    4063823
2001    4031531
2002    4027376
2003    4096092
2004    4118907
2005    4145619
2006    4273225
2007    4324008
2008    4255156
Name: births, dtype: int64

In [163]:
births.groupby('year')['births'].sum().map('{:,}명'.format)

year
1969    3,600,206명
1970    3,737,800명
1971    3,563,548명
1972    3,266,235명
1973    3,146,125명
1974    3,170,631명
1975    3,153,556명
1976    3,176,476명
1977    3,332,159명
1978    3,338,300명
1979    3,499,795명
1980    3,617,981명
1981    3,635,515명
1982    3,685,457명
1983    3,642,821명
1984    3,673,568명
1985    3,765,064명
1986    3,760,695명
1987    3,813,216명
1988    3,913,793명
1989    4,045,693명
1990    4,162,917명
1991    4,115,342명
1992    4,069,428명
1993    4,004,523명
1994    3,956,925명
1995    3,903,012명
1996    3,894,874명
1997    3,884,329명
1998    3,945,192명
1999    3,963,465명
2000    4,063,823명
2001    4,031,531명
2002    4,027,376명
2003    4,096,092명
2004    4,118,907명
2005    4,145,619명
2006    4,273,225명
2007    4,324,008명
2008    4,255,156명
Name: births, dtype: object

In [141]:
groupby5 = births.groupby('month')
groupby5['births'].sum()

month
1     12364197
2     11541178
3     12678844
4     12085891
5     12624972
6     12521070
7     13367556
8     13528007
9     13252831
10    12954950
11    12197967
12    12656915
Name: births, dtype: int64

In [164]:
search0 = births.year == 1969

In [167]:
births[search0].groupby('month')['births'].sum()

month
1     293940
2     270786
3     296550
4     282638
5     289124
6     291610
7     318356
8     321034
9     312620
10    311972
11    297054
12    314522
Name: births, dtype: int64

In [143]:
groupby6 = births.groupby('gender')
groupby6['births'].sum()

gender
F    74035823
M    77738555
Name: births, dtype: int64

In [169]:
groupby6 = births.groupby(['year','gender']).sum()
groupby6['births']

year  gender
1969  F         1753634
      M         1846572
1970  F         1819164
      M         1918636
1971  F         1736774
                 ...   
2006  M         2188268
2007  F         2111890
      M         2212118
2008  F         2077929
      M         2177227
Name: births, Length: 80, dtype: int64