# Pandas

In [1]:
# 1. 버전 체크
import numpy as np
import pandas as pd
print(pd.__version__)

1.3.5


In [2]:
# 2. 리스트, NumPy 배열, 딕셔너리에서 시리즈 만들기
mylist = list('abcedfghijklmnopqrstuvwxyz')
myarr = np.arange(26)
mydict = dict(zip(mylist, myarr))

ser1 = pd.Series(mylist)
ser2 = pd.Series(myarr)
ser3 = pd.Series(mydict)
print(ser3.head())

a    0
b    1
c    2
e    3
d    4
dtype: int64


In [3]:
# 3. 시리즈의 인덱스를 데이터 프레임의 열로 변환
mylist = list('abcedfghijklmnopqrstuvwxyz')
myarr = np.arange(26)
mydict = dict(zip(mylist, myarr))
ser = pd.Series(mydict)

df = ser.to_frame().reset_index()
print(df.head())

  index  0
0     a  0
1     b  1
2     c  2
3     e  3
4     d  4


In [4]:
# 4. 많은 시리즈를 결합하여 데이터 프레임 생성
ser1 = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))
ser2 = pd.Series(np.arange(26))

df = pd.concat([ser1, ser2], axis=1) # 방법 1
print(df.head())

df = pd.DataFrame({'col1': ser1, 'col2': ser2}) # 방법 2
print(df.head())

   0  1
0  a  0
1  b  1
2  c  2
3  e  3
4  d  4
  col1  col2
0    a     0
1    b     1
2    c     2
3    e     3
4    d     4


In [5]:
# 5. 시리즈 인덱스에 이름을 지정
ser = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))

ser.name = 'alphabets'
ser.head()

0    a
1    b
2    c
3    e
4    d
Name: alphabets, dtype: object

In [6]:
# 6. 시리즈 1에 있는 시리즈 2의 아이템을 제거
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

print(ser1)
print(ser1[~ser1.isin(ser2)])

0    1
1    2
2    3
3    4
4    5
dtype: int64
0    1
1    2
2    3
dtype: int64


In [7]:
# 7. 시리즈 1과 시리즈 2의 공통 아이템
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

ser_u = pd.Series(np.union1d(ser1, ser2))  # union
ser_i = pd.Series(np.intersect1d(ser1, ser2))  # intersect
print(ser_u[~ser_u.isin(ser_i)])

0    1
1    2
2    3
5    6
6    7
7    8
dtype: int64


In [8]:
# 8. 숫자 계열의 최소값, 25번째 백분위수, 중앙값, 75번째 및 최대값을 구하기
state = np.random.RandomState(100)
ser = pd.Series(state.normal(10, 5, 25))

print(np.percentile(ser, q=[0, 25, 50, 75, 100]))

[ 1.25117263  7.70986507 10.92259345 13.36360403 18.0949083 ]


In [9]:
# 9. 시리즈 고유 항목의 빈도 수
ser = pd.Series(np.take(list('abcdefgh'), np.random.randint(8, size=30)))

ser.value_counts()

c    6
b    6
e    4
g    3
f    3
h    3
d    3
a    2
dtype: int64

In [10]:
# 10. 최빈값 상위 2개 값만 그대로 유지하고 나머지는 'Other'로 대체
np.random.RandomState(100)
ser = pd.Series(np.random.randint(1, 5, [12]))
print("Top 2 Freq:", ser.value_counts())

ser[~ser.isin(ser.value_counts().index[:2])] = 'Other'
print(ser)

Top 2 Freq: 3    4
2    4
1    2
4    2
dtype: int64
0     Other
1         3
2         2
3     Other
4     Other
5         2
6         2
7     Other
8         3
9         2
10        3
11        3
dtype: object


In [11]:
# 11. 숫자 계열을 동일한 크기의 10개 그룹으로 묶기
ser = pd.Series(np.random.random(20))
print(ser.head())

pd.qcut(ser, q=[0, .10, .20, .3, .4, .5, .6, .7, .8, .9, 1], 
        labels=['1st', '2nd', '3rd', '4th', '5th', '6th', '7th', '8th', '9th', '10th']).head()

0    0.233514
1    0.048628
2    0.060431
3    0.026707
4    0.562776
dtype: float64


0    4th
1    2nd
2    2nd
3    1st
4    8th
dtype: category
Categories (10, object): ['1st' < '2nd' < '3rd' < '4th' ... '7th' < '8th' < '9th' < '10th']

In [12]:
# 12. NumPy 배열을 주어진 모양의 데이터 프레임으로 변환
# 7개의 행과 5개의 열이 있는 데이터 프레임으로 시리즈를 재구성
ser = pd.Series(np.random.randint(1, 10, 35))

df = pd.DataFrame(ser.values.reshape(7,5))
print(df)

   0  1  2  3  4
0  6  2  3  2  9
1  9  7  8  7  7
2  5  6  5  9  7
3  6  6  4  9  6
4  9  2  1  8  7
5  1  7  3  5  9
6  7  2  6  8  9


In [13]:
# 13. 시리즈에서 3의 배수인 숫자의 위치를 ​​찾기
ser = pd.Series(np.random.randint(1, 10, 7))

print(ser)
np.argwhere(ser.values % 3 == 0)

0    7
1    9
2    5
3    2
4    5
5    9
6    2
dtype: int64


array([[1],
       [5]])

In [14]:
# 14. 시리즈에서 주어진 위치의 항목을 추출
ser = pd.Series(list('abcdefghijklmnopqrstuvwxyz'))
pos = [0, 4, 8, 14, 20]

ser.take(pos)

0     a
4     e
8     i
14    o
20    u
dtype: object

In [15]:
# 15. 2개의 시리즈를 수직, 수평으로 쌓기
ser1 = pd.Series(range(5))
ser2 = pd.Series(list('abcde'))

# 수직
ser1.append(ser2)

# 수평
df = pd.concat([ser1, ser2], axis=1)
print(df)

   0  1
0  0  a
1  1  b
2  2  c
3  3  d
4  4  e


In [16]:
# 16. 시리즈 2에서 시리즈 1의 항목 위치를 얻기
ser1 = pd.Series([10, 9, 6, 5, 3, 1, 12, 8, 13])
ser2 = pd.Series([1, 3, 10, 13])

print([np.where(i == ser1)[0].tolist()[0] for i in ser2]) # 방법 1
print([pd.Index(ser1).get_loc(i) for i in ser2]) # 방법 2

[5, 4, 0, 8]
[5, 4, 0, 8]


In [17]:
# 17. truth및 pred계열 의 평균 제곱 오차를 계산
truth = pd.Series(range(10))
pred = pd.Series(range(10)) + np.random.random(10)

print(np.mean((truth-pred)**2))

0.554092745595492


In [18]:
# 18. 시리즈에서 각 요소의 첫 번째 문자를 대문자로 변환
ser = pd.Series(['how', 'to', 'kick', 'ass?'])

print(ser.map(lambda x: x.title())) # 방법 1
print(ser.map(lambda x: x[0].upper() + x[1:])) # 방법 2
print(pd.Series([i.title() for i in ser])) # 방법 3
print(ser.str.title()) # 방법 4

0     How
1      To
2    Kick
3    Ass?
dtype: object
0     How
1      To
2    Kick
3    Ass?
dtype: object
0     How
1      To
2    Kick
3    Ass?
dtype: object
0     How
1      To
2    Kick
3    Ass?
dtype: object


In [19]:
# 19. 시리즈에서 각 단어의 글자 수 구하기
ser = pd.Series(['how', 'to', 'kick', 'ass?'])

print(ser.map(lambda x: len(x))) # 방법 1
print(ser.str.len()) # 방법 2

0    3
1    2
2    4
3    4
dtype: int64
0    3
1    2
2    4
3    4
dtype: int64


In [20]:
# 20. 시리즈의 연속 숫자 간의 차이의 차이를 계산
ser = pd.Series([1, 3, 6, 10, 15, 21, 27, 35])

print(ser.diff().tolist())
print(ser.diff().diff().tolist())

[nan, 2.0, 3.0, 4.0, 5.0, 6.0, 6.0, 8.0]
[nan, nan, 1.0, 1.0, 1.0, 1.0, 0.0, 2.0]


In [21]:
# 21. 날짜 문자열을 시계열로 변환
ser = pd.Series(['01 Jan 2010', '02-02-2011', '20120303', '2013/04/04', '2014-05-05', '2015-06-06T12:20'])

from dateutil.parser import parse # 방법 1
print(ser.map(lambda x: parse(x)))

print(pd.to_datetime(ser)) # 방법 2

0   2010-01-01 00:00:00
1   2011-02-02 00:00:00
2   2012-03-03 00:00:00
3   2013-04-04 00:00:00
4   2014-05-05 00:00:00
5   2015-06-06 12:20:00
dtype: datetime64[ns]
0   2010-01-01 00:00:00
1   2011-02-02 00:00:00
2   2012-03-03 00:00:00
3   2013-04-04 00:00:00
4   2014-05-05 00:00:00
5   2015-06-06 12:20:00
dtype: datetime64[ns]


In [22]:
# 22. 날짜 문자열에서 요일, 주, 일을 구하기
ser = pd.Series(['01 Jan 2010', '02-02-2011', '20120303', '2013/04/04', '2014-05-05', '2015-06-06T12:20'])

from dateutil.parser import parse
ser_ts = ser.map(lambda x: parse(x))

print("Date: ", ser_ts.dt.day.tolist())
print("Week number: ", ser_ts.dt.isocalendar().week.tolist())
print("Day number of year: ", ser_ts.dt.dayofyear.tolist())
print("Day of week: ", ser_ts.dt.day_name().tolist())

Date:  [1, 2, 3, 4, 5, 6]
Week number:  [53, 5, 9, 14, 19, 23]
Day number of year:  [1, 33, 63, 94, 125, 157]
Day of week:  ['Friday', 'Wednesday', 'Saturday', 'Thursday', 'Monday', 'Saturday']


In [23]:
# 23. "월 년" 문자열을 해당 월의 4일에 해당하는 날짜로 변환
ser = pd.Series(['Jan 2010', 'Feb 2011', 'Mar 2012'])

from dateutil.parser import parse
# Parse the date
ser_ts = ser.map(lambda x: parse(x)) # 방법 1
ser_datestr = ser_ts.dt.year.astype('str') + '-' + ser_ts.dt.month.astype('str') + '-' + '04'
print([parse(i).strftime('%Y-%m-%d') for i in ser_datestr])

print(ser.map(lambda x: parse('04 ' + x))) # 방법 2
print(pd.to_datetime(ser) + pd.DateOffset(days=3)) # 방법 3

['2010-01-04', '2011-02-04', '2012-03-04']
0   2010-01-04
1   2011-02-04
2   2012-03-04
dtype: datetime64[ns]
0   2010-01-04
1   2011-02-04
2   2012-03-04
dtype: datetime64[ns]


In [24]:
# 24. 시리즈에서 2개 이상의 모음이 포함된 단어를 필터링
ser = pd.Series(['Apple', 'Orange', 'Plan', 'Python', 'Money'])

from collections import Counter
mask = ser.map(lambda x: sum([Counter(x.lower()).get(i, 0) for i in list('aeiou')]) >= 2)
print(ser[mask]) # 방법 1
print(ser.loc[ser.str.lower().map(lambda x: len(set(x).intersection(set('aeiou'))))>1]) # 방법 2

0     Apple
1    Orange
4     Money
dtype: object
0     Apple
1    Orange
4     Money
dtype: object


In [25]:
# 25. 시리즈에서 유효한 이메일을 필터링
emails = pd.Series(['buying books at amazom.com', 'rameses@egypt.com', 'matt@t.co', 'narendra@modi.com'])

import re # 방법 1 (정규식)
pattern ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'
mask = emails.map(lambda x: bool(re.match(pattern, x)))
print(emails[mask])
print(emails.str.findall(pattern, flags=re.IGNORECASE)) # 방법 2
print([x[0] for x in [re.findall(pattern, email) for email in emails] if len(x) > 0]) # 방법 3
print(pd.Series(emails.reindex(emails).filter(regex=pattern).index)) # 방법 4

1    rameses@egypt.com
2            matt@t.co
3    narendra@modi.com
dtype: object
0                     []
1    [rameses@egypt.com]
2            [matt@t.co]
3    [narendra@modi.com]
dtype: object
['rameses@egypt.com', 'matt@t.co', 'narendra@modi.com']
0    rameses@egypt.com
1            matt@t.co
2    narendra@modi.com
dtype: object


In [26]:
# 26. 다른 시리즈로 그룹화된 시리즈의 평균을 구하기
fruit = pd.Series(np.random.choice(['apple', 'banana', 'carrot'], 10))
weights = pd.Series(np.linspace(1, 10, 10))

print(weights.groupby(fruit).mean())

apple     6.000000
banana    3.000000
carrot    6.333333
dtype: float64


In [27]:
# 27. 두 계열 사이의 유클리드 거리를 계산
p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])

print(sum((p - q)**2)**.5) # 방법 1
print(np.linalg.norm(p-q)) # 방법 2

18.16590212458495
18.16590212458495


In [28]:
# 28. 숫자 계열에서 모든 최대값 찾기
ser = pd.Series([2, 10, 3, 4, 9, 10, 2, 7, 3])

dd = np.diff(np.sign(np.diff(ser)))
peak_locs = np.where(dd == -2)[0] + 1
print(peak_locs)

[1 5 7]


In [29]:
# 29. 문자열에서 누락된 공백을 빈도가 가장 낮은 문자로 대체
ser = pd.Series(list('dbc deb abed gade'))
freq = ser.value_counts()
print(freq, '\n')

least_freq = freq.dropna().index[-1]
print("".join(ser.replace(' ', least_freq)))

d    4
b    3
     3
e    3
a    2
c    1
g    1
dtype: int64 

dbcgdebgabedggade


In [30]:
# 30. '2000-01-01'부터 시작하여 10개의 주말(토요일)에 임의의 숫자를 값으로 갖는 TimeSeries를 만들기
ser = pd.Series(np.random.randint(1,10,10), pd.date_range('2000-01-01', periods=10, freq='W-SAT'))
print(ser)

2000-01-01    4
2000-01-08    9
2000-01-15    5
2000-01-22    3
2000-01-29    3
2000-02-05    7
2000-02-12    1
2000-02-19    7
2000-02-26    8
2000-03-04    8
Freq: W-SAT, dtype: int64


In [31]:
# 31. 모든 누락된 날짜가 이전의 누락되지 않은 날짜 값으로 표시되도록 간헐적 시계열을 채우기
ser = pd.Series([1,10,3, np.nan], index=pd.to_datetime(['2000-01-01', '2000-01-03', '2000-01-06', '2000-01-08']))
print(ser, '\n')

print(ser.resample('D').ffill(), '\n')  # 이전값으로 채우기

print(ser.resample('D').bfill(), '\n')  # 다음값으로채우기
print(ser.resample('D').bfill().ffill(), '\n')  # 다음이 없으면 이전으로 채우기


2000-01-01     1.0
2000-01-03    10.0
2000-01-06     3.0
2000-01-08     NaN
dtype: float64 

2000-01-01     1.0
2000-01-02     1.0
2000-01-03    10.0
2000-01-04    10.0
2000-01-05    10.0
2000-01-06     3.0
2000-01-07     3.0
2000-01-08     NaN
Freq: D, dtype: float64 

2000-01-01     1.0
2000-01-02    10.0
2000-01-03    10.0
2000-01-04     3.0
2000-01-05     3.0
2000-01-06     3.0
2000-01-07     NaN
2000-01-08     NaN
Freq: D, dtype: float64 

2000-01-01     1.0
2000-01-02    10.0
2000-01-03    10.0
2000-01-04     3.0
2000-01-05     3.0
2000-01-06     3.0
2000-01-07     3.0
2000-01-08     3.0
Freq: D, dtype: float64 



In [32]:
# 32. 숫자 계열의 자기 상관을 계산
ser = pd.Series(np.arange(20) + np.random.normal(1, 10, 20))

autocorrelations = [ser.autocorr(i).round(2) for i in range(11)]
print(autocorrelations[1:])
print('Lag having highest correlation: ', np.argmax(np.abs(autocorrelations[1:]))+1)

[0.43, 0.34, -0.05, -0.07, -0.26, -0.11, -0.32, -0.2, -0.63, -0.31]
Lag having highest correlation:  9


In [33]:
# 33. csv 파일에서 모든 n번째 행만 가져와서 데이터 프레임을 만들기
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', chunksize=50)
df2 = pd.DataFrame()
for chunk in df:
    df2 = df2.append(chunk.iloc[0,:])
print("방법 1 :", df2.head())

df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', chunksize=50)
df2 = pd.concat([chunk.iloc[0] for chunk in df], axis=1)
df2 = df2.transpose()
print("방법 2 :", df2.head())

"""
import csv # 디렉토리 파일 사용
with open('BostonHousing.csv', 'r') as f:
    reader = csv.reader(f)
    out = []
    for i, row in enumerate(reader):
        if i%50 == 0:
            out.append(row)

df2 = pd.DataFrame(out[1:], columns=out[0])
print("방법 3 :", df2.head())
"""

방법 1 :         crim    zn  indus  chas    nox     rm   age     dis  rad    tax  \
0    0.00632  18.0   2.31   0.0  0.538  6.575  65.2  4.0900  1.0  296.0   
50   0.08873  21.0   5.64   0.0  0.439  5.963  45.7  6.8147  4.0  243.0   
100  0.14866   0.0   8.56   0.0  0.520  6.727  79.9  2.7778  5.0  384.0   
150  1.65660   0.0  19.58   0.0  0.871  6.122  97.3  1.6180  5.0  403.0   
200  0.01778  95.0   1.47   0.0  0.403  7.135  13.9  7.6534  3.0  402.0   

     ptratio       b  lstat  medv  
0       15.3  396.90   4.98  24.0  
50      16.8  395.56  13.45  19.7  
100     20.9  394.76   9.42  27.5  
150     14.7  372.80  14.10  21.5  
200     17.0  384.30   4.45  32.9  
방법 2 :         crim    zn  indus  chas    nox     rm   age     dis  rad    tax  \
0    0.00632  18.0   2.31   0.0  0.538  6.575  65.2  4.0900  1.0  296.0   
50   0.08873  21.0   5.64   0.0  0.439  5.963  45.7  6.8147  4.0  243.0   
100  0.14866   0.0   8.56   0.0  0.520  6.727  79.9  2.7778  5.0  384.0   
150  1.65660   0.0 

'\nimport csv # 디렉토리 파일 사용\nwith open(\'BostonHousing.csv\', \'r\') as f:\n    reader = csv.reader(f)\n    out = []\n    for i, row in enumerate(reader):\n        if i%50 == 0:\n            out.append(row)\n\ndf2 = pd.DataFrame(out[1:], columns=out[0])\nprint("방법 3 :", df2.head())\n'

In [34]:
# 34. csv를 데이터 프레임으로 가져올 때 열 값을 변경
# 'medv'열 값이 < 25가 'Low'가 되고 > 25가 'High'이 되도록 열을 변경
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', 
                 converters={'medv': lambda x: 'High' if float(x) > 25 else 'Low'})
print(df)

        crim    zn  indus  chas    nox     rm   age     dis  rad  tax  \
0    0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296   
1    0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242   
2    0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242   
3    0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222   
4    0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222   
..       ...   ...    ...   ...    ...    ...   ...     ...  ...  ...   
501  0.06263   0.0  11.93     0  0.573  6.593  69.1  2.4786    1  273   
502  0.04527   0.0  11.93     0  0.573  6.120  76.7  2.2875    1  273   
503  0.06076   0.0  11.93     0  0.573  6.976  91.0  2.1675    1  273   
504  0.10959   0.0  11.93     0  0.573  6.794  89.3  2.3889    1  273   
505  0.04741   0.0  11.93     0  0.573  6.030  80.8  2.5050    1  273   

     ptratio       b  lstat  medv  
0       15.3  396.90   4.98   Low  
1       17.8  396.90   9.14   Low  
2       17.8  3

In [35]:
# 35. 주어진 시리즈에서 스트라이드로 행이 있는 데이터 프레임에서 스트라이드를 생성
# 길이가 4이고 strides가 2
L = pd.Series(range(15))

def gen_strides(a, stride_len=5, window_len=5):
    n_strides = ((a.size-window_len)//stride_len) + 1
    return np.array([a[s:(s+window_len)] for s in np.arange(0, a.size, stride_len)[:n_strides]])

gen_strides(L, stride_len=2, window_len=4)

array([[ 0,  1,  2,  3],
       [ 2,  3,  4,  5],
       [ 4,  5,  6,  7],
       [ 6,  7,  8,  9],
       [ 8,  9, 10, 11],
       [10, 11, 12, 13]])

In [36]:
# 36. csv 파일에서 지정된 열만 가져오기
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv',
                 usecols=['crim', 'medv'])
print(df.head())

      crim  medv
0  0.00632  24.0
1  0.02731  21.6
2  0.02729  34.7
3  0.03237  33.4
4  0.06905  36.2


In [None]:
# 37. 데이터 프레임의 각 열에 대한 n 행, n 열, 데이터 유형, 요약 통계를 얻기
# Cars93 데이터 세트 의 각 열에 대한 행, 열, 데이터 유형 및 요약 통계의 수를 가져 옵니다. 
# 또한 데이터 프레임에 해당하는 NumPy 배열 및 목록을 가져옵니다.
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

# 행, 열의 수
print(df.shape)

# 데이터 타입
print(df.dtypes)

# 데이터 타입 별 열의 개수
print(df.dtypes.value_counts())

# 통계 정리
df_stats = df.describe()

# NumPy 배열
df_arr = df.values

# 리스트
df_list = df.values.tolist()
print(df_list)

In [None]:
# 38. 주어진 기준으로 특정 셀의 행과 열 번호를 추출
# Price 열에 가장 높은 값을 가진 셀의 행과 열 번호
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

# 가장 큰 Price를 갖고있는 Manufacturer
df.loc[df.Price == np.max(df.Price), ['Manufacturer', 'Model', 'Type']]

# 행렬 번호
row, col = np.where(df.values == np.max(df.Price))

# 값 가져오기
df.iat[row[0], col[0]]
df.iloc[row[0], col[0]]

# Alternates
df.at[row[0], 'Price']
df._get_value(row[0], 'Price')

In [None]:
# 39. 데이터 프레임에서 특정 열의 이름을 바꾸기
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

df=df.rename(columns = {'Type':'CarType'})
# or
# df.columns.values[2] = "CarType"

df.columns = df.columns.map(lambda x: x.replace('.', '_'))
print(df.columns)

In [None]:
# 40. 데이터 프레임에 누락된 값이 있는지 확인
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

print(df.isnull().values.any())

In [None]:
# 41. 결측값의 최대 개수가 있는 열 찾기
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

print(df.isnull().sum().idxmax())

In [None]:
# 42. 여러 열의 누락된 값을 평균으로 대체
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

df_out = df[['Min.Price', 'Max.Price']] = df[['Min.Price', 'Max.Price']].apply(lambda x: x.fillna(x.mean()))
print(df_out.head())

In [None]:
# 43. 글로벌 변수를 추가 인수로 사용하는 기존 열에 적용 함수를 사용
# df에서 apply method를 사용하여 Min.Price의 결측값을 열의 평균으로, Max.Price의 결측값을 열의 중앙값으로 바꿉니다.
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

d = {'Min.Price': np.nanmean, 'Max.Price': np.nanmedian}
df_out = df[['Min.Price', 'Max.Price']] = df[['Min.Price', 'Max.Price']].apply(lambda x, d: x.fillna(d[x.name](x)), args=(d, ))
print(df_out.head())

In [None]:
# 44. 데이터 프레임의 특정 열을 시리즈 대신 데이터 프레임으로 선택
# 시리즈가 아닌 데이터 프레임으로 첫 번째 열(a)을 가져오기
df = pd.DataFrame(np.arange(20).reshape(-1, 5), columns=list('abcde'))

print(df[['a']])
# print(df.loc[:, ['a']])
# print(df.iloc[:, [0]])

print(df.a)
# print(df['a'])
# print(df.loc[:, 'a'])
# print(df.iloc[:, 1])

In [None]:
# 45. 데이터 프레임의 열 순서를 변경
# a 열과 c 열 교환
# 열을 e 부터 a 순(역순)으로 정렬
df = pd.DataFrame(np.arange(20).reshape(-1, 5), columns=list('abcde'))

print(df[list('cbade')]) # 방법 1 하드코딩

def switch_columns(df, col1=None, col2=None):
    colnames = df.columns.tolist()
    i1, i2 = colnames.index(col1), colnames.index(col2)
    colnames[i2], colnames[i1] = colnames[i1], colnames[i2]
    return df[colnames]

df1 = switch_columns(df, 'a', 'c') # 방법 2 함수 사용
print(df1)

df = pd.DataFrame(np.arange(20).reshape(-1, 5), columns=list('abcde'))
# 역순 정렬
print(df[sorted(df.columns, reverse=True)]) # 방법 1

df.sort_index(axis=1, ascending=False, inplace=True) # 방법 2
print(df)

In [None]:
# 46. ​​출력에 표시되는 행과 열의 수를 설정
# 최대 10개의 행과 10개의 열을 표시
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

pd.set_option('display.max_columns', 10)
pd.set_option('display.max_rows', 10)
print(df)

In [None]:
# 47. 데이터 프레임에서 과학적 표기법 형식 지정 또는 억제
# 'e-03'과 같은 과학적 표기법을 억제하고 소수점 이하 4자리까지 표시
df = pd.DataFrame(np.random.random(4)**10, columns=['random'])

print(df.round(4)) # 방법 1 : 반올림
pd.options.display.float_format = None

print(df.apply(lambda x: '%.4f' % x, axis=1)) # 방법 2 format 지정
# or
# df.applymap(lambda x: '%.4f' % x)
pd.options.display.float_format = None

pd.set_option('display.float_format', lambda x: '%.4f' % x) # 방법 3 set_option 사용
print(df)
pd.options.display.float_format = None

pd.options.display.float_format = '{:.4f}'.format # 방법 4 float_format 사용
print(df)

pd.options.display.float_format = None # float formatting 초기화

In [None]:
# 48. 데이터 프레임의 모든 값을 백분율로 표시
# 'random'열 값을 백분율로 형식화
df = pd.DataFrame(np.random.random(4), columns=['random'])

# Solution
out = df.style.format({
    'random': '{0:.2%}'.format,
})
out

In [None]:
# 49. 데이터 프레임에서 모든 n번째 행을 필터링
# 'Manufacturer''Model''Type' 열의 첫번째 부터 매 20번째 마다 표시
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

print(df.iloc[::20, :][['Manufacturer', 'Model', 'Type']])

In [None]:
# 50. 관련 컬럼을 결합하여 기본 키 인덱스를 생성
# 'Manufacturer''Model''Type' 열의 NaN 값을 'missing'으로 바꾸기
# 다음 이 세 열의 조합으로 인덱스를 만들고 인덱스가 기본 키인지 확인합니다.
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv', usecols=[0,1,2,3,5])

df[['Manufacturer', 'Model', 'Type']] = df[['Manufacturer', 'Model', 'Type']].fillna('missing')
df.index = df.Manufacturer + '_' + df.Model + '_' + df.Type
print(df.index.is_unique)

In [None]:
# 51. 열에서 n번째로 큰 값의 행 번호를 얻기
# 'a' 열에서 다섯 번째로 큰 값의 행 위치를 찾기
df = pd.DataFrame(np.random.randint(1, 30, 30).reshape(10,-1), columns=list('abc'))
print(df, '\n')
n = 5
print(df['a'].argsort()[::-1][n])

In [None]:
# 52. 주어진 값보다 큰 n번째로 큰 값의 위치를 ​​찾기
ser = pd.Series(np.random.randint(1, 100, 15))

print('ser: ', ser.tolist(), 'mean: ', round(ser.mean()))
print(ser.loc[ser > ser.mean()].index[1])

In [None]:
# 53. 행 합이 100보다 큰 데이터 프레임의 마지막 n 행
# 행 합이 100보다 큰 마지막 두 행
df = pd.DataFrame(np.random.randint(10, 40, 60).reshape(-1, 4))

rowsums = df.apply(np.sum, axis=1)
last_two_rows = df.iloc[np.where(rowsums > 100)[0][-2:], :]
print(last_two_rows)

In [None]:
# 54. 시리즈 또는 데이터 프레임 열에서 이상값을 찾고 제한하는 방법
# 하위 5%ile 및 95%ile보다 큰 모든 값을 각각의 5번째 및 95번째 %ile 값으로 바꾸기

ser = pd.Series(np.logspace(-2, 2, 30))

# Solution
def cap_outliers(ser, low_perc, high_perc):
    low, high = ser.quantile([low_perc, high_perc])
    print(low_perc, '%ile: ', low, '|', high_perc, '%ile: ', high)
    ser[ser < low] = low
    ser[ser > high] = high
    return(ser)

capped_ser = cap_outliers(ser, .05, .95)
print(capped_ser)

In [None]:
# 55. 음수 값을 제거한 후 데이터 프레임을 가능한 가장 큰 제곱으로 변경
df = pd.DataFrame(np.random.randint(-20, 50, 100).reshape(10,-1))
print(df)

arr = df[df > 0].values.flatten() # 음수 제거
arr_qualified = arr[~np.isnan(arr)]

n = int(np.floor(arr_qualified.shape[0]**.5)) # 가장 큰 제곱 값 찾기

top_indexes = np.argsort(arr_qualified)[::-1] # 위치를 변경하지 않고 상위 n^2 항목 가져오기
output = np.take(arr_qualified, sorted(top_indexes[:n**2])).reshape(n, -1) 
print(output)

In [None]:
# 56. 데이터 프레임의 두 행을 교환
# 1, 2행 교환
df = pd.DataFrame(np.arange(25).reshape(5, -1))

def swap_rows(df, i1, i2):
    a, b = df.iloc[i1, :].copy(), df.iloc[i2, :].copy()
    df.iloc[i1, :], df.iloc[i2, :] = b, a
    return df

print(df, '\n')
print(swap_rows(df, 1, 2))

In [None]:
# 57. 데이터 프레임의 행을 뒤집기
df = pd.DataFrame(np.arange(25).reshape(5, -1))
print(df, '\n')
print(df.iloc[::-1, :], '\n') # 방법 1
print(df.loc[df.index[::-1], :]) # 방법 2

In [None]:
# 58. 범주형 변수(더미 변수)의 원-핫 인코딩을 만들기
# 데이터 프레임의 'a'열에 대한 원-핫 인코딩을 가져와 df에 열로 추가
df = pd.DataFrame(np.arange(25).reshape(5,-1), columns=list('abcde'))
print(df, '\n')
df_onehot = pd.concat([pd.get_dummies(df['a']), df[list('bcde')]], axis=1)
print(df_onehot)

In [None]:
# 59. 다음 중 행별 최대값이 가장 많이 포함된 열
# 행 최대값이 가장 많은 열 이름을 가져오기
df = pd.DataFrame(np.random.randint(1,100, 40).reshape(10, -1))
print('Column with highest row maxes: ', df.apply(np.argmax, axis=1).value_counts().index[0])

In [None]:
# 60. 유클리드 거리로 가장 가까운 열의 행 번호를 포함하는 새 열을 만들기
df = pd.DataFrame(np.random.randint(1,100, 40).reshape(10, -1), columns=list('pqrs'), index=list('abcdefghij'))
print(df, '\n')
import numpy as np

nearest_rows = []
nearest_distance = []

for i, row in df.iterrows():
    curr = row
    rest = df.drop(i)
    e_dists = {}  # init dict to store euclidean dists for current row.
    # iterate rest of rows for current row
    for j, contestant in rest.iterrows():
        # compute euclidean dist and update e_dists
        e_dists.update({j: round(np.linalg.norm(curr.values - contestant.values))})
    # update nearest row to current row and the distance value
    nearest_rows.append(max(e_dists, key=e_dists.get))
    nearest_distance.append(max(e_dists.values()))

df['nearest_row'] = nearest_rows
df['dist'] = nearest_distance
print(df)

In [None]:
# 61. 다른 열에 대한 각 열의 가능한 최대 상관 값
df = pd.DataFrame(np.random.randint(1,100, 80).reshape(8, -1), columns=list('pqrstuvwxy'), index=list('abcdefgh'))

abs_corrmat = np.abs(df.corr())
max_corr = abs_corrmat.apply(lambda x: sorted(x)[-2])
print('Maximum Correlation possible for each column: ', np.round(max_corr.tolist(), 2))

In [None]:
# 62. 각 행의 최소값과 최대값을 포함하는 열을 만들기
df = pd.DataFrame(np.random.randint(1,100, 80).reshape(8, -1))

print(df.apply(lambda x: np.min(x)/np.max(x), axis=1)) # 방법 1
print(np.min(df, axis=1)/np.max(df, axis=1)) # 방법 2

In [None]:
# 63. 각 행에 끝에서 두 번째 값을 포함하는 열을 만들기
df = pd.DataFrame(np.random.randint(1,100, 80).reshape(8, -1))

out = df.apply(lambda x: x.sort_values().unique()[-2], axis=1)
df['penultimate'] = out
print(df)

In [None]:
# 64. 데이터 프레임의 모든 열을 정규화
# 열 평균을 빼고 표준 편차로 나누어 df 모든 열을 정규화
# 각 열의 최소값이 0이고 최대값이 1이 되도록 df의 모든 열 범위를 지정
df = pd.DataFrame(np.random.randint(1,100, 80).reshape(8, -1))

print(df.apply(lambda x: ((x - x.mean())/x.std()).round(2))) # 방법 1
print(df.apply(lambda x: ((x.max() - x)/(x.max() - x.min())).round(2))) # 방법 2

In [None]:
# 65. 각 행과 이어지는 행의 상관 관계를 계산
df = pd.DataFrame(np.random.randint(1,100, 80).reshape(8, -1))

print([df.iloc[i].corr(df.iloc[i+1]).round(2) for i in range(df.shape[0])[:-1]])

In [None]:
# 66. 데이터 프레임의 대각선을 모두 0으로 바꾸기
df = pd.DataFrame(np.random.randint(1,100, 100).reshape(10, -1))
for i in range(df.shape[0]):
    df.iat[i, i] = 0
    df.iat[df.shape[0]-i-1, i] = 0
print(df)

In [None]:
# 67. groupby 데이터 프레임의 특정 그룹을 키로 얻기
df = pd.DataFrame({'col1': ['apple', 'banana', 'orange'] * 3,
                   'col2': np.random.rand(9),
                   'col3': np.random.randint(0, 15, 9)})
df_grouped = df.groupby(['col1'])
print(df_grouped.get_group('apple')) # 방법 1

for i, dff in df_grouped:
    if i == 'apple':
        print(dff) # 방법 2

In [None]:
# 68. 다른 열로 그룹화할 때 열의 n번째 가장 큰 값을 얻기
# 'taste'.'banana'에서 두 번째로 큰 값을 찾기
df = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,
                   'taste': np.random.rand(9),
                   'price': np.random.randint(0, 15, 9)})
print(df, '\n')

df_grpd = df['taste'].groupby(df.fruit)
df_grpd.get_group('banana').sort_values().iloc[-2]
print(df_grpd.get_group('banana').sort_values().iloc[-2])

In [None]:
# 69. 데이터 프레임에서 그룹화된 평균을 계산하고 그룹화된 열을 인덱스가 아닌 다른 열로 유지
# 모든 "fruit"의 평균 "price" 계산, 인덱스 대신 다른 열로 "fruit"을 유지
df = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,
                   'rating': np.random.rand(9),
                   'price': np.random.randint(0, 15, 9)})

out = df.groupby('fruit', as_index=False)['price'].mean()
print(out)

In [None]:
# 70. 두 데이터 프레임을 2열로 결합하여 공통 행만 갖도록 하기
df1 = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,
                    'weight': ['high', 'medium', 'low'] * 3,
                    'price': np.random.randint(0, 15, 9)})

df2 = pd.DataFrame({'pazham': ['apple', 'orange', 'pine'] * 2,
                    'kilo': ['high', 'low'] * 3,
                    'price': np.random.randint(0, 15, 6)})

pd.merge(df1, df2, how='inner', left_on=['fruit', 'weight'], right_on=['pazham', 'kilo'], suffixes=['_left', '_right'])

In [None]:
# 71. 다른 데이터 프레임에 있는 데이터 프레임 행을 제거
df1 = pd.DataFrame({'fruit': ['apple', 'orange', 'banana'] * 3,
                    'weight': ['high', 'medium', 'low'] * 3,
                    'price': np.arange(9)})

df2 = pd.DataFrame({'fruit': ['apple', 'orange', 'pine'] * 2,
                    'weight': ['high', 'medium'] * 3,
                    'price': np.arange(6)})
print(df1, '\n')
print(df2, '\n')
print(df1[~df1.isin(df2).all(1)])

In [None]:
# 72. 두 열의 값이 일치하는 위치를 얻기
df = pd.DataFrame({'fruit1': np.random.choice(['apple', 'orange', 'banana'], 10),
                    'fruit2': np.random.choice(['apple', 'orange', 'banana'], 10)})
print(df, '\n')
np.where(df.fruit1 == df.fruit2)

In [None]:
# 74. 열의 lag 및 lead를 만들기
# 두 개의 새 열을 만들기 
# 하나는 'a' 열의 lag1(열 a를 1행씩 아래로 이동)이고 
# 다른 하나는 리드1(열 b를 1행만큼 이동)입니다.
df = pd.DataFrame(np.random.randint(1, 100, 20).reshape(-1, 4), columns = list('abcd'))

df['a_lag1'] = df['a'].shift(1)
df['b_lead1'] = df['b'].shift(-1)
print(df)

In [None]:
# 74. 전체 데이터 프레임에서 고유 값의 개수
df = pd.DataFrame(np.random.randint(1, 10, 20).reshape(-1, 4), columns = list('abcd'))

pd.value_counts(df.values.ravel())

In [None]:
# 75. 텍스트 열을 두 개의 열로 분할
df = pd.DataFrame(["STD, City    State",
"33, Kolkata    West Bengal",
"44, Chennai    Tamil Nadu",
"40, Hyderabad    Telengana",
"80, Bangalore    Karnataka"], columns=['row'])

df_out = df.row.str.split(',|\t', expand=True)

new_header = df_out.iloc[0]
df_out = df_out[1:]
df_out.columns = new_header
print(df_out)