## 데이터 탐색

- 데이터프레임에서 수치형 변수 컬럼명만 뽑기 : df.select_dtypes(exclude=object).columns
- 데이터프레임에서 범주형 변수 컬럼명만 뽑기 : df.select_dtypes(include=object).columns
- 특정 수치형 컬럼의 4분위 범위(IQR) 구하기: df['column'].quantile(0.75) - df['column'].quantile(0.25)
- 특정 컬럼의 유일값 개수 출력: df['column'].nunique()

In [33]:
import pandas as pd

url = 'https://raw.githubusercontent.com/Datamanim/pandas/main/Jeju.csv'
df = pd.read_csv(url, encoding='euc-kr')

print('데이터프레임에서 수치형 변수명만 출력')
df.select_dtypes(exclude=object).head(3)

데이터프레임에서 수치형 변수명만 출력


Unnamed: 0,id,거주인구,근무인구,방문인구,총 유동인구,평균 속도,평균 소요 시간,평균 기온,일강수량,평균 풍속
0,22448,32249.987,3418.266,102709.092,138377.345,39.556,29.167,5.0,0.0,2.5
1,22449,213500.997,10341.172,112692.789,336534.958,32.9,30.9,5.0,0.0,2.5
2,22450,1212382.218,96920.834,541194.481,1850497.533,29.538,35.692,2.9,0.0,2.4


In [32]:
print('데이터프레임에서 범주형 변수명만 출력')
df.select_dtypes(include=object).columns

데이터프레임에서 범주형 변수명만 출력


Index(['일자', '시도명', '읍면동명'], dtype='object')

In [39]:
print('평균 속도 컬럼의 사분위 범위(IQR):')
df['평균 속도'].quantile(0.75) - df['평균 속도'].quantile(0.25)

평균 속도 컬럼의 사분위 범위(IQR):


14.854999999999997

In [38]:
print('특정 컬럼의 유일값 개수:')
df['읍면동명'].nunique()

특정 컬럼의 유일값 개수:


41

In [40]:
print('특정 컬럼의 유일값 출력')
df['읍면동명'].unique()

특정 컬럼의 유일값 출력


array(['도두동', '외도동', '이도2동', '일도1동', '대천동', '서홍동', '한경면', '송산동', '조천읍',
       '일도2동', '영천동', '예래동', '대륜동', '삼도1동', '이호동', '건입동', '중앙동', '삼양동',
       '삼도2동', '이도1동', '남원읍', '대정읍', '정방동', '효돈동', '아라동', '한림읍', '구좌읍',
       '용담1동', '오라동', '화북동', '연동', '표선면', '중문동', '성산읍', '안덕면', '천지동',
       '노형동', '동홍동', '용담2동', '봉개동', '애월읍'], dtype=object)

## 데이터프레임 필터링, 정렬

- 필터링한 데이터의 인덱스를 새로 부여하기: df[필터링].reset_index(drop=True) drop=True는 기존 인덱스 삭제
- 데이터프레임 컬럼 형변환: df['column'].astype('자료형')
- 특정 컬럼을 기준으로 오름차순 정렬: df.sort_values('column')
- 특정 컬럼의 문자열 중 특정 문자(열)을 포함하는 행만 출력: df[df['column'].str.contains('string')]
- 짝수번째 컬럼만 출력: df.iloc[:, ::2]
- 데이터프레임에서 특정 컬럼을 기준으로 중복값을 없애되 마지막 값을 남김: df.drop_duplicates('column', keep='last')

In [42]:
url = 'https://raw.githubusercontent.com/Datamanim/pandas/main/chipo.csv'
df = pd.read_csv(url)

In [78]:
print('필터링한 데이터프레임의 인덱스 새로 부여')
df.loc[df['quantity'] == 3].reset_index(drop=True).head(3)

필터링한 데이터프레임의 인덱스 새로 부여


Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,new_price
0,178,3,Chicken Bowl,"[[Fresh Tomato Salsa (Mild), Tomatillo-Green C...",$32.94,32.94
1,193,3,Bowl,"[Braised Carnitas, Pinto Beans, [Sour Cream, C...",$22.20,22.2
2,284,3,Canned Soft Drink,[Diet Coke],$3.75,3.75


In [61]:
print('데이터프레임 컬럼 자료형 변환')
df['new_price'] = df['item_price'].str[1:].astype('float')
df.head(3)

데이터프레임 컬럼 자료형 변환


Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,new_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39,2.39
1,1,1,Izze,[Clementine],$3.39,3.39
2,1,1,Nantucket Nectar,[Apple],$3.39,3.39


In [70]:
print('특정 컬럼을 기준으로 오름차순 정렬 후 인덱스 재설정')
df.sort_values(by='new_price').reset_index(drop=True).head(3)

특정 컬럼을 기준으로 오름차순 정렬 후 인덱스 재설정


Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,new_price
0,471,1,Bottled Water,,$1.09,1.09
1,338,1,Canned Soda,[Coca Cola],$1.09,1.09
2,1575,1,Canned Soda,[Dr. Pepper],$1.09,1.09


In [80]:
print('특정 컬럼의 문자열 중 특정 문자(열)을 포함한 행만 출력')
df.loc[df['item_name'].str.contains('Chips')].head(3)

특정 컬럼의 문자열 중 특정 문자(열)을 포함한 행만 출력


Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,new_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39,2.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39,2.39
6,3,1,Side of Chips,,$1.69,1.69


In [93]:
print('짝수번째 컬럼만 출력')
df.iloc[:, ::2].head(3)

짝수번째 컬럼만 출력


Unnamed: 0,order_id,item_name,item_price
0,1,Chips and Fresh Tomato Salsa,$2.39
1,1,Izze,$3.39
2,1,Nantucket Nectar,$3.39


In [100]:
print('데이터프레임에서 특정 컬럼을 기준으로 중복값을 없애되 마지막 값을 남김')
ans = df.loc[(df['item_name'] == 'Steak Salad') | (df['item_name'] == 'Bowl')]
ans.drop_duplicates('item_name', keep='last')

중복값을 없애되 마지막 값을 남김


Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,new_price
673,279,1,Bowl,"[Adobo-Marinated and Grilled Steak, [Sour Crea...",$7.40,7.4
3502,1406,1,Steak Salad,"[[Lettuce, Fajita Veggies]]",$8.69,8.69


In [113]:
len(df.loc[~df['choice_description'].str.contains('Vegetable')])

3900