In [1]:
# 판다스 라이브러리를 불러오겠습니다. 
import pandas as pd

## 데이터 불러오기

In [2]:
# 현재 쥬피터노트북 파일 위치 아래에 있는 data 폴더의 babyNamesUS.csv 파일 데이터를 불러오겠습니다. 
file = './data/babyNamesUS.csv'
raw = pd.read_csv(file)

In [3]:
# head() 를 이용해 상단의 5개 데이터를 살펴보겠습니다. 
raw.head()

Unnamed: 0,StateCode,Sex,YearOfBirth,Name,Number
0,AK,F,1910,Mary,14
1,AK,F,1910,Annie,12
2,AK,F,1910,Anna,10
3,AK,F,1910,Margaret,8
4,AK,F,1910,Helen,7


In [5]:
# info() 명령을 이용해 데이터 구조를 살펴볼 수 있습니다. 
# 전체 1048574개의 데이터를 가지고 있으며(인덱스에서 확인)
# 컬럼은 총 5개로 각각 인덱스 개수와 동일하게 1048574개의 데이터를 가지고 있습니다. 
raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1048575 entries, 0 to 1048574
Data columns (total 5 columns):
 #   Column       Non-Null Count    Dtype 
---  ------       --------------    ----- 
 0   StateCode    1048575 non-null  object
 1   Sex          1048575 non-null  object
 2   YearOfBirth  1048575 non-null  int64 
 3   Name         1048575 non-null  object
 4   Number       1048575 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 40.0+ MB


## 8. 집계하기(pivot_table)

### pd.pivot_table(index = '컬럼명', columns = '컬럼명', values = '컬럼명', `aggfunc` = 'sum')

`aggfunc` 옵션: sum, count, mean, ...

- 이름 사용 빈도수 집계하기

In [8]:
# state, 성별, 출생연도에 상관없이 이름이 등록된 수를 합하여 정리해보겠습니다. 
# 인덱스는 이름으로, 값은 등록된 수를 모두 더하여 피벗 테이블을 만들겠습니다. 
raw.pivot_table(index = 'Name', values = 'Number', aggfunc='sum')

Unnamed: 0_level_0,Number
Name,Unnamed: 1_level_1
Aadan,18
Aaden,855
Aadhav,14
Aadhya,188
Aadi,116
...,...
Zylah,36
Zyler,38
Zyon,97
Zyra,23


- 이름/성별 사용 빈도수 집계하기

In [13]:
# 앞서 생성한 데이터에서, 성별 구분을 컬럼에 추가하여 피벗 테이블을 만들겠습니다. 
# 인덱스는 이름으로, 값은 등록된 수의 합계, 컬럼은 성별로 구분하여  피벗 테이블을 만들겠습니다. 

name_df = raw.pivot_table(index = 'Name', values = 'Number', columns = 'Sex', aggfunc='sum')
name_df.head()

Sex,F,M
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Aadan,,18.0
Aaden,,855.0
Aadhav,,14.0
Aadhya,188.0,
Aadi,,116.0


In [14]:
# 성별/이름별 데이터는 총 20815개의 이름 데이터가 있으며 
# 여자 이름은 14140개, 남자 이름은 8658 개의 데이터가 있는 것을 확인할 수 있습니다. 
name_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20815 entries, Aadan to Zyrah
Data columns (total 2 columns):
F    14140 non-null float64
M    8658 non-null float64
dtypes: float64(2)
memory usage: 487.9+ KB


## 9. 비어있는 데이터 채워넣기

데이터를 정리하다보면, 비어있는 데이터들이 존재하게 됩니다. 
비어있는 데이터 부분을 어떻게 정리할지에 따라 분석 결과가 달라질 수도 있습니다. 
- 공통된 값을 입력하거나(ex 0)
- 임의의 수를 입력하거나(ex 평균, 최대값, 최소값, 비어있는 자리 주변의 값 등)
- 비어있는 데이터는 분석에서 제외하거나  

여러 방법으로 처리 할 수 있으며, 어떠한 것을 선택할지는 데이터/분석방향 등에 따라 상이합니다. 

In [18]:
# 데이터가 비어있다는 의미는, 해당 이름이 한 번도 사용된 적이 없다는 의미이므로,  숫자 0을 입력하겠습니다. 
name_df = name_df.fillna(0)
name_df.head()

Sex,F,M
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Aadan,0.0,18.0
Aaden,0.0,855.0
Aadhav,0.0,14.0
Aadhya,188.0,0.0
Aadi,0.0,116.0


In [19]:
# info() 를 통해 데이터를 살펴보겠습니다. 
# 여자(F)와 남자(M) 컬럼 각각 20815개의 데이터를 가지며 전체 데이터 셋의 개수(인덱스 개수 20815개)와 동일한 것을 확인할 수 있습니다. 
name_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20815 entries, Aadan to Zyrah
Data columns (total 2 columns):
F    20815 non-null float64
M    20815 non-null float64
dtypes: float64(2)
memory usage: 487.9+ KB


#### Q) 남자/여자 가장 많이 사용되는 이름은?

## 10. 정렬하기

- name_df.`sort_values`(by = '컬럼명', ascending = False)

In [32]:
# 남자이름 사용순위 Top 5
# 여자이름 사용순위 Top 5

In [20]:
# 남자 컬럼을 기준으로 정렬하겠습니다. 
# 작은 값 부터 큰 값, 오름차순으로 정렬되는 것을 확인할 수 있습니다. 
name_df.sort_values(by = 'M')

Sex,F,M
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kasandra,2130.0,0.0
Lillyanna,442.0,0.0
Lillyanne,48.0,0.0
Lillybeth,5.0,0.0
Lilou,5.0,0.0
...,...,...
David,2003.0,615943.0
John,2398.0,670893.0
Robert,2469.0,674934.0
James,3050.0,693271.0


In [21]:
# ascending = False 옵션을 통해 내림차순으로 정렬할 수 있습니다. 
# 남자 컬럼을 기준으로, 내림차순으로 정렬하겠습니다.  

name_df.sort_values(by = 'M',ascending = False)

Sex,F,M
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Michael,4133.0,725757.0
James,3050.0,693271.0
Robert,2469.0,674934.0
John,2398.0,670893.0
David,2003.0,615943.0
...,...,...
Jemimah,5.0,0.0
Jemma,535.0,0.0
Jena,1819.0,0.0
Jenae,510.0,0.0


In [22]:
# 남자 컬럼 기준, 내림차순으로 정렬한 데이터의 상위 5개(head()) 이름(index)을 확인해보겠습니다. 
name_df.sort_values(by = 'M',ascending = False).head().index

Index(['Michael', 'James', 'Robert', 'John', 'David'], dtype='object', name='Name')

In [24]:
# 유사한 방법으로, 여자이름(F)에서 가장 많이 사용된 이름 5개를 확인해보겠습니다. 
name_df.sort_values(by = 'F',ascending = False).head().index

Index(['Mary', 'Jennifer', 'Elizabeth', 'Patricia', 'Linda'], dtype='object', name='Name')

## 11. 컬럼별 데이터 종류 확인하기

- df['컬럼'].`unique()`

- df['컬럼'].`value_counts()`

In [34]:
# StateCode 컬럼에 어떠한 값이 들어있는지 살펴보겠습니다. 
raw['StateCode'].unique()

array(['AK', 'AL', 'AR', 'AZ', 'CA', 'CO', 'CT', 'DC', 'DE', 'FL'],
      dtype=object)

In [35]:
# StateCode 컬럼의 값의 종류별로 몇 번 사용되었는지 확인해보겠습니다. 
raw['StateCode'].value_counts()

CA    361128
AL    128556
AZ    108599
CO    101403
AR     97560
CT     78039
FL     61322
DC     53933
DE     30892
AK     27143
Name: StateCode, dtype: int64

In [37]:
# 연도별 데이터 수를 살펴보겠습니다. 
raw['YearOfBirth'].value_counts()

2007    17166
2008    17109
2009    16914
2014    16820
2006    16810
        ...  
1914     3997
1913     3417
1912     3148
1911     2392
1910     2358
Name: YearOfBirth, Length: 106, dtype: int64