<a href="https://colab.research.google.com/github/baesunyoung34/Python/blob/main/py19_yob.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 패키지 임포트

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터셋 준비

*  YOB: Year of Birth
*  github: https://github.com/wesm/pydata-book/tree/3rd-edition/datasets/babynames
*  1880년 ~ 2010년까지 연도별로 텍스트(txt) 파일이 저장되어 있음.
*  각 파일에는 '이름,성별,신생아수'가 comma(,)로 구분되어 있음.
*  (주의) 컬럼 이름은 파일에 없음.

In [2]:
file_path = 'https://github.com/wesm/pydata-book/raw/3rd-edition/datasets/babynames/yob1880.txt'

In [3]:
yob1880 = pd.read_csv(file_path)

In [4]:
yob1880.head()

Unnamed: 0,Mary,F,7065
0,Anna,F,2604
1,Emma,F,2003
2,Elizabeth,F,1939
3,Minnie,F,1746
4,Margaret,F,1578


`pd.read_csv()` 함수는 파일의 첫번째 줄을 데이터프레임의 컬럼 이름으로 취급함.

CSV 파일에서 컬럼 이름이 포함되어 있지 않은 경우(파일의 첫번째 줄부터 데이터가 시작되는 경우)에는 컬럼 이름들을 함수 호출할 때 `names` 파라미터에 아규먼트로 전달해야 함.

In [5]:
col_names = ['name', 'gender', 'births']  # 데이터프레임 컬럼 이름 리스트

In [6]:
yob1880 = pd.read_csv(file_path, names=col_names)

In [7]:
yob1880.head()

Unnamed: 0,name,gender,births
0,Mary,F,7065
1,Anna,F,2604
2,Emma,F,2003
3,Elizabeth,F,1939
4,Minnie,F,1746


1880년 ~ 2010년까지 각각의 txt 파일들을 읽어서 만들어진 연도별 데이터프레임들을 저장하는 리스트를 만드세요. (결과) 131개의 데이터프레임을 저장하는 리스트.

각각의 데이터 프레임에는 year 컬럼을 추가하세요.

In [None]:
yobs = []  # 연도별 데이터프레임들을 저장하기 위한 리스트.
for year in range(1880, 2011):  # 1880 ~ 2010년까지 반복:
    # TXT 파일이 저장된 github 주소:
    file_path = f'https://github.com/wesm/pydata-book/raw/3rd-edition/datasets/babynames/yob{year}.txt'

    # github의 TXT 파일을 읽어서 데이터프레임을 생성:
    df = pd.read_csv(file_path, names=col_names)

    # 데이터프레임 year 컬럼을 추가:
    df['year'] = year

    # 데이터프레임을 리스트에 추가:
    yobs.append(df)

데이터프레임 확인

In [None]:
len(yobs)  # 2010 - 1880 + 1 = 131

In [None]:
# 리스트의 첫번째 데이터프레임 - 1880년 자료
yobs[0].head()

In [None]:
yobs[0].tail()

In [None]:
# 리스트에서 가장 마지막 데이터프레임 - 2010년 자료
yobs[-1].head()

In [None]:
yobs[-1].tail()

131개의 데이터프레임들을 1개의 데이터프레임을 합침.

In [None]:
yob_df = pd.concat(yobs, ignore_index=True)
# ignore_index: 기본값 False. True인 경우에는,
# 각 데이터프레임들의 기존 인덱스를 무시하고 재색인(re-indexing)을 함.

In [None]:
yob_df.head()

In [None]:
yob_df.tail()

In [None]:
yob_df.info()

# 연도별 신생아 수, 시각화

In [None]:
births_by_year = yob_df.groupby('year').births.sum()
births_by_year

In [None]:
plt.plot(births_by_year.index, births_by_year.values)

plt.grid()
plt.xlabel('Year')
plt.ylabel('# of birth')

plt.show()

In [None]:
plt.bar(x=births_by_year.index, height=births_by_year.values)
plt.show()

In [None]:
sns.lineplot(x=births_by_year.index, y=births_by_year.values)
plt.grid()
plt.show()

In [None]:
sns.lineplot(data=yob_df, x='year', y='births', estimator='sum', errorbar=None)
plt.grid()
plt.show()

In [None]:
sns.barplot(data=yob_df, x='year', y='births', estimator='sum', errorbar=None)
plt.grid()
plt.show()

# 연도별 성별 신생아 수, 시각화

In [None]:
births_by_year_gender = yob_df.groupby(['year', 'gender']).births.sum()
births_by_year_gender

In [None]:
births_pivot = yob_df.pivot_table(values='births', index='year',
                                  columns='gender', aggfunc='sum')
births_pivot

In [None]:
plt.plot(births_pivot.index, births_pivot.F, label='Female')
plt.plot(births_pivot.index, births_pivot.M, label='Male')

plt.legend()
plt.grid()

plt.show()

In [None]:
df = births_by_year_gender.reset_index()
# reset_index(): Series, DataFrame의 인덱스들을 DataFrame의 컬럼으로 변환
df

In [None]:
df_male = df[df.gender == 'M']
df_female = df[df.gender == 'F']

In [None]:
plt.plot(df_female.year, df_female.births, label='Female')
plt.plot(df_male.year, df_male.births, label='Male')

plt.legend()
plt.grid()

plt.show()

In [None]:
sns.lineplot(data=yob_df, x='year', y='births', hue='gender',
             estimator='sum', errorbar=None)
plt.grid()
plt.show()