# US - Baby Names

### Introduction:

We are going to use a subset of [US Baby Names](https://www.kaggle.com/kaggle/us-baby-names) from Kaggle.  
In the file it will be names from 2004 until 2014


### Step 1. Import the necessary libraries

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


### Step 2. Import the dataset from this [address](https://raw.githubusercontent.com/thieu1995/csv-files/main/data/pandas/US_Baby_Names_right.csv).

### Step 3. Assign it to a variable called baby_names.

In [20]:
url = "https://raw.githubusercontent.com/thieu1995/csv-files/main/data/pandas/US_Baby_Names_right.csv"
baby_names = pd.read_csv(url)
print(baby_names)

         Unnamed: 0       Id     Name  Year Gender State  Count
0             11349    11350     Emma  2004      F    AK     62
1             11350    11351  Madison  2004      F    AK     48
2             11351    11352   Hannah  2004      F    AK     46
3             11352    11353    Grace  2004      F    AK     44
4             11353    11354    Emily  2004      F    AK     41
...             ...      ...      ...   ...    ...   ...    ...
1016390     5647421  5647422     Seth  2014      M    WY      5
1016391     5647422  5647423  Spencer  2014      M    WY      5
1016392     5647423  5647424     Tyce  2014      M    WY      5
1016393     5647424  5647425   Victor  2014      M    WY      5
1016394     5647425  5647426   Waylon  2014      M    WY      5

[1016395 rows x 7 columns]


### Step 4. See the first 10 entries

In [21]:
baby_names.head(10)

Unnamed: 0.1,Unnamed: 0,Id,Name,Year,Gender,State,Count
0,11349,11350,Emma,2004,F,AK,62
1,11350,11351,Madison,2004,F,AK,48
2,11351,11352,Hannah,2004,F,AK,46
3,11352,11353,Grace,2004,F,AK,44
4,11353,11354,Emily,2004,F,AK,41
5,11354,11355,Abigail,2004,F,AK,37
6,11355,11356,Olivia,2004,F,AK,33
7,11356,11357,Isabella,2004,F,AK,30
8,11357,11358,Alyssa,2004,F,AK,29
9,11358,11359,Sophia,2004,F,AK,28


### Step 5. Delete the column 'Unnamed: 0' and 'Id'

In [24]:
baby_names = baby_names.drop(columns=['Unnamed: 0', 'Id'], errors='ignore')
print(baby_names.columns)

Index(['Name', 'Year', 'Gender', 'State', 'Count'], dtype='object')


### Step 6. Is there more male or female names in the dataset?

In [25]:
# Đếm số lượng mỗi giới tính
gender_counts = baby_names['Gender'].value_counts()

# Hiển thị kết quả
print(gender_counts)

# So sánh và in kết quả
if gender_counts['M'] > gender_counts['F']:
    print("Có nhiều tên nam hơn trong dữ liệu.")
else:
    print("Có nhiều tên nữ hơn trong dữ liệu.")


Gender
F    558846
M    457549
Name: count, dtype: int64
Có nhiều tên nữ hơn trong dữ liệu.


### Step 7. Group the dataset by name and assign to names

In [27]:
names = baby_names.groupby('Name')
print(names.size())

Name
Aaban        2
Aadan        4
Aadarsh      1
Aaden      196
Aadhav       1
          ... 
Zyra         7
Zyrah        2
Zyren        1
Zyria       10
Zyriah       9
Length: 17632, dtype: int64


### Step 8. How many different names exist in the dataset?

In [28]:
num_unique_names = baby_names['Name'].nunique()

print(f"Số lượng tên khác nhau trong dataset là: {num_unique_names}")

Số lượng tên khác nhau trong dataset là: 17632


### Step 9. What is the name with most occurrences?

In [29]:
most_common_name = baby_names['Name'].value_counts().idxmax()
most_common_name_count = baby_names['Name'].value_counts().max()

print(f"Tên xuất hiện nhiều nhất là: {most_common_name} với {most_common_name_count} lần.")

Tên xuất hiện nhiều nhất là: Riley với 1112 lần.


### Step 10. How many different names have the least occurrences?

In [30]:
# Đếm số lần xuất hiện của mỗi tên
name_counts = baby_names['Name'].value_counts()

# Tìm số lần xuất hiện ít nhất
min_occurrences = name_counts.min()

# Đếm số lượng tên có số lần xuất hiện ít nhất
num_names_with_least_occurrences = (name_counts == min_occurrences).sum()

print(f"Số lượng tên có số lần xuất hiện ít nhất là: {num_names_with_least_occurrences}")


Số lượng tên có số lần xuất hiện ít nhất là: 3682


### Step 11. What is the median name occurrence?

In [31]:
# Đếm số lần xuất hiện của mỗi tên
name_counts = baby_names['Name'].value_counts()

# Tính giá trị trung vị của số lần xuất hiện
median_occurrence = name_counts.median()

print(f"Trung vị của số lần xuất hiện tên là: {median_occurrence}")



Trung vị của số lần xuất hiện tên là: 8.0


### Step 12. What is the standard deviation of names?

In [32]:
# Đếm số lần xuất hiện của mỗi tên
name_counts = baby_names['Name'].value_counts()

# Tính độ lệch chuẩn của số lần xuất hiện
std_deviation = name_counts.std()

print(f"Độ lệch chuẩn của số lần xuất hiện tên là: {std_deviation}")


Độ lệch chuẩn của số lần xuất hiện tên là: 122.0299635081389


### Step 13. Get a summary with the mean, min, max, std and quartiles.

In [33]:
# Đếm số lần xuất hiện của mỗi tên
name_counts = baby_names['Name'].value_counts()

# Tóm tắt thống kê với mean, min, max, std và quartiles
summary = name_counts.describe()

print("Bản tóm tắt thống kê:\n", summary)


Bản tóm tắt thống kê:
 count    17632.000000
mean        57.644907
std        122.029964
min          1.000000
25%          2.000000
50%          8.000000
75%         39.000000
max       1112.000000
Name: count, dtype: float64
