# Фінальний проект курсу GoIT-DA

В Jupiter Notebook - перевіряємо дані для відповіді на питання - чи потрібно їх чистити

## 0. Завантаження даних

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# sns - загально прийнятий псевдонім для seaborn

In [2]:
# параметри виведення
pd.set_option("display.max_columns", 500)  # кількість колонок
pd.set_option("display.max_rows", 1000)  # кількість рядків
pd.set_option("display.max_colwidth", 300)  # ширина колонок
pd.set_option("display.precision", 7)  # кількість знаків після коми

# вимикаємо зайві попередження
import warnings

warnings.filterwarnings("ignore")

# друк всіх результатів в одній комірці а не тільки останнього
from IPython.core.interactiveshell import InteractiveShell

InteractiveShell.ast_node_interactivity = "all"

In [3]:
# load data
df = pd.read_csv("querry_result_for_exploration.csv", parse_dates=["payment_date"])

In [4]:
# research the shapes
df.shape

(3026, 9)

In [5]:
# find quantity of null-value
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3026 entries, 0 to 3025
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   user_id                 3026 non-null   object        
 1   game_name               3026 non-null   object        
 2   payment_date            3026 non-null   datetime64[ns]
 3   revenue_amount_usd      3026 non-null   float64       
 4   user_id.1               3026 non-null   object        
 5   game_name.1             3026 non-null   object        
 6   language                3026 non-null   object        
 7   has_older_device_model  3026 non-null   bool          
 8   age                     3026 non-null   int64         
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 192.2+ KB


!!! It's no null-value.

In [6]:
# research difference in game's data
df[df["game_name"] != df['game_name.1']]

Unnamed: 0,user_id,game_name,payment_date,revenue_amount_usd,user_id.1,game_name.1,language,has_older_device_model,age


!!! It's no difference.

In [7]:
# research quantity of unique games per user
df2 = df.groupby("user_id")["game_name"].nunique()
df2[df2 >= 2]

Series([], Name: game_name, dtype: int64)

!!! each user_id games in one unique game.
!!! The game_name field in payment table is redundant info.

In [8]:
df2.sum()/df2.count()


1.0

In [9]:
# research date range
df['payment_date'].min()
df["payment_date"].max()

Timestamp('2022-03-01 00:00:00')

Timestamp('2022-12-31 00:00:00')

!!! The date range is ten month into same year.

In [10]:
# control number of unique users
df['user_id'].nunique()

383

In [11]:
# control sum of total revenue
df["revenue_amount_usd"].sum()

63140.67