# __Датасет содержит данные о пингвинах архипелага Палмера (Антарктида).__

Данные были собраны и предоставлены доктором Dr. Kristen Gorman и станцией Палмера, Антарктида. 
Датасет содержит информацию о структурных размерах тела пингвинов и некоторые характеристики среди взрослых самцов и самок пингвинов:
- Адели (Pygoscelis adeliae)

- Субантарктических пингвинов (Pygoscelis papua)

- Антарктических пингвинов (Pygoscelis antarctica).


In [1]:
#импорт необходимых модулей
import pandas as pd
import numpy as np 
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import plotly.graph_objects as go
import plotly.express as px
import plotly.subplots as sp
import plotly.figure_factory as ff

from itertools import cycle
import re
import warnings
warnings.filterwarnings('ignore')

In [2]:
penguin = pd.read_csv('penguins_size.csv')

In [3]:
penguin.head(5)

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE


In [4]:
penguin.shape

(344, 7)

In [5]:
penguin.columns

Index(['species', 'island', 'culmen_length_mm', 'culmen_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'sex'],
      dtype='object')

__Набор данных состоит из 344 строк и 7 столбцов:__

- species  (object) - виды пингвинов  (Chinstrap - Антарктический пингвин; Adélie - Пингвин Адели; Gentoo - Субантарктический пингвин).


- culmen_length_mm (float64) - длина надклювья (мм)


__culmen - это «верхний гребень птичьего клюва», буду использовать как «надклювье».__


- culmen_depth_mm (float64) - толщина надклювья (мм)


- flipper_length_mm (float64) - длина плавника (мм)


- body_mass_g (float64) - масса тела (г)


- island (object) - название острова (Dream, Torgersen, или Biscoe) в архипелаге Палмера (Антарктида)


- sex (object) - пол пингвинов

## Поиск информации о типах данных, столбцах и нулевых значениях

In [6]:
penguin.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   culmen_length_mm   342 non-null    float64
 3   culmen_depth_mm    342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                334 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [7]:
penguin.isna().sum()

species               0
island                0
culmen_length_mm      2
culmen_depth_mm       2
flipper_length_mm     2
body_mass_g           2
sex                  10
dtype: int64

В столбцах culmen_length_mm, culmen_depth_mm, flipper_length_mm, body_mass_g и sex есть несколько нулевых значений.

Очистим пропущенные значения. Столбцы culmen_length_mm, culmen_depth_mm, flipper_length_mm и body_mass_g являются числовыми переменными, поэтому вычислим среднее значение для каждого столбца и заменим отсутствующие значения средним.

In [8]:
mean_culmen_length = round(penguin['culmen_length_mm'].mean(),1)
mean_culmen_depth = round(penguin['culmen_depth_mm'].mean(),1)
mean_flipper_length = round(penguin['flipper_length_mm'].mean(),1)
mean_body_mass = round(penguin['body_mass_g'].mean(),1)

print("mean_culmen_length : ", mean_culmen_length)
print("mean_culmen_depth :", mean_culmen_depth)
print("mean_flipper_length :",mean_flipper_length)
print("mean_body_mass :",mean_body_mass)

mean_culmen_length :  43.9
mean_culmen_depth : 17.2
mean_flipper_length : 200.9
mean_body_mass : 4201.8


После вычисления среднего значения для каждого столбца я заменю отсутствующие значения с помощью метода «.replace()».

Для первого аргумента нужно определить, что нужно заменить. Итак, в этом случае я хочу заменить отсутствующие значения - нужно поставить np.nan в качестве первого аргумента, чтобы сообщить функции, что мы хотим заменить отсутствующие значения.

Для второго аргумента нужно определить, чем я хочу заменить отсутствующие значения. В этом случае - отсутствующие значения, которые я вычислила в предыдущей ячейке кода.

И для третьего аргумента, так как я хочу заменить отсутствующие значения в объекте penguin, не создавая новый объект, я установлю аргумент inplace как true, чтобы метод replace заменял отсутствующие значения в объекте penguin.

In [9]:
penguin['culmen_length_mm'].replace(np.nan , mean_culmen_length , inplace=True)
penguin['culmen_depth_mm'].replace(np.nan , mean_culmen_depth , inplace=True)
penguin['flipper_length_mm'].replace(np.nan , mean_flipper_length , inplace=True)
penguin['body_mass_g'].replace(np.nan , mean_body_mass , inplace=True)

penguin.isnull().sum()

species               0
island                0
culmen_length_mm      0
culmen_depth_mm       0
flipper_length_mm     0
body_mass_g           0
sex                  10
dtype: int64

Теперь отсутствующие числовые переменные уже заменены. Для переменной пола я не буду удалять строки, содержащие отсутствующую переменную пола, а заменю значения на преобладающие по датасету.

In [10]:
penguin['sex'].value_counts()

MALE      168
FEMALE    165
.           1
Name: sex, dtype: int64

In [11]:
penguin['sex'].replace(np.nan ,'MALE', inplace=True)
penguin.isnull().sum()

species              0
island               0
culmen_length_mm     0
culmen_depth_mm      0
flipper_length_mm    0
body_mass_g          0
sex                  0
dtype: int64

In [12]:
penguin.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   culmen_length_mm   344 non-null    float64
 3   culmen_depth_mm    344 non-null    float64
 4   flipper_length_mm  344 non-null    float64
 5   body_mass_g        344 non-null    float64
 6   sex                344 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


Теперь в наборе данных нет нулевых значений. Итак, мы можем продолжить работу над EDA.