# __Датасет содержит данные о пингвинах архипелага Палмера (Антарктида).__

Данные были собраны и предоставлены доктором Dr. Kristen Gorman и станцией Палмера, Антарктида. 
Датасет содержит информацию о структурных размерах тела пингвинов и некоторые характеристики среди взрослых самцов и самок пингвинов:
- Адели (Pygoscelis adeliae)

- Субантарктических пингвинов (Pygoscelis papua)

- Антарктических пингвинов (Pygoscelis antarctica).


In [1]:
#импорт необходимых модулей
import pandas as pd
import numpy as np 
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import plotly.graph_objects as go
import plotly.express as px
import plotly.subplots as sp
import plotly.figure_factory as ff

from itertools import cycle
import re
import warnings
warnings.filterwarnings('ignore')

In [2]:
penguin = pd.read_csv('penguins_size.csv')

In [3]:
penguin.head(5)

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE


In [4]:
penguin.shape

(344, 7)

In [5]:
penguin.columns

Index(['species', 'island', 'culmen_length_mm', 'culmen_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'sex'],
      dtype='object')

__Набор данных состоит из 344 строк и 7 столбцов:__

- species  (object) - виды пингвинов  (Chinstrap - Антарктический пингвин; Adélie - Пингвин Адели; Gentoo - Субантарктический пингвин).


- culmen_length_mm (float64) - длина надклювья (мм)


__culmen - это «верхний гребень птичьего клюва», буду использовать как «надклювье».__


- culmen_depth_mm (float64) - толщина надклювья (мм)


- flipper_length_mm (float64) - длина плавника (мм)


- body_mass_g (float64) - масса тела (г)


- island (object) - название острова (Dream, Torgersen, или Biscoe) в архипелаге Палмера (Антарктида)


- sex (object) - пол пингвинов

## Поиск информации о типах данных, столбцах и нулевых значениях

In [6]:
penguin.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   culmen_length_mm   342 non-null    float64
 3   culmen_depth_mm    342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                334 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [7]:
penguin.isna().sum()

species               0
island                0
culmen_length_mm      2
culmen_depth_mm       2
flipper_length_mm     2
body_mass_g           2
sex                  10
dtype: int64

В столбцах culmen_length_mm, culmen_depth_mm, flipper_length_mm, body_mass_g и sex есть несколько нулевых значений.

Очистим пропущенные значения. Столбцы culmen_length_mm, culmen_depth_mm, flipper_length_mm и body_mass_g являются числовыми переменными, поэтому вычислим среднее значение для каждого столбца и заменим отсутствующие значения средним.

In [8]:
mean_culmen_length = round(penguin['culmen_length_mm'].mean(),1)
mean_culmen_depth = round(penguin['culmen_depth_mm'].mean(),1)
mean_flipper_length = round(penguin['flipper_length_mm'].mean(),1)
mean_body_mass = round(penguin['body_mass_g'].mean(),1)

print("mean_culmen_length : ", mean_culmen_length)
print("mean_culmen_depth :", mean_culmen_depth)
print("mean_flipper_length :",mean_flipper_length)
print("mean_body_mass :",mean_body_mass)

mean_culmen_length :  43.9
mean_culmen_depth : 17.2
mean_flipper_length : 200.9
mean_body_mass : 4201.8


После вычисления среднего значения для каждого столбца я заменю отсутствующие значения с помощью метода «.replace()».

Для первого аргумента нужно определить, что нужно заменить. Итак, в этом случае я хочу заменить отсутствующие значения - нужно поставить np.nan в качестве первого аргумента, чтобы сообщить функции, что мы хотим заменить отсутствующие значения.

Для второго аргумента нужно определить, чем я хочу заменить отсутствующие значения. В этом случае - отсутствующие значения, которые я вычислила в предыдущей ячейке кода.

И для третьего аргумента, так как я хочу заменить отсутствующие значения в объекте penguin, не создавая новый объект, я установлю аргумент inplace как true, чтобы метод replace заменял отсутствующие значения в объекте penguin.

In [9]:
penguin['culmen_length_mm'].replace(np.nan , mean_culmen_length , inplace=True)
penguin['culmen_depth_mm'].replace(np.nan , mean_culmen_depth , inplace=True)
penguin['flipper_length_mm'].replace(np.nan , mean_flipper_length , inplace=True)
penguin['body_mass_g'].replace(np.nan , mean_body_mass , inplace=True)

penguin.isnull().sum()

species               0
island                0
culmen_length_mm      0
culmen_depth_mm       0
flipper_length_mm     0
body_mass_g           0
sex                  10
dtype: int64

Теперь отсутствующие числовые переменные уже заменены. Для переменной пола я не буду удалять строки, содержащие отсутствующую переменную пола, а заменю значения на преобладающие по датасету.

In [10]:
penguin['sex'].value_counts()

MALE      168
FEMALE    165
.           1
Name: sex, dtype: int64

In [11]:
penguin['sex'].replace(np.nan ,'MALE', inplace=True)
penguin.isnull().sum()

species              0
island               0
culmen_length_mm     0
culmen_depth_mm      0
flipper_length_mm    0
body_mass_g          0
sex                  0
dtype: int64

In [12]:
penguin.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   culmen_length_mm   344 non-null    float64
 3   culmen_depth_mm    344 non-null    float64
 4   flipper_length_mm  344 non-null    float64
 5   body_mass_g        344 non-null    float64
 6   sex                344 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


Теперь в наборе данных нет нулевых значений. Итак, мы можем продолжить работу над EDA.

Посмотрим на уникальные значения в категориальных столбцах.

In [13]:
penguin['island'].unique()

array(['Torgersen', 'Biscoe', 'Dream'], dtype=object)

In [14]:
penguin['sex'].unique()

array(['MALE', 'FEMALE', '.'], dtype=object)

Колонка пола имеет пропущенное значение "." Найдем, где "." - значение пола.

In [16]:
penguin[penguin['sex']=='.']

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
336,Gentoo,Biscoe,44.5,15.7,217.0,4875.0,.


In [17]:
#Заменим на преобладающее значение
penguin.loc[336,'sex'] = 'MALE'

In [18]:
penguin.isna().sum()

species              0
island               0
culmen_length_mm     0
culmen_depth_mm      0
flipper_length_mm    0
body_mass_g          0
sex                  0
dtype: int64

__Описательная статистика__

In [19]:
penguin.describe()

Unnamed: 0,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g
count,344.0,344.0,344.0,344.0
mean,43.921802,17.151453,200.915116,4201.754651
std,5.443644,1.969031,14.020658,799.613058
min,32.1,13.1,172.0,2700.0
25%,39.275,15.6,190.0,3550.0
50%,44.25,17.3,197.0,4050.0
75%,48.5,18.7,213.0,4750.0
max,59.6,21.5,231.0,6300.0


__Исследовательский анализ данных:__

В этой части я собираюсь исследовать три основных вопроса, касающихся этого набора данных.

__1. Существует ли какая-либо корреляция между толщиной и длиной надклювья каждого вида пингвинов?__


__2. Есть ли разница в длине плавника у пингвинов на разных островах? Или у видов пингвинов?__ 


__3. Различаются ли в среднем масса тела и длина плавника у представителей разного пола? Если да, то насколько? Для обоих полов имеет ли масса тела какую-либо корреляцию с длиной плавника?__

Вопрос 1: Толщина надклювья по сравнению с длиной надклювья для видов.

Во-первых, посмотрим, общие характеристики для каждого вида.

In [20]:
penguin['species'].value_counts()

Adelie       152
Gentoo       124
Chinstrap     68
Name: species, dtype: int64

Есть 152 пингвина Адели, 124 Субантарктический пингвин и 68 Антарктических пингвинов.

In [31]:
palette = cycle(px.colors.sequential.thermal)

fig = sp.make_subplots(
    rows=1, 
    cols=3,
    horizontal_spacing=0.08,
    subplot_titles=[
        "Вид",
        "Остров",
        "Пол"],
        specs=[[{"type": "pie"}, {"type": "pie"}, {"type": "pie"}]],
        vertical_spacing = 0.1
)

species_counts = penguin.species.value_counts()

species_p = go.Pie(
    labels=species_counts.index,
    values=species_counts,
    name="Виды",
    textinfo='percent+label',
    hoverinfo="label+value+percent",
    marker_colors=[next(palette) for i in range(len(species_counts))],
    legendgroup="Вид",
    legendgrouptitle_text="Вид",
)

island_counts = penguin.island.value_counts()

island = go.Pie(
    labels=island_counts.index,
    values=island_counts,
    name="Остров",
    textinfo='percent+label',
    hoverinfo="label+value+percent",
    marker_colors=[next(palette) for i in range(len(island_counts))],
    legendgroup="Остров",
    legendgrouptitle_text="Остров",
)

sex_counts = penguin.sex.value_counts()

sex = go.Pie(
    labels=sex_counts.index,
    values=sex_counts,
    name="Пол",
    textinfo='percent+label',
    hoverinfo="label+value+percent",
    marker_colors=[next(palette) for i in range(len(sex_counts))],
    legendgroup="Пол",
    legendgrouptitle_text="Пол",
)

fig.add_trace(species_p, row=1, col=1)
fig.update_xaxes(title_text="Вид", row=1, col=1)
fig.update_yaxes(title_text="Количество", row=1, col=1)

fig.add_trace(island, row=1, col=2)
fig.update_xaxes(title_text="Остров", row=1, col=2)
fig.update_yaxes(title_text="Количество", row=1, col=2)

fig.add_trace(sex, row=1, col=3)
fig.update_xaxes(title_text="Пол", row=1, col=3)
fig.update_yaxes(title_text="Количество", row=1, col=3)

fig.update_layout(
    template="plotly",
    height=430,
)

fig.update(
    layout_title_text="Характеристики пингвинов",
    layout_title_font_size=30,
    layout_title_x=0.5,
    layout_paper_bgcolor='rgb(220, 237, 247)',
    layout_plot_bgcolor='rgb(220, 237, 247)',
)

fig.show()

Распределение характеристик пингвинов

In [37]:
palette = cycle(px.colors.sequential.thermal)

fig = sp.make_subplots(
    rows=2, 
    cols=2,
    horizontal_spacing=0.08,
    subplot_titles=[
        "Длина надклювья",
        "Толщина надклювья",
        "Длина плавника",
        "Масса тела"],
        vertical_spacing = 0.1
)

culmen_length_mm = go.Histogram(
    x=penguin.culmen_length_mm,
    name="Длина надклювья",
    marker_color=next(palette),
    legendgroup="Длина надклювья",
    legendgrouptitle_text="Длина надклювья",
)

culmen_depth_mm = go.Histogram(
    x=penguin.culmen_depth_mm,
    name="Толщина надклювья",
    marker_color=next(palette),
    legendgroup="Толщина надклювья",
    legendgrouptitle_text="Толщина надклювья",
)

flipper_length_mm = go.Histogram(
    x=penguin.flipper_length_mm,
    name="Длина плавника",
    marker_color=next(palette),
    legendgroup="Длина плавника",
    legendgrouptitle_text="Длина плавника",
)

body_mass_g = go.Histogram(
    x=penguin.body_mass_g,
    name="Масса тела",
    marker_color=next(palette),
    legendgroup="Масса тела",
    legendgrouptitle_text="Масса тела",
)

fig.add_trace(culmen_length_mm, row=1, col=1)
fig.update_xaxes(title_text="Длина надклювья", row=1, col=1)
fig.update_yaxes(title_text="Количество", row=1, col=1)

fig.add_trace(culmen_depth_mm, row=1, col=2)
fig.update_xaxes(title_text="Толщина надклювья", row=1, col=2)
fig.update_yaxes(title_text="Количество", row=1, col=2)

fig.add_trace(flipper_length_mm, row=2, col=1)
fig.update_xaxes(title_text="Длина плавника", row=2, col=1)
fig.update_yaxes(title_text="Количество", row=2, col=1)

fig.add_trace(body_mass_g, row=2, col=2)
fig.update_xaxes(title_text="Масса тела", row=2, col=2)
fig.update_yaxes(title_text="Количество", row=2, col=2)

fig.update_layout(
    template="plotly",
    height=1000,
)

fig.update(
    layout_title_text="Распределение характеристик пингвинов",
    layout_title_font_size=30,
    layout_title_x=0.5,
    layout_paper_bgcolor='rgb(229, 237, 247)',
    layout_plot_bgcolor='rgb(229, 237, 247)',
)

fig.show()

Связь по признакам

In [38]:
fig = px.scatter_matrix(penguin, 
                        dimensions=["culmen_length_mm", "culmen_depth_mm", "flipper_length_mm", "body_mass_g"], 
                        color="species")

fig.update_layout(template="plotly", height=800)

fig.update(
    layout_title_text="Связь между признаками по видам",
    layout_title_font_size=30,
    layout_title_x=0.5,
    layout_paper_bgcolor='rgb(229, 237, 247)',
    layout_plot_bgcolor='rgb(229, 237, 247)',
)
fig.show()

In [39]:
fig = px.scatter_matrix(penguin, 
                        dimensions=["culmen_length_mm", "culmen_depth_mm", "flipper_length_mm", "body_mass_g"], 
                        color="sex")

fig.update_layout(template="plotly", height=800)

fig.update(
    layout_title_text="Связь между признаками по полу",
    layout_title_font_size=30,
    layout_title_x=0.5,
    layout_paper_bgcolor='rgb(229, 237, 247)',
    layout_plot_bgcolor='rgb(229, 237, 247)',
)
fig.show()

Распределение переменных по видам

In [41]:
palette = cycle(px.colors.sequential.thermal)

fig = sp.make_subplots(
    rows=2, 
    cols=2,
    horizontal_spacing=0.08,
    subplot_titles=[
        "Длина надклювья",
        "Толщина надклювья",
        "Длина плавника",
        "Масса тела",],
        vertical_spacing = 0.1
)

culmen_length_mm_box = go.Box(
    x = penguin.species,
    y = penguin.culmen_length_mm,
    name="Длина надклювья",
    legendgroup="Длина надклювья",
    legendgrouptitle_text="Длина надклювья",
    marker_color=next(palette),
)

culmen_depth_mm_box = go.Box(
    x = penguin.species,
    y = penguin.culmen_depth_mm,
    name="Толщина надклювья",
    legendgroup="Толщина надклювья",
    legendgrouptitle_text="Толщина надклювья",
    marker_color=next(palette),
)

flipper_length_mm_box = go.Box(
    x = penguin.species,
    y = penguin.flipper_length_mm,
    name="Длина плавника",
    legendgroup="Длина плавника",
    legendgrouptitle_text="Длина плавника",
    marker_color=next(palette),
)

body_mass_g_box = go.Box(
    x = penguin.species,
    y = penguin.body_mass_g,
    name="Масса тела",
    legendgroup="Масса тела",
    legendgrouptitle_text="Масса тела",
    marker_color=next(palette),
)


fig.add_trace(culmen_length_mm_box, row=1, col=1)
fig.update_xaxes(title_text="Длина надклювья", row=1, col=1)

fig.add_trace(culmen_depth_mm_box, row=1, col=2)
fig.update_xaxes(title_text="Толщина надклювья", row=1, col=2)

fig.add_trace(flipper_length_mm_box, row=2, col=1)
fig.update_xaxes(title_text="Длина плавника", row=2, col=1)

fig.add_trace(body_mass_g_box, row=2, col=2)
fig.update_xaxes(title_text="Масса тела", row=2, col=2)

fig.update_layout(template="plotly", height=800)

fig.update(
    layout_title_text="Распределение переменных по видам",
    layout_title_font_size=30,
    layout_title_x=0.5,
    layout_paper_bgcolor='rgb(229, 237, 247)',
    layout_plot_bgcolor='rgb(229, 237, 247)',
)

fig.show()

Распределение переменных по полу

In [42]:
palette = cycle(px.colors.sequential.thermal)

fig = sp.make_subplots(
    rows=2, 
    cols=2,
    horizontal_spacing=0.08,
    subplot_titles=[
        "Длина надклювья",
        "Толщина надклювья",
        "Длина плавника",
        "Масса тела",],
        vertical_spacing = 0.1
)

culmen_length_mm_box = go.Box(
    x = penguin.sex,
    y = penguin.culmen_length_mm,
    name="Длина надклювья",
    legendgroup="Длина надклювья",
    legendgrouptitle_text="Длина надклювья",
    marker_color=next(palette),
)

culmen_depth_mm_box = go.Box(
    x = penguin.sex,
    y = penguin.culmen_depth_mm,
    name="Толщина надклювья",
    legendgroup="Толщина надклювья",
    legendgrouptitle_text="Толщина надклювья",
    marker_color=next(palette),
)

flipper_length_mm_box = go.Box(
    x = penguin.sex,
    y = penguin.flipper_length_mm,
    name="Длина плавника",
    legendgroup="Длина плавника",
    legendgrouptitle_text="Длина плавника",
    marker_color=next(palette),
)

body_mass_g_box = go.Box(
    x = penguin.sex,
    y = penguin.body_mass_g,
    name="Масса тела",
    legendgroup="Масса тела",
    legendgrouptitle_text="Масса тела",
    marker_color=next(palette),
)

fig.add_trace(culmen_length_mm_box, row=1, col=1)
fig.update_xaxes(title_text="Длина надклювья", row=1, col=1)

fig.add_trace(culmen_depth_mm_box, row=1, col=2)
fig.update_xaxes(title_text="Тольщина надклювья", row=1, col=2)

fig.add_trace(flipper_length_mm_box, row=2, col=1)
fig.update_xaxes(title_text="Длина плавника", row=2, col=1)

fig.add_trace(body_mass_g_box, row=2, col=2)
fig.update_xaxes(title_text="Масса тела", row=2, col=2)

fig.update_layout(template="plotly", height=1000)

fig.update(
    layout_title_text="Распределение переменных по полу",
    layout_title_font_size=30,
    layout_title_x=0.5,
    layout_paper_bgcolor='rgb(229, 237, 247)',
    layout_plot_bgcolor='rgb(229, 237, 247)',
)

fig.show()