In [16]:
!pip install plotly

Defaulting to user installation because normal site-packages is not writeable


In [17]:
import plotly.express as px
import pandas as pd
from plotly.subplots import make_subplots
import plotly.graph_objects as go

In [19]:
#Зробив таблицю по столицям штатів США
data = pd.read_excel('cities.xlsx')
data

Unnamed: 0,Штат,Столиця,Населення,Дохід на душу населення $ на рік,Площа території км.кв.,Наявність метрополітену
0,Алабама,Монтгомері,198218,51113,160.44,Ні
1,Аляска,Джуно,32113,85296,8.43,Ні
2,Аризона,Фінікс,1752316,65057,1338.28,Так
3,Арканзас,Літл-Рок,197312,48892,303.26,Так
4,Каліфорнія,Сакраменто,524943,76662,259.27,Так
5,Колорадо,Денвер,735538,77398,401.27,Так
6,Коннектикут,Гартфорд,122105,44162,46.25,Так
7,Делавер,Дувер,38142,63273,60.03,Ні
8,Флорида,Таллахассі,199926,46411,254.52,Ні
9,Джорджія,Атланта,498715,65345,347.1,Так


In [20]:
#Візуалізація залежності міста від його площі
px.scatter(data, x = 'Населення', y = 'Площа території км.кв.', title = 'Залежність населення міста від його площі', color='Столиця')

In [21]:
#Візуалізація залежності міста від середнього доходу населення
px.scatter(data, x = 'Населення', y = 'Дохід на душу населення $ на рік', title = 'Залежність населення міста від середнього доходу', color='Столиця')

In [22]:
# Помістив графіки на один малюнок

# вибираємо міста для легенди
cities = data['Столиця'].unique()

# створюємо словник з кольорами для кожного міста
color_map = {city: f"rgb({i * 40 % 255}, {i * 80 % 255}, {i * 120 % 255})" for i, city in enumerate(cities)}

fig = make_subplots(rows=1, cols=2, subplot_titles=('Залежність населення від площі міста', 'Залежність населення від середнього доходу'))
fig.update_xaxes(title_text='Кількість населення', row=1, col=1)
fig.update_yaxes(title_text='Площа міста (км²)', row=1, col=1)
fig.update_xaxes(title_text='Кількість населення', row=1, col=2)
fig.update_yaxes(title_text='Середній дохід', row=1, col=2)

# Додаємо графік для площі території
for i, city in enumerate(cities):
    fig.add_trace(
        go.Scatter(
            x=data.loc[data['Столиця']==city, 'Населення'],
            y=data.loc[data['Столиця']==city, 'Площа території км.кв.'],
            mode='markers',
            name=city,
            marker_color=color_map[city],
            legendgroup=city,
            showlegend=True,
        ),
        row=1,
        col=1
    )

# Додаємо графік для середнього доходу
for i, city in enumerate(cities):
    fig.add_trace(
        go.Scatter(
            x=data.loc[data['Столиця']==city, 'Населення'],
            y=data.loc[data['Столиця']==city, 'Дохід на душу населення $ на рік'],
            mode='markers',
            name=city,
            marker_color=color_map[city],
            legendgroup=city,
            showlegend=False,
        ),
        row=1,
        col=2
    )

# Функція для легенди, щоб при натисканні були зміни на обох графіках
def update_visibility(trace, visible):
    for i in range(len(fig['data'])):
        if trace['legendgroup'] == fig['data'][i]['legendgroup']:
            fig['data'][i]['visible'] = visible

for i in range(len(fig['data'])):
    fig.data[i].on_click(update_visibility)

fig.show()

In [23]:
#Матриця кореляції та візуалізація через heatmap
corr_matrix = data.corr()

fig = px.imshow(corr_matrix,
                x=corr_matrix.columns,
                y=corr_matrix.columns,
                color_continuous_scale='RdBu_r')

fig.show()

In [24]:
#звіт про таблицю за допомогою sweetviz
!pip install sweetviz
import sweetviz as sv

report_sweetviz = sv.analyze(data)
report_sweetviz.show_html()

Defaulting to user installation because normal site-packages is not writeable


                                             |                                             | [  0%]   00:00 ->…

Report SWEETVIZ_REPORT.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


In [25]:
#звіт про таблицю за допомогою pandas-profilling
!pip install pandas-profiling
from pandas_profiling import ProfileReport

report_pp = ProfileReport(data)
report_pp.to_file("report_pp.html")

Defaulting to user installation because normal site-packages is not writeable


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [27]:
"""
Sweetviz та pandas-proffiling це дві прекрасні інструменти (бібліотеки), які допомагають візуалізувати данні.
На мою думку sweetviz є інструментом для швидкого огляду даних, який показує дані про мінімальне та максимальне значення, 
а також деякі інші статистичні характеристики, такі як середнє значення, медіана, стандартне відхилення тощо.
Також важливим моментом є те, що він дає можливість побудувати графіки розподілу для кожного числового стовпця. 
Що в свою чергу дозволяє більш детально дослідити розподіл даних та виявити викиди.
Pandas-proffiling в свою чергу дає більше статистичних характеристик. Візуалізує деякі залежности.
Робить матрицю кореляції та візуалізує на heatmap. Хоча візаулізація є і в Sweetviz, але на мою думку в pandas-proffiling
це виглядаэ більш детально. Також важливим є те що в pandas-profilling можна швидко побачити кореляцію між різними типами
даних, що на мою думку є дуже важливим для дослідження взаємозв'язків між ними.
Висновок.
Sweetviz є більш спрощеною та швидкою альтернативою, що дає можливість одразу отримати загальну картину даних 
за допомогою великої кількості графіків, діаграм та таблиць. У той же час, pandas-profiling є більш гнучким та розширеним 
інструментом, що дає більше можливостей для налаштування та підгонки звітів під потреби конкретної аналітичної задачі.
"""

"\nSweetviz та pandas-proffiling це дві прекрасні інструменти (бібліотеки), які допомагають візуалізувати данні.\nНа мою думку sweetviz є інструментом для швидкого огляду даних, який показує дані про мінімальне та максимальне значення, \nа також деякі інші статистичні характеристики, такі як середнє значення, медіана, стандартне відхилення тощо.\nТакож важливим моментом є те, що він дає можливість побудувати графіки розподілу для кожного числового стовпця. \nЩо в свою чергу дозволяє більш детально дослідити розподіл даних та виявити викиди.\nPandas-proffiling в свою чергу дає більше статистичних характеристик. Візуалізує деякі залежности.\nРобить матрицю кореляції та візуалізує на heatmap. Хоча візаулізація є і в Sweetviz, але на мою думку в pandas-proffiling\nце виглядаэ більш детально. Також важливим є те що в pandas-profilling можна швидко побачити кореляцію між різними типами\nданих, що на мою думку є дуже важливим для дослідження взаємозв'язків між ними.\nВисновок.\nSweetviz є біл