<a href="https://colab.research.google.com/github/ns-m/data_analysis/blob/main/cars_demo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Basic Walkthrough

In [None]:
!pip install lux-api --upgrade

In [None]:
import pandas as pd
import altair as alt
import lux

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

Mounted at /content/drive


Начнем с демонстрации возможностей *Altair*. 

## Изучение набора данных автомобилей

Сначала мы загружаем в [Cars dataset](http://lib.stat.cmu.edu/datasets/) 392 различных автомобиля 1970-1982 годов, которые содержат информацию о его Horsepower, MilesPerGal, Acceleration и т.д.
Теперь воспользуемся пакетом [vega_datasets](https://github.com/altair-viz/vega_datasets), чтобы загрузить набор данных:

In [None]:
from google.colab import output
output.enable_custom_widget_manager()

In [None]:
from vega_datasets import data
df = data.cars()

In [None]:
df.info()

<class 'lux.core.frame.LuxDataFrame'>
RangeIndex: 406 entries, 0 to 405
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Name              406 non-null    object        
 1   Miles_per_Gallon  398 non-null    float64       
 2   Cylinders         406 non-null    int64         
 3   Displacement      406 non-null    float64       
 4   Horsepower        400 non-null    float64       
 5   Weight_in_lbs     406 non-null    int64         
 6   Acceleration      406 non-null    float64       
 7   Year              406 non-null    datetime64[ns]
 8   Origin            406 non-null    object        
dtypes: datetime64[ns](1), float64(4), int64(2), object(2)
memory usage: 28.7+ KB


In [None]:
df.head()

Button(description='Toggle Pandas/Lux', layout=Layout(top='5px', width='140px'), style=ButtonStyle())

Output()

In [None]:
df.to_csv('cars.csv')

In [None]:
#df = pd.read_csv("/content/drive/My Drive/Colab Notebooks/car_design.csv")
#df["Year"] = pd.to_datetime(df["Year"], format='%Y') # change pandas dtype for the column "Year" to datetype

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 406 entries, 0 to 405
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Name              406 non-null    object        
 1   Miles_per_Gallon  398 non-null    float64       
 2   Cylinders         406 non-null    int64         
 3   Displacement      406 non-null    float64       
 4   Horsepower        400 non-null    float64       
 5   Weight_in_lbs     406 non-null    int64         
 6   Acceleration      406 non-null    float64       
 7   Year              406 non-null    datetime64[ns]
 8   Origin            406 non-null    object        
dtypes: datetime64[ns](1), float64(4), int64(2), object(2)
memory usage: 28.7+ KB


In [None]:
df = df.dropna()

In [None]:
df.info()

<class 'lux.core.frame.LuxDataFrame'>
Int64Index: 392 entries, 0 to 405
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Name              392 non-null    object        
 1   Miles_per_Gallon  392 non-null    float64       
 2   Cylinders         392 non-null    int64         
 3   Displacement      392 non-null    float64       
 4   Horsepower        392 non-null    float64       
 5   Weight_in_lbs     392 non-null    int64         
 6   Acceleration      392 non-null    float64       
 7   Year              392 non-null    datetime64[ns]
 8   Origin            392 non-null    object        
dtypes: datetime64[ns](1), float64(4), int64(2), object(2)
memory usage: 30.6+ KB


In [None]:
df.reset_index()

Button(description='Toggle Pandas/Lux', layout=Layout(top='5px', width='140px'), style=ButtonStyle())

Output()

In [None]:
df.info()

<class 'lux.core.frame.LuxDataFrame'>
Int64Index: 392 entries, 0 to 405
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Name              392 non-null    object        
 1   Miles_per_Gallon  392 non-null    float64       
 2   Cylinders         392 non-null    int64         
 3   Displacement      392 non-null    float64       
 4   Horsepower        392 non-null    float64       
 5   Weight_in_lbs     392 non-null    int64         
 6   Acceleration      392 non-null    float64       
 7   Year              392 non-null    datetime64[ns]
 8   Origin            392 non-null    object        
dtypes: datetime64[ns](1), float64(4), int64(2), object(2)
memory usage: 30.6+ KB


Мы распечатываем dataframe, видим отображение Pandas по умолчанию и можем переключиться на набор рекомендаций, сгенерированных Lux.
Lux возвращает четыре набора визуализаций, чтобы показать обзор набора данных.


In [None]:
df

Button(description='Toggle Pandas/Lux', layout=Layout(top='5px', width='140px'), style=ButtonStyle())

Output()

In [None]:
vis = df.exported[0]
vis

LuxWidget(current_vis={'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}, 'axis': {'labelCo…

In [None]:
vis = df.exported[1]
vis

LuxWidget(current_vis={'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}, 'axis': {'labelCo…

Интуитивно мы ожидаем, что автомобили с более высокой мощностью будут иметь более высокое ускорение, но на самом деле мы наблюдаем противоположную тенденцию.

Давайте узнаем больше о том, существуют ли дополнительные факторы, влияющие на эти отношения.
Используя свойство `intent`, мы указываем Lux, что нас интересуют атрибуты `Acceleration` и `Horsepower`.

In [None]:
df.intent = ["Acceleration","Horsepower"]
df

Button(description='Toggle Pandas/Lux', layout=Layout(top='5px', width='140px'), style=ButtonStyle())

Output()

In [None]:
vis = df.exported[0]
vis

LuxWidget(current_vis={'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}, 'axis': {'labelCo…

Слева мы видим, что Текущая визуализация соответствует нашему указанному намерению.
Справа мы видим разные вкладки рекомендаций:
- `Enhance` показывает, что происходит, когда мы добавляем дополнительную переменную к текущему выбору
- Затем у нас есть вкладка `Filter`, которая добавляет дополнительный фильтр, при этом фиксируя выбранные переменные по осям X Y
- Наконец, у нас есть  `Generalize`(oбобщить), который удаляет один из атрибутов, чтобы отобразить более общую тенденцию.

Мы можем очень быстро сравнить взаимосвязь между `Horsepower` и `Acceleration`, когда в игру вступает дополнительный фактор. Например, здесь мы видим, что `Displacement` and `Weight` выше слева вверху и ниже справа внизу, тогда как «MilesPerGal» имеет противоположный эффект.

Мы видим, что существует сильное разделение между автомобилями с 4 цилиндрами (оранжевый) и автомобилями с 8 цилиндрами (зеленый), поэтому нам интересно узнать больше об атрибуте `Cylinders`.

We can take a look at this by inspecting the `Series` corresponding to `Cylinders`. Note that Lux not only helps with visualizing dataframes, but also displays visualizations of `Series` objects.

Мы можем взглянуть на это, проверив `Series`, соответствующую `Cylinders`. Обратите внимание, что Lux не только помогает визуализировать фреймы данных, но также отображает визуализацию объектов `Series`.

In [None]:
df["Cylinders"]

Button(description='Toggle Pandas/Lux', layout=Layout(top='5px', width='140px'), style=ButtonStyle())

Output()

Распределение Count показывает, что автомобилей с 3 и 5 цилиндрами не так много, поэтому давайте очистим данные, чтобы удалить их.

In [None]:
df[df["Cylinders"]==3].to_pandas()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
78,mazda rx2 coupe,19.0,3,70.0,97.0,2330,13.5,1972-01-01,Japan
118,maxda rx3,18.0,3,70.0,90.0,2124,13.5,1973-01-01,Japan
250,mazda rx-4,21.5,3,80.0,110.0,2720,13.5,1977-01-01,Japan
341,mazda rx-7 gs,23.7,3,70.0,100.0,2420,12.5,1980-01-01,Japan


In [None]:
df[df["Cylinders"]==5]


Button(description='Toggle Pandas/Lux', layout=Layout(top='5px', width='140px'), style=ButtonStyle())

Output()

Мы можем легко очистить данные и обновить рекомендации в Lux благодаря тесной интеграции с Pandas.
Обратите внимание, что `inten` (намерение) здесь сохраняется таким, какое мы установили ранее (`Horsepower`, `Acceleration`).).

In [None]:
df = df[(df["Cylinders"]!=3) & (df["Cylinders"]!=5)]
df

Button(description='Toggle Pandas/Lux', layout=Layout(top='5px', width='140px'), style=ButtonStyle())

Output()

Допустим, мы считаем, что временной ряд, показывающий количество автомобилей с разными «цилиндрами» с течением времени, очень интересен. В частности, кажется, что в 1972 году произошел всплеск производства автомобилей с 4 цилиндрами. Чтобы углубиться в это, мы можем экспортировать его, выбрав визуализацию и нажав кнопку экспорта.

In [None]:
vis = df.exported[0]
vis

LuxWidget(current_vis={'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}, 'axis': {'labelCo…

Затем мы можем распечатать код визуализации в [Altair](https://altair-viz.github.io/), который сгенерировал эту диаграмму, чтобы мы могли дополнительно настроить диаграмму по своему усмотрению.

In [None]:
print(vis.to_altair())

def plot_scatterplot(source_df, vis):
	import altair as alt
	visData = create_chart_data(source_df, vis)
	chart = alt.Chart(df).mark_circle().encode(
	    x=alt.X('Acceleration',scale=alt.Scale(domain=(8.0, 24.8)),type='quantitative', axis=alt.Axis(title='Acceleration')),
	    y=alt.Y('Horsepower',scale=alt.Scale(domain=(46.0, 230.0)),type='quantitative', axis=alt.Axis(title='Horsepower'))
	)
	chart = chart.configure_mark(tooltip=alt.TooltipContent('encoding')) # Setting tooltip as non-null
	chart = chart.interactive() # Enable Zooming and Panning
	chart = chart.encode().properties(title = 'Year = 1972')
	chart = chart.configure_title(fontWeight=500,fontSize=13,font='Helvetica Neue')
	chart = chart.configure_axis(titleFontWeight=500,titleFontSize=11,titleFont='Helvetica Neue',
				labelFontWeight=400,labelFontSize=8,labelFont='Helvetica Neue',labelColor='#505050')
	chart = chart.configure_legend(titleFontWeight=500,titleFontSize=10,titleFont='Helvetica Neue',
				labelFontWeight=400,la

In [None]:
def plot_scatterplot(df, vis):
	import altair as alt
	#visData = create_chart_data(df, vis)
	chart = alt.Chart(df).mark_circle().encode(
	    x=alt.X('Acceleration',scale=alt.Scale(domain=(8.0, 24.8)),type='quantitative', axis=alt.Axis(title='Acceleration')),
	    y=alt.Y('Horsepower',scale=alt.Scale(domain=(46.0, 230.0)),type='quantitative', axis=alt.Axis(title='Horsepower'))
	)
	chart = chart.configure_mark(tooltip=alt.TooltipContent('encoding')) # Setting tooltip as non-null
	chart = chart.interactive() # Enable Zooming and Panning
	chart = chart.encode().properties(title = 'Year = 1972')
	chart = chart.configure_title(fontWeight=500,fontSize=13,font='Helvetica Neue')
	chart = chart.configure_axis(titleFontWeight=500,titleFontSize=11,titleFont='Helvetica Neue',
				labelFontWeight=400,labelFontSize=8,labelFont='Helvetica Neue',labelColor='#505050')
	chart = chart.configure_legend(titleFontWeight=500,titleFontSize=10,titleFont='Helvetica Neue',
				labelFontWeight=400,labelFontSize=8,labelFont='Helvetica Neue')
	chart = chart.properties(width=160,height=150)
	
	return chart
plot_scatterplot(df, vis) #this creates an Altair plot using your source data and vis specification

In [None]:
df
def plot_scatterplot(df, vis):
	import altair as alt
#	visData = create_chart_data(df, vis)
	chart = alt.Chart(df).mark_circle().encode(
	    x=alt.X('Acceleration',scale=alt.Scale(domain=(8.0, 24.8)),type='quantitative', axis=alt.Axis(title='Acceleration')),
	    y=alt.Y('Horsepower',scale=alt.Scale(domain=(46.0, 230.0)),type='quantitative', axis=alt.Axis(title='Horsepower'))
	)
	chart = chart.configure_mark(tooltip=alt.TooltipContent('encoding')) # Setting tooltip as non-null
	chart = chart.interactive() # Enable Zooming and Panning
	chart = chart.encode().properties(title = 'Year = 1972')
	chart = chart.configure_title(fontWeight=500,fontSize=13,font='Helvetica Neue')
	chart = chart.configure_axis(titleFontWeight=500,titleFontSize=11,titleFont='Helvetica Neue',
				labelFontWeight=400,labelFontSize=8,labelFont='Helvetica Neue',labelColor='#505050')
	chart = chart.configure_legend(titleFontWeight=500,titleFontSize=10,titleFont='Helvetica Neue',
				labelFontWeight=400,labelFontSize=8,labelFont='Helvetica Neue')
	chart = chart.properties(width=160,height=150)
	
	return chart
plot_scatterplot(df, vis) #this creates an Altair plot using your source data and vis specification

In [None]:
import altair as alt
import pandas._libs.tslibs.timestamps
from pandas._libs.tslibs.timestamps import Timestamp
visData = pd.DataFrame({'Year': {0: Timestamp('1970-01-01 00:00:00'), 1: Timestamp('1970-01-01 00:00:00'), 2: Timestamp('1970-01-01 00:00:00'), 3: Timestamp('1971-01-01 00:00:00'), 4: Timestamp('1971-01-01 00:00:00'), 5: Timestamp('1971-01-01 00:00:00'), 6: Timestamp('1972-01-01 00:00:00'), 7: Timestamp('1972-01-01 00:00:00'), 8: Timestamp('1972-01-01 00:00:00'), 9: Timestamp('1973-01-01 00:00:00'), 10: Timestamp('1973-01-01 00:00:00'), 11: Timestamp('1973-01-01 00:00:00'), 12: Timestamp('1974-01-01 00:00:00'), 13: Timestamp('1974-01-01 00:00:00'), 14: Timestamp('1974-01-01 00:00:00'), 15: Timestamp('1975-01-01 00:00:00'), 16: Timestamp('1975-01-01 00:00:00'), 17: Timestamp('1975-01-01 00:00:00'), 18: Timestamp('1976-01-01 00:00:00'), 19: Timestamp('1976-01-01 00:00:00'), 20: Timestamp('1976-01-01 00:00:00'), 21: Timestamp('1977-01-01 00:00:00'), 22: Timestamp('1977-01-01 00:00:00'), 23: Timestamp('1977-01-01 00:00:00'), 24: Timestamp('1978-01-01 00:00:00'), 25: Timestamp('1978-01-01 00:00:00'), 26: Timestamp('1978-01-01 00:00:00'), 27: Timestamp('1979-01-01 00:00:00'), 28: Timestamp('1979-01-01 00:00:00'), 29: Timestamp('1979-01-01 00:00:00'), 30: Timestamp('1980-01-01 00:00:00'), 31: Timestamp('1980-01-01 00:00:00'), 32: Timestamp('1980-01-01 00:00:00'), 33: Timestamp('1982-01-01 00:00:00'), 34: Timestamp('1982-01-01 00:00:00'), 35: Timestamp('1982-01-01 00:00:00')}, 'Cylinders': {0: 8, 1: 6, 2: 4, 3: 8, 4: 6, 5: 4, 6: 8, 7: 6, 8: 4, 9: 8, 10: 6, 11: 4, 12: 8, 13: 6, 14: 4, 15: 6, 16: 4, 17: 8, 18: 4, 19: 6, 20: 8, 21: 4, 22: 6, 23: 8, 24: 8, 25: 4, 26: 6, 27: 4, 28: 6, 29: 8, 30: 6, 31: 8, 32: 4, 33: 4, 34: 8, 35: 6}, 'Record': {0: 18.0, 1: 4.0, 2: 7.0, 3: 7.0, 4: 8.0, 5: 12.0, 6: 13.0, 7: 0.0, 8: 14.0, 9: 20.0, 10: 8.0, 11: 11.0, 12: 5.0, 13: 6.0, 14: 15.0, 15: 12.0, 16: 12.0, 17: 6.0, 18: 15.0, 19: 10.0, 20: 9.0, 21: 14.0, 22: 5.0, 23: 8.0, 24: 6.0, 25: 17.0, 26: 12.0, 27: 12.0, 28: 6.0, 29: 10.0, 30: 2.0, 31: 0.0, 32: 23.0, 33: 47.0, 34: 1.0, 35: 10.0}})

chart = alt.Chart(visData).mark_line().encode(
    y = alt.Y('Record', type= 'quantitative', title='Number of Records'),
    x = alt.X('Year', type = 'temporal'),
)
chart = chart.interactive() # Enable Zooming and Panning
chart = chart.encode(color=alt.Color('Cylinders',type='nominal'))

chart = chart.configure_title(fontWeight=500,fontSize=13,font='Helvetica Neue')
chart = chart.configure_axis(titleFontWeight=500,titleFontSize=11,titleFont='Helvetica Neue',
			labelFontWeight=400,labelFontSize=8,labelFont='Helvetica Neue',labelColor='#505050')
chart = chart.configure_legend(titleFontWeight=500,titleFontSize=10,titleFont='Helvetica Neue',
			labelFontWeight=400,labelFontSize=8,labelFont='Helvetica Neue')
chart = chart.properties(width=160,height=150)

chart

Очевидно, много кода. Давайте посмотрим, как легко было бы указать это намерение визуализации в Lux, если бы мы знали, что мы ищем.

In [None]:
from lux.vis.Vis import Vis
Vis(["Year","Acceleration"],df)

LuxWidget(current_vis={'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}, 'axis': {'labelCo…

# Creating Visualizations 

В Lux пользователь может указать определенные визуализации, которые они хотят указать, и визуализировать свои данные по запросу.

In [None]:
from lux.vis.Vis import Vis

In [None]:
Vis(["Horsepower"],df)

LuxWidget(current_vis={'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}, 'axis': {'labelCo…

In [None]:
Vis(["Origin","Horsepower"],df)

LuxWidget(current_vis={'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}, 'axis': {'labelCo…

In [None]:
Vis(["Origin",lux.Clause("Horsepower",aggregation="sum")],df)

LuxWidget(current_vis={'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}, 'axis': {'labelCo…

Вы также можете работать с коллекциями визуализации через объект `VisList`.

In [None]:
from lux.vis.VisList import VisList

Например, мы можем создать набор визуализаций веса по отношению ко всем другим атрибутам, используя подстановочный символ “?”.

In [None]:
VisList(["Horsepower","?"],df)

LuxWidget(recommendations=[{'action': 'Vis List', 'description': 'Shows a vis list defined by the intent', 'vs…

Для получения дополнительной поддержки и ресурсов по Lux:
- Подпишитесь на [список рассылки] для первых пользователей (https://forms.gle/XKv3ejrshkCi3FJE6), чтобы быть в курсе предстоящих выпусков, обновлений или исследований пользователей.
- Посетите [ReadTheDoc](https://lux-api.readthedocs.io/en/latest/) для получения более подробной документации.
- Клонируйте [lux-binder](https://github.com/lux-org/lux-binder), чтобы попробовать эти [практические упражнения](https://github.com/lux-org/lux-binder). /tree/master/exercise) или [серия руководств] (https://github.com/lux-org/lux-binder/tree/master/tutorial) о том, как использовать Lux.
- Присоединяйтесь к нашему сообществу [Slack](https://lux-project.slack.com/join/shared_invite/zt-iwg84wfb-fBPaGTBBZfkb9arziy3W~g), чтобы обсуждать и задавать вопросы.
- Сообщайте о любых ошибках, проблемах или запросах через [Github Issues](https://github.com/lux-org/lux/issues).