# <font color='navy'>Zadanie: Regresja liniowa - przykład oceny klienta</font>

<img src="./Images/klienci.jpg" alt="Girl in a jacket" width="300">

Gratulacje! Właśnie podpisałeś umowę z firmą e-commerce z siedzibą w Nowym Jorku, która sprzedaje ubrania online, ale mają również sesje doradztwa w zakresie stylu i odzieży w sklepie. Klienci przychodzą do sklepu, mają sesje / spotkania z osobistym stylistą, a następnie mogą iść do domu i zamówić w aplikacji mobilnej lub stronie internetowej na ubrania, które chcą.

Firma stara się zdecydować, czy skupić się na swoich doświadczeniach z aplikacji mobilnej, czy na swojej stronie internetowej. Zatrudnili cię na umowę, aby pomóc im to rozgryźć! Zacznijmy!

Wystarczy wykonać poniższe czynności, aby przeanalizować dane klienta (jest to fałszywe, nie martw się, nie podałem prawdziwych numerów kart kredytowych ani wiadomości e-mail).

## Import

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

## Pobranie danych

Będziemy współpracować z plikiem csv klienta e-commerce od firmy. 
Ma informacje o kliencie, takie jak adres e-mail, adres i ich kolor Avatara. Następnie ma również kolumny wartości liczbowych:

* Avg. Session Length: średnia długość sesji doradztwa w sklepie.
* Time on App: średni czas spędzony na aplikacji w minutach
* Time on Website: Średni czas spędzony na stronie internetowej w minutach
* Length of Membership: ile lat klient jest członkiem.

**Pobranie z pliku csv klientów e-commerce jako DataFrame nazwie klientów.**



In [2]:
customers = pd.read_csv(".\\Dane\\Ecommerce Customers.csv")

FileNotFoundError: [Errno 2] No such file or directory: '.\\Dane\\Ecommerce Customers.csv'

**Przejrzenie danych, metody info() i describe().**

In [None]:
customers.head()

In [None]:
customers.describe()

In [None]:
customers.info()

## EDA - eksploracyjna analiza danych

Przez resztę ćwiczenia będziemy używać tylko danych liczbowych pliku csv.

**Użyj seaborn, aby utworzyć tabelę łączącą, aby porównać kolumny Czas spędzony w witrynie i Roczne wydatki. 
Czy korelacja ma sens?**

In [None]:
sns.set_palette("Set2")
sns.set_style('whitegrid')

In [None]:
# Więcej czasu na stronie, więcej wydanych pieniędzy.
sns.jointplot(x='Time on Website',y='Yearly Amount Spent',data=customers)

**A jak wygląda w tym konteście czas w aplikacji.**

In [None]:
sns.jointplot(x='Time on App',y='Yearly Amount Spent',data=customers)

**Lub trochę inaczej:**

In [None]:
sns.jointplot(x='Time on App',y='Length of Membership',kind='hex',data=customers)

**Następnie analiza parami.**
Więcej o formatowaniu: [pairplot](https://stanford.edu/~mwaskom/software/seaborn/tutorial/axis_grids.html#plotting-pairwise-relationships-with-pairgrid-and-pairplot).

In [None]:
sns.pairplot(customers)

**Opierając się na tym wykresie, co wydaje się być najbardziej skorelowany z cechą rocznej wydanej kwoty (Yearly Amount Spent)?**

In [None]:
# Długość członkowstwa (Length of Membership)

**Stwórzmy liniowy wykres tej zależności (seaborn: lmplot) - Yearly Amount Spent vs. Length of Membership.**

In [None]:
sns.lmplot(x='Length of Membership',y='Yearly Amount Spent',data=customers)

Analiza regresji ma za zadanie znaleźć funkcyjną zależność między d zmiennymi objaśniającymi a zmienną objaśnianą, która jest typu ciągłego.
Regresja liniowa
Współczynnik korelacji liniowej Pearsona r między parą zmiennych (xi, xj) określony wzorem....
\begin{equation*}
r\left( x_i, y_j \right) = \frac{1}{(n - 1)}  \sum_{k=1}^n \frac{x_i^{(k)}-\overline{x}_i}{(S_{x_i})}\frac{x_j^{(k)}-\overline{x}_j}{(S_{x_j})}
\end{equation*}

gdzie $S_{x_i}$ oraz $S_{x_j}$ oznaczają odchylenia standardowe, a $\overline{x}_i$ i $\overline{x}_j$ - średnie arytmetyczne. 

Wiadomo, że jeśli r jest bliskie 1 lub -1, to istnieje silna, odpowiednio, dodatnia lub ujemna zależność liniowa między parą zmiennych. Wyznaczmy wartości r dla wszystkich par zmiennych ilościowch:

In [None]:
num_columns = customers.select_dtypes(include=np.number).columns.tolist()
c=customers[num_columns].corr("pearson")
c

Współczynnik korelacji Spearmana służy do badania zależności między danymi. Współczynnik korelacji Spearmana mierzy dowolną monotoniczną zależność. Współczynnik korelacji Spearmana jest ogólniejszy od współczynnika korelacji Pearsona, który mierzy tylko zależność liniową.

In [None]:
cs=customers[num_columns].corr("spearman")
cs

Dla naszych danych, te współczynniki powinny być zbliżone.

## Przygotowanie danych

Po przeanalizowaniu danych, podzielmy dane na zestawy szkoleniowe i testowe.

**Ustaw zmienną X równą numerycznym cechom klientów i zmienną y równą kolumnie "Roczne wydatki wydane" (Yearly Amount Spent).**

In [None]:
y = customers['Yearly Amount Spent']

In [None]:
X = customers[['Avg. Session Length', 'Time on App','Time on Website', 'Length of Membership']]

**Użyj modelu_selection.train_test_split ze sklearn, aby podzielić dane na zestawy szkoleniowe i testowe. Ustaw test_size = 0,3 i random_state = 101**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

## Tworzenie modelu

Teraz czas na szkolenie naszego modelu na naszych danych treningowych!

**Importuj LinearRegression ze sklearn.linear_model.**

In [None]:
from sklearn.linear_model import LinearRegression

**Utwórz instancję modelu o nazwie LinearRegression () o nazwie lm.**

In [None]:
lm = LinearRegression()

**Wytrenuj model na podstawie danych treningowych.**

In [None]:
lm.fit(X_train,y_train);

**Przedstaw współczynniki modelu**

In [None]:
# The coefficients # opis dalej, w ocenie modelu
print('Coefficients: \n', lm.coef_)

## Przewidywanie danych testowych

Teraz, gdy dopasowaliśmy nasz model, oceńmy jego wydajność, przewidując wartości testowe!

**Użyj lm.predict (), aby przewidzieć wynik dla zestawu danych X_test.**

In [None]:
predictions = lm.predict( X_test)

**Utwórz wykres rozproszenia rzeczywistych wartości testowych w stosunku do przewidywanych wartości.**

In [None]:
plt.scatter(y_test,predictions)
plt.xlabel('Y Test')
plt.ylabel('Predicted Y')

## Ocena metryczna modelu regresji

Oto trzy typowe wskaźniki oceny problemów regresji:

**Mean Absolute Error** (MAE) średnia z modułów różnic:

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

**Mean Squared Error** (MSE) błąd śreniokwadratowy:

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

**Root Mean Squared Error** (RMSE) pierwiastek błędu średniokwadratowego:

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

Porównanie:

- **MAE** jest najłatwiejszy do zrozumienia, ponieważ jest to średni błąd.
- **MSE** jest bardziej popularny niż MAE, ponieważ MSE "uwypukla" większe błędy, które wydają się być przydatne w realnym świecie.
- **RMSE** jest jeszcze bardziej popularny niż MSE, ponieważ RMSE można interpretować w jednostkach "y".

Wszystkie te funkcje chcemy zminimalizować.

## Ewaluacja modelu

Oceńmy wydajność naszego modelu, obliczając resztkową sumę kwadratów i współczynnik determinacji (R ^ 2).

**Oblicz MAE, MSE, RMSE**

In [None]:
# calculate these metrics by hand!
from sklearn import metrics

print('MAE:', metrics.mean_absolute_error(y_test, predictions))
print('MSE:', metrics.mean_squared_error(y_test, predictions))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, predictions)))

## Odchylenia

Powinieneś dostać bardzo dobry model z dobrym dopasowaniem. Szybko zbadaj odchylenia, aby upewnić się, że wszystko jest w porządku z naszymi danymi.

**Sporządź histogram odchyleń i upewnij się, że wygląda jak rozkład normalny. Użyj seaborn distplot (histplot), lub po prostu plt.hist ().**

In [None]:
# displot nadal działa, jednak należy rozważyć wykorzystanie innej funkcji
# `distplot` is a deprecated function and will be removed in seaborn v0.14.0.
# https://gist.github.com/mwaskom/de44147ed2974457ad6372750bbe5751
sns.distplot((y_test-predictions),bins=50);

In [None]:
sns.histplot(data=(y_test-predictions),bins=50,kde=True)

## Podsumowanie

Nadal chcemy znaleźć odpowiedź na oryginalne pytanie, czy koncentrujemy się na działaniach mobilnych czy tworzeniu witryn? A może to nie ma znaczenia, a czas członkostwa jest bardzo ważny. Zobaczmy, czy możemy w ogóle interpretować współczynniki, aby uzyskać pomysł.

**Utworzyć ramkę danych poniżej.**

In [None]:
coeffecients = pd.DataFrame(lm.coef_,X.columns)
coeffecients.columns = ['Coeffecient']
coeffecients

**Jak można interpretować te współczynniki?**

Interpretacja współczynników:

- Utrzymując wszystkie pozostałe cechy bez zmian, wzrost o 1 jednostkę w **Avg. Session Length** (Śr. Długość sesji) wiąże się z **wzrostem o 25,98 wydanych USD**.
- Utrzymując wszystkie pozostałe cechy bez zmian, wzrost o 1 jednostkę w **Time on App** (Czas na aplikację) wiąże się z **wzrostem o 38,59 wydanych USD**.
- Utrzymując wszystkie pozostałe cechy bez zmian, wzrost o 1 jednostkę w **Time on Website** (Czas na stronie) wiąże się z **wzrostem o 0,19 USD wydanych USD**.
- Utrzymując wszystkie pozostałe cechy bez zmian, wzrost o 1 jednostkę w **Length of Membership** (Długość członkostwa) wiąże się z **wzrostem o 61,27 wydanych USD**.


**Czy uważasz, że firma powinna bardziej skupić się na swojej aplikacji mobilnej lub na swojej stronie internetowej?**


Jest to trudne, istnieją dwa sposoby, aby o tym pomyśleć: zaprojektuj stronę internetową, aby nadrobić zaległości w działaniu aplikacji mobilnej lub rozbuduj aplikację, ponieważ działa to lepiej. Taka odpowiedź naprawdę zależy od innych czynników występujących w firmie. Prawdopodobnie chciałbyś zbadać związek między Długością członkostwa a aplikacją lub witryną zanim dojdziesz do wniosku!
