In [16]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

data = pd.read_csv("https://raw.githubusercontent.com/amankharwal/Website-data/master/tips.csv")
data.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


##### Descrição das colunas do conjunto de dados:

1 - total_bill: Fatura total em dólares, incluindo impostos
2 - gorjeta(tip): gorjeta dada ao garçom em dólares
3 - sexo: sexo da pessoa que paga a conta
4 - fumante: se a pessoa fumava ou não
5 - dia: dia da semana
6 - tempo: almoço ou jantar
7 - tamanho: número de pessoas na mesa

In [17]:
data.shape

(244, 7)

In [18]:
data.isnull().sum()

total_bill    0
tip           0
sex           0
smoker        0
day           0
time          0
size          0
dtype: int64

Vamos dar uma olhada nas gorjetas dadas aos garçons de acordo com:

total_bill = a conta total paga,
size = número de pessoas em uma mesa,
day = e o dia da semana.


In [19]:
figure = px.scatter(data_frame = data, x='total_bill',
                    y='tip', size='size', color='day', trendline='ols')

figure.show()

Agora vamos dar uma olhada nas gorjetas dadas aos garçons de acordo com:

total_bill = a conta total paga,
size = o número de pessoas em uma mesa,
e o sex = sexo da pessoa que paga a conta.


In [20]:
figure = px.scatter(data_frame= data, x='total_bill',
                    y='tip', size='size', color='sex', trendline='ols')

figure.show()

Agora vamos dar uma olhada nas gorjetas dadas aos garçons de acordo com:


total_bill = conta total paga,
size = número de pessoas em uma mesa
e a time = hora da refeição.

In [21]:
figure = px.scatter(data_frame= data, x='total_bill',
                    y='tip', size='size', color='time', trendline='ols')

figure.show()

##### Agora vamos ver as gorjetas dadas aos garçons de acordo com os dias para descobrir qual dia mais dicas são dadas aos garçons:

In [22]:

figure = px.pie(data, values='tip',
                names='day', hole= 0.5)

figure.show()


Como podemos ver, de acordo com o gráfico acima, aos sábados são dadas a maioria das gorjetas aos garçons.

Agora vamos olhar para o número de gorjetas dadas aos garçons por sexo da pessoa que paga a conta para ver quem dá mais dicas aos garçons:

In [23]:
figure = px.pie(data, 
                values='tip',
                names='sex',
                hole= 0.5)

figure.show()

Agora vamos ver se um fumante dá gorjetas a mais ou um não fumante:

In [24]:
figure = px.pie(data, 
                values= 'tip',
                names='smoker',hole= 0.4)

figure.show()

Agora vamos ver se a maioria das gorjetas são dadas durante o almoço ou jantar:

In [25]:
figure = px.pie(data,
                values='tip',
                names='time', hole=0.4)

figure.show()

Depois de analisar todos os faotes que afetam as gorjetas dadas aos garçons. Agora vamos treinar um modelo de aprendizado de máquina para prever as gorjetas recebidas.

### Modelo de previsão de gorjeta 


##### Antes de treinar o modelo, vai ser feita uma transformação de dados de categóricos para numéricos

In [26]:
data['sex'] = data['sex'].map({"Female": 0, "Male": 1})
data['smoker'] = data['smoker'].map({"No": 0, "Yes": 1})
data['day'] = data['day'].map({"Thur": 0, "Fri": 1, "Sat": 2, "Sun": 3})
data['time'] = data['time'].map({"Lunch": 0, "Dinner": 1})
data.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,0,0,3,1,2
1,10.34,1.66,1,0,3,1,3
2,21.01,3.5,1,0,3,1,3
3,23.68,3.31,1,0,3,1,2
4,24.59,3.61,0,0,3,1,4


##### Dividindo os conjuntos em treino e teste

In [27]:
x = np.array(data[['total_bill', 'sex', 'smoker', 'day', 'time', 'size']])
y = np.array(data['tip'])

from sklearn.model_selection import train_test_split

Xtrain, xtest, ytrain, ytest = train_test_split(x, y, test_size=0.3, random_state=42)

##### Treinar um modelo de aprendizado de máquina para previsão de gorjetas

In [28]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(Xtrain, ytrain)

LinearRegression()

##### Teste do desempenho do modelo dando entradas para o mesmo de acordo com as caracteristicas usadas para treina-lo

In [29]:
# features = [['total_bill', 'sex', 'smoker', 'day', 'time','size']]

features = np.array([[24.50, 1, 0 ,0, 1, 4]])
model.predict(features)

array([4.04726347])