# Introdução a Estatística com Python

esse conteúdo é dos exercício da formação em Ciência de Dados da DataCamp

## Bibliotecas e Datasets

In [7]:
# Bibliotecas

import pandas as pd
import numpy as np
import statistics as sts

In [8]:
# Datasets

amir = pd.read_csv('amir_deals.csv')
food = pd.read_csv('food_consumption.csv')
world = pd.read_csv('world_happiness.csv')

amir.head()

Unnamed: 0.1,Unnamed: 0,product,client,status,amount,num_users
0,1,Product F,Current,Won,7389.52,19
1,2,Product C,New,Won,4493.01,43
2,3,Product B,New,Won,5738.09,87
3,4,Product I,Current,Won,2591.24,83
4,5,Product E,Current,Won,6622.97,17


## Números aleatórios e probabilidade

Neste capítulo, você aprenderá como gerar amostras aleatórias e medir o acaso usando a probabilidade. Você trabalhará com dados de vendas do mundo real para calcular a probabilidade de um vendedor ser bem-sucedido. Por fim, você usará a distribuição binomial para modelar eventos com resultados binários.

### Quais são as chances?

Podemos mensurar a chance de um evento acontecer calculando: P(evento) = # vezes que o evento pode acontecer / total # de resultados possíveis. Ex. P(cara) = 1 vez dar cara / 2 possiveis resultados (cara ou coroa).<br>

Podemos usar `np.random()` para obter uma amostra aleatória dos nossos dados e para garantir que a amostra seja reproduzível, demos incluir uma semente `np.random.seed(10)`.<br>

Para amostra com <b>reposição</b> devemos colocar o argumento verdadeiro em replace `dataset.samples(5, replace=True)`.<br>

<b>Eventos Independentes</b> são aqueles que a probabilidade do segundo não é afetada pela probabilidade do primeiro evento. Ex. amostragens com reposição são sempre independentes, pois não altera a chance das outras amostras serem escolhidas.<br>

<b>Eventos Dependentes</b> são aqueles que a probabilidade do segundo é afetada pelo resultado do primeiro evento. 

#### Calculando a probabilidade
Você está no comando da equipe de vendas e é hora das análises de desempenho, começando pelo Amir. Como parte da revisão, você deseja selecionar aleatoriamente alguns dos negócios em que ele trabalhou no ano passado para poder analisá-los mais profundamente. Antes de começar a selecionar negócios, você primeiro descobrirá quais são as chances de selecionar determinados negócios.

In [10]:
# Conte as ofertas para cada produto
contagem = amir['product'].value_counts()
contagem

Product B    62
Product D    40
Product A    23
Product C    15
Product F    11
Product H     8
Product I     7
Product E     5
Product N     3
Product G     2
Product J     2
Name: product, dtype: int64

In [11]:
# Calcule a probabilidade de escolher um de acordo com cada produto
prob = amir['product'].value_counts()/amir['product'].shape[0] # shape[0] trará o valor total de linhas
prob

Product B    0.348315
Product D    0.224719
Product A    0.129213
Product C    0.084270
Product F    0.061798
Product H    0.044944
Product I    0.039326
Product E    0.028090
Product N    0.016854
Product G    0.011236
Product J    0.011236
Name: product, dtype: float64

<B>QUESTÃO:</B> Se você selecionar aleatoriamente um dos negócios de Amir, qual é a probabilidade de que o negócio envolva o Produto C?<BR>
    
A probabilidade de escolher o Produto C será de <B>`8,43%`

#### Ofertas de amostragem

No exercício anterior, você contou os negócios em que Amir trabalhou. Agora é hora de escolher aleatoriamente cinco ofertas para que você possa entrar em contato com cada cliente e perguntar se eles ficaram satisfeitos com o serviço recebido. Você tentará fazer isso com e sem substituição.

Além disso, você deseja garantir que isso seja feito aleatoriamente e que possa ser reproduzido caso seja perguntado como você escolheu os negócios, então você precisará definir a semente aleatória antes de amostrar os negócios.

In [13]:
# Definir semente aleatória
np.random.seed(24)

In [14]:
# Amostra 5 negócios sem substituição
amostra_sem_repos = amir.sample(5)
print(amostra_sem_repos)

     Unnamed: 0    product   client status   amount  num_users
127         128  Product B  Current    Won  2070.25          7
148         149  Product D  Current    Won  3485.48         52
77           78  Product B  Current    Won  6252.30         27
104         105  Product D  Current    Won  4110.98         39
166         167  Product C      New   Lost  3779.86         11


In [15]:
# Amostra 5 negócios com substituição
amostra_com_repos = amir.sample(5, replace=True)
print(amostra_com_repos)

     Unnamed: 0    product   client status   amount  num_users
133         134  Product D  Current    Won  5992.86         98
101         102  Product H  Current    Won  5116.34         63
110         111  Product B  Current    Won   696.88         44
49           50  Product B  Current    Won  3488.36         79
56           57  Product D  Current    Won  6820.84         42


<B>QUESTÃO:</B> Que tipo de amostragem é melhor usar para esta situação?<BR>
    
Para a situação acima, o mais interessante é a `amostra SEM reposição`, porque a intenção é falar com 5 clientes distintos

### Distribuição Discreta

Descreve a probabilidade de cada saída ocorrer em um cenário. <b>Valor Esperado</b> é a média distribuição de probabilidade

#### Criando uma distribuição de probabilidade

Um novo restaurante foi inaugurado há alguns meses, e a administração do restaurante quer otimizar seu espaço com base no tamanho dos grupos que vêm com mais frequência. Em uma noite, há 10 grupos de pessoas esperando para se sentar no restaurante, mas em vez de serem chamados por ordem de chegada, serão chamados aleatoriamente. Neste exercício, você investigará a probabilidade de grupos de tamanhos diferentes serem escolhidos primeiro. Os dados em cada um dos dez grupos estão contidos no DataFrame restaurant_groups.

In [None]:
# Crie um histograma de restaurant_groups e mostre o plot
restaurant_groups['group_size'].hist(bins=np.linspace(2,6,5))
plt.show()

In [None]:
# Criar distribuição de probabilidade
size_dist = restaurant_groups['group_size'].value_counts() / restaurant_groups.shape[0]

# Redefina o índice e renomeie as colunas
size_dist = size_dist.reset_index()
size_dist.columns = ['group_size', 'prob']

# Calcula o valor esperado
expected_value = np.sum(size_dist['group_size'] * size_dist['prob'])
print(expected_value)

In [None]:
# Grupos de subconjuntos de tamanho 4 ou mais

# Soma as probabilidades de groups_4_or_more

## More Distributions and the Central Limit Theorem

## Correlation and Experimental Design