## Aula 16 - Estatística pt1 - Definições

- 1. Introdução
- 2. Probabilidade
- 3. Distribuições de probabilidade

### Problema gerador: em um jogo da Copa do Mundo de futebol, a quantidade média de gols é aproximadamente 3. Assim sendo, qual é a probabilidade de em determinada partida não haver gols ? E a probabilidade de haver 4 gols ?

In [1]:
dados = '''
Uruguay 1930 FIFA World Cup -- 4.375

Italy 1934 FIFA World Cup -- 4.12

France 1938 FIFA World Cup -- 4.67

Brazil 1950 FIFA World Cup -- 4

Switzerland 1954 FIFA World Cup -- 5.38

Sweden 1958 FIFA World Cup -- 3.6

Chile 1962 FIFA World Cup -- 2.79

England 1966 FIFA World Cup -- 2.79

Mexico 1970 FIFA World Cup -- 2.97

West Germany 1974 FIFA World Cup -- 2.55

Argentina 1978 FIFA World Cup -- 2.68

Spain 1982 FIFA World Cup -- 2.81

Mexico 1986 FIFA World Cup -- 2.54

Italy 1990 FIFA World Cup -- 2.21

United States 1994 FIFA World Cup -- 2.71

France 1998 FIFA World Cup -- 2.67

South Korea and Japan 2002 FIFA World Cup -- 2.52

Germany 2006 FIFA World Cup -- 2.30

South Africa 2010 FIFA World Cup -- 2.27

Brazil 2014 FIFA World Cup -- 2.67

Russia 2018 FIFA World Cup -- 2.64

Qatar 2022 FIFA World Cup --  2.69'''

In [2]:
media_de_gols = [float(x.split(' -- ')[1])for x in dados.split('\n\n')]

In [3]:
import numpy as np

np.array(media_de_gols).mean()

3.0888636363636364

## Introdução

A probabilidade e estatística podem ser divididas nos seguintes três pilares:

- **Probabilidade**: É a teoria matemática utilizada para se estudar a incerteza oriundas de `fenômenos` de caráter aleatório

- **Estatística Descritiva**: Etapa inicial da análise estatística, tendo como objetivo tirar informações prévias de modo informal e direto. A ideia é obter informações que `resumam` o conjunto de dados, a fim que estes possam ser `descritos`, e conclusões iniciais possam ser tiradas.

- **Inferência Estatística**: É o conjunto de técnicas que possibilitam a extrapolação de conclusões tiradas a partir de um conjunto pequeno de dados (denominado `amostra`) para todo universo sob análise (denominado (`população`))

## 1.1) Tipos de Variáveis

 - **Variável qualitativa** nominal
 > Valores que expressam **Atributos sem nenhum um tipo de ordem**. Ex.: sexo, estado cívil, pais de origem, ser fumante ou não, etc.
 
-São representados por strings, ou possívelmente números inteiros

- **Variável qualitativa ordinal**
> Valores que expressam **atributos com algum tipo de ordem ou grau**. Ex: escolaridade, resposta deu um paciente (pior, igual, melhora), classe social(alta, média, baixa), classe do navio, etc.

-São representados por strings, ou possívelmente números inteiros

- **Variável quantitativa** discreta
> Valores numéricos inteiros. Ex: idade em anos inteiros, número de banheiros em uma casa, número de filhos, etc.

-São representados por ints

- **Variável quantitativa** contínua
> Valores numéricos racionais: Ex.: salário,preço, temperatura, gorjeta, etc.

-São representados por floats

In [29]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
from Func_estatdesc import *

## 2) Probabilidade
Probabilidade é a área da matemática que estuda **eventos aleatórios**, cujos resultados são **probabilísticos** ou **estocásticos**

Existem poucos sistemas na natureza que são de fato inerentemente aleatórios e não-determinísticas. No entanto, uma descrição determinística pode ser muito complicada, de modo que **se torna conveniente** tratar o sistema como um sistema estocástico.

Ex.: lançamento de moeda, lançamento de dados, etc.

O objetivo da estatística é similar: analisar dados ou criar modelos que **generalizem relações** que não podem ser determinadas diretamente uma vez que não temos acesso à população. Neste sentido, há muita probabilidade envolvida em estatística, e é por isso que vamos olhar para os principais conceitos de probabilidade.

## 2.1) **Variável Aleatória**

Uma **variável aleatória** é uma variável cujo o valor depende de fatores **não-deterministicos**, isto é, **probabilisticos**.

**Exemplo**: resultado do lançamento de um dado; o quanto de gorjeta será dado num restaurante, sobrevivência ao Titanic.

## 2.2) **Espaço Amostral**

chamamos de **Espaço amostral** o conjunto de **todos os resultados possíveis de um certo fenômeno aleatório**, ou seja, **os valores possíveis que a variável aleatória de interesse pode assumir**. Representamos o espaço amostra pela letra grega $\Omega$. 

Os subconjuntos de $\Omega$ são denominados **eventos** e representados pelas letras latinas maiúsculas A, B, etc. 

**Exemplo**: o espaço amostral dos resultados do lançamento de um dado é:

$$ \Omega = \{1, 2, 3, 4, 5, 6\} $$

Alguns eventos possíveis são:

- Evento A = {3} : o resultado do lançamento do dado foi 3;
- Evento B = {5} : o resultado do lançamento do dado foi 5.


In [8]:
df_titanic = pd.read_csv('train.csv', na_values='?')

In [12]:
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [14]:
print(df_titanic.isna().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [41]:
# Verificando o tipo da coluna 
df_titanic.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [44]:
# Verificando valores unicos Variável PClass
df_titanic['Pclass'].unique()

array([3, 1, 2], dtype=int64)

In [45]:
# Verificando valores unicos Variável Survived
df_titanic['Survived'].unique()

array([0, 1], dtype=int64)

In [46]:
# Veiricando valores únicos variável embarked
df_titanic['Embarked'].unique()

array(['S', 'C', 'Q', nan], dtype=object)

In [47]:
# Difinindo o espaço amostral para idade 
df_titanic['Age'].unique()


array([22.  , 38.  , 26.  , 35.  ,   nan, 54.  ,  2.  , 27.  , 14.  ,
        4.  , 58.  , 20.  , 39.  , 55.  , 31.  , 34.  , 15.  , 28.  ,
        8.  , 19.  , 40.  , 66.  , 42.  , 21.  , 18.  ,  3.  ,  7.  ,
       49.  , 29.  , 65.  , 28.5 ,  5.  , 11.  , 45.  , 17.  , 32.  ,
       16.  , 25.  ,  0.83, 30.  , 33.  , 23.  , 24.  , 46.  , 59.  ,
       71.  , 37.  , 47.  , 14.5 , 70.5 , 32.5 , 12.  ,  9.  , 36.5 ,
       51.  , 55.5 , 40.5 , 44.  ,  1.  , 61.  , 56.  , 50.  , 36.  ,
       45.5 , 20.5 , 62.  , 41.  , 52.  , 63.  , 23.5 ,  0.92, 43.  ,
       60.  , 10.  , 64.  , 13.  , 48.  ,  0.75, 53.  , 57.  , 80.  ,
       70.  , 24.5 ,  6.  ,  0.67, 30.5 ,  0.42, 34.5 , 74.  ])

In [48]:
# Tratando a coluna Ticket
df_titanic['Ticket'] = df_titanic['Ticket'].apply(limpar_string)


### 2.4) Definição de probabilidade

Definimos uma função $P(.)$ denominada **probabilidade** que deve satisfazer as seguintes propriedades:
    
- $0\leq P(A) \leq 1$ 

- $ P(\Omega)=\sum_{A_i \in \Omega}P(A_{i})=1$

**Exemplo**: considere o lançamento de uma moeda honesta:

O espaço amostral é: $\Omega = \{ K, C \}$.

Pra uma moeda honesta, temos $P(K) = P(c) = \frac{1}{2}$.

De fato, note como $0 \leq P(A) \leq 1$. E, além disso,

$$ P(\Omega) = \sum_{A_i \in  \{ K, C \}}P(A_{i}) = P(K) + P(C) = \frac{1}{2} + \frac{1}{2} = 1 $$

#### 2.4.1) Atribuindo probabilidades aos elementos do espaço amostral

Há, essencialmente, duas formas de se **atribuir a probabilidade de cada evento**:

> 1) Baseando-se em características teóricas acerca do experimento.

**Exemplo**: ao lançarmos um dado, temos o espaço amostral $\Omega=\{1,2,3,4,5,6\}$.

Admitindo que o dado foi construído de forma homogênea e com medidas rigorosamente simétricas, não temos nenhuma razão para **privilegiar uma face em detrimento das demais**.

Assim, consideramos: $p(1) = p(2) = p(3) = p(4) = p(5) = p(6) = \frac{1}{6}$ 

> 2) Fazendo muitos experimentos.

**Exemplo**: imagine que temos uma moeda não-honesta, que tende cair mais vezes coroa do que cara. Para descobrirmos qual é a probabilidade de cada um dos eventos ($\Omega = \{K, C\}$), podemos lançar a moeda muitas vezes, e anotar os resultados:

In [50]:
n = 10000
cara = 5847
coroa = n - cara

print(cara, coroa)

5847 4153


In [51]:
p_cara = cara / n
p_coroa = coroa / n

print(p_cara, p_coroa)

0.5847 0.4153


In [55]:
pd.Series(np.random.randint(0,2,10000000)).value_counts(normalize=True)

0    0.500148
1    0.499852
Name: proportion, dtype: float64

No caso do Titanic, podemos atribuir probabilidades de acordo com as **observações coletadas**

isso é facilmente calculado com o `value_counts()`

In [57]:
df_titanic['Pclass'].value_counts(normalize=True)

Pclass
3    0.551066
1    0.242424
2    0.206510
Name: proportion, dtype: float64

#### 2.4.2) Eventos complementares

A probabilidade de ocorrência de um evento pode ser definida diretamente pela probabilidade de **não ocorrência dele**: $ A^{c}$ é a não ocorrência de $A$, de modo que, naturalmente, $ P(A) = 1 - P(A^{c})$

Ou seja, $P(A) + P(A^{c}) = 1$, o que faz sentido, segundo a definição de probabilidade!

Quando temos um espaço amostral de apenas dois elementos (lançamento de uma moeda, ou a sobrevivência ao Titanic, por exemplo), isso fica ainda mais evidente:

In [58]:
df_titanic['Survived'].value_counts(normalize=True)

Survived
0    0.616162
1    0.383838
Name: proportion, dtype: float64

In [59]:
df_titanic['Survived'].mean()

0.3838383838383838

### 2.5) Probabilidade Condicional e Independência

Utilizamos a notação $P(A|B)$ pra indicar a **probabilidade condicional de A dado B**, ou seja, probabilidade do evento $A$ ocorrer, dado que ocorreu o evento $B$.

Se os eventos $A$ e $B$ forem **dependentes**, temos que a ocorrência de $B$ influencia a ocorrência de $A$, ou seja, $P(A|B) \neq P(A)$.

**Eventos independentes** são tais que $P(A|B) = P(A)$, ou seja, a ocorrência do evento $B$ não influencia a probabilidade de ocorrência do evento $A$.

> No caso do Titanic: a **classe** influencia na **sobrevivência**?

In [60]:
df_titanic['Survived'].value_counts(normalize=True)

Survived
0    0.616162
1    0.383838
Name: proportion, dtype: float64

In [62]:
df_titanic.query('Pclass == 1')['Survived'].value_counts(normalize=True)

Survived
1    0.62963
0    0.37037
Name: proportion, dtype: float64

In [64]:
df_titanic.groupby('Pclass')[['Survived']].mean()

Unnamed: 0_level_0,Survived
Pclass,Unnamed: 1_level_1
1,0.62963
2,0.472826
3,0.242363
