
# Resumo dos Comandos básicos



- [`read_excel`](#read_excel): abre um arquivo do tipo XLSX;
- [`head`](#head): mostra apenas as primeiras linhas do `DataFrame`;
- [`tail`](#tail): mostra apenas as últimas linhas do `DataFrame`;
- [`sort_values`](#sort_values): devolve um **novo** `DataFrame` com o conteúdo ordenado;
- [`loc`](#loc): acessa um subconjunto de linhas e/ou colunas considerando seus respectivos rótulos no DataFrame.
- [`iloc`](#iloc): acessa um subconjunto de linhas e/ou colunas considerando números inteiros para indicar a posição.


Consulte [aqui](https://medium.com/horadecodar/data-science-tips-02-como-usar-loc-e-iloc-no-pandas-fab58e214d87) estudar mais sobre `loc` e `iloc`.

Aqui você encontra um resumo dos comandos apresentados neste notebook:

- [`dtypes`](#ex1): mostra o tipo de cada variável do *dataframe*.
- [`isin`](#ex2): avalia, por exemplo, se conteúdo de uma coluna do *dataframe* faz parte ou não de uma lista.

Os seguintes comandos foram utilizados neste jupyter notebook. Para facilitar sua consulta, escreva um resumo do que cada um deles faz:

- [`.astype`](#astype): devolve uma cópia da coluna (`Series`) convertida para o tipo desejado;
- [`.cat.categories`](#categories): mostra os códigos numéricos;
- [`.cat.ordered`](#ordered): verifica se a variável é ordinal;
- [`.value_counts`](#value_counts): conta quantos valores tem;
- [`pd.crosstab`](#crosstab): devolve uma tabela (variavel linha, variavel coluna);
- [`.mean`](#mean-median-etc): devolve a média;
- [`.median`](#mean-median-etc): devolve a mediana;
- [`.quantile`](#mean-median-etc): devolve os quartis desejados;
- [`.var`](#mean-median-etc): devolve a variana dos valores;
- [`.std`](#mean-median-etc): desvio padrão;
- [`.describe`](#describe): descreve diversos resultados;
- [`pd.cut`](#cut): Use cut quando precisar segmentar e classificar os valores dos dados em compartimentos. Esta função também é útil para passar de uma variável contínua a uma variável categórica;
- [`.groupby`](#groupby): Agrupa de acordo com a váriavel qualitativa

## Coeficiente de Covariância

O gráfico de dispersão é uma ferramenta descritiva simples, porém útil para examinar uma possível relação entre variáveis quantitativas. A literatura estatística apresenta uma medida, nomeada de covariância, cujo sinal pode ser um indicativo do tipo de associação linear: positiva, se maior que zero; negativa, se menor que zero; e ausente de associação linear, se igual a zero. 

$$\mathrm{Cov}(X, Y) = \frac{1}{n} \sum^n_{i=1}(x_i - \overline{x})(y_i - \overline{y}) \quad\quad\quad\quad (1)$$

## Coeficiente de Correlação Linear

Ignorando-se o sinal, a covariância de `X3` e `X7` é mais do que o dobro da covariância de `X3` e `X4`. Entretanto, considerando os respectivos gráficos, as relações não parecem muito mais fortes no primeiro caso do que no segundo. Existe aqui um perigo de se comparar valores que, na verdade, não são comparáveis. O coeficiente de correlação linear garante que os valores estarão sempre entre -1 e 1:

$$\mathrm{Corr}(X, Y) = \frac{\mathrm{Cov}(X, Y)}{\mathrm{DP}(X)\mathrm{DP}(Y)}$$

### Associação
- [`.cov` (em um `pd.Series`)](#cov): Calcula covariância
- [`.corr` (em um `pd.Series`)](#corr): Calcula correlação

### Gráfico
- [`plt.scatter`](#plt-scatter): ESCREVA AQUI O RESUMO
- [`.plot.scatter` (em um `pd.DataFrame`)](#df-scatter): ESCREVA AQUI O RESUMO
- [`plt.figure`](#plt-figure): ESCREVA AQUI O RESUMO
- [`plt.subplot`](#plt-subplot): ESCREVA AQUI O RESUMO
- [`plt.title`](#plt-title): ESCREVA AQUI O RESUMO
- [`plt.xlabel`](#plt-xlabel): ESCREVA AQUI O RESUMO
- [`plt.ylabel`](#plt-ylabel): ESCREVA AQUI O RESUMO
- [`plt.show`](#plt-show): ESCREVA AQUI O RESUMO

In [None]:
plt.figure(figsize=(15,10))
plt.subplot(2,3,1)
plt.scatter(X,Y)
plt.title("X x Y")

### Teorema de Bayes
Vamos entender o **Teorema de Bayes** utilizando a característica do passageiro descrita na variável `Sex`. Ainda, vamos utilizar os eventos $S$ para sobrevivente, $F$ para feminino e $M$ para masculino.

A probabilidade de **ser sobrevivente** dado cada categoria da variável `Sex` pode ser escrita como:

$$P(S|F)=\frac{P(S \cap F)}{P(F)}=\frac{P(F|S)P(S)}{P(F)}\hspace{3cm}\mbox{(I)}$$

e

$$P(S|M)=\frac{P(S \cap M)}{P(M)}=\frac{P(M|S)P(S)}{P(M)}\hspace{2.5cm}\mbox{(II)}$$


Por consequência, a probabilidade de **não ser sobrevivente** dado cada categoria da variável `Sex` pode ser escrita como:

$$P(S^c|F)=1-P(S|F)$$

e

$$P(S^c|M)=1-P(S|M)$$

## Teoria: Distribuição Binomial

A distribuição binomial modela a número de sucessos (o evento de interesse) em uma determinada quantidade de tentativas. Mais formalmente, dizemos que uma variável aleatória $Y$ segue uma distribuição binomial utilizando a seguinte notação: $Y$~$Bin(n,p)$. Essa notação pode ser lida como: $Y$ segue uma distribuição binomial com $n$ tentativas e $p$ como probabilidade de sucesso em cada evento independente.

A função de probabilidade (lembrando: que associa uma probabilidade a cada valor possível de $Y$) é dada por:

$$P(Y=y)=\left(
\begin{array}{c}
    n \\
    y
\end{array}\right) p^y (1-p)^{(n-y)}$$

Para que um experimento possa ser modelado por uma distribuição binomial, ele precisa ter as seguintes propriedades:

- ser uma contagem de $n$ repetições (ou tentativas, ou ensaios) idênticas;
- cada repetição tem apenas 2 resultados possíveis: um é denominado sucesso (o resultado de interesse, que não necessariamente é positivo) e o outro, fracasso;
- a probabilidade de sucesso para cada ensaio é denominada $p$ e será constante em cada repetição. Consequentemente, a probabilidade de fracasso $(1-p)$ também não varia de tentativa para tentativa;
- as tentativas são independentes.

<div id="esperanca-variancia"></div>

### Esperança e Variância

Se $Y$~$Bin(n,p)$, o valor esperado $E(Y)$ e a variância $Var(Y)$ são dados por:

$$E(Y) = np$$

$$Var(Y) = np(1-p)$$

### Modelos Probabilísticos Discretos

Comandos:

- $P(Y=y)$: `stats.binom.pmf(y, n, p)`
- $P(Y\leq y)$: `stats.binom.cdf(y, n, p)`
- $E(Y)$: `stats.binom.mean(n, p)`
- $Var(Y)$: `stats.binom.var(n, p)`
- $DP(Y)$: `stats.binom.std(n, p)`

Link: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html

## Teoria: Distribuição de Poisson

A distribuição de Poisson é utilizada para modelar estimativas de número de ocorrências em um espaço contínuo (tempo, área, distância, etc.). Seja $\mu$ o número médio de eventos ocorrendo no intervalo considerado. Dizemos que uma variável aleatória $X$, que modela o número de ocorrências de um evento no intervalo considerado, segue uma distribuição de Poisson com parâmetro $\mu$ utilizando a seguinte notação: $X$~$Poisson(\mu)$.

A função de probabilidade (lembrando: que associa uma probabilidade a cada valor possível de $X$) é dada por:

$$P(X=x)=\frac{e^{-\mu}\mu^x}{x!}$$

Para que um experimento possa ser modelado por uma distribuição de Poisson, ele precisa ter as seguintes propriedades:

- Probabilidade de uma ocorrência é a mesma para dois intervalos quaisquer de igual tamanho;
- A ocorrência ou não num dado intervalo é independente da ocorrência ou não em outro intervalo.



<div id="esperanca-variancia"></div>

### Esperança e Variância

Se $X$~$Poisson(\mu)$, o valor esperado $E(X)$ e a variância $Var(X)$ são dados por:

$$E(X) = \mu$$

$$Var(X) = \mu$$

### Modelos Probabilísticos Discretos Poisson
Comandos quando $X\sim Poisson(\mu)$

- $P(X=k)$: `stats.poisson.pmf(k,mu)`
- $P(X\leq k)$: `stats.poisson.cdf(k, mu)`
- $E(X)$: `stats.poisson.mean(mu)`
- $Var(X)$: `stats.poisson.var(mu)`
- $DP(X)$: `stats.poisson.std(mu)`

Link: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.poisson.html

## Teoria: Distribuição Exponencial em Python

A biblioteca SciPy está cheia de funções para nos ajudar a trabalhar com variáveis aleatórias! https://en.wikipedia.org/wiki/SciPy

Algumas funções úteis para desenvolver seu código considerando a distribuição Exponencial: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.expon.html

Lembrando que vamos assumir que se $X\sim Exp(\lambda)$ então $E(X)=\mu=1/\lambda$

Logo, faça `from scipy import stats` e `mu=1/lambda`, então:

* $f(x)$: `stats.expon.pdf(x, scale=mu)`

* $P(X\leq x)$: `stats.expon.cdf(x, scale=mu)`

* $x$ tal que $q=P(X\leq x)$: `stats.expon.ppf(q, scale=mu)`

* $E(X)$: `stats.expon.mean(scale=mu)`

* $Var(X)$: `stats.expon.var(scale=mu)`

* $DP(X)$: `stats.expon.std(scale=mu)`

### Distribuição Uniforme

Comandos quando $X\sim Uniforme(a, b)$.

* $f(x)$: `stats.uniform.pdf(x, loc=a, scale=b-a)`

* $P(X\leq x)$: `stats.uniform.cdf(x, loc=a, scale=b-a)`

* $x$ tal que $q=P(X\leq x)$: `stats.uniform.ppf(q, loc=a, scale=b-a)`

* $E(X)$: `stats.uniform.mean(loc=a, scale=b-a)`

* $Var(X)$: `stats.uniform.var(loc=a, scale=b-a)`

* $DP(X)$: `stats.uniform.std(loc=a, scale=b-a)`

Link: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.uniform.html

# <font color=red>**--------------------PF--------------------**</font>

## <font color=gold>**TESTE DE HIPÓTESE**</font>

<font color=magenta>**1º- Pegar os dados do exercício**</font>

In [None]:
X = df["variavel"]
alpha = #nível de confiança
media_populacional = #dado
media_amostral = np.mean(variavel)
desvio_padrao = np.std(variavel, ddof=1) #se for distribuição normal, ou seja tem um std populacional faz um std novo
std_dist_normal = std/np.sqrt(n)
n = len(variavel)

<font color=magenta>**2º- Achar o x crítico**</font>

In [9]:
#se for unicaudal a direita 
x_critico = stats.*.ppf(1-alpha, df = n-1)

In [8]:
#se for unicaudal a esquerda 
x_critico = stats.*.ppf(alpha, df = n-1)

*= coloca o tipo de distribuição: exemplo "norm"

In [None]:
#exemplo unicaudal a direita  
x_critico = stats.norm.ppf(1-a, loc=media, scale = std_dist_normal)

#### DESTRIBUIÇÃO  <font color=lightgreen>**T-STUDENT**</font>

Quando não conhecemos a variância populacional ou seja amostral = t-student

* $sigma^2$ desconheicodo X (população) normal -- T Student
* $sigma^2$ conhecido - teste normal
* Grau de liberdade
    * grau de liberdade = tamanho_amostra - 1
* ddof = 1 

#### t observado

In [7]:
t_obs = (media_amostral - media_populacional)/(desvio_padrao/np.sqrt(n))
t_obs

#### t crítico

In [None]:
#se for unicaudal a direita 
t_critico = stats.t.ppf(1-alpha, df = n-1)

In [None]:
#se for unicaudal a esquerda 
t_critico = stats.t.ppf(alpha, df = n-1)

#### Teste via  <font color=lightgreen>**VALOR P**</font>

In [None]:
#se for unicaudal a direita
valor_p = 1 - stats.t.cdf(t_obs, df = n-1)


In [None]:
#se for unicaudal a esquerda
valor_p = stats.t.cdf(t_obs, df = n-1)

In [None]:
#Compaar valor p com alpha
valor_p, alpha

### Extra

In [None]:
# Verifique graficamente se a distribuição dos dados é normal.
stats.probplot(variavel, dist="norm", plot=plt);

# Erro tipo 1 e tipo 2
|       |H0 é verdadeiro|H0 é falso|
|:---|:-----|:-----|
|Rejeito H0| Erro tipo 1,Falso Positivo eProbabilidade 𝛼|Decisão correta|  
|Não rejeito H0|Decisão correta| Erro tipo 2, Falso Negativo e Probabilidade 𝛽|

* alpha é a probabilidade de H0 ser verdadeira, e rejeitarmos
* beta é a probabilidade de H1 não ser verdadeira e esta nao ser rejeitada

---


## <font color=gold>**REGRESSÃO LINEAR**</font>

## Simples

#  <font color= PURPLE>**FÓRMULA SAGRADA  <3**</font>

In [10]:

def regress(Y,X):
    '''
    Y: coluna do DataFrame utilizada como variável resposta (TARGET)
    X: coluna(s) do DataFrame utilizadas como variável(is) explicativas(pode ser uma lista)- (FEATURES)
    '''
    X_cp = sm.add_constant(X)
    model = sm.OLS(Y,X_cp.astype(float))
    results = model.fit()
    
    return results

<font color=magenta>**1º- Definir X e Y**</font>

In [None]:
colunas = list(df.columns)
X= df["Feature"]
Y = df["Target"]


<font color=magenta>**2º- Usar formula sagrada**</font>

In [None]:
reg_linear = regress(Y,X_);
reg_linear.summary()

<font color=magenta>**3º- Analisar o summary**</font>

## Multipla

In [None]:
colunas = list(df.columns)
colunas.remove("se precisar")
X = df[colunas]
Y = bream["Target"]

In [None]:
reg = regress(Y,X);
reg.summary()