### Uma grande aplicação da Distribuição Normal é o `Teorema do Limite Central`!

<br>

### Esse teorema afirma que quando o tamanho da amostra aumenta, a **distribuição amostral da sua média** aproxima-se cada vez mais de uma distribuição normal.

<br>

![alt_text](https://slideplayer.com.br/slide/1871319/8/images/29/O+Teorema+do+Limite+Central.jpg)

<br>


### É isso mesmo que você ouviu! A média amostral vai ter uma distribuição normal e a partir disso, temos muitas aplicações: Testes de Hipótese, Intervalos de Confiança, Regressões Lineares, etc.

### Vamos usar dados abertos de filmes da Netflix novamente.

<br>

https://www.kaggle.com/datasets/ariyoomotade/netflix-data-cleaning-analysis-and-visualization

In [1]:
import pandas as pd

In [3]:
df = pd.read_csv('filmes_netflix.csv')

In [4]:
df.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in,duracao_min
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries,90
1,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies",91
2,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies",125
3,s10,Movie,The Starling,Theodore Melfi,United States,9/24/2021,2021,PG-13,104 min,"Comedies, Dramas",104
4,s939,Movie,Motu Patlu in the Game of Zones,Suhas Kadav,India,5/1/2021,2019,TV-Y7,87 min,"Children & Family Movies, Comedies, Music & Mu...",87


### Descrição das colunas

* **`show_id`** - id do filme
* **`type`** - tipo de conteúdo(Movie)
* **`title`** - título do filme
* **`director`** - pessoa diretora do filme
* **`country`** - país do filme
* **`date_added`** - data de adição à Netflix
* **`release_year`** - ano de lançamento
* **`rating`** - rating da TV para o filme
* **`duration`** - duração do conteúdo
* **`listed_in`** - gênero do conteúdo
* **`duracao_min`** - duração do conteúdo em minutos

In [6]:
df.dtypes

show_id         object
type            object
title           object
director        object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
duracao_min      int64
dtype: object

In [7]:
import plotly.figure_factory as ff

In [9]:
fig = ff.create_distplot([df['duracao_min']], ['Duração (min)'],
                        show_rug = False, bin_size = 2, show_hist = False)

fig.update_layout(title_text = 'Duração dos Filmes')
fig.show()

### Parece que esse dado não segue uma distribuição Normal. Agora, vamos ver a distribuição da média das amostras da duração dos filmes!

Vamos gerar várias amostras aleatórias simples, de mesmo tamanho, a partir dos dados de duração de filmes e calcular a média de cada amostra gerada. Assim, teremos uma amostra da média das amostras da duração dos filmes e conseguiremos ver a sua distribuição.

In [10]:
df['duracao_min'].mean()

99.58488410055502

In [14]:
df['duracao_min'].median()

98.0

In [15]:
df['duracao_min'].mode()

0    90
Name: duracao_min, dtype: int64

In [16]:
df['duracao_min'].sample(frac = 0.1)

5873    105
5195    178
4090     92
6048     22
2279    100
       ... 
283      63
1213    130
4388     49
5218     97
6113     24
Name: duracao_min, Length: 613, dtype: int64

In [18]:
media_das_amostras = []
total_de_interacoes = 100000

for iteracao in range(total_de_interacoes):
    amostra = df['duracao_min'].sample(frac = 0.1)
    media = amostra.mean()
    media_das_amostras.append(media)

**Explicação:**

**1. Inicialização:**

* **`media_das_amostras = []`:** Esta linha cria uma lista vazia chamada `media_das_amostras`. Esta lista será utilizada para armazenar os valores médios das subamostras aleatoriamente amostradas.
* **`total_de_interacoes = 100000`:** Esta linha define a variável `total_de_interacoes` com o valor 100.000. Esta variável controlará o número de vezes que o código dentro do loop `for` será executado.

**2. Loop de Amostragem e Cálculo da Média:**

* **`for iteracao in range(total_de_interacoes):`:** Este loop `for` itera 100.000 vezes (conforme definido por `total_de_interacoes`). A variável `iteracao` assumirá valores de 0 a 99.999, inclusive.
    * **`amostra = df['duracao_min'].sample(frac = 0.1)`:** Dentro do loop, esta linha seleciona aleatoriamente 10% dos valores da coluna 'duracao_min' do DataFrame `df`. O resultado é armazenado na variável `amostra`.
    * **`media = amostra.mean()`:** Esta linha calcula a média (valor médio) dos valores no DataFrame `amostra` e armazena o resultado na variável `media`.
    * **`media_das_amostras.append(media)`:** Esta linha adiciona o valor `media` calculado à lista `media_das_amostras`. Isso efetivamente armazena o valor médio de cada subconjunto amostrado aleatoriamente.

**3. Resultado:**

Após a execução do código, a lista `media_das_amostras` conterá 100.000 elementos, cada um representando a média de um subconjunto aleatório de 10% dos valores da coluna 'duracao_min' do DataFrame `df`.

**Em resumo, este código realiza 100.000 amostragens aleatórias de 10% dos dados da coluna 'duracao_min' e calcula a média de cada subconjunto amostrado. As médias calculadas são armazenadas na lista `media_das_amostras` para análise posterior.**

**Observações:**

* Este código assume que você já importou a biblioteca `pandas` como `pd`.
* O código usa a função `sample()` do DataFrame para obter subamostras aleatórias.
* A função `mean()` é usada para calcular a média dos valores na subamostra.
* O código pode ser modificado para amostrar diferentes porcentagens de dados ou para calcular outras estatísticas além da média.

Espero que esta explicação mais detalhada em português seja útil. Se você tiver mais perguntas, por favor, não hesite em perguntar.


In [19]:
len(media_das_amostras)

100000

In [22]:
media_das_amostras[:10]

[100.32300163132138,
 99.45513866231647,
 101.23164763458401,
 98.99836867862969,
 100.66557911908646,
 99.82381729200652,
 101.7389885807504,
 99.82381729200652,
 98.66557911908646,
 99.94942903752039]

In [24]:
fig = ff.create_distplot([media_das_amostras], ['Média das Amostras'],
                        show_rug = False, bin_size = 50, show_hist = False)

fig.update_layout(title_text = 'Media do Valor')
fig.show()