# Importando o Pandas

### Pandas é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados. Em particular, oferece estruturas e operações para manipular tabelas numéricas e séries temporais. Esses dados podem ser tabulares (ordenados ou desordenado), matrizes e qualquer outra forma de data set (ex: .csv, .txt, .xlsx) com dados estatísticos ou observacionais.

In [3]:
import pandas as pd

# Transformando a tabela do excel em um dataframe

### DataFrame é uma estrutura de dados bidimensional com os dados alinhados de forma tabular em linhas e colunas, mutável em tamanho e semelhantemente a uma pasta de trabalho do MS-EXCEL

In [4]:
dados = pd.read_excel('nascimentos_por_ano.xlsx')

# Visualização dos Dados

In [5]:
dados

Unnamed: 0,ano,Mulheres,Homens,Total
0,2003,1673522,1752397,3426727
1,2004,1622277,1706265,3329120
2,2005,1622969,1706049,3329431
3,2006,1540885,1630777,3172000
4,2007,1493045,1586875,3080266
5,2008,1512644,1594814,3107927
6,2009,1485757,1559481,3045696
7,2010,1455366,1529541,2985406
8,2011,1485076,1559145,3044594
9,2012,1479056,1550945,3030364


# Soma de todos os nascimentos de mulheres nesse período

In [6]:
total_mulheres = dados.Mulheres.sum()

# Total de mulheres na amostra

In [7]:
total_mulheres

24116806

# Soma de todos os nascimento nesse período 

In [8]:
total_nascimentos = dados.Total.sum() 

# Total de nascimentos na amostra

In [9]:
total_nascimentos

49492178

# Cálculo da proporção de mulheres nessa amostra

In [10]:
p = total_mulheres/total_nascimentos

# Valor da proporção na amostra

In [11]:
p

0.4872852029264099

# Escolhendo um nível de confiança de 99%

### um escore-z (ou escore padrão) de uma observação é o número de desvios padrão acima ou abaixo da média da população. Para 99% de confiança o valor do escore-z é 2,58

In [12]:
z = 2.58

# Cálculo do erro padrão da proporção amostral.

### Devido ao Teorema Central do Limite, para valores muito altos da amostra de número de nascimentos, a proporção p do número de mulheres será aproximadamente normalmente distribuída com um desvio padrão dado pela expressão abaixo.

In [14]:
margem_de_erro = (p*(1-p)/total_nascimentos)**0.5

# Cálculo do intervalo de confiança

In [15]:
print(f'Intervalo de confiança: [{(p - z*margem_de_erro)*100:.2f}% ; {(p + z*margem_de_erro)*100:.2f}%]')

Intervalo de confiança: [48.71% ; 48.75%]


### Então com 99% de confiança, a verdadeira proporção de mulheres na população está entre 48,71% e 48,75%. 