## Dados Estatísticos em Código

### Sobre a Matemática

Os dados estatísticos são informações obtidas em pesquisas estatísticas. Esses dados são classificados conforme a natureza da informação que representam e se dividem em qualitativos e quantitativos.

Os dados qualitativos são dados que descrevem características ou qualidades, não sendo expressos por números com significado matemático. Podem ser Nominais, representam categorias sem ordem natural (por exemplo, cor dos olhos, sexo) ou Ordinais, representam categorias com ordem, mas sem diferença numérica mensurável (por exemplo, grau de satisfação - baixo, médio, alto).

Os dados quantitativos (numéricos) são os dados expressos por números, nos quais operações matemáticas fazem sentido. Podem ser Discretos, resultam de contagens e assumem apenas valores inteiros (por exemplo, quantidade de livros, número de filhos) ou Contínuos, resultam de medições e podem assumir qualquer valor real dentro de um intervalo (exemplo, altura, peso, tempo).

### Sobre o Código

Na linguagem de programação **Python**,

**import** - é o comando usado para carregar bibliotecas ou módulos externos para uso no programa. Permite reutilizar códigos prontos.

**pandas** - é a biblioteca voltada para organização, manipulação e análise de dados, especialmente em forma de tabelas estatísticas.

**numpy** - é a biblioteca focada em cálculos numéricos e estatísticos, oferecendo funções matemáticas eficientes.

**as** - é a palavra-chave usada para criar um apelido (alias) para uma biblioteca, facilitando a escrita e a leitura do código.

**{}** - são os delimitadores do dicionário, estrutura de dados que armazena informações em pares chave : valor, muito usada para representar variáveis estatísticas.

**df** - é o nome de variável (convencional) usado para representar um DataFrame, isto é, uma tabela de dados estatísticos.

**.DataFrame** - é a função do pandas que transforma dados estruturados (como dicionários) em uma tabela estatística com linhas e colunas.

**print()** - é a função nativa que exibe informações na tela, permitindo visualizar dados, resultados e mensagens do programa.

**\n** - é a sequência de escape que representa uma quebra de linha, usada para organizar melhor a saída no terminal.

**f"..."** (f-string) - é a forma de formatar textos permitindo inserir valores de variáveis ou cálculos diretamente dentro da string.

**np.mean()** - é a função do NumPy que calcula a média aritmética de um conjunto de dados numéricos.

**np.median()** - é a função do NumPy que calcula a mediana, o valor central de um conjunto de dados ordenado.

**.min()** - é o método que retorna o menor valor de uma coleção de dados numéricos.

**.max()** - é o método que retorna o maior valor de uma coleção de dados numéricos.

**.value_counts()** - é o método do pandas que calcula a frequência absoluta, contando quantas vezes cada valor aparece.

**'#'** - é usado para criar comentários ao código, que são notas para se entender melhor o que o código faz.

Vamos ao código...

In [2]:
import pandas as pd
import numpy as np

# Criação dos dados da pesquisa
dados = {
    "idade": [15, 16, 15, 17, 16, 15, 18],
    "altura": [1.60, 1.72, 1.65, 1.80, 1.75, 1.62, 1.78],
    "sexo": ["F", "M", "F", "M", "M", "F", "M"]
}

# Criação do DataFrame (tabela estatística)
df = pd.DataFrame(dados)

|Código Python (.py)|O que faz|
|---|---|
|import pandas as pd|Importa a biblioteca pandas, usada para criar e manipular tabelas estatísticas (DataFrame).|
|import numpy as np|Importa a biblioteca NumPy, usada para cálculos matemáticos e estatísticos.|
|dados = { ... }|Cria um dicionário contendo os dados da pesquisa estatística. Cada chave representa uma variável estatística.|
|"idade": [15, 16, 15, 17, 16, 15, 18]|Lista de dados quantitativos discretos (idades coletadas).|
|"altura": [1.60, 1.72, 1.65, 1.80, 1.75, 1.62, 1.78]|Lista de dados quantitativos contínuos (alturas medidas).|
|"sexo": ["F", "M", "F", "M", "M", "F", "M"]|Lista de dados qualitativos nominais (categorias sem ordem).|
|df = pd.DataFrame(dados)|Cria um DataFrame, que organiza os dados estatísticos em forma de tabela (linhas e colunas).|

In [3]:
print("DADOS DA PESQUISA\n")
print(df)

print("\nANÁLISE ESTATÍSTICA\n")

# Análise dos dados quantitativos
print("Idade:")
print(f"Média: {np.mean(df['idade'])}")
print(f"Mediana: {np.median(df['idade'])}")
print(f"Valor mínimo: {df['idade'].min()}")
print(f"Valor máximo: {df['idade'].max()}")

print("\nAltura:")
print(f"Média: {np.mean(df['altura'])}")
print(f"Mediana: {np.median(df['altura'])}")
print(f"Valor mínimo: {df['altura'].min()}")
print(f"Valor máximo: {df['altura'].max()}")

# Análise dos dados qualitativos
print("\nSexo (frequência):")
print(df['sexo'].value_counts())

DADOS DA PESQUISA

   idade  altura sexo
0     15    1.60    F
1     16    1.72    M
2     15    1.65    F
3     17    1.80    M
4     16    1.75    M
5     15    1.62    F
6     18    1.78    M

ANÁLISE ESTATÍSTICA

Idade:
Média: 16.0
Mediana: 16.0
Valor mínimo: 15
Valor máximo: 18

Altura:
Média: 1.7028571428571428
Mediana: 1.72
Valor mínimo: 1.6
Valor máximo: 1.8

Sexo (frequência):
sexo
M    4
F    3
Name: count, dtype: int64


|Código Python (.py)|O que faz|
|---|---|
|print("DADOS DA PESQUISA\n")|Exibe um título na tela; \n pula uma linha para melhorar a leitura.|
|print(df)|Mostra a tabela estatística completa, com todos os dados coletados.|
|print("\nANÁLISE ESTATÍSTICA\n")|Exibe um novo título, separando visualmente a parte de análise dos dados.|
|print("Idade:")|Exibe o nome da variável estatística que será analisada a seguir.|
|np.mean(df['idade'])|Calcula a média aritmética dos valores da coluna idade.|
|print(f"Média: {np.mean(df['idade'])}")|Usa f-string para mostrar o texto junto com o valor calculado da média.|
|np.median(df['idade'])|Calcula a mediana da variável idade.|
|print(f"Mediana: {np.median(df['idade'])}")|Exibe a mediana formatada em texto.|
|df['idade'].min()|Obtém o menor valor da coluna idade.|
|print(f"Valor mínimo: {df['idade'].min()}")|Mostra o menor valor encontrado nos dados.|
|df['idade'].max()|Obtém o maior valor da coluna idade.|
|print(f"Valor máximo: {df['idade'].max()}")|Mostra o maior valor encontrado nos dados.|
|print("\nAltura:")|Inicia a análise da variável altura, pulando uma linha antes.|
|np.mean(df['altura'])|Calcula a média das alturas (dado quantitativo contínuo).|
|np.median(df['altura'])|Calcula a mediana das alturas.|
|df['altura'].min()|Retorna a menor altura registrada.|
|df['altura'].max()|Retorna a maior altura registrada.|
|print("\nSexo (frequência):")|Indica que será exibida a análise de um dado qualitativo.|
|df['sexo'].value_counts()|Conta quantas vezes cada categoria aparece (frequência estatística).|
|print(df['sexo'].value_counts())|Exibe a tabela de frequência do dado qualitativo sexo.|

Fonte:

- Editora Didática Paulista. Ensino Didático 2000: Ensino Fundamental e Ensino Médio. Sorocaba: Editora Didática Paulista, [s.d.].

- Códigos e comentários gerados por ChatGPT com revisão nossa.

- https://docs.python.org/pt-br/3/ [Documentação Oficial do Python]