# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas

# Estatística Descritiva

Este notebook apresenta os principais comandos do `pandas` para calcular medidas de tendência central, dispersão e posição, bem como relações entre variáveis.

### Tabela: Comandos do `pandas` para Estatística Descritiva

| Categoria              | Medida              | Comando                                                        |
|------------------------|---------------------|-----------------------------------------------------------------------|
| **Tendência Central**  | Média               | `df['coluna'].mean()`                                                |
|                        | Mediana             | `df['coluna'].median()`                                              |
|                        | Moda                | `df['coluna'].mode()`                                                |
|                        | Média Ponderada     | `np.average(df['coluna'], weights=pesos)`                            |
| **Dispersão**          | Variância           | `df['coluna'].var()`                                                 |
|                        | Desvio Padrão       | `df['coluna'].std()`                                                 |
|                        | Amplitude           | `df['coluna'].max() - df['coluna'].min()`                            |
|                        | Coef. de Variação   | `(df['coluna'].std() / df['coluna'].mean()) * 100`                   |
| **Posição**            | Quartil (genérico)  | `df['coluna'].quantile(q)`                                           |
|                        | Q1, Q2, Q3          | `df['coluna'].quantile([0.25, 0.5, 0.75])`                            |
|                        | Estatísticas resumo | `df['coluna'].describe()`                                            |
|                        | Percentil           | `df['coluna'].quantile(x/100)`                                       |
|                        | Z-score             | `(df['coluna'] - df['coluna'].mean()) / df['coluna'].std()`          |
|                        | IQR (Q3-Q1)  | `df['coluna'].quantile(0.75) - df['coluna'].quantile(0.25)`          |
| **Relação entre variáveis**            | Covariância | `df.cov()`                                           |
|              | Correlação de Pearson (padrão)  | `df.corr()` ou `df.corr(method=pearson)`                                            |
|                           | Correlação de Spearman   | `df.corr(method=spearman)`                                           |

In [None]:
# Importação das bibliotecas
import pandas as pd
import numpy as np

# Leitura do dataset
df = pd.read_csv("https://dados.ufrn.br/dataset/d5723d75-7e6e-4264-82aa-b96909b69f63/resource/7accd1d2-2793-460e-b98d-87a0679b9155/download/avaliacaodocencia.csv", sep=';')

df

In [None]:
dados = df.loc[df['nome_docente'] == 'NOME_DO_PROFESSOR', 'atuacao_profissional_media']

dados

# Exercícios práticos

### Exercício 1 - Quais são as médias gerais das avaliações dos docentes?

Calcular a **média, mediana e moda** das seguintes variáveis:

- `postura_profissional_media`

- `atuacao_profissional_media`

- `autoavaliacao_aluno_media`

Interpretar: os docentes tendem a ser bem avaliados? As notas se concentram próximas do topo?

### Exercício 2 - As avaliações são consistentes ou variam muito?

Calcular:

- `Desvio padrão`

- `Amplitude` 

- `Coeficiente de variação`

Analisar:

- Em qual dimensão há maior variação entre turmas?

- O que isso pode indicar sobre o critério de avaliação dos alunos?

### Exercício 3 - Como estão distribuídas as avaliações dos docentes?

Calcular:

- Quartis (Q1, Q2, Q3)

- Percentis (10, 25, 75, 90)

- Mediana

Perguntas:

- Qual é a nota mínima entre os 25% mais mal avaliados?

- As notas estão concentradas no topo? (ex: Q3 próximo de 10)

- Existe assimetria? A mediana está próxima da média?

### Exercício 4 - Qual é a nota mais comum dada pelos alunos para cada dimensão?

Calcular:

- Moda

### Exercício 5 - Quais docentes tiveram avaliações muito acima ou abaixo da média geral?

Calcular:

- Z-score para a média de postura profissional

### Exercício 6 - As avaliações de postura profissional, atuação profissional e autoavaliação dos alunos se movem juntas?

Calcular correlação de Pearson e Spearman entre:

- `postura_profissional_media`

- `atuacao_profissional_media`

- `autoavaliacao_aluno_media`

O que essas correlações indicam? As três dimensões de avaliação dos docentes — postura profissional, atuação profissional e autoavaliação pelos alunos — tendem a crescer ou diminuir juntas?

### Exercício 7 - O número de alunos avaliando influencia a dispersão (DP) das notas?

Verificar a correlação entre:

`qtd_discentes` e `postura_profissional_DP`

`qtd_discentes` e `atuacao_profissional_DP`

`qtd_discentes` e `autoavaliacao_aluno_DP`

Há evidências de que turmas maiores produzem avaliações mais estáveis (menor DP)?

### Exercício 8 - Como essas variáveis se comportam ao longo dos anos?

Agrupar por ano e calcular correlação média das dimensões de avaliação para observar tendências.

Há mudanças no comportamento dos alunos ou na percepção sobre os docentes ao longo dos anos?

Escolha dois docentes, preferencialmente com maior quantidade de amostras, para poder analisar essa tendência.