# 1) Importar a biblioteca e criar o DataFrame

- `pd.read_csv()`

- O que faz:
    * Lê um arquivo .csv e cria um DataFrame.

- Sintaxe: `df = pd.read_csv('caminho/do/arquivo.csv')`

- Parâmetros úteis:
    * encoding='utf-8': codificação do texto
    * parse_dates=['coluna']: converte colunas de data

In [None]:
import pandas as pd

df_school = pd.read_csv('./dataset_school.csv', parse_dates=['Data de Nascimento'])

# 2) Visualizar os dados

`head()`

- O que faz: 
    * Exibe as primeiras N linhas do DataFrame.
- Útil para: 
    * Ter uma visão geral inicial dos dados
    * Verificar se o carregamento dos dados funcionou corretamente

In [None]:
df_school.head(n=3) #Exibe N primeiras colunas

`tail()`

- O que faz:
    * Exibe as últimas N linhas do DataFrame.
- Útil para:
    * Verificar se há dados no fim da tabela
    * Conferir se houve problemas com leitura (ex: linhas em branco)

In [None]:
df_school.tail(n=3)

`describe()`

- O que faz:
    * Exibe estatísticas descritivas das colunas numéricas: média, desvio padrão, mínimo, máximo, quartis.
- Útil para:
    * Ter uma visão estatística geral dos dados numéricos

In [None]:
df_school.describe()

`info()`

- O que faz:
    * Mostra:
        * o número de linhas e colunas;
        * tipo de dados de cada coluna;
        * se há valores nulos.
- Útil para:
    * Diagnosticar estrutura e tipos dos dados
    * Detectar colunas que precisam de conversão (ex: datas ou numéricos)

In [None]:
df_school.info()

`columns`

- O que faz:
    * Retorna uma lista com os nomes das colunas.

- Útil para:
    * Verificar os nomes das colunas;
    * Identificar erros de digitação;
    * Renomear colunas se necessário.

In [None]:
df_school.columns

# 3) Seleção de dados

<center>
    <img src="https://blog.manualdoexcel.com.br/wp-content/uploads/2020/07/01-sele%C3%A7%C3%A3o.gif"> 
</center>

In [None]:
df_school['Nome']	# Seleciona somente a coluna Nome

In [None]:
df_school[['Nome', 'Serie']]	# Seleciona múltiplas colunas através de uma lista

* `loc[]` → Acesso por rótulo ou condição
* `iloc[]` → Acesso por índice numérico

- `loc[]`– Indexação por rótulo (label)
    * usado quando você quer acessar elementos de um DataFrame ou Series usando os nomes dos índices e colunas.

- Sintaxe:
    `df.loc[linha, coluna]`

    * linha: nome do índice (ou uma condição booleana)
    * coluna: nome(s) da(s) coluna(s)


In [None]:
df_school.loc[1, ['Nome', 'Data de Nascimento']] # Acessando os dados da segunda linha, das colunas Nome e Data de Nascimento

In [None]:
df_school.loc[1: 5, ['Nome', 'Serie']] # Acessando os dados da segunda até quarta linha, das colunas Nome e Serie

- `iloc[]` – Indexação por posição (integer location)
    * usado para acessar elementos com base na posição numérica das linhas e colunas.

- Sintaxe:
    `df.iloc[linha, coluna]`
    * linha: número inteiro (ou fatia)
    * coluna: número inteiro (ou fatia)

In [None]:
# Acessar a primeira linha (posição 0)
df_school.iloc[0]

In [None]:
# Acessar valor da 2ª linha (índice 1) e 1ª coluna (índice 0)
df_school.iloc[1, 0]

In [None]:
# Acessar as duas primeiras linhas e todas as colunas
df_school.iloc[:2, :]

# 4) Filtrar dados


In [None]:
# Por condição simples:

df_school[df_school['Nota_1U1'] >= 7]

In [None]:
# Por múltiplas condições, utilizando os conectivos lógicos AND e OR:

df_school[(df_school['Nota_1U1'] < 7) & (df_school['Serie'] == '7º ano')]

In [None]:
# Por valor em lista:

df_school[df_school['Serie'].isin(['7º ano', '8º ano'])] # Verifica se as séries 7º e 8° estão presentes na coluna Serie

# 5) Ordenar dados

- `sort_values()` — Ordenação por Coluna
-  O que faz:
    * Ordena os dados com base no valor de uma ou mais colunas.

- Sintaxe: `df.sort_values(by='media_final', ascending=False)`
- Parâmetros:
    * by: nome(s) da(s) coluna(s)
    * ascending: True (padrão) para crescente, False para decrescente
    * inplace=True: modifica o DataFrame original

In [None]:
df_school.sort_values(by='Nome', ascending=False)

- `sort_index()` — Ordenação por Índice

- O que faz:
    * Ordena o DataFrame pelo índice numérico ou nomeado (linha).

- Sintaxe: `df.sort_index()`
- Parâmetros:
    * ascending=True ou False
    * axis=0 para linhas (padrão), axis=1 para colunas


In [None]:
df_school.sort_index(ascending=False).head(n=3)

# 6) Agrupar dados

- `groupby()` — Agrupamento de Dados

- O que faz:
    * Agrupa o DataFrame por uma ou mais colunas e permite aplicar funções estatísticas (como mean(), sum(), count(), etc.)

- Exemplo 1: Média das notas finais por série

In [None]:
# axis=1 significa que vamos calcular média de todos os registros, linha por linha
# Vamos criar novas colunas no DataFrame, chamadas MEDIA 1° SEMESTRE, MEDIA 2° SEMESTRE e MEDIA FINAL

df_school['MEDIA 1° SEMESTRE'] = df_school[['Nota_1U1', 'Nota_1U2', 'Nota_1U3']].mean(axis=1) 
df_school['MEDIA 2° SEMESTRE'] = df_school[['Nota_2U1', 'Nota_2U2', 'Nota_2U3']].mean(axis=1)
df_school['MEDIA FINAL'] = df_school[['MEDIA 1° SEMESTRE', 'MEDIA 2° SEMESTRE']].mean(axis=1)

# Agora, agrupando por média final e série
df_school.groupby('Serie')['MEDIA FINAL'].mean()

- Exemplo 2: Quantidade de alunos por série

In [None]:
df_school.groupby('Serie')['Nome'].count()

- Exemplo 3: Notas médias por série (1º e 2º semestre separadamente)

In [None]:
df_school.groupby('Serie')[['MEDIA 1° SEMESTRE', 'MEDIA 1° SEMESTRE']].mean()