# Coleta e Preparação de Dados



## Fontes Comuns

- Arquivos CSV <br>
- Arquivo Excel (.xlsx)<br>
- Banco de dados (SQL) <br>
- APIs (Application Programming Interfaces)


## Limpeza de Dados

### Tratamento de Valores Ausentes:  NaN

Exemplo Prático: Imagine uma planilha de alunos com uma coluna "nota_final". <br>
Se alguns alunos ainda não têm nota, o campo estará vazio. O que fazer? 

In [10]:
import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo com dados ausentes
dados_alunos = pd.DataFrame({
    'nome': ['Livia', 'Gabriel', 'Carlos', 'Carolina'],
    'nota_final': [8.5, 7.0, np.nan, 9.0],
    'faltas': [2, 3, 2, np.nan]
})

# Preenchendo a nota ausente com a média da turma
media_notas = dados_alunos['nota_final'].mean()
dados_alunos.fillna({'nota_final':media_notas}, inplace=True)

# Preenchendo as faltas ausentes com a mediana (mais robusto a outliers)
mediana_faltas = dados_alunos['faltas'].median()

dados_alunos.fillna({'faltas':mediana_faltas}, inplace=True)

print(dados_alunos)

       nome  nota_final  faltas
0     Livia    8.500000     2.0
1   Gabriel    7.000000     3.0
2    Carlos    8.166667     2.0
3  Carolina    9.000000     2.0


## Tratando Outliers

In [14]:
# Supondo que um limite razoável de faltas seja 40
# Vamos filtrar para ver se existe algum outlier

dados_alunos = pd.DataFrame({
    'nome': ['Livia', 'Gabriel', 'Carlos', 'Carolina'],
    'nota_final': [8.5, 7.0, 8.166667, 9.0],
    'faltas': [2, 3, 42, 2]
})

outlier_faltas = dados_alunos[dados_alunos['faltas'] > 40]

print("\nAlunos com número de faltas suspeito:")
print(outlier_faltas)



Alunos com número de faltas suspeito:
     nome  nota_final  faltas
2  Carlos    8.166667      42
