# Módulo 10 - NLP (Exemplo)

Notebook de exemplo para o módulo.
Este notebook carrega automaticamente o(s) dataset(s) do diretório `data/modulo10_nlp` usando caminhos relativos.

In [None]:
import os
import pandas as pd

# Caminho relativo ao repositório
data_dir = os.path.join('..', 'data', 'modulo10_nlp')
# procura por CSV e XLSX com o nome base
candidates = []
for fn in os.listdir(data_dir):
    if fn.lower().startswith('tweets') and (fn.endswith('.csv') or fn.endswith('.xlsx')):
        candidates.append(fn)
print('Arquivos encontrados em', data_dir, ':', candidates)

# função simples para abrir CSV ou XLSX automaticamente
def read_maybe_excel_csv(path):
    if path.endswith('.csv'):
        return pd.read_csv(path)
    elif path.endswith('.xlsx') or path.endswith('.xls'):
        return pd.read_excel(path)
    else:
        raise ValueError('Formato não suportado')

# prefer csv if exists
fn = None
for f in candidates:
    if f.endswith('.csv'):
        fn = f; break
if fn is None and candidates:
    fn = candidates[0]

if fn is None:
    raise FileNotFoundError(f'Não foi encontrado tweets.csv/.xlsx em {data_dir}')

df = read_maybe_excel_csv(os.path.join(data_dir, fn))
print('Preview:')
display(df.head())
print('\nInformações rápidas:')
print(df.info())


## Dicas de limpeza e análise

- Trate valores ausentes (`df.isna().sum()`)
- Padronize textos (lower/strip)
- Remova duplicatas (`df.drop_duplicates()`)
- Analise outliers (boxplot, IQR)
- Salve versões limpas em `data/clean/` antes de commits