# Aula Prática - 07/11/2025
**Curso:** Programacao para Ciencia de Dados  
**Aluno:** [Seu Nome Aqui]  
**Data:** [Data Atual]

## Instrucoes
1. Complete todos os exercicios implementando as **FUNÇÕES** solicitadas
2. Execute as celulas de teste para verificar suas respostas
3. Não se esqueça de submeter o notebook no Moodle

## Objetivo
Consolidar conhecimentos de analise exploratoria e pre-processamento de dados através de funções reutilizáveis.

## IMPORTANTE
- Cada exercício pede a implementação de uma **FUNÇÃO**
- As funções devem seguir exatamente a assinatura especificada
- Os testes verificam tanto a estrutura quanto a correção dos cálculos

In [None]:
# === CONFIGURACAO INICIAL ===

!pip install --upgrade pip --quiet
!pip cache purge
!pip install otter-grader --no-cache-dir -q
!mkdir -p tests

print("Ambiente configurado!")

In [None]:
%%writefile tests/q1.py
OK_FORMAT = True

test = {
    "name": "q1",
    "points": 10,
    "suites": [
        {
            "cases": [
                {
                    "code": r"""
>>> # Teste 1: Retorna dicionario
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]})
>>> resultado = calcular_estatisticas_descritivas(df)
>>> isinstance(resultado, dict)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 2: Chaves corretas
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
>>> resultado = calcular_estatisticas_descritivas(df)
>>> all(k in resultado for k in ['media', 'mediana', 'desvio_padrao', 'coef_variacao'])
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 3: Valores corretos - media
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]})
>>> resultado = calcular_estatisticas_descritivas(df)
>>> bool(abs(resultado['media']['A'] - 3.0) < 0.01)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 4: Valores corretos - mediana
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]})
>>> resultado = calcular_estatisticas_descritivas(df)
>>> abs(resultado['mediana']['A'] - 3.0) < 0.01
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 5: Valores corretos - desvio padrao
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, 2, 3, 4, 5]})
>>> resultado = calcular_estatisticas_descritivas(df)
>>> bool(abs(resultado['desvio_padrao']['A'] - np.std([1,2,3,4,5], ddof=1)) < 0.01)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 6: Coeficiente de variacao correto
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [10, 20, 30, 40, 50]})
>>> resultado = calcular_estatisticas_descritivas(df)
>>> esperado_cv = np.std([10,20,30,40,50], ddof=1) / np.mean([10,20,30,40,50])
>>> bool(abs(resultado['coef_variacao']['A'] - esperado_cv) < 0.01)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 7: Cada chave contem dicionario com estatisticas por coluna
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
>>> resultado = calcular_estatisticas_descritivas(df)
>>> isinstance(resultado['media'], dict) and 'A' in resultado['media'] and 'B' in resultado['media']
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 8: Funciona com uma unica coluna
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [5, 10, 15, 20]})
>>> resultado = calcular_estatisticas_descritivas(df)
>>> 'A' in resultado['media']
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 9: Ignora colunas nao numericas
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': ['x', 'y', 'z'], 'C': [4, 5, 6]})
>>> resultado = calcular_estatisticas_descritivas(df)
>>> 'A' in resultado['media'] and 'C' in resultado['media'] and 'B' not in resultado['media']
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 10: CV = 0 quando media = 0 ou todos valores iguais
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [5, 5, 5, 5]})
>>> resultado = calcular_estatisticas_descritivas(df)
>>> bool(resultado['coef_variacao']['A'] == 0)
True
""",
                    "hidden": False,
                    "locked": False
                }
            ],
            "scored": True,
            "setup": "",
            "teardown": "",
            "type": "doctest"
        }
    ]
}

In [None]:
%%writefile tests/q2.py
OK_FORMAT = True

test = {
    "name": "q2",
    "points": 10,
    "suites": [
        {
            "cases": [
                {
                    "code": r"""
>>> # Teste 1: Retorna DataFrame
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, 2, 100], 'B': [4, 5, 6]})
>>> resultado = detectar_outliers_iqr(df, 'A')
>>> isinstance(resultado, pd.DataFrame)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 2: Coluna is_outlier existe
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 100], 'B': [4, 5, 6]})
>>> resultado = detectar_outliers_iqr(df, 'A')
>>> 'is_outlier' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 3: Coluna is_outlier eh booleana
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 100]})
>>> resultado = detectar_outliers_iqr(df, 'A')
>>> resultado['is_outlier'].dtype == bool
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 4: Detecta outlier superior corretamente
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, 2, 3, 4, 5, 100]})
>>> resultado = detectar_outliers_iqr(df, 'A')
>>> bool(resultado.iloc[-1]['is_outlier'] == True)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 5: Detecta outlier inferior corretamente
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [-100, 50, 51, 52, 53, 54]})
>>> resultado = detectar_outliers_iqr(df, 'A')
>>> bool(resultado.iloc[0]['is_outlier'] == True)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 6: Nenhum outlier em dados uniformes
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [10, 11, 12, 13, 14, 15]})
>>> resultado = detectar_outliers_iqr(df, 'A')
>>> bool(resultado['is_outlier'].sum() == 0)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 7: Preserva todas as colunas originais
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
>>> resultado = detectar_outliers_iqr(df, 'A')
>>> 'A' in resultado.columns and 'B' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 8: Preserva numero de linhas
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 100, 3, 4]})
>>> resultado = detectar_outliers_iqr(df, 'A')
>>> len(resultado) == len(df)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 9: Formula IQR correta - valores conhecidos
>>> import pandas as pd
>>> import numpy as np
>>> # Dados: Q1=2, Q3=4, IQR=2, limites: [-1, 7]
>>> df = pd.DataFrame({'A': [1, 2, 3, 4, 5]})
>>> resultado = detectar_outliers_iqr(df, 'A')
>>> bool(resultado['is_outlier'].sum() == 0)  # Nenhum valor fora de [-1, 7]
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 10: Multiplos outliers
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [-100, 10, 11, 12, 13, 200]})
>>> resultado = detectar_outliers_iqr(df, 'A')
>>> bool(resultado['is_outlier'].sum() == 2)
True
""",
                    "hidden": False,
                    "locked": False
                }
            ],
            "scored": True,
            "setup": "",
            "teardown": "",
            "type": "doctest"
        }
    ]
}

In [None]:
%%writefile tests/q3.py
OK_FORMAT = True

test = {
    "name": "q3",
    "points": 10,
    "suites": [
        {
            "cases": [
                {
                    "code": r"""
>>> # Teste 1: Retorna DataFrame
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, 5, np.nan]})
>>> resultado = tratar_valores_faltantes(df)
>>> isinstance(resultado, pd.DataFrame)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 2: Nao ha valores faltantes
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, 5, np.nan]})
>>> resultado = tratar_valores_faltantes(df)
>>> bool(resultado.isnull().sum().sum() == 0)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 3: Usa mediana para colunas numericas
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, np.nan, 3, 5]})
>>> resultado = tratar_valores_faltantes(df)
>>> # Mediana de [1, 3, 5] = 3
>>> float(resultado['A'].iloc[1]) == 3.0
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 4: Usa moda para colunas categoricas
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': ['cat', np.nan, 'dog', 'cat', 'cat']})
>>> resultado = tratar_valores_faltantes(df)
>>> resultado['A'].iloc[1] == 'cat'
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 5: Preserva numero de linhas
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, np.nan, 3, np.nan, 5]})
>>> resultado = tratar_valores_faltantes(df)
>>> len(resultado) == len(df)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 6: Preserva colunas originais
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, np.nan], 'B': [3, 4]})
>>> resultado = tratar_valores_faltantes(df)
>>> list(resultado.columns) == ['A', 'B']
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 7: Funciona com DataFrame sem valores faltantes
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
>>> resultado = tratar_valores_faltantes(df)
>>> resultado.equals(df)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 8: Mix de numericas e categoricas
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'num': [1, np.nan, 3], 'cat': ['a', 'a', np.nan]})
>>> resultado = tratar_valores_faltantes(df)
>>> bool(resultado.isnull().sum().sum() == 0)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 9: Mediana correta com valores pares
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, 2, np.nan, 4]})
>>> resultado = tratar_valores_faltantes(df)
>>> # Mediana de [1, 2, 4] = 2
>>> float(resultado['A'].iloc[2]) == 2.0
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 10: Multiplas colunas com NaN
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({
...     'A': [1, np.nan, 3],
...     'B': [np.nan, 5, 6],
...     'C': ['x', np.nan, 'x']
... })
>>> resultado = tratar_valores_faltantes(df)
>>> bool(resultado.isnull().sum().sum() == 0)
True
""",
                    "hidden": False,
                    "locked": False
                }
            ],
            "scored": True,
            "setup": "",
            "teardown": "",
            "type": "doctest"
        }
    ]
}

In [None]:
%%writefile tests/q4.py
OK_FORMAT = True

test = {
    "name": "q4",
    "points": 10,
    "suites": [
        {
            "cases": [
                {
                    "code": r"""
>>> # Teste 1: Retorna DataFrame
>>> import pandas as pd
>>> df = pd.DataFrame({'categoria': ['A', 'B', 'A'], 'valor': [10, 20, 30]})
>>> resultado = aplicar_label_encoding(df, 'categoria')
>>> isinstance(resultado, pd.DataFrame)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 2: Coluna encoded existe
>>> import pandas as pd
>>> df = pd.DataFrame({'categoria': ['A', 'B', 'A'], 'valor': [10, 20, 30]})
>>> resultado = aplicar_label_encoding(df, 'categoria')
>>> 'categoria_encoded' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 3: Valores sao numericos inteiros
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'categoria': ['A', 'B', 'C']})
>>> resultado = aplicar_label_encoding(df, 'categoria')
>>> np.issubdtype(resultado['categoria_encoded'].dtype, np.integer)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 4: Mesma categoria recebe mesmo codigo
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B', 'A', 'C', 'B']})
>>> resultado = aplicar_label_encoding(df, 'cat')
>>> bool(resultado['cat_encoded'].iloc[0] == resultado['cat_encoded'].iloc[2])
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 5: Diferentes categorias recebem codigos diferentes
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B', 'C']})
>>> resultado = aplicar_label_encoding(df, 'cat')
>>> len(resultado['cat_encoded'].unique()) == 3
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 6: Coluna original preservada
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B', 'A']})
>>> resultado = aplicar_label_encoding(df, 'cat')
>>> 'cat' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 7: Numero de linhas preservado
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B', 'C', 'A']})
>>> resultado = aplicar_label_encoding(df, 'cat')
>>> len(resultado) == len(df)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 8: Codigos comecam em 0
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['X', 'Y', 'Z']})
>>> resultado = aplicar_label_encoding(df, 'cat')
>>> resultado['cat_encoded'].min() == 0
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 9: Funciona com categorias numericas (strings)
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['1', '2', '1', '3']})
>>> resultado = aplicar_label_encoding(df, 'cat')
>>> 'cat_encoded' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 10: Preserva outras colunas
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B'], 'val': [10, 20], 'nome': ['x', 'y']})
>>> resultado = aplicar_label_encoding(df, 'cat')
>>> 'val' in resultado.columns and 'nome' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                }
            ],
            "scored": True,
            "setup": "",
            "teardown": "",
            "type": "doctest"
        }
    ]
}

In [None]:
%%writefile tests/q5.py
OK_FORMAT = True

test = {
    "name": "q5",
    "points": 10,
    "suites": [
        {
            "cases": [
                {
                    "code": r"""
>>> # Teste 1: Retorna DataFrame
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})
>>> resultado = normalizar_min_max(df, ['A', 'B'])
>>> isinstance(resultado, pd.DataFrame)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 2: Valores entre 0 e 1
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})
>>> resultado = normalizar_min_max(df, ['A', 'B'])
>>> (resultado['A_norm'].min() >= 0) and (resultado['A_norm'].max() <= 1)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 3: Colunas _norm criadas
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 3]})
>>> resultado = normalizar_min_max(df, ['A'])
>>> 'A_norm' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 4: Colunas originais preservadas
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})
>>> resultado = normalizar_min_max(df, ['A'])
>>> 'A' in resultado.columns and 'B' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 5: Formula Min-Max correta
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame({'A': [0, 5, 10]})
>>> resultado = normalizar_min_max(df, ['A'])
>>> # (0-0)/(10-0)=0, (5-0)/(10-0)=0.5, (10-0)/(10-0)=1
>>> bool(abs(resultado['A_norm'].iloc[1] - 0.5) < 0.01)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 6: Minimo normalizado = 0
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [5, 10, 15, 20]})
>>> resultado = normalizar_min_max(df, ['A'])
>>> abs(resultado['A_norm'].min() - 0.0) < 0.01
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 7: Maximo normalizado = 1
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [5, 10, 15, 20]})
>>> resultado = normalizar_min_max(df, ['A'])
>>> abs(resultado['A_norm'].max() - 1.0) < 0.01
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 8: Funciona com multiplas colunas
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})
>>> resultado = normalizar_min_max(df, ['A', 'B'])
>>> 'A_norm' in resultado.columns and 'B_norm' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 9: Valores constantes (min=max) resultam em 0
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [5, 5, 5, 5]})
>>> resultado = normalizar_min_max(df, ['A'])
>>> bool(resultado['A_norm'].sum() == 0)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 10: Valores negativos
>>> import pandas as pd
>>> df = pd.DataFrame({'A': [-10, 0, 10]})
>>> resultado = normalizar_min_max(df, ['A'])
>>> bool(abs(resultado['A_norm'].iloc[1] - 0.5) < 0.01)
True
""",
                    "hidden": False,
                    "locked": False
                }
            ],
            "scored": True,
            "setup": "",
            "teardown": "",
            "type": "doctest"
        }
    ]
}

In [None]:
%%writefile tests/q6.py
OK_FORMAT = True

test = {
    "name": "q6",
    "points": 10,
    "suites": [
        {
            "cases": [
                {
                    "code": r"""
>>> # Teste 1: Retorna DataFrame
>>> import pandas as pd
>>> df = pd.DataFrame({'categoria': ['A', 'B', 'C'], 'valor': [10, 20, 30]})
>>> resultado = aplicar_one_hot_encoding(df, 'categoria')
>>> isinstance(resultado, pd.DataFrame)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 2: Colunas dummy criadas
>>> import pandas as pd
>>> df = pd.DataFrame({'categoria': ['A', 'B', 'C'], 'valor': [10, 20, 30]})
>>> resultado = aplicar_one_hot_encoding(df, 'categoria')
>>> any('categoria_' in col for col in resultado.columns)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 3: Valores sao binarios (0 ou 1)
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B', 'A']})
>>> resultado = aplicar_one_hot_encoding(df, 'cat')
>>> dummy_cols = [col for col in resultado.columns if 'cat_' in col]
>>> all(resultado[col].isin([0, 1]).all() for col in dummy_cols)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 4: Numero correto de colunas dummy (n_categorias - 1 ou n_categorias)
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B', 'C']})
>>> resultado = aplicar_one_hot_encoding(df, 'cat')
>>> dummy_cols = [col for col in resultado.columns if 'cat_' in col]
>>> len(dummy_cols) in [2, 3]  # 2 com drop_first=True, 3 sem
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 5: Coluna original removida
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B', 'C'], 'val': [1, 2, 3]})
>>> resultado = aplicar_one_hot_encoding(df, 'cat')
>>> 'cat' not in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 6: Preserva outras colunas
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B'], 'val': [10, 20]})
>>> resultado = aplicar_one_hot_encoding(df, 'cat')
>>> 'val' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 7: Numero de linhas preservado
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B', 'C', 'A']})
>>> resultado = aplicar_one_hot_encoding(df, 'cat')
>>> len(resultado) == len(df)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 8: Apenas uma coluna = 1 por linha (sem drop_first) ou soma correta
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['A', 'B', 'C']})
>>> resultado = aplicar_one_hot_encoding(df, 'cat')
>>> dummy_cols = [col for col in resultado.columns if 'cat_' in col]
>>> # Se drop_first=False, soma = 1. Se drop_first=True, soma <= 1
>>> all(resultado[dummy_cols].sum(axis=1) <= 1)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 9: Funciona com 2 categorias
>>> import pandas as pd
>>> df = pd.DataFrame({'cat': ['Yes', 'No', 'Yes', 'No']})
>>> resultado = aplicar_one_hot_encoding(df, 'cat')
>>> dummy_cols = [col for col in resultado.columns if 'cat_' in col]
>>> len(dummy_cols) >= 1
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 10: Nomes das colunas dummy corretos
>>> import pandas as pd
>>> df = pd.DataFrame({'status': ['active', 'inactive', 'active']})
>>> resultado = aplicar_one_hot_encoding(df, 'status')
>>> any('status_' in col for col in resultado.columns)
True
""",
                    "hidden": False,
                    "locked": False
                }
            ],
            "scored": True,
            "setup": "",
            "teardown": "",
            "type": "doctest"
        }
    ]
}

In [None]:
import otter
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

grader = otter.Notebook()

print("✓ Otter Grader carregado")
print("✓ Pandas importado")
print(f"✓ Versao Pandas: {pd.__version__}")

# Exercício 1: Estatísticas Descritivas Completas

## Descrição
Implemente a função `calcular_estatisticas_descritivas(df)` que recebe um DataFrame com colunas numéricas e retorna um dicionário com as seguintes estatísticas:

1. **`media`**: dicionário com a média de cada coluna numérica
2. **`mediana`**: dicionário com a mediana de cada coluna numérica
3. **`desvio_padrao`**: dicionário com o desvio padrão de cada coluna numérica
4. **`coef_variacao`**: dicionário com o coeficiente de variação (CV = σ/μ) de cada coluna numérica

## Especificações Técnicas
- **Assinatura da função:** `calcular_estatisticas_descritivas(df: pd.DataFrame) -> dict`
- **Retorno:** Dicionário com 4 chaves, cada uma contendo um dicionário {nome_coluna: valor}
- **Tratamento especial:** Se a média for 0, o coeficiente de variação deve ser 0
- **Colunas consideradas:** Apenas colunas numéricas (use `select_dtypes(include=[np.number])`)

## Exemplo de Uso
```python
df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})
resultado = calcular_estatisticas_descritivas(df)
# resultado = {
#     'media': {'A': 2.0, 'B': 20.0},
#     'mediana': {'A': 2.0, 'B': 20.0},
#     'desvio_padrao': {'A': 1.0, 'B': 10.0},
#     'coef_variacao': {'A': 0.5, 'B': 0.5}
# }
```

## O que será testado
- ✅ Estrutura do dicionário retornado
- ✅ Correção dos cálculos (média, mediana, desvio padrão)
- ✅ Fórmula do coeficiente de variação
- ✅ Tratamento de colunas não numéricas
- ✅ Casos extremos (valores constantes, DataFrame com uma coluna)

In [None]:
# Criar DataFrame de teste - NÃO MODIFICAR
df_produtos = pd.DataFrame({
    'produto': ['Mouse', 'Teclado', 'Monitor', 'Webcam', 'Headset'],
    'preco': [45.00, 120.00, 890.00, 150.00, 200.00],
    'estoque': [150, 80, 25, 60, 45],
    'vendas_mes': [45, 30, 8, 22, 18]
})

print("=== DADOS ORIGINAIS ===")
print(df_produtos)

In [None]:
# === SEU CODIGO AQUI ===


# === FIM DO SEU CODIGO ===

In [None]:
# Teste Q1 - NÃO MODIFICAR
grader.check("q1")

# Exercício 2: Detecção de Outliers (Método de Tukey)

## Descrição
Implemente a função `detectar_outliers_iqr(df, coluna)` que detecta outliers usando o método de Tukey (IQR - Interquartile Range).

## Especificações Técnicas
- **Assinatura:** `detectar_outliers_iqr(df: pd.DataFrame, coluna: str) -> pd.DataFrame`
- **Retorno:** DataFrame original + coluna booleana `is_outlier`
- **Coluna `is_outlier`:** True se o valor for outlier, False caso contrário

## Exemplo de Uso
```python
df = pd.DataFrame({'A': [1, 2, 3, 100]})
resultado = detectar_outliers_iqr(df, 'A')
# resultado:
#      A  is_outlier
# 0    1       False
# 1    2       False
# 2    3       False
# 3  100        True
```

## O que será testado
- ✅ Estrutura do DataFrame retornado
- ✅ Coluna `is_outlier` é booleana
- ✅ Fórmula IQR implementada corretamente
- ✅ Detecção de outliers superiores e inferiores
- ✅ Casos sem outliers
- ✅ Múltiplos outliers

In [None]:
# Criar DataFrame com outliers - NÃO MODIFICAR
np.random.seed(42)
precos_normais = np.random.normal(100, 15, 18).tolist()
precos_com_outliers = precos_normais + [10, 200]  # Adicionar outliers

df_vendas = pd.DataFrame({
    'produto': [f'Produto {i+1}' for i in range(20)],
    'preco': precos_com_outliers
})

print("=== DADOS ORIGINAIS ===")
print(df_vendas)

In [None]:
# === SEU CODIGO AQUI ===



# === FIM DO SEU CODIGO ===

In [None]:
# Teste Q2 - NÃO MODIFICAR
grader.check("q2")

# Exercício 3: Tratamento de Valores Faltantes

## Descrição
Implemente a função `tratar_valores_faltantes(df)` que aplica estratégias de imputação adequadas para cada tipo de coluna.

## Estratégias de Imputação
- **Colunas Numéricas**: Preencher com a **mediana** (robusta a outliers)
- **Colunas Categóricas**: Preencher com a **moda** (valor mais frequente)

## Especificações Técnicas
- **Assinatura:** `tratar_valores_faltantes(df: pd.DataFrame) -> pd.DataFrame`
- **Retorno:** DataFrame sem valores faltantes (NaN)
- **Preservação:** Manter todas as colunas e linhas originais
- **Tipos de dados:** Usar `select_dtypes(include=[np.number])` para numéricas e `select_dtypes(include=['object'])` para categóricas

## Exemplo de Uso
```python
df = pd.DataFrame({
    'idade': [25, np.nan, 30],
    'cidade': ['SP', np.nan, 'SP']
})
resultado = tratar_valores_faltantes(df)
# resultado:
#    idade cidade
# 0   25.0     SP
# 1   27.5     SP  <- mediana de idade, moda de cidade
# 2   30.0     SP
```

## O que será testado
- ✅ Retorna DataFrame sem NaN
- ✅ Usa mediana para colunas numéricas
- ✅ Usa moda para colunas categóricas
- ✅ Preserva número de linhas e colunas
- ✅ Funciona com mix de tipos de colunas
- ✅ Não altera DataFrames já completos

In [None]:
# Criar DataFrame com valores faltantes - NÃO MODIFICAR
df_clientes = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Eduardo', 'Fernanda'],
    'idade': [25, np.nan, 30, 28, np.nan, 35],
    'cidade': ['Sao Paulo', 'Rio de Janeiro', np.nan, 'Sao Paulo', 'Curitiba', np.nan],
    'renda': [5000, 6500, np.nan, 5500, 7000, 8000],
    'categoria': ['Bronze', np.nan, 'Prata', 'Bronze', 'Ouro', 'Prata']
})

print("=== DADOS ORIGINAIS ===")
print(df_clientes)
print("\n=== VALORES FALTANTES POR COLUNA ===")
print(df_clientes.isnull().sum())

In [None]:
# === SEU CODIGO AQUI ===


# === FIM DO SEU CODIGO ===

In [None]:
# Teste Q3 - NÃO MODIFICAR
grader.check("q3")

# Exercício 4: Label Encoding

## Descrição
Implemente a função `aplicar_label_encoding(df, coluna)` que converte categorias de texto em números inteiros.

## Especificações Técnicas
- **Assinatura:** `aplicar_label_encoding(df: pd.DataFrame, coluna: str) -> pd.DataFrame`
- **Retorno:** DataFrame original + nova coluna `{coluna}_encoded`
- **Implementação:** Use `sklearn.preprocessing.LabelEncoder`
- **Codificação:** Começa em 0 e incrementa sequencialmente
- **Preservação:** Manter a coluna original

## Exemplo de Uso
```python
df = pd.DataFrame({'categoria': ['A', 'B', 'A', 'C']})
resultado = aplicar_label_encoding(df, 'categoria')
# resultado:
#   categoria  categoria_encoded
# 0         A                  0
# 1         B                  1
# 2         A                  0
# 3         C                  2
```

## O que será testado
- ✅ Retorna DataFrame com nova coluna
- ✅ Nome da coluna segue padrão `{coluna}_encoded`
- ✅ Valores são inteiros
- ✅ Mesma categoria recebe mesmo código
- ✅ Códigos começam em 0
- ✅ Coluna original preservada

In [None]:
# Criar DataFrame - NÃO MODIFICAR
df_avaliacoes = pd.DataFrame({
    'cliente': ['Cliente 1', 'Cliente 2', 'Cliente 3', 'Cliente 4', 'Cliente 5'],
    'satisfacao': ['Baixa', 'Alta', 'Media', 'Alta', 'Baixa'],
    'nota': [3, 9, 6, 8, 2]
})

print("=== DADOS ORIGINAIS ===")
print(df_avaliacoes)

In [None]:
# === SEU CODIGO AQUI ===


# === FIM DO SEU CODIGO ===

In [None]:
# Teste Q4 - NÃO MODIFICAR
grader.check("q4")

# Exercicio 5: Normalizacao Min-Max

## Descricao
Implemente a função `normalizar_min_max(df, colunas)` que escala valores numericos para o intervalo [0, 1].

## Especificacoes Tecnicas
- **Assinatura:** `normalizar_min_max(df: pd.DataFrame, colunas: list) -> pd.DataFrame`
- **Parametros:**
  - `df`: DataFrame com os dados
  - `colunas`: lista com nomes das colunas a normalizar
- **Retorno:** DataFrame com colunas `{coluna}_norm` adicionadas
- **Caso especial:** Se min = max (valores constantes), retornar 0

## Exemplo de Uso
```python
df = pd.DataFrame({'A': [0, 5, 10], 'B': [100, 150, 200]})
resultado = normalizar_min_max(df, ['A', 'B'])
# resultado:
#    A    B  A_norm  B_norm
# 0  0  100     0.0     0.0
# 1  5  150     0.5     0.5
# 2 10  200     1.0     1.0
```

## O que sera testado
- ✅ Valores entre 0 e 1
- ✅ Formula Min-Max correta
- ✅ Minimo normalizado = 0
- ✅ Maximo normalizado = 1
- ✅ Colunas originais preservadas
- ✅ Funciona com multiplas colunas
- ✅ Valores negativos
- ✅ Valores constantes (min = max)

In [None]:
# Criar DataFrame - NÃO MODIFICAR
df_vendas_produto = pd.DataFrame({
    'produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Webcam'],
    'preco': [3500, 50, 200, 1200, 300],
    'vendas': [50, 500, 300, 80, 150],
    'avaliacao': [4.5, 4.2, 4.8, 4.6, 4.0]
})

print("=== DADOS ORIGINAIS ===")
print(df_vendas_produto)

In [None]:
# === SEU CODIGO AQUI ===


# === FIM DO SEU CODIGO ===

In [None]:
# Teste Q5 - NÃO MODIFICAR
grader.check("q5")

# Exercicio 6: One-Hot Encoding

## Descricao
Implemente a função `aplicar_one_hot_encoding(df, coluna)` que cria colunas binarias (dummy) para cada categoria.

## Especificacoes Tecnicas
- **Assinatura:** `aplicar_one_hot_encoding(df: pd.DataFrame, coluna: str) -> pd.DataFrame`
- **Implementacao:** Use `pd.get_dummies()`
- **Parametros recomendados:** `pd.get_dummies(df, columns=[coluna], prefix=coluna, drop_first=True)`
- **drop_first=True:** Evita multicolinearidade (armadilha de variavel dummy)
- **Coluna original:** Deve ser removida (comportamento padrao de get_dummies)

## Exemplo de Uso
```python
df = pd.DataFrame({'cat': ['A', 'B', 'A'], 'val': [10, 20, 30]})
resultado = aplicar_one_hot_encoding(df, 'cat')
# resultado (com drop_first=True):
#    val  cat_B
# 0   10      0
# 1   20      1
# 2   30      0
```

## O que sera testado
- ✅ Retorna DataFrame
- ✅ Colunas dummy criadas com prefixo correto
- ✅ Valores binarios (0 ou 1)
- ✅ Numero de colunas dummy (n-1 ou n categorias)
- ✅ Coluna original removida
- ✅ Outras colunas preservadas
- ✅ Numero de linhas preservado

In [None]:
# Criar DataFrame - NÃO MODIFICAR
df_clientes_tipo = pd.DataFrame({
    'cliente': ['Cliente 1', 'Cliente 2', 'Cliente 3', 'Cliente 4', 'Cliente 5'],
    'tipo': ['Bronze', 'Prata', 'Ouro', 'Bronze', 'Prata'],
    'gasto_total': [1500, 5000, 12000, 2000, 6500]
})

print("=== DADOS ORIGINAIS ===")
print(df_clientes_tipo)

In [None]:
# === SEU CODIGO AQUI ===


# === FIM DO SEU CODIGO ===

In [None]:
# Teste Q6 - NÃO MODIFICAR
grader.check("q6")

# Submissão

## Checklist antes de submeter:
- [ ] Todas as funções foram implementadas
- [ ] Todos os testes passaram
- [ ] O código está comentado e organizado
- [ ] As análises e interpretações foram incluídas

## Como submeter:
1. Salve este notebook
2. Execute todas as células do início ao fim
3. Verifique que todos os testes passaram
4. Baixe o notebook (File > Download > Download .ipynb)
5. Envie no Moodle