# Bootcamp Machine Learning - Avanti

### Atividade 02

Exercícios de Prática em Python e Pandas (Módulos 1 e 2)

---  

**Aluno:** Alan de Oliveira Gonçalves

In [35]:
# 1. Função que retorna apenas os números ímpares

def filtrar_impares(lista):
  return [num for num in lista if num % 2 != 0]

print(filtrar_impares([1,2,3,4,5,6,7,8,9]))

[1, 3, 5, 7, 9]


In [36]:
# 2. Função que retorna apenas os números primos

def eh_primo(n):
  if n < 2:
    return False
  for i in range(2, int(n**0.5) + 1):
    if n % i == 0:
      return False
  return True

def filtrar_primos(lista):
  return [num for num in lista if eh_primo(num)]

print(filtrar_primos([1,2,3,4,5,6,7,11,13,15]))

[2, 3, 5, 7, 11, 13]


**Observação:** para lista maiores seria melhor usar algoriritmos mais rápidos como o Crivo de Eratóstenes, para maior performance

In [37]:
# 3. Função que retorna elementos presentes em apenas uma das listas

def elementos_unicos(lista1, lista2):
  return list(set(lista1) ^ set(lista2))

print(elementos_unicos([1,2,3,4], [3,4,5,6]))

[1, 2, 5, 6]


In [38]:
# 4. Função que encontra o segundo maior valor

def segundo_maior(lista):
  lista_unica = list(set(lista)) # remove duplicados
  lista_unica.sort(reverse=True)
  return lista_unica[1] if len(lista_unica) > 1 else None

print(segundo_maior([10, 20, 4, 45, 99, 99]))

45


In [39]:
# 5. Função que ordena lista de tuplas (nome, idade) pelo nome

def ordenar_por_nome(lista_tuplas):
  return sorted(lista_tuplas, key=lambda x: x[0])

pessoas = [("Carlos", 25), ("Ana", 30), ("Bruno", 22)]
print(ordenar_por_nome(pessoas))

[('Ana', 30), ('Bruno', 22), ('Carlos', 25)]


**Observação:** considerei o caso em que todos os nomes estiverem começando com letra maiuscula ou minusculo. Caso contrário deve ser feito um tratamento antes de usar a função.

In [40]:
# 6. Identificação e tratamento de outliers

import numpy as np

def tratar_outliers_std(coluna):
  media = np.mean(coluna)
  desvio = np.std(coluna)
  limite_inferior = media - 3*desvio
  limite_superior = media + 3*desvio
  return [x for x in coluna if limite_inferior <= x <= limite_superior]

def tratar_outliers_iqr(coluna):
  q1, q3 = np.percentile(coluna, [25, 75])
  iqr = q3 - q1
  limite_inferior = q1 - 1.5*iqr
  limite_superior = q3 + 1.5*iqr
  return [x for x in coluna if limite_inferior <= x <= limite_superior]

dados = [10, 12, 12, 13, 12, 100] # 100 é outlier
print("Conjunto de dados original:")
print(dados)
print("\nConjunto de dados após tratamento com desvio padrão:")
print(tratar_outliers_std(dados))
print("\nConjunto de dados após tratamento com IQR:")
print(tratar_outliers_iqr(dados))

Conjunto de dados original:
[10, 12, 12, 13, 12, 100]

Conjunto de dados após tratamento com desvio padrão:
[10, 12, 12, 13, 12, 100]

Conjunto de dados após tratamento com IQR:
[12, 12, 13, 12]


**Observação: STD vs. IQR**

A principal diferença entre os dois métodos é a sensibilidade a valores extremos:

- STD (Desvio Padrão): Baseia-se na média. Como a média é "puxada" por valores muito altos ou baixos, o limite de corte pode acabar aceitando outliers. É melhor para dados que seguem uma distribuição normal.

- IQR (Intervalo Interquartil): Baseia-se na posição dos dados (mediana e quartis). É um método mais robusto, pois não se deixa distorcer por um único valor gigante, sendo mais eficaz para identificar outliers em dados reais e "sujos".

In [41]:
# 7. Concatenar vários DataFrames

import pandas as pd

df1 = pd.DataFrame({"A":[1,2], "B":[3,4]})
df2 = pd.DataFrame({"A":[5,6], "C":[7,8]})

# Empilhar linhas
df_concat = pd.concat([df1, df2], axis=0)
print("Concatenado empilhando linhas:\n")
print(df_concat)

# Empilhar colunas
df_concat_colunas = pd.concat([df1, df2], axis=1)
print("\n-------------------------------")
print("\nConcatenado empilhando colunas:\n")
print(df_concat_colunas)

Concatenado empilhando linhas:

   A    B    C
0  1  3.0  NaN
1  2  4.0  NaN
0  5  NaN  7.0
1  6  NaN  8.0

-------------------------------

Concatenado empilhando colunas:

   A  B  A  C
0  1  3  5  7
1  2  4  6  8


In [42]:
# 8. Ler CSV e exibir primeiras linhas

# import pandas as pd

# df = pd.read_csv("arquivo.csv")
# print(df.head())

O **Pandas** tem a função read_csv que abre e lê o arquivo .csv passadoo como parâmetro. E podemos ver as primeiras linhas com head.

In [43]:
# 9. Selecionar coluna e filtrar linhas

df_exemplo = pd.DataFrame({
    "nome_coluna":[5, 12, 7, 20],
    "outra_coluna":["a","b","c","d"]
})

coluna_1 = df_exemplo["nome_coluna"]
coluna_2 = df_exemplo["outra_coluna"]
filtro = df_exemplo[df_exemplo["nome_coluna"] > 10]
print(coluna_1)
print("\n-------------------------------\n")
print(coluna_2)
print("\n-------------------------------\n")
print(filtro)

0     5
1    12
2     7
3    20
Name: nome_coluna, dtype: int64

-------------------------------

0    a
1    b
2    c
3    d
Name: outra_coluna, dtype: object

-------------------------------

   nome_coluna outra_coluna
1           12            b
3           20            d


In [44]:
# 10. Lidar com valores ausentes (NaN)

df_nan = pd.DataFrame({
    "A":[1, None, 3],
    "B":[4, 5, None]
})

print("Remoção:\n")
print(df_nan.dropna()) # Remove linhas com NaN
print("\n-------------------------------\n")
print("Preenche com 0:\n")
print(df_nan.fillna(0)) # Preenche com 0
print("\n-------------------------------\n")
print("Preenche com a média:\n")
print(df_nan.fillna(df_nan.mean())) # Preenche com média

Remoção:

     A    B
0  1.0  4.0

-------------------------------

Preenche com 0:

     A    B
0  1.0  4.0
1  0.0  5.0
2  3.0  0.0

-------------------------------

Preenche com a média:

     A    B
0  1.0  4.0
1  2.0  5.0
2  3.0  4.5


**Observação:** a escolha ideal para cada forma de lidar coom valores ausentes vai depender dos tippos de dados e uso dos mesmos num projeto real de ciência de dados.