Listando Pessoas em uma Faixa Etária Específica em um DataFrame

Em um sistema de gerenciamento de academias, é necessário ter uma forma de buscar alunos em uma faixa etária específica para oferecer promoções e descontos em planos de treinamento. Para isso, será criada uma função que liste todas as pessoas com idades entre idade minima e idade maxima.

​
Assinatura da função: busca_por_faixa_etaria(df: pd.DataFrame, idade_minima: int, idade_maxima: int) -> pd.DataFrame.

Entrada:

df: DataFrame com as informações dos alunos contendo as colunas "Nome", "Idade", "Sexo", "Altura" e "Peso".
idade_minima: um inteiro que representa a idade mínima da faixa etária desejada.
idade_maxima: um inteiro que representa a idade máxima da faixa etária desejada.

In [7]:
import pandas as pd

def busca_por_faixa_etaria(df: pd.DataFrame, idade_minima: int, idade_maxima: int) -> pd.DataFrame:
	return df[(df['Idade'] > idade_minima) & (df['Idade'] < idade_maxima)]

In [8]:
dados = {
    'Nome': ['Ana', 'João', 'Pedro', 'Maria', 'Lucas'],
    'Idade': [23, 27, 31, 19, 22],
    'Sexo': ['F', 'M', 'M', 'F', 'M'],
    'Altura': [1.65, 1.78, 1.85, 1.60, 1.75],
    'Peso': [65, 80, 90, 55, 70]
}
df = pd.DataFrame(dados)

busca_por_faixa_etaria(df, 20, 30)

Unnamed: 0,Nome,Idade,Sexo,Altura,Peso
0,Ana,23,F,1.65,65
1,João,27,M,1.78,80
4,Lucas,22,M,1.75,70


In [None]:
'''dados = {
    'Nome': ['Ana', 'João', 'Pedro', 'Maria', 'Lucas'],
    'Idade': [23, 27, 31, 19, 22],
    'Sexo': ['F', 'M', 'M', 'F', 'M'],
    'Altura': [1.65, 1.78, 1.85, 1.60, 1.75],
    'Peso': [65, 80, 90, 55, 70]
}
df = pd.DataFrame(dados)

busca_por_faixa_etaria(df, 20, 30)

>>> 
    Nome  Idade Sexo  Altura  Peso
0    Ana     23    F    1.65    65
1   João     27    M    1.78    80
4  Lucas     22    M    1.75    70'''

Transformação de colunas de dados categóricos em dados binários em um DataFrame Pandas

Imagine que você está trabalhando em um projeto de Machine Learning e precisa treinar um modelo para classificar diferentes tipos de frutas. Uma das variáveis do conjunto de dados é o nome da fruta, que está na coluna "A" do DataFrame. No entanto, para que esse tipo de variável possa ser usada em um modelo de aprendizado de máquina, ela precisa ser transformada em uma representação numérica.

Uma possível abordagem seria criar uma coluna para cada fruta presente no conjunto de dados e preencher com valores 1 ou 0 indicando se a linha corresponde à fruta daquela coluna ou não. Isso permitiria que o modelo aprendesse padrões nas diferentes frutas e fizesse previsões com base nessas informações.

Crie uma função que permite realizar essa transformação. Ela recebe o DataFrame com as informações das frutas e a coluna que contém os nomes das frutas (coluna "A" no exemplo). Em seguida, ela cria uma coluna separada para cada valor único na coluna "A", preenchendo com valores 1 ou 0 de acordo com a presença ou ausência da fruta em cada linha. O resultado é um novo DataFrame com as colunas transformadas.

Assinatura da função: transforma_coluna_em_dummy(df: pd.DataFrame, coluna: str) -> pd.DataFrame. 

A assinatura da função transforma_coluna_em_dummy recebe um DataFrame df e uma string coluna como entrada e retorna um novo DataFrame com as colunas da variável categórica (coluna) transformadas em variáveis dummy, ou seja, colunas binárias com valores 0 ou 1, indicando se o registro pertence ou não a essa categoria. O retorno é um DataFrame do pandas com as novas colunas dummy adicionadas ao DataFrame original.


In [31]:
import pandas as pd
def transforma_coluna_em_dummy(df: pd.DataFrame, coluna: str) -> pd.DataFrame:
	dummy = pd.get_dummies(df, prefix=coluna, dtype=int)
	dummy.rename(columns={'A_banana': 'banana',	'A_maçã' : 'maçã',	'A_uva': 'uva'}, inplace=True)
	# df_dummy = pd.concat([dummy, df.drop(coluna, axis=1)] ,axis=1)
	return dummy

In [32]:
df = pd.DataFrame({'A': ['maçã', 'banana', 'uva'], 'B': [1, 2, 3]})

transforma_coluna_em_dummy(df, 'A')


Unnamed: 0,B,banana,maçã,uva
0,1,0,1,0
1,2,1,0,0
2,3,0,0,1


In [None]:
'''Exemplo:

df = pd.DataFrame({'A': ['maçã', 'banana', 'uva'], 'B': [1, 2, 3]})

transforma_coluna_em_dummy(df, 'A')

>>> 
   maçã  banana  uva  B
0     1       0    0  1
1     0       1    0  2
2     0       0    1  3
'''

Exclusão de Registros em DataFrame

Suponha que você trabalhe em uma empresa que coleta e armazena informações de clientes em um DataFrame para fins de análise de mercado. Devido à entrada em vigor da Lei Geral de Proteção de Dados (LGPD), é necessário excluir os registros de clientes que solicitaram a exclusão de seus dados pessoais.

A LGPD é a Lei Geral de Proteção de Dados, que entrou em vigor em setembro de 2020 e tem como objetivo regulamentar o uso, a proteção e a transferência de dados pessoais no Brasil. A lei estabelece regras para empresas e órgãos públicos em relação à coleta, tratamento, armazenamento e compartilhamento de informações de indivíduos, garantindo a privacidade e a segurança dos dados. A LGPD também prevê sanções para quem descumpri-la, como multas e até mesmo a proibição do tratamento de dados pessoais.

Escreva uma função que receba um DataFrame com informações de clientes e uma lista de índices a serem excluídos. A função deve remover os registros correspondentes aos índices da lista e retornar o DataFrame modificado.

O objetivo dessa função é garantir a conformidade com as regulamentações da LGPD e garantir a privacidade dos dados pessoais dos clientes.

Assinatura da função: deleta_registros(df: pd.DataFrame, indices: list) -> pd.DataFrame. Essa função recebe um DataFrame df e uma lista de índices indices que indicam quais registros devem ser removidos do DataFrame. Em seguida, a função retorna um novo DataFrame que é uma cópia do DataFrame original com os registros indicados pelos índices removidos.

In [24]:
import pandas as pd
def deleta_registros(df: pd.DataFrame, indices: list) -> pd.DataFrame:
    df.drop((indices), inplace=True)
    return df

In [25]:
df = pd.DataFrame({'Nome': ['João', 'Maria', 'Pedro', 'Ana'], 
                   'Idade': [25, 30, 40, 20], 
                   'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre']})
deleta_registros(df, [1, 3])

Unnamed: 0,Nome,Idade,Cidade
0,João,25,São Paulo
2,Pedro,40,Belo Horizonte


Tratamento de Dados Faltantes em DataFrame do Pandas

Você é um analista de dados de uma empresa que trabalha com vendas online e recebeu um conjunto de dados de vendas contendo informações sobre produtos, clientes e transações. Ao analisar o conjunto de dados, você percebeu que existem valores faltantes em algumas colunas, o que pode afetar as análises que precisam ser realizadas.

Dados faltantes, também conhecidos como valores missing, são valores ausentes em um conjunto de dados que não foram coletados ou não puderam ser registrados. Eles são um problema comum em análise de dados e podem causar problemas em modelos de machine learning, estatísticas e visualizações.

Crie uma função que receba como entrada um DataFrame contendo dados de vendas e identifique as colunas que possuem valores faltantes. A função deve substituir os valores faltantes pela média da respectiva coluna.

Assinatura da função: trata_dados_faltantes(df: pd.DataFrame) -> pd.DataFrame.

A função trata_dados_faltantes recebe como entrada um DataFrame df e retorna um novo DataFrame com os valores faltantes substituídos pela média da respectiva coluna.

In [42]:
import pandas as pd
def trata_dados_faltantes(df: pd.DataFrame) -> pd.DataFrame:
	df.fillna(df.mean(), inplace=True)
	return df

In [44]:
import numpy as np
df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [4, np.nan, np.nan], 'C': [7, 8, 9]})


trata_dados_faltantes(df)

# >>> 
#      A    B  C
# 0  1.0  4.0  7
# 1  2.0  4.0  8
# 2  1.5  4.0  9

Unnamed: 0,A,B,C
0,1.0,4.0,7
1,2.0,4.0,8
2,1.5,4.0,9


Substituição Condicional de Valores em um DataFrame


Imagine que você é um cientista de dados responsável pela análise de dados de uma empresa que produz chocolates. Você recebeu um DataFrame que contém informações sobre o processo produtivo, incluindo a temperatura, o tempo de mistura e a qualidade dos ingredientes.

Durante a análise, você percebeu que alguns registros apresentam um valor muito alto na coluna que representa a qualidade dos ingredientes, o que pode afetar a qualidade final do produto. Para resolver esse problema, você decidiu criar uma função que substitua todos os valores iguais ou maiores que um determinado limite por um valor pré-determinado, para garantir que a qualidade dos ingredientes esteja sempre dentro dos padrões de qualidade estabelecidos pela empresa.

Assim, você cria uma função que recebe o DataFrame com os dados dos ingredientes, a coluna, o valor limite que deve ser verificado e o valor que deve ser substituído caso o valor seja maior ou igual ao limite. Essa função irá te ajudar a garantir que a qualidade dos ingredientes utilizados na produção dos chocolates seja sempre a melhor possível, resultando em um produto final de qualidade superior e satisfação dos clientes.

Assinatura da função: substitui_valores(df: pd.DataFrame, coluna:str, limite: int, valor_padrao: int) -> pd.DataFrame

A função substitui_valores recebe como parâmetros um DataFrame df, uma string coluna indicando a coluna a ser modificada, um valor limite que determina o limite a partir do qual os valores serão substituídos e um valor valor_padrao que será o valor utilizado para substituição. A função retorna um DataFrame com os valores da coluna especificada modificados, substituindo os valores maiores ou iguais a limite pelo valor valor padrão.

In [66]:
import pandas as pd
def substitui_valores(df: pd.DataFrame, coluna:str, limite: int, valor_padrao: int) -> pd.DataFrame:
    df.loc[df[coluna] >= limite, coluna] = valor_padrao
    return df

In [67]:
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})



# >>> 
#    A  B
# 0  1  4
# 1  2  10
# 2  3  10

In [68]:
substitui_valores(df, 'B', 5, 10)

Unnamed: 0,A,B
0,1,4
1,2,10
2,3,10


Detecção de Valores Atípicos com Desvio Padrão

Suponha que você trabalhe em uma empresa de manutenção preditiva industrial, responsável por monitorar a saúde de equipamentos críticos por meio de dados de sensores. Para identificar possíveis falhas antes que ocorram, os dados coletados passam por um processo de análise e tratamento.

Escreva uma função em Python que receba um DataFrame contendo dados de temperatura dos sensores instalados nos equipamentos e utilize a técnica do desvio padrão para identificar valores atípicos nessa coluna (Detecção de outlier). A função deve retornar uma lista contendo os registros que contêm valores atípicos na coluna "Temperatura". Esses valores podem indicar possíveis problemas no equipamento e precisam ser investigados pela equipe de manutenção antes que uma falha ocorra e interrompa a produção.

Detecção de outlier é uma técnica utilizada em análise de dados para identificar valores que se distanciam significativamente da maioria dos outros valores em um conjunto de dados. Esses valores, também conhecidos como valores atípicos, podem afetar negativamente a análise estatística e, portanto, precisam ser identificados e tratados adequadamente. Uma das técnicas para detectar outliers é o uso do desvio padrão. O desvio padrão é uma medida de dispersão que indica o quão distante os valores estão da média do conjunto de dados. O desvio padrão é uma medida de dispersão que indica o quanto os dados estão afastados da média. É calculado pela raiz quadrada da variância 
e é representado pelo símbolo σ
Matematicamente, o desvio padrão é dado por:

Alt \sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2}

Onde N é o número de elementos no conjunto de dados, xi é o valor de cada elemento, μ é a média dos elementos e σ é o desvio padrão.

Valores que estão a mais de 3 desvios padrão da média são considerados outliers.

Assinatura da função: identifica_outliers(df: pd.DataFrame, coluna: str) -> pd.DataFrame.

A função identifica_outliers recebe dois parâmetros: um DataFrame df contendo os dados a serem analisados e uma string coluna indicando a coluna que deve ser considerada na detecção de outliers. A função retorna um novo DataFrame contendo apenas os registros que contêm valores atípicos na coluna especificada.

In [72]:
import pandas as pd

def identifica_outliers(df: pd.DataFrame, coluna: str) -> pd.DataFrame:
	novo_df = df.loc[df[coluna] > df[coluna].std()*3]
	return novo_df

In [73]:
dados = {
     'Temperatura': [30, 32, 35, 28, 27, 31, 400, 29, 33, 34, 36],
     'Pressao': [100, 101, 102, 99, 98, 97, 1003, 100, 101, 99, 102],
     'Umidade': [600, 58, 62, 61, 63, 65, 59, 60, 64, 63, 61]
}

df = pd.DataFrame(dados)

identifica_outliers(df, 'Temperatura')

# >>> 
#    Temperatura  Pressao  Umidade
# 6          400     1003       59

Unnamed: 0,Temperatura,Pressao,Umidade
6,400,1003,59


Substituição de Cores em DataFrame de Frutas

Você é responsável pela gestão de uma frutaria que vende maçãs, bananas e uvas. A frutaria tem uma parceria com uma empresa de decoração de eventos que deseja encomendar algumas frutas para uma festa temática. A empresa de decoração solicitou especificamente que as bananas fossem douradas e que as maçãs tivessem uma tonalidade rosa. Porém, o seu sistema de registro das frutas só possui as cores tradicionais: vermelha para maçãs, amarela para bananas e roxa para uvas.

Você precisa de uma solução para atualizar o registro das cores das frutas da frutaria de forma que o pedido da empresa de decoração possa ser atendido.

Crei uma função "substitui_cores" que recebe como parâmetros o DataFrame com as informações das frutas, a coluna das cores que precisa ser atualizada, os valores antigos das cores (vermelha e amarela) e os novos valores que precisam ser substituídos (rosa e dourado). Com essa função, você poderá atender ao pedido da empresa de decoração sem precisar alterar manualmente todas as informações no sistema.

Assinatura da função: substitui_cores(df: pd.DataFrame, coluna: str, dicionario_cores: dict) -> pd.DataFrame.

Onde:\
df é um DataFrame contendo a coluna a ser modificada;\
coluna é uma string representando o nome da coluna a ser modificada;\
dicionario_cores é um dicionário onde as chaves representam as cores a serem substituídas e os valores representam as novas cores;\
O retorno é um novo DataFrame com as substituições realizadas.

In [3]:
import pandas as pd
def substitui_cores(df: pd.DataFrame, coluna: str, dicionario_cores: dict) -> pd.DataFrame:
	for chave, valor in dicionario_cores.items():
		df.loc[df[coluna] == chave, coluna] = valor
	return df

In [4]:
df = pd.DataFrame({'A': ['maçã', 'banana', 'uva'], 'B': ['vermelha', 'amarela', 'roxa']})
mapeamento_cores = {'vermelha': 'rosa', 'amarela': 'dourada'}



substitui_cores(df, 'B', mapeamento_cores)

# >>> 
#        A         B
# 0   maçã      rosa
# 1  banana   dourada
# 2    uva      roxa

Unnamed: 0,A,B
0,maçã,rosa
1,banana,dourada
2,uva,roxa


Criação de Série Pandas a partir de Listas de Valores e Índices

Suponha que você é um analista de dados de uma empresa de varejo e precisa manipular uma lista com informações de vendas de diferentes produtos. Para facilitar a análise desses dados, você decidiu criar uma função que transforma essa lista em uma série do pandas.

Crie uma função que receba uma lista de valores e uma lista de índices e retorne uma série pandas com esses dados.

Assinatura da função: criar_serie(valores: list, indices: list) -> pd.Series.

A função criar_serie recebe como entrada duas listas: valores, contendo os valores da série, e indices, contendo os rótulos que serão utilizados como índice da série.

In [5]:
import pandas as pd
def criar_serie(valores: list, indices: list) -> pd.Series:
	return pd.Series(data=valores, index=indices)

In [6]:
valores = [100, 200, 150, 300]
indices = ['Produto A', 'Produto B', 'Produto C', 'Produto D']

criar_serie(valores, indices)

# >>> 
# Produto A    100
# Produto B    200
# Produto C    150
# Produto D    300
# dtype: int64

Produto A    100
Produto B    200
Produto C    150
Produto D    300
dtype: int64

In [6]:
import numpy as np
x = np.arange(10)
np.roll(x,-2)

array([2, 3, 4, 5, 6, 7, 8, 9, 0, 1])