In [None]:
# Análise Exploratória de Dados (EDA)

## 1. Importação de Bibliotecas
## 2. Criação de um Dataset CSV Simulado
## 3. Informações Básicas do Dataset
## 4. Estatísticas Descritivas
## 5. Valores Nulos
## 6. Tipos de Dados e Conversões
## 7. Valores Únicos por Coluna Categórica
## 8. Preenchimento de Dados Faltantes
## 9. Codificação de Campos Categóricos
## 10. Visualização Final
## 8.10 Atualização de Salário por Nome

## 1. Importação de Bibliotecas

In [24]:
import pandas as pd
import numpy as np
from io import StringIO

## 2. Criação de um Dataset CSV Simulado

In [25]:
csv_dados = StringIO("""
ID,Nome,Idade,Salario,Departamento
1,Ana,28,5200,Financeiro
2,Bruno,35,NaN,TI
3,Carlos,,4300,Marketing
4,Diana,22,3900,TI
5,Eduardo,45,7800,Financeiro
6,Fabiana,31,NaN,Marketing
7,Guilherme,29,4700,TI
8,Helena,NaN,NaN,Marketing
""")

# Leitura do CSV diretamente do objeto StringIO
df = pd.read_csv(csv_dados)
df.head()

Unnamed: 0,ID,Nome,Idade,Salario,Departamento
0,1,Ana,28.0,5200.0,Financeiro
1,2,Bruno,35.0,,TI
2,3,Carlos,,4300.0,Marketing
3,4,Diana,22.0,3900.0,TI
4,5,Eduardo,45.0,7800.0,Financeiro


## 3. Informações Básicas do Dataset

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ID            8 non-null      int64  
 1   Nome          8 non-null      object 
 2   Idade         6 non-null      float64
 3   Salario       5 non-null      float64
 4   Departamento  8 non-null      object 
dtypes: float64(2), int64(1), object(2)
memory usage: 452.0+ bytes


> Verificamos colunas, tipos de dados e contagem de não-nulos.

## 4. Estatísticas Descritivas

In [27]:
df.describe()

Unnamed: 0,ID,Idade,Salario
count,8.0,6.0,5.0
mean,4.5,31.666667,5180.0
std,2.44949,7.788881,1541.75225
min,1.0,22.0,3900.0
25%,2.75,28.25,4300.0
50%,4.5,30.0,4700.0
75%,6.25,34.0,5200.0
max,8.0,45.0,7800.0


> Apenas colunas numéricas aparecem aqui. Vamos analisar separadamente os campos categóricos.

## 5. Valores Nulos

In [28]:
df.isnull().sum()

ID              0
Nome            0
Idade           2
Salario         3
Departamento    0
dtype: int64

> Mostra quantos valores ausentes existem em cada coluna.

## 6. Tipos de Dados e Conversões

In [29]:
# A coluna ID pode ser tratada como string
# A coluna "Idade" pode ser convertida para int se quisermos

# Exemplo de conversão:
print("Tipo do ID Anterior")
print(df["ID"].dtype)

df["ID"] = df["ID"].astype(str)

print("Tipo do ID Atualizado")
print(df["ID"].dtype)

Tipo do ID Anterior
int64
Tipo do ID Atualizado
object


## 7. Valores Únicos por Coluna Categórica

In [30]:
print("Valores únicos em Departamento:", df["Departamento"].unique())
print("Valores únicos em Nome:", df["Nome"].nunique())

Valores únicos em Departamento: ['Financeiro' 'TI' 'Marketing']
Valores únicos em Nome: 8


## 8. Preenchimento de Dados Faltantes

In [31]:
# Podemos preencher com média, mediana ou outro valor de referência

# Exemplo: Preenchendo salário com a mediana
salario_mediana = df["Salario"].median()
#df["Salario"].fillna(salario_mediana, inplace=True)
df["Salario"] = df["Salario"].fillna(salario_mediana)

# Idade com a média
idade_media = df["Idade"].mean()
#df["Idade"].fillna(round(idade_media), inplace=True)
df["Idade"] = df["Idade"].fillna(round(idade_media))

## 9. Codificação de Campos Categóricos

In [32]:
# Uma codificação simples com get_dummies

df_encoded = pd.get_dummies(df, columns=["Departamento"], drop_first=True)
df_encoded.head()

Unnamed: 0,ID,Nome,Idade,Salario,Departamento_Marketing,Departamento_TI
0,1,Ana,28.0,5200.0,False,False
1,2,Bruno,35.0,4700.0,False,True
2,3,Carlos,32.0,4300.0,True,False
3,4,Diana,22.0,3900.0,False,True
4,5,Eduardo,45.0,7800.0,False,False


## 10. Busca por Nome (Consulta por Campo `object`)  
Essa célula permite localizar registros com base em nomes. O método `str.contains` permite buscas parciais e insensíveis a maiúsculas/minúsculas.

In [37]:
# Exemplo de busca por nome (insensível a maiúsculas/minúsculas)
nome_busca = "Carlos"
resultado = df_encoded[df_encoded["Nome"].str.contains(nome_busca, case=False, na=False)]
print(f"{len(resultado)} registro(s) encontrado(s):")
display(resultado)

1 registro(s) encontrado(s):


Unnamed: 0,ID,Nome,Idade,Salario,Departamento_Marketing,Departamento_TI
2,3,Carlos,32.0,4300.0,True,False


## 11. Atualização de Salário por Nome  
Permite modificar o salário de pessoas específicas com base no nome. Após localizar os índices das linhas correspondentes, a atualização é feita diretamente via `df.loc`.

In [38]:
# Exemplo: Atualizar salário de um nome específico
nome_alvo = "Carlos"
novo_salario = 7500

# Localizando os índices dos registros a atualizar
indices = df_encoded[df_encoded["Nome"] == nome_alvo].index

# Atualizando
df_encoded.loc[indices, "Salario"] = novo_salario

# Exibindo resultado
print(f"Salário atualizado para os registros com nome '{nome_alvo}':")
display(df_encoded.loc[indices])

Salário atualizado para os registros com nome 'Carlos':


Unnamed: 0,ID,Nome,Idade,Salario,Departamento_Marketing,Departamento_TI
2,3,Carlos,32.0,7500.0,True,False


## 12. Visualização Final

In [39]:
print("DataFrame original:")
display(df.head())

print("\nDataFrame codificado:")
display(df_encoded.head())

DataFrame original:


Unnamed: 0,ID,Nome,Idade,Salario,Departamento
0,1,Ana,28.0,5200.0,Financeiro
1,2,Bruno,35.0,4700.0,TI
2,3,Carlos,32.0,7500.0,Marketing
3,4,Diana,22.0,3900.0,TI
4,5,Eduardo,45.0,7800.0,Financeiro



DataFrame codificado:


Unnamed: 0,ID,Nome,Idade,Salario,Departamento_Marketing,Departamento_TI
0,1,Ana,28.0,5200.0,False,False
1,2,Bruno,35.0,4700.0,False,True
2,3,Carlos,32.0,7500.0,True,False
3,4,Diana,22.0,3900.0,False,True
4,5,Eduardo,45.0,7800.0,False,False
