
# 📊 Manipulação de Tabelas com Pandas

## 📌 Objetivo
Este notebook ensinará comandos básicos para manipulação de tabelas usando **Pandas**.
O objetivo é aprender operações essenciais como:

- Visualizar estatísticas básicas
- Renomear colunas
- Selecionar colunas e linhas
- Remover dados indesejados

## 📊 Manipulando dados

- Após obter uma boa fonte de dados você certamente precisará realizar algumas limpezas e manipulações para que os dados estejam no ponto ideal para as fases finais de uma análise: execução de modelos econométricos, visualizações de dados, tabelas agregadas, relatórios etc.

- A realidade é que, na prática, os dados nunca estarão do jeito que você de fato precisa. Portanto, é fundamental dominar técnicas de manipulação de dados.

- Entendamos a manipulação de dados como o ato de transformar, reestruturar, limpar, agregar e juntar os dados.

- Para se ter uma noção da importância dessa fase, alguns estudiosos da área de Ciência de Dados costumam afirmar que 80% do trabalho é encontrar uma boa fonte de dados, limpar e preparar os dados, sendo que os 20% restantes seriam o trabalho de aplicar modelos e realizar alguma análise propriamente dita.


## 📂 O Dataset: Penguins

Usaremos o dataset **Penguins**, fornecido pela biblioteca `seaborn`. Ele contém informações sobre três espécies de pinguins coletadas nas Ilhas Palmer.

### 📜 Descrição das Colunas:
- **species**: Espécie do pinguim (*Adelie, Chinstrap, Gentoo*)
- **island**: Ilha onde o pinguim foi encontrado (*Biscoe, Dream, Torgersen*)
- **bill_length_mm**: Comprimento do bico em milímetros
- **bill_depth_mm**: Profundidade do bico em milímetros
- **flipper_length_mm**: Comprimento da nadadeira em milímetros
- **body_mass_g**: Massa corporal do pinguim em gramas
- **sex**: Sexo do pinguim (*Male, Female*)


## 📥 Importando Bibliotecas

In [15]:
import pandas as pd  # Biblioteca para manipulação de dados
import seaborn as sns  # Biblioteca para carregar o dataset
import os

# A partir de agora vamos nos referir ao pandas apenas como pd e ao seaborn apenas como sns


## 📂 Carregando e Explorando o Dataset

In [16]:

# Carregar o dataset 'penguins' do seaborn
df = sns.load_dataset('penguins')

# Exibir as primeiras 10 linhas da tabela para conhecer os dados
df.head(10)  # Mostra as 10 primeiras linhas da tabela para análise inicial

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,Female
7,Adelie,Torgersen,39.2,19.6,195.0,4675.0,Male
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,


## 📊 Informações Básicas da Tabela

In [17]:

# Verificar as colunas disponíveis e seus tipos de dados
df.info()  # Mostra a estrutura do DataFrame, tipos de dados e valores nulos


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [18]:

# Verificar se há valores ausentes no dataset
df.isnull().sum()  # Retorna a quantidade de valores nulos por coluna


Unnamed: 0,0
species,0
island,0
bill_length_mm,2
bill_depth_mm,2
flipper_length_mm,2
body_mass_g,2
sex,11


In [20]:

# Resumo estatístico das colunas numéricas
df.describe()  # Mostra estatísticas descritivas como média, desvio padrão e quartis
#Além disso, é bom também para encontrar outliers
#As outras colunas como são categóricas, não saíram. Por óbvio só as que são numéricas com decimal (float64) aparecem

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g
count,342.0,342.0,342.0,342.0
mean,43.92193,17.15117,200.915205,4201.754386
std,5.459584,1.974793,14.061714,801.954536
min,32.1,13.1,172.0,2700.0
25%,39.225,15.6,190.0,3550.0
50%,44.45,17.3,197.0,4050.0
75%,48.5,18.7,213.0,4750.0
max,59.6,21.5,231.0,6300.0


## 📝 Renomeando Colunas

In [21]:
#Renomeando algumas colunas
df = df.rename(columns={'species': 'especie', 'body_mass_g': 'massa_corporal_g','island':'ilha','sex':'sexo','flipper_length_mm':'nadadeira_m'})


In [22]:

# Exibir os novos nomes das colunas após a alteração
df.columns  # Lista todas as colunas do DataFrame


Index(['especie', 'ilha', 'bill_length_mm', 'bill_depth_mm', 'nadadeira_m',
       'massa_corporal_g', 'sexo'],
      dtype='object')

## 🔍 Selecionando Linhas e Colunas

In [29]:

# Selecionar apenas algumas colunas relevantes para análise
df_subset = df[['especie', 'ilha', 'massa_corporal_g','sexo','nadadeira_m']]
#Aqui mudei de df para df_subset, porque se tiver que refazer algo, eu não preciso rodar o código inteiro novamente

In [30]:
# Exibir as primeiras linhas da tabela reduzida
df_subset.head()  # Mostra as 5 primeiras linhas do subconjunto criado


Unnamed: 0,especie,ilha,massa_corporal_g,sexo,nadadeira_m
0,Adelie,Torgersen,3750.0,Male,181.0
1,Adelie,Torgersen,3800.0,Female,186.0
2,Adelie,Torgersen,3250.0,Female,195.0
3,Adelie,Torgersen,,,
4,Adelie,Torgersen,3450.0,Female,193.0


In [31]:
#Vamos transformar os valores da massa dos pinguins de gramas para quilos

df_subset.iloc[:,2]=df_subset.iloc[:,2]/1000
df_subset.head()

Unnamed: 0,especie,ilha,massa_corporal_g,sexo,nadadeira_m
0,Adelie,Torgersen,3.75,Male,181.0
1,Adelie,Torgersen,3.8,Female,186.0
2,Adelie,Torgersen,3.25,Female,195.0
3,Adelie,Torgersen,,,
4,Adelie,Torgersen,3.45,Female,193.0


In [32]:
#Agora vamos renomear novamente a coluna de g para kg

df_subset = df_subset.rename(columns={'massa_corporal_g': 'massa_corporal_kg'})
df_subset.head()

Unnamed: 0,especie,ilha,massa_corporal_kg,sexo,nadadeira_m
0,Adelie,Torgersen,3.75,Male,181.0
1,Adelie,Torgersen,3.8,Female,186.0
2,Adelie,Torgersen,3.25,Female,195.0
3,Adelie,Torgersen,,,
4,Adelie,Torgersen,3.45,Female,193.0


## 🗑️ Removendo Colunas e Linhas

In [33]:

#Digamos que mudamos de ideia e nadadeiras não é mais importante
# Apagar a quinta coluna (índice 4) do dataset original
df_subset.pop(df_subset.columns[4])

df_subset.head()

Unnamed: 0,especie,ilha,massa_corporal_kg,sexo
0,Adelie,Torgersen,3.75,Male
1,Adelie,Torgersen,3.8,Female
2,Adelie,Torgersen,3.25,Female
3,Adelie,Torgersen,,
4,Adelie,Torgersen,3.45,Female


In [34]:
#Digamos que por algum motivo eu não quero a primeira linha também
# Apagar a terceira linha (índice 2) do dataset
df_subset.drop(index=3, inplace=True)  # Remove a linha de índice 2 (terceira linha)
df_subset.head()


Unnamed: 0,especie,ilha,massa_corporal_kg,sexo
0,Adelie,Torgersen,3.75,Male
1,Adelie,Torgersen,3.8,Female
2,Adelie,Torgersen,3.25,Female
4,Adelie,Torgersen,3.45,Female
5,Adelie,Torgersen,3.65,Male


## 🔄 Lidando com Valores Nulos

In [35]:
# 📌 Preencher valores nulos da coluna 'massa_corporal_kg' com a média da própria coluna

df_subset['massa_corporal_kg'] = df_subset['massa_corporal_kg'].fillna(
    df_subset['massa_corporal_kg'].mean()  # Calculamos a média da coluna 'massa_corporal_kg' para substituir os valores nulos
)  # O método fillna() retorna uma nova Series com os NaNs preenchidos, e essa nova versão é salva na coluna original

# 📌 Exibir as primeiras linhas para confirmar que os valores nulos foram preenchidos corretamente
df_subset.head()  # Mostra as primeiras linhas da tabela após a alteração


Unnamed: 0,especie,ilha,massa_corporal_kg,sexo
0,Adelie,Torgersen,3.75,Male
1,Adelie,Torgersen,3.8,Female
2,Adelie,Torgersen,3.25,Female
4,Adelie,Torgersen,3.45,Female
5,Adelie,Torgersen,3.65,Male


In [36]:
#Vamos ver se ainda temos valores nulos
df_subset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 343 entries, 0 to 343
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   especie            343 non-null    object 
 1   ilha               343 non-null    object 
 2   massa_corporal_kg  343 non-null    float64
 3   sexo               333 non-null    object 
dtypes: float64(1), object(3)
memory usage: 13.4+ KB


In [37]:
#Poderíamos retirar a coluna sexo, mas digamos que ela é importante para nossa análise
#Como é uma variável categórica, não é possível plotarmos valores nulos, então vamos simplesmente apagá-los
# Remover linhas que ainda contenham valores nulos
df_subset.dropna(inplace=True)  # Exclui qualquer linha que ainda tenha valores nulos
df_subset.info()


<class 'pandas.core.frame.DataFrame'>
Index: 333 entries, 0 to 343
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   especie            333 non-null    object 
 1   ilha               333 non-null    object 
 2   massa_corporal_kg  333 non-null    float64
 3   sexo               333 non-null    object 
dtypes: float64(1), object(3)
memory usage: 13.0+ KB


In [38]:

# Verificar novamente se há valores nulos
df_subset.isnull().sum()  # Confirma que não há mais valores ausentes no dataset


Unnamed: 0,0
especie,0
ilha,0
massa_corporal_kg,0
sexo,0


## 🔢 Criando Novas Colunas

In [39]:

# Criar uma nova coluna 'leve', que indica se o pinguim é mais leve que 4kg
df_subset['É leve?'] = df_subset['massa_corporal_kg'] < 4  # Retorna True para pinguins abaixo da média



In [40]:

# Exibir as primeiras linhas para visualizar a nova coluna
df_subset.head()  # Confere a adição da nova coluna ao DataFrame


Unnamed: 0,especie,ilha,massa_corporal_kg,sexo,É leve?
0,Adelie,Torgersen,3.75,Male,True
1,Adelie,Torgersen,3.8,Female,True
2,Adelie,Torgersen,3.25,Female,True
4,Adelie,Torgersen,3.45,Female,True
5,Adelie,Torgersen,3.65,Male,True


In [41]:
#Como provavelmente está em ordem crescente, vamos ver os últimos 10 valores e checar se a parte "pesado" está como falso
df_subset.tail(10)

Unnamed: 0,especie,ilha,massa_corporal_kg,sexo,É leve?
332,Gentoo,Biscoe,4.65,Female,False
333,Gentoo,Biscoe,5.5,Male,False
334,Gentoo,Biscoe,4.375,Female,False
335,Gentoo,Biscoe,5.85,Male,False
337,Gentoo,Biscoe,6.0,Male,False
338,Gentoo,Biscoe,4.925,Female,False
340,Gentoo,Biscoe,4.85,Female,False
341,Gentoo,Biscoe,5.75,Male,False
342,Gentoo,Biscoe,5.2,Female,False
343,Gentoo,Biscoe,5.4,Male,False


In [42]:
#Não gostei do true ou false, vamos substituir por sim ou não e também traduzir os sexos
df_subset['É leve?'] = df_subset['É leve?'].replace({True: 'Sim', False: 'Não'})
df_subset['sexo'] = df_subset['sexo'].replace({"Female": 'Fêmea', "Male": 'Macho'})
df_subset.head()


Unnamed: 0,especie,ilha,massa_corporal_kg,sexo,É leve?
0,Adelie,Torgersen,3.75,Macho,Sim
1,Adelie,Torgersen,3.8,Fêmea,Sim
2,Adelie,Torgersen,3.25,Fêmea,Sim
4,Adelie,Torgersen,3.45,Fêmea,Sim
5,Adelie,Torgersen,3.65,Macho,Sim


## 💾 Salvando a Tabela Modificada

In [43]:
df_subset.to_excel("pinguins.xlsx", index=False)  # Salva o arquivo sem o índice

from google.colab import files
files.download("pinguins.xlsx")  # Faz o download do arquivo

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>