In [1]:
import pandas as pd
import numpy as np

**Tipos de dados**

Os tipos de dados, ou dtypes, no Pandas são fundamentais para trabalhar com dados de forma eficiente e precisa. Cada coluna em um DataFrame pode conter um tipo específico de dados, como números inteiros, números de ponto flutuante, strings, datas, entre outros.

Os principais tipos de dados no Pandas incluem:

1. *int64*: Números inteiros;
2. *float64*: Números de ponto flutuante (decimais);
3. *object*: Strings ou objetos;
4. *datetime64*: Datas e horários;
5. *bool*: Valores booleanos (True/False);
6. *category*: Dados categóricos.

In [3]:
dados ={
    'Inteiro': [1, 2, 3, 4],
    'Float': [1.1, 2.2, 3.3, 4.4],
    'String': ['a', 'b', 'c', 'd'],
    'Data': pd.to_datetime(['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01']),
    'Booleano': [True, False, True, False],
    'Categoria': pd.Categorical(['fruta', 'vegetal', 'fruta', 'vegetal'])
}
df = pd.DataFrame(dados)
print("Dataframe de exemplo:")
display(df)

Dataframe de exemplo:


Unnamed: 0,Inteiro,Float,String,Data,Booleano,Categoria
0,1,1.1,a,2021-01-01,True,fruta
1,2,2.2,b,2021-02-01,False,vegetal
2,3,3.3,c,2021-03-01,True,fruta
3,4,4.4,d,2021-04-01,False,vegetal


In [4]:
print("Tipos de dados do Dataframe:")
print(df.dtypes)

Tipos de dados do Dataframe:
Inteiro               int64
Float               float64
String               object
Data         datetime64[ns]
Booleano               bool
Categoria          category
dtype: object


In [5]:
#Se quiser ver o tipo de dados de uma coluna use dtype
print(df.String.dtype)

object


Tipos de dados numéricos: **int64** e **float64**

In [6]:
#Verificando os tipos de dados
print("Tipo de dado da coluna 'Inteiro':", df.Inteiro.dtype)
print("Tipo de dado da coluna 'Float':", df['Float'].dtype)

Tipo de dado da coluna 'Inteiro': int64
Tipo de dado da coluna 'Float': float64


Tipo de dado de texto: **object**

In [7]:
#Verificando o tipo de dado
print("Tipo de dado da coluna 'String':", df['String'].dtype)

Tipo de dado da coluna 'String': object


Tipo de dado de data e hora: **datetime64**

In [8]:
#Verificando o tipo de dado
print("Tipo de dado da coluna 'Data':", df.Data.dtype)

Tipo de dado da coluna 'Data': datetime64[ns]


Tipo de dado booleano: **bool**

In [9]:
#Verificando o tipo de dado
print("Tipo de dado da coluna 'Booleano':", df['Booleano'].dtype)

Tipo de dado da coluna 'Booleano': bool


Tipo de dado categórico: **category**

In [10]:
#Verificando o tipo de dado
print("Tipo de dado da coluna 'Categoria':", df['Categoria'].dtype)

Tipo de dado da coluna 'Categoria': category


Convertendo tipos de dados

**Exemplo: convertendo inteiro *int64* para *float64***

In [12]:
#Convertendo inteiro para float
df['Inteiro'] = df['Inteiro'].astype(float)
print("Dataframe após conversão da coluna 'Inteiro' de int64 para float64:")
display(df)

Dataframe após conversão da coluna 'Inteiro' de int64 para float64:


Unnamed: 0,Inteiro,Float,String,Data,Booleano,Categoria
0,1.0,1.1,a,2021-01-01,True,fruta
1,2.0,2.2,b,2021-02-01,False,vegetal
2,3.0,3.3,c,2021-03-01,True,fruta
3,4.0,4.4,d,2021-04-01,False,vegetal


**Valores ausentes: dados nulos e/ou faltantes**

Para identificar dados nulos em um DataFrame, usamos métodos como isnull() e notnull(), que retornam um DataFrame de valores booleanos indicando a presença de valores nulos

In [13]:
#Criando um dataframe de exemplo com valores nulos
dados2 = {
    'Nome': ['Ana', 'Bruno', 'Carlos', None, 'Eduardo'],
    'Idade': [23, None, 45, 29, None],
    'Cidade': ['São Paulo', 'Rio de Janeiro', None, 'Curitiba', 'Porto Alegre'],
    'Nota': [85, 90, 78, None, 88]
}
df2 = pd.DataFrame(dados2)
print("Dataframe de exemplo com valores nulos:")
display(df2)

Dataframe de exemplo com valores nulos:


Unnamed: 0,Nome,Idade,Cidade,Nota
0,Ana,23.0,São Paulo,85.0
1,Bruno,,Rio de Janeiro,90.0
2,Carlos,45.0,,78.0
3,,29.0,Curitiba,
4,Eduardo,,Porto Alegre,88.0


Identificação de valores nulos e ausentes

In [14]:
#Verificando se há valores nulos
display(df2.isnull())
print("Contagem de valores nulos em cada coluna:")
display(df2.isnull().sum())

Unnamed: 0,Nome,Idade,Cidade,Nota
0,False,False,False,False
1,False,True,False,False
2,False,False,True,False
3,True,False,False,True
4,False,True,False,False


Contagem de valores nulos em cada coluna:


Nome      1
Idade     2
Cidade    1
Nota      1
dtype: int64

Tratamento de dados nulos e ausentes

Existem várias maneiras de tratar dados nulos e ausentes/faltantes, dependendo da situação e dos requisitos do seu projeto.

**1. Remoção de dados nulos**

In [15]:
#Removendo linhas com qualquer valor nulo
df_sem_nulos_linhas = df2.dropna()
print("Dataframe sem linhas com valores nulos:")
display(df_sem_nulos_linhas)

Dataframe sem linhas com valores nulos:


Unnamed: 0,Nome,Idade,Cidade,Nota
0,Ana,23.0,São Paulo,85.0


In [16]:
#Removendo colunas com qualquer valor nulo
df_sem_nulos_colunas = df2.dropna(axis=1)
print("Dataframe sem colunas com valores nulos:")
display(df_sem_nulos_colunas)

Dataframe sem colunas com valores nulos:


0
1
2
3
4


**2. Preenchimento de dados nulos**

Preenchimento com um valor específico

In [17]:
#Preenchendo valores nulos com 0 (zero)
df_preenchido_zero = df2.fillna(0)
print("Preenchendo valores nulos com zero:")
display(df_preenchido_zero)

Preenchendo valores nulos com zero:


Unnamed: 0,Nome,Idade,Cidade,Nota
0,Ana,23.0,São Paulo,85.0
1,Bruno,0.0,Rio de Janeiro,90.0
2,Carlos,45.0,0,78.0
3,0,29.0,Curitiba,0.0
4,Eduardo,0.0,Porto Alegre,88.0


Preenchimento com a média

In [18]:
#Preenchendo valores nulos na coluna 'Idade' com a média das idades
df2['Idade'] = df2['Idade'].fillna(df2['Idade'].mean())
print("Preenchendo valores nulos na coluna 'Idade' com a média das idades:")
display(df2)

Preenchendo valores nulos na coluna 'Idade' com a média das idades:


Unnamed: 0,Nome,Idade,Cidade,Nota
0,Ana,23.0,São Paulo,85.0
1,Bruno,32.333333,Rio de Janeiro,90.0
2,Carlos,45.0,,78.0
3,,29.0,Curitiba,
4,Eduardo,32.333333,Porto Alegre,88.0


Preenchendo com a mediana

In [19]:
#Preenchendo valores nulos na coluna 'Nota' com a mediana das notas
df2['Nota'] = df2['Nota'].fillna(df2['Nota'].median())
print("Preenchendo valores nulos na coluna 'Nota' com a mediana")
display(df2)

Preenchendo valores nulos na coluna 'Nota' com a mediana


Unnamed: 0,Nome,Idade,Cidade,Nota
0,Ana,23.0,São Paulo,85.0
1,Bruno,32.333333,Rio de Janeiro,90.0
2,Carlos,45.0,,78.0
3,,29.0,Curitiba,86.5
4,Eduardo,32.333333,Porto Alegre,88.0


Preencher valores nulos com a mediana é uma ótima escolha quando os dados contêm Outliers, pois a mediana é menos sensível a valores extremos do que a média. Isso é útil em situações como salários ou preços de imóveis, onde outliers podem distorcer a média. A mediana fornece uma medida central mais robusta, mantendo a integridade dos dados.

Preenchendo valores nulos usando o valor anterior ou seguinte

In [20]:
#Preenchendo valores nulos com o valor anterior (forward fill)
df_ffill = df2.fillna(method='ffill')
print("Preenchendo valores nulos com o valor anterior (forward fill):")
display(df_ffill)

Preenchendo valores nulos com o valor anterior (forward fill):


  df_ffill = df2.fillna(method='ffill')


Unnamed: 0,Nome,Idade,Cidade,Nota
0,Ana,23.0,São Paulo,85.0
1,Bruno,32.333333,Rio de Janeiro,90.0
2,Carlos,45.0,Rio de Janeiro,78.0
3,Carlos,29.0,Curitiba,86.5
4,Eduardo,32.333333,Porto Alegre,88.0


In [21]:
#Preenchendo valores nulos com o valor seguinte (backward fill)
df_bfill = df2.fillna(method='bfill')
print("Preenchendo valores nulos com o valor seguinte (backward fill):")
display(df_bfill)

Preenchendo valores nulos com o valor seguinte (backward fill):


  df_bfill = df2.fillna(method='bfill')


Unnamed: 0,Nome,Idade,Cidade,Nota
0,Ana,23.0,São Paulo,85.0
1,Bruno,32.333333,Rio de Janeiro,90.0
2,Carlos,45.0,Curitiba,78.0
3,Eduardo,29.0,Curitiba,86.5
4,Eduardo,32.333333,Porto Alegre,88.0


Usar o valor anterior (forward fill) ou o valor seguinte (backward fill) para preencher dados nulos é especialmente útil em séries temporais ou dados sequenciais, onde a continuidade é importante. Por exemplo, em dados de sensores que registram leituras a intervalos regulares, manter a última leitura válida pode ser uma forma prática de lidar com dados ausentes sem interromper a sequência temporal.

**3. Substituição condicional de dados nulos**

In [22]:
#Preenchendo valores nulos na coluna 'Cidade' com 'São Paulo'
df2['Cidade'] = df2['Cidade'].fillna('São Paulo')
print("Preenchendo valores nulos na coluna 'Cidade' com 'São Paulo':")
display(df2)

Preenchendo valores nulos na coluna 'Cidade' com 'São Paulo':


Unnamed: 0,Nome,Idade,Cidade,Nota
0,Ana,23.0,São Paulo,85.0
1,Bruno,32.333333,Rio de Janeiro,90.0
2,Carlos,45.0,São Paulo,78.0
3,,29.0,Curitiba,86.5
4,Eduardo,32.333333,Porto Alegre,88.0


**4. Interpolação de valores nulos**

In [23]:
#Interpolação linear para preencher valores nulos
df2['Nota'] = df2['Nota'].interpolate()
print("Interpolação linear para preencher valores nulos na coluna 'Nota':")
display(df2)

Interpolação linear para preencher valores nulos na coluna 'Nota':


Unnamed: 0,Nome,Idade,Cidade,Nota
0,Ana,23.0,São Paulo,85.0
1,Bruno,32.333333,Rio de Janeiro,90.0
2,Carlos,45.0,São Paulo,78.0
3,,29.0,Curitiba,86.5
4,Eduardo,32.333333,Porto Alegre,88.0


A interpolação é uma técnica avançada para preencher valores nulos, estimando-os com base nos valores vizinhos. É especialmente útil em séries temporais e dados contínuos, onde os valores ausentes podem ser estimados de forma precisa. Por exemplo, interpolar valores de temperatura em um dataset meteorológico pode fornecer uma estimativa precisa dos dados ausentes, mantendo a continuidade e a integridade da série temporal.