In [2]:
import pandas as pd

#Criando uma Series
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd']) # se não passar o index, ele cria automaticamente de 0 a n-1
print(s) #imprime a Series
#Series seria como uma lista com índices, mas com mais funcionalidades.
#Dataframe seria como uma tabela, com linhas e colunas.

print(s.values) #imprime os valores, posso transformar em lista com list(s.values)
print(s.index)
print(s.dtype)
print(s.mean())
print(s['b']) #acessando um elemento pelo índice

a    10
b    20
c    30
d    40
dtype: int64
[10 20 30 40]
Index(['a', 'b', 'c', 'd'], dtype='object')
int64
25.0
20


In [3]:
#Criando um DataFrame
df = pd.DataFrame({
    'Nome': ['João', 'Maria', 'José', 'Ana', 'Daniel'],
    'Idade': [25, 30, 35, 40, None],
    'Salário': [3000, 4000, 5000, 6000, None]
})

df

Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,30.0,4000.0
2,José,35.0,5000.0
3,Ana,40.0,6000.0
4,Daniel,,


In [4]:
df.dropna(inplace=True) #remove as linhas com valores nulos
df

Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,30.0,4000.0
2,José,35.0,5000.0
3,Ana,40.0,6000.0


## Seleção de Dados (iloc e loc)

In [5]:
#Selecionando colunas
print(df['Nome'])

print(type(df['Nome'])) #retorna uma Series

#Selecionando linhas pelo índice
print(df.loc[2]) #seleciona a linha 2

#Selecionando linhas pelo intervalo de índices, retorna um DataFrame
print(df.iloc[0:2]) #seleciona as linhas de 0 a 1

print(type(df.iloc[0:2])) #retorna um DataFrame com as linhas selecionadas
 

0     João
1    Maria
2     José
3      Ana
Name: Nome, dtype: object
<class 'pandas.core.series.Series'>
Nome         José
Idade        35.0
Salário    5000.0
Name: 2, dtype: object
    Nome  Idade  Salário
0   João   25.0   3000.0
1  Maria   30.0   4000.0
<class 'pandas.core.frame.DataFrame'>


In [None]:
print(type(df.iloc[0:1])) #retorna um DataFrame com as linhas selecionadas

<class 'pandas.core.frame.DataFrame'>


In [38]:
#Estatísticas descritivas
df.describe()


Unnamed: 0,Idade,Salário
count,4.0,4.0
mean,32.5,4500.0
std,6.454972,1290.994449
min,25.0,3000.0
25%,28.75,3750.0
50%,32.5,4500.0
75%,36.25,5250.0
max,40.0,6000.0


In [6]:
df.info() #informações sobre o DataFrame

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Nome     4 non-null      object 
 1   Idade    4 non-null      float64
 2   Salário  4 non-null      float64
dtypes: float64(2), object(1)
memory usage: 300.0+ bytes


In [None]:
#Média das colunas numéricas
df.select_dtypes(include=['number']).mean()

Idade        32.5
Salário    4500.0
dtype: float64

In [None]:
df[['Nome']] #retorna um DataFrame pois foi passado uma lista de colunas (2 colchetes)
df['Nome'] #retorna uma Series pois foi passado uma única coluna (1 colchete)

## Renomeando Colunas

In [11]:
df = df.rename(columns={'Nome': 'Primeiro Nome'}) #renomeando colunas
print(df)

  Primeiro Nome  Idade  Salário  Altura
0          João   26.0   3000.0    1.70
1         Maria   31.0   4000.0    1.65
2          José   36.0   5000.0    1.80
3           Ana   41.0   6000.0    1.75


In [47]:
df[df['Salário'] > 4000] #seleciona as linhas onde o salário é maior que 4000 (conserva os índices originais pois não foi passado o inplace=True)

Unnamed: 0,Primeiro Nome,Idade,Salário
2,José,35.0,5000.0
3,Ana,40.0,6000.0


## Manipulação de Dados

In [7]:
#Criando uma nova coluna
df['Altura'] = [1.70, 1.65, 1.80, 1.75] #cria uma nova coluna com os valores passados
print(df)

    Nome  Idade  Salário  Altura
0   João   25.0   3000.0    1.70
1  Maria   30.0   4000.0    1.65
2   José   35.0   5000.0    1.80
3    Ana   40.0   6000.0    1.75


In [8]:
#Modificando uma coluna
df['Idade'] = df['Idade'] + 1 #adiciona 1 a todas as idades
print(df)


    Nome  Idade  Salário  Altura
0   João   26.0   3000.0    1.70
1  Maria   31.0   4000.0    1.65
2   José   36.0   5000.0    1.80
3    Ana   41.0   6000.0    1.75


## Filtrando dados

In [9]:
#Filtrando pessoas com idade maior que 30
df_filtrado = df[df['Idade'] > 30]
df_filtrado

Unnamed: 0,Nome,Idade,Salário,Altura
1,Maria,31.0,4000.0,1.65
2,José,36.0,5000.0,1.8
3,Ana,41.0,6000.0,1.75


In [12]:
df['Primeiro Nome'] += ' Silva' #adiciona 'Silva' ao final de cada nome
df

Unnamed: 0,Primeiro Nome,Idade,Salário,Altura
0,João Silva,26.0,3000.0,1.7
1,Maria Silva,31.0,4000.0,1.65
2,José Silva,36.0,5000.0,1.8
3,Ana Silva,41.0,6000.0,1.75


## Trabalhando com valores nulos

In [58]:
df_null = pd.DataFrame({'A': [1, None, 3], 'B': [4, 5, None]})

#Verificar valores nulos
df_null.isnull() #retorna True para valores nulos e False para valores não nulos

df_null #imprime o DataFrame original

Unnamed: 0,A,B
0,1.0,4.0
1,,5.0
2,3.0,


In [None]:
#Preencher com média
df_null.fillna(df_null.mean(), inplace=True) #preenche os valores nulos com a média da coluna, pode usar max, min, median, mode, etc

df_null


Unnamed: 0,A,B
0,1.0,4.0
1,2.0,5.0
2,3.0,4.5


## Agrupamento de dados com groupby

In [63]:
#Criando um novo DataFrame para agrupamento
df_group = pd.DataFrame({
    'Categoria': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Valor': [10, 20, 30, 40, 50, 60] 
})

df_group

Unnamed: 0,Categoria,Valor
0,A,10
1,B,20
2,A,30
3,B,40
4,A,50
5,B,60


In [64]:
#Agrupar e calcular a média
df_grouped = df_group.groupby('Categoria').mean()
df_grouped

Unnamed: 0_level_0,Valor
Categoria,Unnamed: 1_level_1
A,30.0
B,40.0


In [16]:
#Ordenação de Dados
df_sorted = df.sort_values(by='Salário', ascending=False) #ordena os dados pelo salário em ordem crescente
df_sorted

Unnamed: 0,Primeiro Nome,Idade,Salário,Altura,Decada
3,Ana Silva,41.0,6000.0,1.75,4
2,José Silva,36.0,5000.0,1.8,3
1,Maria Silva,31.0,4000.0,1.65,3
0,João Silva,26.0,3000.0,1.7,2


In [None]:
#Juntando DataFrames
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nome': ['João', 'Maria', 'José']}) #cria o DataFrame 1
df2 = pd.DataFrame({'ID': [1, 2, 3], 'Idade': [25, 30, 35]}) #cria o DataFrame 2

#mesclando DataFrames
df_merged = pd.merge(df1, df2, on='ID') #mescla os DataFrames pelo ID, que é a coluna em comum
df_merged

Unnamed: 0,ID,Nome,Idade
0,1,João,25
1,2,Maria,30
2,3,José,35


## Aplicação de Funções com apply

In [20]:
#Criando uma função para converter idades em décadas
def idade_em_decadas(idade):
    return int(idade // 10)

df['Decada'] = df['Idade'].apply(idade_em_decadas) #aplica a função a cada linha da coluna Idade
df

Unnamed: 0,Primeiro Nome,Idade,Salário,Altura,Decada
0,João Silva,26.0,3000.0,1.7,2
1,Maria Silva,31.0,4000.0,1.65,3
2,José Silva,36.0,5000.0,1.8,3
3,Ana Silva,41.0,6000.0,1.75,4


In [None]:
def arrumar_idade_para_int(idade):
    return int(idade)

df['Idade'] = df['Idade'].apply(arrumar_idade_para_int) #aplica a função a cada linha da coluna Idade
#poderia ter usado o lambda: df['Idade'] = df['Idade'].apply(lambda x: int(x))
df

Unnamed: 0,Primeiro Nome,Idade,Salário,Altura,Decada
0,João Silva,26,3000.0,1.7,2
1,Maria Silva,31,4000.0,1.65,3
2,José Silva,36,5000.0,1.8,3
3,Ana Silva,41,6000.0,1.75,4


## Transformações com apply e lambda

In [26]:
import random
#Criando um novo DataFrame sem numpy
df_num = pd.DataFrame({col: [random.randint(1, 100) for _ in range(4)] for col in 'ABCD'})
df_num.head() #imprime as primeiras linhas do DataFrame

Unnamed: 0,A,B,C,D
0,55,29,93,90
1,54,12,5,67
2,8,51,70,68
3,54,9,12,25


In [27]:
#Aplicando transformação com map em um coluna específica
df_num['A'] = df_num['A'].apply(lambda x: x * 2) #multiplica por 2 todos os valores da coluna A
df_num.head() #imprime as primeiras linhas do DataFrame

Unnamed: 0,A,B,C,D
0,110,29,93,90
1,108,12,5,67
2,16,51,70,68
3,108,9,12,25


In [31]:
#Aplicando transformação em toda a tabela com map
df_transf = df_num.apply(lambda x: x/10) #divide todos os valores por 10
df_transf.head() #imprime as primeiras linhas do DataFrame


Unnamed: 0,A,B,C,D
0,11.0,2.9,9.3,9.0
1,10.8,1.2,0.5,6.7
2,1.6,5.1,7.0,6.8
3,10.8,0.9,1.2,2.5


In [None]:
#Outro exemplo mais complexo
df_num['E'] = df_num['A'].apply(lambda x: x*10 if x > 5 else x)
df_num.head() #imprime as primeiras


Unnamed: 0,A,B,C,D,E
0,110,29,93,90,1100
1,108,12,5,67,1080
2,16,51,70,68,160
3,108,9,12,25,1080


## Pivot Tables

In [34]:
df_pivot = pd.DataFrame({
    'Cidade' : ['SP', 'SP', 'RJ', 'RJ', 'RJ', 'SP', 'SP', 'RJ'],
    'Ano': [2020, 2021, 2020, 2021, 2020, 2020, 2021, 2020],
    'Vendas' : [100, 150, 200, 250, 50, 250, 300, 150]
})
df_pivot

Unnamed: 0,Cidade,Ano,Vendas
0,SP,2020,100
1,SP,2021,150
2,RJ,2020,200
3,RJ,2021,250
4,RJ,2020,50
5,SP,2020,250
6,SP,2021,300
7,RJ,2020,150


In [None]:
#Criando tabela pivô
#Vendas por ano em cada cidade
pivot = df_pivot.pivot_table(values='Vendas', index='Cidade', columns='Ano', aggfunc='sum')
pivot

Ano,2020,2021
Cidade,Unnamed: 1_level_1,Unnamed: 2_level_1
RJ,400,250
SP,350,450


In [37]:
#um groupby funcionaria?
group = df_pivot.groupby(['Cidade', 'Ano']).sum()
group

Unnamed: 0_level_0,Unnamed: 1_level_0,Vendas
Cidade,Ano,Unnamed: 2_level_1
RJ,2020,400
RJ,2021,250
SP,2020,350
SP,2021,450


## Manipulação de Datas

In [None]:
df_dates = pd.DataFrame({'Data': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05'],
                        'Cidade': ['RJ', 'SP', 'BH', 'POA', 'CWB'],})

print(type(df_dates['Data'][0])) #imprime o tipo da primeira data

#Convertendo de string para formato de data
df_dates['Data Timestamp'] = pd.to_datetime(df_dates['Data'])

print(type(df_dates['Data'][0])) #imprime o tipo da primeira data 

#Extraindo o mês
df_dates['Mês'] = df_dates['Data'].dt.month
df_dates

<class 'str'>
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


Unnamed: 0,Data,Cidade,Mês
0,2020-01-01,RJ,1
1,2020-01-02,SP,1
2,2020-01-03,BH,1
3,2020-01-04,POA,1
4,2020-01-05,CWB,1


## Janela Móvel (Rolling)

In [39]:
#Criando um dataframe randômico
df_roll = pd.DataFrame({'Valor': [random.randint(1, 100) for _ in range(10)]})
df_roll.head(6)


Unnamed: 0,Valor
0,31
1,13
2,100
3,45
4,38
5,20


In [None]:
# Média móvel com janela de 3
df_roll['Média Móvel'] = df_roll['Valor'].rolling(window=4).mean() #ele calcula a média dos 3 valores anteriores e o atual

# Preenchendo os valores NaN
df_roll.fillna(0, inplace=True) #preenche os valores NaN com 0

#df_roll['Média Móvel'] = df_roll['Média Móvel'].apply(lambda x: x if x > 0 else 0) 

df_roll #imprime as primeiras 6 linhas do DataFrame

Unnamed: 0,Valor,Média Móvel
0,31,31.0
1,13,31.0
2,100,31.0
3,45,47.25
4,38,49.0
5,20,50.75
6,21,31.0
7,15,23.5
8,54,27.5
9,68,39.5


## Conversão de tipos

In [52]:
# pode aplicar .astype(int) para converter para inteiro ou .astype(float) para converter para float se quiser fazer operações matemáticas
#Exemplo:

df_novo = pd.DataFrame({'A': ['1', '2', '3', '4', '5']})
df_novo['A'] = df_novo['A'].astype(int)
df_novo['A'] = df_novo['A'] * 2
df_novo


Unnamed: 0,A
0,2
1,4
2,6
3,8
4,10


In [53]:
df_novo['Idade'] = [25, 30, 35, 40, 45] #cria uma nova coluna com os valores passados
df_novo['Idade'] = df_novo['Idade'].apply(lambda x: x + 10) #adiciona 10 a todas as idades
df_novo

Unnamed: 0,A,Idade
0,2,35
1,4,40
2,6,45
3,8,50
4,10,55


In [54]:
#transformar a coluna Idade em float
df_novo['Idade'] = df_novo['Idade'].astype(float)
df_novo

Unnamed: 0,A,Idade
0,2,35.0
1,4,40.0
2,6,45.0
3,8,50.0
4,10,55.0


## Tratamento de string

In [2]:
import pandas as pd
#Criando um DataFrame aleatório com colunas de strings
data = {
    'Nome': ['João', 'Maria', 'José', 'Ana', 'Daniel'],
    'Email': ['joao@gmail.com', 'maria@ail.com', 'jose@gmail.com', 'ana@ail.com', 'daniel@gmail.com'],
    'Profissão': ['Engenheiro', 'Médico', 'Advogado', 'Professor', 'Estudante'],
    'Cidade': ['SP', 'RJ', 'BH', 'POA', 'CWB']
}

df = pd.DataFrame(data)
df

Unnamed: 0,Nome,Email,Profissão,Cidade
0,João,joao@gmail.com,Engenheiro,SP
1,Maria,maria@ail.com,Médico,RJ
2,José,jose@gmail.com,Advogado,BH
3,Ana,ana@ail.com,Professor,POA
4,Daniel,daniel@gmail.com,Estudante,CWB


In [3]:
#Exemplo 1 Filtrar emails do gmail usando str.contains()

df_gmail = df[df['Email'].str.contains('gmail', case=False)] #retorna as linhas onde o email contém 'gmail'
#o case=False faz com que a busca seja case insensitive, ou seja não diferencia maiúsculas de minúsculas
print("\nEmails do gmail filtrados:")
df_gmail


Emails do gmail filtrados:


Unnamed: 0,Nome,Email,Profissão,Cidade
0,João,joao@gmail.com,Engenheiro,SP
2,José,jose@gmail.com,Advogado,BH
4,Daniel,daniel@gmail.com,Estudante,CWB


In [None]:
#Exemplo 2 Substituir 'Engenheiro' por 'Arquiteto' na coluna 'Profissão' usando str.replace()

df['Profissão'] = df['Profissão'].str.replace('Engenheiro', 'Arquiteto') #substitui 'Engenheiro' por 'Arquiteto'
#df

#na mesma linha trocar professor por PHD e estudante por mestre
#df['Profissão'] = df['Profissão'].str.replace('Professor', 'PHD').str.replace('Estudante', 'Mestre')

#usando o apply
def trocar_profissao(profissao):
    if profissao == 'Professor':
        return 'PHD'
    elif profissao == 'Estudante':
        return 'Mestre'
    else:
        return profissao
    
df['Profissão'] = df['Profissão'].apply(trocar_profissao)
df


#usando o apply com lambda
df['Profissão'] = df['Profissão'].apply(lambda x: 'PHD' if x == 'Professor' else 'Mestre' if x == 'Estudante' else x)

Unnamed: 0,Nome,Email,Profissão,Cidade,Domínio
0,João,joao@gmail.com,Arquiteto,SP,gmail.com
1,Maria,maria@ail.com,Médico,RJ,ail.com
2,José,jose@gmail.com,Advogado,BH,gmail.com
3,Ana,ana@ail.com,PHD,POA,ail.com
4,Daniel,daniel@gmail.com,Mestre,CWB,gmail.com


In [47]:
#Exemplo 3 Extrair o domínio do email usando str.split()

df['Domínio'] = df['Email'].str.split('@').str[1] #extrai o domínio do email
df

Unnamed: 0,Nome,Email,Profissão,Cidade,Domínio
0,João,joao@gmail.com,Arquiteto,SP,gmail.com
1,Maria,maria@ail.com,Médico,RJ,ail.com
2,José,jose@gmail.com,Advogado,BH,gmail.com
3,Ana,ana@ail.com,Professor,POA,ail.com
4,Daniel,daniel@gmail.com,Estudante,CWB,gmail.com


In [None]:
#Exemplo 4. Transformar a cidade para minúsculo
df['Cidade'] = df['Cidade'].str.lower()
df

Unnamed: 0,Nome,Email,Profissão,Cidade,Domínio
0,João,joao@gmail.com,Arquiteto,sp,gmail.com
1,Maria,maria@ail.com,Médico,rj,ail.com
2,José,jose@gmail.com,Advogado,bh,gmail.com
3,Ana,ana@ail.com,PHD,poa,ail.com
4,Daniel,daniel@gmail.com,Mestre,cwb,gmail.com


In [51]:
#Exemplo 5 remover espaços extras dos nomes usando str.strip()
df['Nome'] = df['Nome'].str.strip()
df

Unnamed: 0,Nome,Email,Profissão,Cidade,Domínio
0,João,joao@gmail.com,Arquiteto,sp,gmail.com
1,Maria,maria@ail.com,Médico,rj,ail.com
2,José,jose@gmail.com,Advogado,bh,gmail.com
3,Ana,ana@ail.com,PHD,poa,ail.com
4,Daniel,daniel@gmail.com,Mestre,cwb,gmail.com
