In [1]:
# importando o pandas
import pandas as pd

In [2]:
# verificando a versão instalada
pd.__version__

'1.3.5'

In [3]:
# criando duas Series, fabricantes de carro e cores
carros = pd.Series(["Toyota", "Honda", "BMW"])
cores = pd.Series(["Azul", "Branco", "Vermelho"])

In [4]:
# exibindo os valores da Serie
carros

0    Toyota
1     Honda
2       BMW
dtype: object

In [5]:
cores

0        Azul
1      Branco
2    Vermelho
dtype: object

In [6]:
# criando um DataFrame de carros e cores
df = pd.DataFrame({"Fabricante": carros,
                   "Cores": cores})
df

Unnamed: 0,Fabricante,Cores
0,Toyota,Azul
1,Honda,Branco
2,BMW,Vermelho


In [7]:
# importando os dados de venda de carros
df = pd.read_csv("venda-de-carros.csv")
df

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,"R$ 24,000.00"
1,Honda,Vermelho,87899,4,"R$ 25,000.00"
2,Toyota,Azul,32549,3,"R$ 27,000.00"
3,BMW,Preto,11179,5,"R$ 122,000.00"
4,Nissan,Branco,213095,4,"R$ 13,500.00"
5,Toyota,Verde,99213,4,"R$ 14,500.00"
6,Honda,Azul,45698,4,"R$ 17,500.00"
7,Honda,Azul,54738,4,"R$ 27,000.00"
8,Toyota,Branco,60000,4,"R$ 26,250.00"
9,Nissan,Branco,31600,4,"R$ 19,700.00"


In [8]:
# verificando os tipos de dados do DataFrame
df.dtypes

Fabricante       object
Cor              object
Quilometragem     int64
Portas            int64
Preco            object
dtype: object

In [9]:
# verificando informações estatísticas dos dados
df.describe()

Unnamed: 0,Quilometragem,Portas
count,10.0,10.0
mean,78601.4,4.0
std,61983.471735,0.471405
min,11179.0,3.0
25%,35836.25,4.0
50%,57369.0,4.0
75%,96384.5,4.0
max,213095.0,5.0


In [10]:
# verificando informações sobre os dados do DataFrame
# quantidade de linhas, colunas, tipos de dados, etc
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Fabricante     10 non-null     object
 1   Cor            10 non-null     object
 2   Quilometragem  10 non-null     int64 
 3   Portas         10 non-null     int64 
 4   Preco          10 non-null     object
dtypes: int64(2), object(3)
memory usage: 528.0+ bytes


In [11]:
# chamando a função mean()
valores = pd.Series([3000, 3500, 11250])
valores.mean()

5916.666666666667

In [12]:
# utilizando a função sum()
valores.sum()

17750

In [13]:
# exibindo os nomes das colunas do DataFrame
df.columns

Index(['Fabricante', 'Cor', 'Quilometragem', 'Portas', 'Preco'], dtype='object')

In [14]:
df["Quilometragem"].mean()

78601.4

In [15]:
# exibindo as primeiras 5 linhas do DataFrame
df.head()

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,"R$ 24,000.00"
1,Honda,Vermelho,87899,4,"R$ 25,000.00"
2,Toyota,Azul,32549,3,"R$ 27,000.00"
3,BMW,Preto,11179,5,"R$ 122,000.00"
4,Nissan,Branco,213095,4,"R$ 13,500.00"


In [16]:
# exibindo as últimas 5 linhas do DataFrame
df.tail()

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
5,Toyota,Verde,99213,4,"R$ 14,500.00"
6,Honda,Azul,45698,4,"R$ 17,500.00"
7,Honda,Azul,54738,4,"R$ 27,000.00"
8,Toyota,Branco,60000,4,"R$ 26,250.00"
9,Nissan,Branco,31600,4,"R$ 19,700.00"


In [17]:
# criando uma Serie exemplo
animais = pd.Series(["gato", "ave", "cachorro", "cobra", "leão", "cavalo"], 
                   index=[0, 3, 8, 9, 6, 3])
animais

0        gato
3         ave
8    cachorro
9       cobra
6        leão
3      cavalo
dtype: object

In [18]:
# selecionando todos os dados que contém o índice 3
animais.loc[3]

3       ave
3    cavalo
dtype: object

In [19]:
# selecionando os dados na 3° posição no DataFrame
animais.iloc[3]

'cobra'

In [20]:
df.loc[3]

Fabricante                 BMW
Cor                      Preto
Quilometragem            11179
Portas                       5
Preco            R$ 122,000.00
Name: 3, dtype: object

In [21]:
df.iloc[3]

Fabricante                 BMW
Cor                      Preto
Quilometragem            11179
Portas                       5
Preco            R$ 122,000.00
Name: 3, dtype: object

In [22]:
# selecionando os dados do inicio até a 3° posição no DataFrame
animais.iloc[:3]

0        gato
3         ave
8    cachorro
dtype: object

In [23]:
# selecionando uma única coluna
df["Fabricante"]

0    Toyota
1     Honda
2    Toyota
3       BMW
4    Nissan
5    Toyota
6     Honda
7     Honda
8    Toyota
9    Nissan
Name: Fabricante, dtype: object

In [24]:
# selecionando carros com quilometragem acima de 100.000
df[df["Quilometragem"] > 100000]

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,"R$ 24,000.00"
4,Nissan,Branco,213095,4,"R$ 13,500.00"


In [25]:
# selecionando apenas os carros da Honda
df[df["Fabricante"] == "Honda"]

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
1,Honda,Vermelho,87899,4,"R$ 25,000.00"
6,Honda,Azul,45698,4,"R$ 17,500.00"
7,Honda,Azul,54738,4,"R$ 27,000.00"


In [26]:
# agrupando os dados pelo fabricante e calculando a média das outras colunas
df.groupby(["Fabricante"]).mean()

Unnamed: 0_level_0,Quilometragem,Portas
Fabricante,Unnamed: 1_level_1,Unnamed: 2_level_1
BMW,11179.0,5.0
Honda,62778.333333,4.0
Nissan,122347.5,4.0
Toyota,85451.25,3.75


In [27]:
# regex para transformar os dados da coluna Preco em números
df["Preco"] = df["Preco"].str.replace('[/R$\,]', '', regex=True)

In [28]:
df.head(3)

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,24000.0
1,Honda,Vermelho,87899,4,25000.0
2,Toyota,Azul,32549,3,27000.0


In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Fabricante     10 non-null     object
 1   Cor            10 non-null     object
 2   Quilometragem  10 non-null     int64 
 3   Portas         10 non-null     int64 
 4   Preco          10 non-null     object
dtypes: int64(2), object(3)
memory usage: 528.0+ bytes


In [30]:
# convertendo os dados da coluna Preco para float64
df["Preco"] = pd.to_numeric(df["Preco"])
df.head(3)

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,24000.0
1,Honda,Vermelho,87899,4,25000.0
2,Toyota,Azul,32549,3,27000.0


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fabricante     10 non-null     object 
 1   Cor            10 non-null     object 
 2   Quilometragem  10 non-null     int64  
 3   Portas         10 non-null     int64  
 4   Preco          10 non-null     float64
dtypes: float64(1), int64(2), object(2)
memory usage: 528.0+ bytes


In [32]:
# importando dados de venda de carros com valores ausentes
df2 = pd.read_csv("venda-de-carros-dados-ausentes.csv")
df2

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043.0,4.0,24000.0
1,Honda,Vermelho,87899.0,4.0,25000.0
2,Toyota,Azul,,3.0,27000.0
3,BMW,Preto,11179.0,5.0,122000.0
4,Nissan,Branco,213095.0,4.0,13500.0
5,Toyota,Verde,,4.0,14500.0
6,Honda,,,4.0,17500.0
7,Honda,Azul,,4.0,
8,Toyota,Branco,60000.0,,
9,,Branco,31600.0,4.0,19700.0


In [33]:
# preenchendo dados ausentes na coluna de Quilometragem
df2["Quilometragem"].fillna(df2["Quilometragem"].mean(), inplace=True)
df2

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043.0,4.0,24000.0
1,Honda,Vermelho,87899.0,4.0,25000.0
2,Toyota,Azul,92302.666667,3.0,27000.0
3,BMW,Preto,11179.0,5.0,122000.0
4,Nissan,Branco,213095.0,4.0,13500.0
5,Toyota,Verde,92302.666667,4.0,14500.0
6,Honda,,92302.666667,4.0,17500.0
7,Honda,Azul,92302.666667,4.0,
8,Toyota,Branco,60000.0,,
9,,Branco,31600.0,4.0,19700.0


In [34]:
# utilizando inplace=True
df2.dropna(inplace=True)
df2

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043.0,4.0,24000.0
1,Honda,Vermelho,87899.0,4.0,25000.0
2,Toyota,Azul,92302.666667,3.0,27000.0
3,BMW,Preto,11179.0,5.0,122000.0
4,Nissan,Branco,213095.0,4.0,13500.0
5,Toyota,Verde,92302.666667,4.0,14500.0


In [35]:
# criando uma nova coluna a partir de uma Series
qtde_assentos = pd.Series([5, 5, 5, 5, 5, 5, 5, 5, 5, 5])
df["Assentos"] = qtde_assentos
df

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco,Assentos
0,Toyota,Branco,150043,4,24000.0,5
1,Honda,Vermelho,87899,4,25000.0,5
2,Toyota,Azul,32549,3,27000.0,5
3,BMW,Preto,11179,5,122000.0,5
4,Nissan,Branco,213095,4,13500.0,5
5,Toyota,Verde,99213,4,14500.0,5
6,Honda,Azul,45698,4,17500.0,5
7,Honda,Azul,54738,4,27000.0,5
8,Toyota,Branco,60000,4,26250.0,5
9,Nissan,Branco,31600,4,19700.0,5


In [36]:
# criando uma nova coluna a partir de uma Lista Python
motor_lista = [1.3, 2.0, 3.0, 4.2, 1.6, 1, 2.0, 2.3, 2.0, 3.0]
df["Motor"] = motor_lista
df

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco,Assentos,Motor
0,Toyota,Branco,150043,4,24000.0,5,1.3
1,Honda,Vermelho,87899,4,25000.0,5,2.0
2,Toyota,Azul,32549,3,27000.0,5,3.0
3,BMW,Preto,11179,5,122000.0,5,4.2
4,Nissan,Branco,213095,4,13500.0,5,1.6
5,Toyota,Verde,99213,4,14500.0,5,1.0
6,Honda,Azul,45698,4,17500.0,5,2.0
7,Honda,Azul,54738,4,27000.0,5,2.3
8,Toyota,Branco,60000,4,26250.0,5,2.0
9,Nissan,Branco,31600,4,19700.0,5,3.0


In [37]:
# criando uma nova coluna a partir de outras colunas
df["Preco por KM"] = df["Preco"] / df["Quilometragem"]
df

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco,Assentos,Motor,Preco por KM
0,Toyota,Branco,150043,4,24000.0,5,1.3,0.159954
1,Honda,Vermelho,87899,4,25000.0,5,2.0,0.284417
2,Toyota,Azul,32549,3,27000.0,5,3.0,0.829519
3,BMW,Preto,11179,5,122000.0,5,4.2,10.91332
4,Nissan,Branco,213095,4,13500.0,5,1.6,0.063352
5,Toyota,Verde,99213,4,14500.0,5,1.0,0.14615
6,Honda,Azul,45698,4,17500.0,5,2.0,0.382949
7,Honda,Azul,54738,4,27000.0,5,2.3,0.493259
8,Toyota,Branco,60000,4,26250.0,5,2.0,0.4375
9,Nissan,Branco,31600,4,19700.0,5,3.0,0.623418


In [38]:
# removendo uma coluna
df = df.drop("Preco por KM", axis=1)
df

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco,Assentos,Motor
0,Toyota,Branco,150043,4,24000.0,5,1.3
1,Honda,Vermelho,87899,4,25000.0,5,2.0
2,Toyota,Azul,32549,3,27000.0,5,3.0
3,BMW,Preto,11179,5,122000.0,5,4.2
4,Nissan,Branco,213095,4,13500.0,5,1.6
5,Toyota,Verde,99213,4,14500.0,5,1.0
6,Honda,Azul,45698,4,17500.0,5,2.0
7,Honda,Azul,54738,4,27000.0,5,2.3
8,Toyota,Branco,60000,4,26250.0,5,2.0
9,Nissan,Branco,31600,4,19700.0,5,3.0


In [39]:
# criando uma amostra embaralhada
df_sample = df.sample(frac=1)
df_sample

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco,Assentos,Motor
1,Honda,Vermelho,87899,4,25000.0,5,2.0
9,Nissan,Branco,31600,4,19700.0,5,3.0
8,Toyota,Branco,60000,4,26250.0,5,2.0
2,Toyota,Azul,32549,3,27000.0,5,3.0
6,Honda,Azul,45698,4,17500.0,5,2.0
4,Nissan,Branco,213095,4,13500.0,5,1.6
3,BMW,Preto,11179,5,122000.0,5,4.2
7,Honda,Azul,54738,4,27000.0,5,2.3
0,Toyota,Branco,150043,4,24000.0,5,1.3
5,Toyota,Verde,99213,4,14500.0,5,1.0


In [40]:
# resetando os valores do índice
df_sample.reset_index()

Unnamed: 0,index,Fabricante,Cor,Quilometragem,Portas,Preco,Assentos,Motor
0,1,Honda,Vermelho,87899,4,25000.0,5,2.0
1,9,Nissan,Branco,31600,4,19700.0,5,3.0
2,8,Toyota,Branco,60000,4,26250.0,5,2.0
3,2,Toyota,Azul,32549,3,27000.0,5,3.0
4,6,Honda,Azul,45698,4,17500.0,5,2.0
5,4,Nissan,Branco,213095,4,13500.0,5,1.6
6,3,BMW,Preto,11179,5,122000.0,5,4.2
7,7,Honda,Azul,54738,4,27000.0,5,2.3
8,0,Toyota,Branco,150043,4,24000.0,5,1.3
9,5,Toyota,Verde,99213,4,14500.0,5,1.0
