#Conhecendo o Pandas

#### Pandas é uma biblioteca/pacote muito utilizada para análise e manipulação de dados. Por ser bem versátil, ela permite trabalhar de forma rápida e eficiente com arquivos de vários tipo, sendo alguns deles o csv, xlsx, xls, txt, json, etc.

## Documentação: https://pandas.pydata.org/

# Importando o pacote Pandas

In [1]:
# Por questões de boas práticas, a comunidade faz o uso de alguns apelidos para alguns pacotes. 
# No caso do pandas utilizamos o "pd"
# para associar o apelido ao pacote, pasta utilizar o "as" para realizar a associação

import pandas as pd

# Fazendo o upload de arquivos pelo Google Colab

In [2]:
from google.colab import files

In [3]:
# files.upload()

# Lendo o arquivo CSV

### CSV significa "*comma separated values*", ou seja, valores separados por vírgula. Em alguns casos, dependendo da fonte dos dados, eles podem ter separadores diferentes da vírgula, como o "ponto e vírgula" (;). em casos como esses, ao ler o CSV, você deve informar o tipo de separador pelo "sep" dentro da função "read_csv", como mostra o exemplo abaixo.

#### Mais informações sobre o read_csv, acesse a documentação em: https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.read_csv.html

In [4]:
db = pd.read_csv('db.csv', sep=';')
db

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


# Visualização de dados e seus tipos

In [5]:
# Para visualizar uma amostra dos dados, podemos utilizar head.
# Se não for passado nenhum valor por parâmetro, por padrão, ele retornará as 5 primeiras linhas do dataframe.

db.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [6]:
# Para visualizar mais valores, basta passar por parâmetro a quantidades de linha que deseja ver 
# Abaixo vamos ver as 10 primeiras linhas

db.head(10)

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49


In [7]:
# Vamos descobrir o formato do nosso dataframe

db.shape 

(258, 7)

In [8]:
# Agora que sabemos que o nosso dataframe possui 258 linhas e 7 colunas

# para visualizar todas as linhas, podemos utilizar o "pd.options"

pd.options.display.max_rows = 258 # O 'display.max_rows' vai exibir a quantidade de linhas que for informado, no caso são 258.

# Também podemos utilizar o "pd.options" para visualizar todas as colunas

pd.options.display.max_columns = 7 # Ao invés de passar 'display.max_rows', vamos passar o 'display.max_columns'

# Agora, sempre que tentar visualizar seu dataframe, você verá a quantidade de linhas e colunas que forma configuradas pelo pd.options

#### Para mais informações sobre Options and settings, acesse: https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html

In [9]:
# Para melhor visualização, vamos definir os valores como 10 linhas e 7 colunas

pd.options.display.max_columns = 7
pd.options.display.max_rows = 10

In [10]:
db

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [11]:
# Para visualizar os tipos de dados presentes no seu dataframe podemos utilizar o dtypes

db.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [12]:
# Também podemos utilizar o info para ver mais ifnromações sobre o dataframe

db.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


In [13]:
# O describe pode mostrar várias métricas estatisticas para auxiliar na exploração. 
# Abaixo ele mostra apenas 3 colunas das 7. Isso acontece porque apenas 3 colunas apresentam valores numéricos, como INT e Float
# Valores do tipo Boleano (bool) e String (objetct) não entram nas métricas.

db.describe()

Unnamed: 0,Ano,Quilometragem,Valor
count,258.0,197.0,258.0
mean,2007.511628,58278.42132,98960.513101
std,9.725906,35836.733259,29811.932305
min,1990.0,107.0,50742.1
25%,1999.0,27505.0,70743.5125
50%,2008.0,55083.0,97724.38
75%,2018.0,90495.0,124633.3025
max,2019.0,119945.0,149489.92


In [14]:
# podemos utilizar a Built-in Function "type" para descobrir o tipo de dado.

type(db)

pandas.core.frame.DataFrame

# Tuplas

### Semelhante às listas, as Tuplas servem para guardar uma coleção de itens. A principal diferença é que as Tuplas são imutáveis. 

#### Para definir uma Tupla utilizamos () ao invés de [].

#### lista = ['a', 'b', 'c']
#### tupla = ('a', 'b', 'c')


In [15]:
# Uma das forma de definir uma tupla

tp = ('a', 'b', 'c')
tp

('a', 'b', 'c')

In [16]:
type(tp)

tuple

In [17]:
# As tuplas, assim como as listas, armazenam tipos variados de dados.
# Vamos criar uma tupla com duas variáveis que possuem tipos diferentes

nome = 'Jose'
idade = 35
(nome, idade)

('Jose', 35)

In [18]:
#Podemos utilizar Built-in Functions do Python para criar uma tupla, como mostra o exemplo abaixo:

nomes_Pessoas = tuple(['Maria', 'Jonas', 'Kleber', 'Ana'])
nomes_Pessoas

('Maria', 'Jonas', 'Kleber', 'Ana')

#### Mais informações sobre Built-in Functions: https://docs.python.org/3/library/functions.html

# Seleção em Tuplas

In [19]:
# Para selecionar os dados dentro da Tupla, basta selecionar o índice como é feito em uma lista.

nomes_Pessoas[0]

'Maria'

In [20]:
# Selecionando último item da Tupla

nomes_Pessoas[-1]

'Ana'

In [21]:
# Fazendo o fatiamento de uma Tupla.

# Vamos selecionar os dois primeiros valores, a partir do índice 0. Vale lembrar que o último valor não será incluído.

nomes_Pessoas[0:2]

('Maria', 'Jonas')

In [22]:
nomes_Pessoas = ('Maria', 'Jonas', 'Kleber', 'Ana',('Isabella', 'Mateus', 'Gisele'))

In [23]:
# Agora vamos selecionar os dados que estão dentro da Tupla que está dentro da Tupla.

nomes_Pessoas[4]

('Isabella', 'Mateus', 'Gisele')

In [24]:
# Para acessar uma valor específico da Tupla interna, devemos realizar o seguinte fatiamento:

# Vamos selecionar o nome "Isabella" que está presente no índice 0 da Tupla interna.

nomes_Pessoas[4][0] 

'Isabella'

In [25]:
# Agora vamos selecionar o nome "Gisele"

nomes_Pessoas[4][2]

'Gisele'

# Iterações em Tuplas

In [26]:
# Vamos reapoveitar os dados anteriores.

nomes_Pessoas = ('Maria', 'Jonas', 'Kleber', 'Ana')

In [27]:
# Vamos fazer varrer a nossa tupla utilizando o for

for i in nomes_Pessoas:
  print(i)

Maria
Jonas
Kleber
Ana


# Desempacotamento de uma Tupla

In [28]:
# Podemos pegar cada valor presente em uma tupla e associar a uma variável específica.

nome_1, nome_2, nome_3, nome_4 = nomes_Pessoas

In [29]:
nome_1

'Maria'

In [30]:
nome_2

'Jonas'

In [31]:
nome_3

'Kleber'

In [32]:
nome_4

'Ana'

In [33]:
#Caso você queira transferir os valores de uma tupla para uma lista, é possível utilizar o for e associar cada valor a uma nova lista

nomes_Lista = []

for i in nomes_Pessoas:
  nomes_Lista.append(i)
nomes_Lista

['Maria', 'Jonas', 'Kleber', 'Ana']

In [34]:
# Você também pode criar atribuições de elementos específicos, ignorando aqueles que não são necessários.

nomes_Pessoas

('Maria', 'Jonas', 'Kleber', 'Ana')

In [35]:
# Vamos selecionar apenas o "jonas" e a "Ana"

_, A, _, B = nomes_Pessoas # Quando utilizei o underline/undersocore eu ignorei os valores correspondentes dentro da Tupla

In [36]:
A

'Jonas'

In [37]:
B

'Ana'

In [38]:
# Também podemos passar o valor correspondente ao índice

k = nomes_Pessoas[2]

In [39]:
k

'Kleber'

In [40]:
# Para ignorar uma sequência de valores, podemos utilizar o *_

_, A, *_ = nomes_Pessoas

In [41]:
A

'Jonas'

# zip()

### A função zip retorna uma lista de tuplas

In [42]:
# Vamos criar duas lisas, uma lista de nomes e uma lista de idade.

nomes = ['Maria', 'Jonas', 'Kleber', 'Ana']
nomes

['Maria', 'Jonas', 'Kleber', 'Ana']

In [43]:
idades = [25, 28, 30, 19]
idades

[25, 28, 30, 19]

In [44]:
# Vamos utilizar o zip para criar um iterador

zip(nomes, idades)

<zip at 0x7f2cc3a09500>

In [45]:
# Agora vamos utilizar a Built-in Function list.
# Teremos como retorno uma lista com os iteradores.

# O que aconteceu? O zip associou o primeiro item da lista nomes com o primeiro item da lista idades, e foi repetindo esse mesmo padrão.

list(zip(nomes, idades))

[('Maria', 25), ('Jonas', 28), ('Kleber', 30), ('Ana', 19)]

In [46]:
# Agora podemos iterar o nome e a idade da pessoa ao mesmo tempo

for i in zip(nomes, idades):
  print(i)

('Maria', 25)
('Jonas', 28)
('Kleber', 30)
('Ana', 19)


In [47]:
# O formato acima não seria muito útil, pois não conseguimos explorar os valores de forma individual.
# Veja o exemplo abaixo:

for i in zip(nomes, idades):
  if idades > 26:
    print(i)

TypeError: ignored

In [48]:
# O mais indicado seria fazer um desempacotamento, assim podemos avaliar os dados individualmente

for nomes, idades in zip(nomes, idades):
  if idades > 26:
    print(nomes, idades)

Jonas 28
Kleber 30


# Dicionários

#### As listas armazenam uma coleção de valores que podem ser acessados através de seus índices.

#### Os dicionários também podem acessar uma coleção de valores, mas eles não trabalha com o conceito de índice, mas sim de chave (key) e valor (value)

In [55]:
# Vamos comparar os acessos de uma lista com o dicionário

nomes = ['Ana', 'Gabi', 'Marcos']
nomes

['Ana', 'Gabi', 'Marcos']

In [56]:
idade = [19, 23, 25]
idade

[19, 23, 25]

In [60]:
nomes.index('Gabi') # o 'index' mostra qual é o índice do ítem selecionado

1

In [59]:
# Com uma lista pequena fica fácil de descobrir o índice, mas no caso uma lista com muitos valores, ficaria difícil contar os índices.
# Como as listas estão separadas, vamos descobrir a idade da 'Gabi' passando seu índice na lista de idade.

idade[nomes.index('Gabi')]

23

In [62]:
# Agora vamos criar uma dicionário com os valores acima e vamos chama-lo de 'dicio'.

dicio = {'Ana' : 19, 'Gabi' : 23, 'Marcos' : 25}
dicio

{'Ana': 19, 'Gabi': 23, 'Marcos': 25}

In [63]:
type(dicio)

dict

# Criando um dicionário com o zip

In [88]:
# Podemos agrupar utilizando o zip

dicio = dict(zip(nomes, idade))
dicio

{'Ana': 19, 'Gabi': 23, 'Marcos': 25}

# Operações com dicionários

In [68]:
dicio

{'Ana': 19, 'Gabi': 23, 'Marcos': 25}

# [key]

In [75]:
# No dicionário acessamos valores através das chaves (key).

dicio['Ana'] # Utilizando a chave 'Ana' eu vejo qual o seu valor correspondente, no caso a idade da Ana

19

# in / not in

In [76]:
# Também podemos descobrir se um valor está presente dentro do dicionário pesquisando pela chave.
# Se estiver presente, ele retorna True

'Ana' in dicio

True

In [78]:
# Se não estiver presente, ele retorna False

'Jose' in dicio

False

In [79]:
# Também podemos verificar se o valor não está presente no dicionário.
# Para isso podemos utilizar o not in

'Jose' not in dicio

True

# len

In [80]:
# O len revela o tamanho do seu dicionário (também se aplica a tuplas e listas)

len(dicio)

3

# del

In [82]:
# O 'del' apaga um determinado valor do seu dicionário (também se aplica a listas)
 
dicio 

{'Ana': 19, 'Gabi': 23, 'Marcos': 25}

In [89]:
del(dicio['Marcos']) # Devemos informar a chave correspondente ao item que queremos remover

In [90]:
dicio

{'Ana': 19, 'Gabi': 23}