#Conhecendo o Pandas

#### Pandas é uma biblioteca/pacote muito utilizada para análise e manipulação de dados. Por ser bem versátil, ela permite trabalhar de forma rápida e eficiente com arquivos de vários tipo, sendo alguns deles o csv, xlsx, xls, txt, json, etc.

## Documentação: https://pandas.pydata.org/

# Importando o pacote Pandas

In [1]:
# Por questões de boas práticas, a comunidade faz o uso de alguns apelidos para alguns pacotes. 
# No caso do pandas utilizamos o "pd"
# para associar o apelido ao pacote, pasta utilizar o "as" para realizar a associação

import pandas as pd

# Fazendo o upload de arquivos pelo Google Colab

In [30]:
from google.colab import files

In [None]:
# files.upload()

# Lendo o arquivo CSV

### CSV significa "*comma separated values*", ou seja, valores separados por vírgula. Em alguns casos, dependendo da fonte dos dados, eles podem ter separadores diferentes da vírgula, como o "ponto e vírgula" (;). em casos como esses, ao ler o CSV, você deve informar o tipo de separador pelo "sep" dentro da função "read_csv", como mostra o exemplo abaixo.

#### Mais informações sobre o read_csv, acesse a documentação em: https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.read_csv.html

In [None]:
db = pd.read_csv('db.csv', sep=';')
db

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


# Visualização de dados e seus tipos

In [None]:
# Para visualizar uma amostra dos dados, podemos utilizar head.
# Se não for passado nenhum valor por parâmetro, por padrão, ele retornará as 5 primeiras linhas do dataframe.

db.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [None]:
# Para visualizar mais valores, basta passar por parâmetro a quantidades de linha que deseja ver 
# Abaixo vamos ver as 10 primeiras linhas

db.head(10)

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49


In [None]:
# Vamos descobrir o formato do nosso dataframe

db.shape 

(258, 7)

In [None]:
# Agora que sabemos que o nosso dataframe possui 258 linhas e 7 colunas

# para visualizar todas as linhas, podemos utilizar o "pd.options"

pd.options.display.max_rows = 258 # O 'display.max_rows' vai exibir a quantidade de linhas que for informado, no caso são 258.

# Também podemos utilizar o "pd.options" para visualizar todas as colunas

pd.options.display.max_columns = 7 # Ao invés de passar 'display.max_rows', vamos passar o 'display.max_columns'

# Agora, sempre que tentar visualizar seu dataframe, você verá a quantidade de linhas e colunas que forma configuradas pelo pd.options

#### Para mais informações sobre Options and settings, acesse: https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html

In [None]:
# Para melhor visualização, vamos definir os valores como 10 linhas e 7 colunas

pd.options.display.max_columns = 7
pd.options.display.max_rows = 10

In [None]:
db

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [None]:
# Para visualizar os tipos de dados presentes no seu dataframe podemos utilizar o dtypes

db.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [None]:
# Também podemos utilizar o info para ver mais ifnromações sobre o dataframe

db.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


In [None]:
# O describe pode mostrar várias métricas estatisticas para auxiliar na exploração. 
# Abaixo ele mostra apenas 3 colunas das 7. Isso acontece porque apenas 3 colunas apresentam valores numéricos, como INT e Float
# Valores do tipo Boleano (bool) e String (objetct) não entram nas métricas.

db.describe()

Unnamed: 0,Ano,Quilometragem,Valor
count,258.0,197.0,258.0
mean,2007.511628,58278.42132,98960.513101
std,9.725906,35836.733259,29811.932305
min,1990.0,107.0,50742.1
25%,1999.0,27505.0,70743.5125
50%,2008.0,55083.0,97724.38
75%,2018.0,90495.0,124633.3025
max,2019.0,119945.0,149489.92


In [None]:
# podemos utilizar a Built-in Function "type" para descobrir o tipo de dado.

type(db)

pandas.core.frame.DataFrame

# Tuplas

### Semelhante às listas, as Tuplas servem para guardar uma coleção de itens. A principal diferença é que as Tuplas são imutáveis. 

#### Para definir uma Tupla utilizamos () ao invés de [].

#### lista = ['a', 'b', 'c']
#### tupla = ('a', 'b', 'c')


In [None]:
# Uma das forma de definir uma tupla

tp = ('a', 'b', 'c')
tp

('a', 'b', 'c')

In [None]:
type(tp)

tuple

In [None]:
# As tuplas, assim como as listas, armazenam tipos variados de dados.
# Vamos criar uma tupla com duas variáveis que possuem tipos diferentes

nome = 'Jose'
idade = 35
(nome, idade)

('Jose', 35)

In [None]:
#Podemos utilizar Built-in Functions do Python para criar uma tupla, como mostra o exemplo abaixo:

nomes_Pessoas = tuple(['Maria', 'Jonas', 'Kleber', 'Ana'])
nomes_Pessoas

('Maria', 'Jonas', 'Kleber', 'Ana')

#### Mais informações sobre Built-in Functions: https://docs.python.org/3/library/functions.html

# Seleção em Tuplas

In [None]:
# Para selecionar os dados dentro da Tupla, basta selecionar o índice como é feito em uma lista.

nomes_Pessoas[0]

'Maria'

In [None]:
# Selecionando último item da Tupla

nomes_Pessoas[-1]

'Ana'

In [None]:
# Fazendo o fatiamento de uma Tupla.

# Vamos selecionar os dois primeiros valores, a partir do índice 0. Vale lembrar que o último valor não será incluído.

nomes_Pessoas[0:2]

('Maria', 'Jonas')

In [None]:
nomes_Pessoas = ('Maria', 'Jonas', 'Kleber', 'Ana',('Isabella', 'Mateus', 'Gisele'))

In [None]:
# Agora vamos selecionar os dados que estão dentro da Tupla que está dentro da Tupla.

nomes_Pessoas[4]

('Isabella', 'Mateus', 'Gisele')

In [None]:
# Para acessar uma valor específico da Tupla interna, devemos realizar o seguinte fatiamento:

# Vamos selecionar o nome "Isabella" que está presente no índice 0 da Tupla interna.

nomes_Pessoas[4][0] 

'Isabella'

In [None]:
# Agora vamos selecionar o nome "Gisele"

nomes_Pessoas[4][2]

'Gisele'

# Iterações em Tuplas

In [None]:
# Vamos reapoveitar os dados anteriores.

nomes_Pessoas = ('Maria', 'Jonas', 'Kleber', 'Ana')

In [None]:
# Vamos fazer varrer a nossa tupla utilizando o for

for i in nomes_Pessoas:
  print(i)

Maria
Jonas
Kleber
Ana


# Desempacotamento de uma Tupla

In [None]:
# Podemos pegar cada valor presente em uma tupla e associar a uma variável específica.

nome_1, nome_2, nome_3, nome_4 = nomes_Pessoas

In [None]:
nome_1

'Maria'

In [None]:
nome_2

'Jonas'

In [None]:
nome_3

'Kleber'

In [None]:
nome_4

'Ana'

In [None]:
#Caso você queira transferir os valores de uma tupla para uma lista, é possível utilizar o for e associar cada valor a uma nova lista

nomes_Lista = []

for i in nomes_Pessoas:
  nomes_Lista.append(i)
nomes_Lista

['Maria', 'Jonas', 'Kleber', 'Ana']

In [None]:
# Você também pode criar atribuições de elementos específicos, ignorando aqueles que não são necessários.

nomes_Pessoas

('Maria', 'Jonas', 'Kleber', 'Ana')

In [None]:
# Vamos selecionar apenas o "jonas" e a "Ana"

_, A, _, B = nomes_Pessoas # Quando utilizei o underline/undersocore eu ignorei os valores correspondentes dentro da Tupla

In [None]:
A

'Jonas'

In [None]:
B

'Ana'

In [None]:
# Também podemos passar o valor correspondente ao índice

k = nomes_Pessoas[2]

In [None]:
k

'Kleber'

In [None]:
# Para ignorar uma sequência de valores, podemos utilizar o *_

_, A, *_ = nomes_Pessoas

In [None]:
A

'Jonas'

# zip()

### A função zip retorna uma lista de tuplas

In [None]:
# Vamos criar duas lisas, uma lista de nomes e uma lista de idade.

nomes = ['Maria', 'Jonas', 'Kleber', 'Ana']
nomes

['Maria', 'Jonas', 'Kleber', 'Ana']

In [None]:
idades = [25, 28, 30, 19]
idades

[25, 28, 30, 19]

In [None]:
# Vamos utilizar o zip para criar um iterador

zip(nomes, idades)

<zip at 0x7f2575e49a00>

In [None]:
# Agora vamos utilizar a Built-in Function list.
# Teremos como retorno uma lista com os iteradores.

# O que aconteceu? O zip associou o primeiro item da lista nomes com o primeiro item da lista idades, e foi repetindo esse mesmo padrão.

list(zip(nomes, idades))

[('Maria', 25), ('Jonas', 28), ('Kleber', 30), ('Ana', 19)]

In [None]:
# Agora podemos iterar o nome e a idade da pessoa ao mesmo tempo

for i in zip(nomes, idades):
  print(i)

('Maria', 25)
('Jonas', 28)
('Kleber', 30)
('Ana', 19)


In [None]:
# O formato acima não seria muito útil, pois não conseguimos explorar os valores de forma individual.
# Veja o exemplo abaixo:

for i in zip(nomes, idades):
  if idades > 26:
    print(i)

TypeError: ignored

In [None]:
# O mais indicado seria fazer um desempacotamento, assim podemos avaliar os dados individualmente

for nomes, idades in zip(nomes, idades):
  if idades > 26:
    print(nomes, idades)

# Dicionários

#### As listas armazenam uma coleção de valores que podem ser acessados através de seus índices.

#### Os dicionários também podem acessar uma coleção de valores, mas eles não trabalha com o conceito de índice, mas sim de chave (key) e valor (value)

In [None]:
# Vamos comparar os acessos de uma lista com o dicionário

nomes = ['Ana', 'Gabi', 'Marcos']
nomes

['Ana', 'Gabi', 'Marcos']

In [None]:
idade = [19, 23, 25]
idade

[19, 23, 25]

In [None]:
nomes.index('Gabi') # o 'index' mostra qual é o índice do ítem selecionado

1

In [None]:
# Com uma lista pequena fica fácil de descobrir o índice, mas no caso uma lista com muitos valores, ficaria difícil contar os índices.
# Como as listas estão separadas, vamos descobrir a idade da 'Gabi' passando seu índice na lista de idade.

idade[nomes.index('Gabi')]

23

In [None]:
# Agora vamos criar uma dicionário com os valores acima e vamos chama-lo de 'dicio'.

dicio = {'Ana' : 19, 'Gabi' : 23, 'Marcos' : 25}
dicio

{'Ana': 19, 'Gabi': 23, 'Marcos': 25}

In [None]:
type(dicio)

dict

# Criando um dicionário com o zip

In [None]:
# Podemos agrupar utilizando o zip

dicio = dict(zip(nomes, idade))
dicio

{'Ana': 19, 'Gabi': 23, 'Marcos': 25}

# Operações com dicionários

In [None]:
dicio

{'Ana': 19, 'Gabi': 23, 'Marcos': 25}

# [key]

In [None]:
# No dicionário acessamos valores através das chaves (key).

dicio['Ana'] # Utilizando a chave 'Ana' eu vejo qual o seu valor correspondente, no caso a idade da Ana

19

# in / not in

In [None]:
# Também podemos descobrir se um valor está presente dentro do dicionário pesquisando pela chave.
# Se estiver presente, ele retorna True

'Ana' in dicio

True

In [None]:
# Se não estiver presente, ele retorna False

'Jose' in dicio

False

In [None]:
# Também podemos verificar se o valor não está presente no dicionário.
# Para isso podemos utilizar o not in

'Jose' not in dicio

True

# len

In [None]:
# O len revela o tamanho do seu dicionário (também se aplica a tuplas e listas)

len(dicio)

3

# del

In [None]:
# O 'del' apaga um determinado valor do seu dicionário (também se aplica a listas)
 
dicio 

{'Ana': 19, 'Gabi': 23, 'Marcos': 25}

In [None]:
del(dicio['Marcos']) # Devemos informar a chave correspondente ao item que queremos remover

In [None]:
dicio

{'Ana': 19, 'Gabi': 23}

# Métodos - Dicionários

# update

#### Permite a atualização do dicionário. Podemos incluir novos valores.

In [None]:
# No último exemplo, nós removemos o 'Marcos' do nosso dicionário. Agora, vamos incluí-lo novamente utilizando o método update

dicio.update({'Marcos':25})
dicio

{'Ana': 19, 'Gabi': 23, 'Marcos': 25}

In [None]:
# Além de adiconar novos itens, também podemos atualizar o que já está dentro do dicionário.

# Vamos mudar a idade do 'Marcos' para 26 anos e incluir uma nova pessoa, a Leticia, no nosso dicionário.

dicio.update({'Marcos':26, 'Leticia':28})
dicio

{'Ana': 19, 'Gabi': 23, 'Leticia': 28, 'Marcos': 26}

# copy

#### O copy tem o mesmo principio da lista, ele cria uma cópia sem referenciar o original.

In [None]:
dicio2 = dicio.copy()
dicio2 

# Se removermos um valor de 'dicio2' ele não fará alterações no 'dicio' original.

del(dicio2['Leticia'])

print(f'No dicio2 nós temos: {dicio2}')
print(f'No dicio nós temos: {dicio}')

No dicio2 nós temos: {'Ana': 19, 'Gabi': 23, 'Marcos': 26}
No dicio nós temos: {'Ana': 19, 'Gabi': 23, 'Marcos': 26, 'Leticia': 28}


# pop

#### O método 'pop' remove um item do dicionário. Ele faz uma busca pela chave passada por parâmetro e retorna o valor que foi removido.

In [None]:
# No exemplo abaixo vamos remover o 'Marcos'

dicio2.pop('Marcos')

26

In [None]:
# Se indicarmos uma chave que não existe, o pop vai retornar um erro

dicio2.pop('Maria')

KeyError: ignored

In [None]:
# É possível tratar esse erro passando um segundo argumento. Caso ele não encontre o valor, ele retornará o argumento passado.

dicio2.pop('Maria', 'Item não encontrado')

'Item não encontrado'

# clear

#### O método 'clear' apaga todo o dicionário

In [None]:
dicio2

{'Ana': 19, 'Gabi': 23}

In [None]:
dicio2.clear()
dicio2

{}

# Iteração - Dicionário

# keys

#### Retorna uma lista com as chaves (keys) do dicionário

In [None]:
dicio = {'Ana': 19, 'Gabi': 23, 'Marcos': 25, 'Leticia':27, 'Vitor':28}
dicio

{'Ana': 19, 'Gabi': 23, 'Leticia': 27, 'Marcos': 25, 'Vitor': 28}

In [None]:
dicio.keys()

dict_keys(['Ana', 'Gabi', 'Marcos', 'Leticia', 'Vitor'])

In [None]:
# Como retorna uma lista, podemos iterar com o laço 'for'

for i in dicio.keys():
  print(i)

Ana
Gabi
Marcos
Leticia
Vitor


In [None]:
# Ou para ver os valores que correspondem à chave

for i in dicio.keys():
  print(dicio[i])

19
23
25
27
28


# values

#### Retorna uma lista com os valores (values) do dicionário


In [None]:
dicio.values()

dict_values([19, 23, 25, 27, 28])

In [None]:
# Como retorna uma lista, também podemos iterar com o laço 'for'

for i in dicio.values():
  print(i)

19
23
25
27
28


# items

#### Retona uma lista contendo uma tupla para cada chave/valor

In [None]:
dicio.items()

dict_items([('Ana', 19), ('Gabi', 23), ('Marcos', 25), ('Leticia', 27), ('Vitor', 28)])

In [None]:
# Também podemos iterar com o for.

for i in dicio.items():
  print(i)

('Ana', 19)
('Gabi', 23)
('Marcos', 25)
('Leticia', 27)
('Vitor', 28)


In [None]:
# Podemos acessar os valores individualmente

for key, item in dicio.items():
  print(key, item)

Ana 19
Gabi 23
Marcos 25
Leticia 27
Vitor 28


In [None]:
# Também podemos criar filtros.

# Vamos criar um filtro para mostrar apenas pessoas com mais de 24 anos

for key, item in dicio.items():
  if item > 24:
    print(key, item)

Marcos 25
Leticia 27
Vitor 28


# Estrutura de dados

# Series

#### Criando uma Series a partir de uma lista

In [2]:
nomes = ['Gabi', 'Ana', 'Marcos']
nomes

['Gabi', 'Ana', 'Marcos']

In [4]:
# Utilizando o 'pd.Series' você transforma uma lista em uma Series
# Lembrando que o Pandas assume que strings são do tipo object

pd.Series(nomes)

0      Gabi
1       Ana
2    Marcos
dtype: object

# Criando um dataframe a partir de uma lista de dicionários

In [9]:
info = [{'Nome': 'Ana', 'Idade': 19, 'Sexo':'Feminino', 'Altura': 1.68, 'Profissão':'Dentista', 'Renda_Mensal':'8.000'},
        {'Nome': 'Gabi', 'Idade': 22, 'Sexo':'Feminino', 'Altura': 1.73, 'Profissão':'Arquiteto', 'Renda_Mensal':'10.000'},
        {'Nome': 'Marcos', 'Idade': 24, 'Sexo':'Masculino', 'Altura': 1.75, 'Profissão':'Engenheiro', 'Renda_Mensal':'7.000'}]

In [10]:
# Como estamos utilizando dicionários, as chaves (keys) são atribuídas automáticamente ao nome das colunas.

info_DF = pd.DataFrame(info)
info_DF

Unnamed: 0,Nome,Idade,Sexo,Altura,Profissão,Renda_Mensal
0,Ana,19,Feminino,1.68,Dentista,8.0
1,Gabi,22,Feminino,1.73,Arquiteto,10.0
2,Marcos,24,Masculino,1.75,Engenheiro,7.0


In [11]:
# Para modificar a ordem das colunas de forma simples, basta chamar o dataframe e abrir dois colchetes passando os nomes na ordem que deseja.

info_DF[['Nome', 'Sexo', 'Idade','Altura','Renda_Mensal','Profissão']]

Unnamed: 0,Nome,Sexo,Idade,Altura,Renda_Mensal,Profissão
0,Ana,Feminino,19,1.68,8.0,Dentista
1,Gabi,Feminino,22,1.73,10.0,Arquiteto
2,Marcos,Masculino,24,1.75,7.0,Engenheiro


# Criando um DF a partitir de um dicionário com listas de valores

In [15]:
new_Info = {'Nome':['Ana','Gabi','Marcos'],
            'Sexo':['Feminino','Feminino','Masculino'],
            'Idade':[19,22,24],
            'Altura':[1.68,1.73,1.75],
            'Renda_Mensal':[8.000,10.000,7.000],
            'Profissão':['Dentista','Arquiteto','Engenheiro']}
new_Info

{'Altura': [1.68, 1.73, 1.75],
 'Idade': [19, 22, 24],
 'Nome': ['Ana', 'Gabi', 'Marcos'],
 'Profissão': ['Dentista', 'Arquiteto', 'Engenheiro'],
 'Renda_Mensal': [8.0, 10.0, 7.0],
 'Sexo': ['Feminino', 'Feminino', 'Masculino']}

In [29]:
new_Info_DF = pd.DataFrame(new_Info)
new_Info_DF

Unnamed: 0,Nome,Sexo,Idade,Altura,Renda_Mensal,Profissão
0,Ana,Feminino,19,1.68,8.0,Dentista
1,Gabi,Feminino,22,1.73,10.0,Arquiteto
2,Marcos,Masculino,24,1.75,7.0,Engenheiro


# Seleção de dados no DF

In [31]:
dados_Info = pd.read_csv('Dados_Pessoas.csv')
dados_Info

Unnamed: 0,Nome,Idade,Sexo,Altura,Profissão,Renda_Mensal
0,Ana,19,Feminino,1.68,Dentista,8.299
1,Gabi,22,Feminino,1.73,Arquiteto,10.587
2,Marcos,24,Masculino,1.75,Engenheiro,7.659
3,Matheus,26,Masculino,1.78,Programador,5.326
4,Luisa,29,Feminino,1.67,Programador,12.652
5,Gilson,25,Masculino,1.8,Médico,8.295
6,Leticia,31,Feminino,1.85,Arquiteto,7.853
7,Rafaela,27,Feminino,1.78,Programador,13.586


In [32]:
# Por padrão, quando é criado o DF, ele cria um índice númerico correspondente ao número de linhas, a partir do 0.
# Para definir uma coluna como índice, basta passar o argumento 'index_col' igualando ao índice da coluna.
# No exemplo abaixo vamos colocar a coluna 'Nome' como indice. A coluna 'Nome está na posição 0'

dados_teste = pd.read_csv('Dados_Pessoas.csv', index_col= 0)

In [34]:
dados_teste

Unnamed: 0_level_0,Idade,Sexo,Altura,Profissão,Renda_Mensal
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ana,19,Feminino,1.68,Dentista,8.299
Gabi,22,Feminino,1.73,Arquiteto,10.587
Marcos,24,Masculino,1.75,Engenheiro,7.659
Matheus,26,Masculino,1.78,Programador,5.326
Luisa,29,Feminino,1.67,Programador,12.652
Gilson,25,Masculino,1.8,Médico,8.295
Leticia,31,Feminino,1.85,Arquiteto,7.853
Rafaela,27,Feminino,1.78,Programador,13.586
