# Introdução à linguagem Python

## Objetos

O Python entende o significado, ou melhor, o valor de algo, quando esse algo está contido por um objeto. Exemplo:

In [1]:
meu_primeiro_objeto = 15

A partir de agora "meu_primeiro_objeto", para o Python, é um objeto com valor igual a 15. Podemos verificar isso declarando o objeto:

In [2]:
meu_primeiro_objeto

15

Podemos, inclusive, efetuar algumas operações com o nosso primeiro objeto:

In [3]:
15+2

17

É o mesmo que:

In [4]:
meu_primeiro_objeto + 2

17

## Operadores

### Soma

In [5]:
2 + 2

4

### Subtração

In [6]:
3 - 1

2

### Multiplicação

In [7]:
4 * 5

20

### Divisão

In [8]:
 12 / 3

4.0

### Exponenciação

In [9]:
7 ** 2

49

### Sequências

In [10]:
list(range(0, 10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### Comparação de igualdade

In [11]:
3 == 3

True

### Comparação de diferença

In [12]:
5 != 0

True

### Maior que

In [13]:
2 > 9

False

### Menor que

In [14]:
1 < 8

True

### Maior ou igual

In [15]:
5 >= 5

True

### Menor ou igual

In [16]:
4 <= 1

False

## Objetos e operadores

Podemos utilizar esses operadores, tranquilamente, com o nosso primeiro objeto.

Deve-se haver o cuidado sobre o desejo de se sobrescrever objetos.

In [17]:
meu_primeiro_objeto = 160

Em nível de código, o Python não vai te perguntar sobre a certeza de se querer fazer algo. Atenção a isso!

Também podemos guardar valores textuais em objetos:

In [18]:
nome = usp

NameError: ignored

O Python reportou um erro. Por quê?

In [19]:
nome_1 = "usp"
nome_1

'usp'

Ou:

In [20]:
nome_2 = 'usp'
nome_2

'usp'

Podemos utilizar alguns operadores aprendidos anteriormente:

In [21]:
nome_1 == nome_2

True

In [22]:
nome_1 != nome_2

False

É possível guardar valores lógicos em objetos:

In [23]:
verdadeiro = nome_1 == nome_2
verdadeiro

True

In [24]:
falso = nome_1 != nome_2
falso

False

**Outros valores importantes:**

In [25]:
True

True

In [26]:
False

False

In [27]:
# Equivalente ao NULL
None

In [28]:
# Equivalente ao NA
import numpy as np
np.nan

nan

In [29]:
# Equivalente a Inf
float('inf')
float('-inf')

import math
sum = math.inf

## Vetores

Podemos guardar bases de dados inteiras em objetos, porém, antes, devemos pensar sobre como guardar mais de uma informação em um objeto.

In [30]:
# Equivalente ao c()
vetor = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
vetor

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

O exposto, de forma análoga, vale para valores textuais:

In [31]:
nomes = ["mariana", "pedro", "daniela"]
nomes

['mariana', 'pedro', 'daniela']

## Funções

Funções são tipos especiais de objetos no Python, cujo nome vem seguido de parênteses. Equivalem a ordens diretas à máquina.

Funções são algoritmos. Cada algoritmo possui suas próprias atribuições e carrega dentro de si seu processo decisório.

Vamos utilizar um exemplo para esclarecer o assunto:

In [32]:
round(number=3.141592)

3

No comando anterior, não houve a criação de objeto algum. Houve a declaração de uma função cujo objetivo é o arredondamento numérico, em que "number" é um argumento da função.

Argumentos são complementos às ordens dadas. Imagine o seguinte caso:

In [33]:
round()

TypeError: ignored

Por que houve um erro?

Voltemos ao exemplo. Por que o R apenas transforma o valor de 3.141592 no valor inteiro 3?

Devemos complementar a ordem com um novo argumento:

In [34]:
round(number = 3.141592, ndigits = 3)

3.142

Como saber quais os argumentos de uma dada função?

In [35]:
# Primeira maneira - NÃO FUNCIONA NO PYTHON REGULAR:
?round

In [36]:
# Segunda maneira, mais indicada
help(round)

Help on built-in function round in module builtins:

round(number, ndigits=None)
    Round a number to a given precision in decimal digits.
    
    The return value is an integer if ndigits is omitted or None.  Otherwise
    the return value has the same type as the number.  ndigits may be negative.



In [37]:
# Terceira maneira, mais "específica"
import inspect
inspect.getfullargspec(round)

FullArgSpec(args=['number', 'ndigits'], varargs=None, varkw=None, defaults=(None,), kwonlyargs=[], kwonlydefaults=None, annotations={})

## Coerção

**Diferentemente do R, o Python não apresenta coerção de tipo!!!** Tipicamente, o Python não converte implicitamente um objeto para outro tipo de objeto.

In [38]:
nomes_e_idades = ["mariana", 22, "pedro", 30, "daniela", 45]
nomes_e_idades

['mariana', 22, 'pedro', 30, 'daniela', 45]

As observações que eram textos se mantiveram como textos, e as observações que eram números se mantiveram como números.

Podemos comprovar com a função type():

In [39]:
# Tipo do objeto
print(type(nomes_e_idades))
# Tipo do primeiro item do objeto (no Python, indexação começa no ZERO!)
print(type(nomes_e_idades[0]))
# Tipo do segundo item do objeto (no Python, indexação começa no ZERO!)
print(type(nomes_e_idades[1]))

<class 'list'>
<class 'str'>
<class 'int'>


In [40]:
type(verdadeiro)

bool

Da mesma maneira, também não há uma hierarquia básica de valores no Python como há no R.

## Variáveis categóricas

O R identifica suas variáveis categóricas como pertencentes à classe **factor**. O Python não apresenta um equivalente direto nativo, mas é possível chegar em um resultado similar com a biblioteca Pandas. Vamos criar um objeto que contenha o seguinte exemplo de variável categórica policotômica:

In [41]:
tipo_sanguineo = ["A+", "A-", "B+", "B-", "AB+", "AB-", "O+", "O-"]
tipo_sanguineo

['A+', 'A-', 'B+', 'B-', 'AB+', 'AB-', 'O+', 'O-']

In [42]:
type(tipo_sanguineo)

list

Para transformamos os valores internos ao objeto "tipo_sanguineo" em categorias, realizaremos o seguinte procedimento:

In [43]:
import pandas as pd
s = pd.Series(tipo_sanguineo, dtype="category")
s

0     A+
1     A-
2     B+
3     B-
4    AB+
5    AB-
6     O+
7     O-
dtype: category
Categories (8, object): ['A+', 'A-', 'AB+', 'AB-', 'B+', 'B-', 'O+', 'O-']

In [44]:
type(s)

pandas.core.series.Series

Observação:

In [45]:
tipo_sanguineo = ["A+", "A-", "B+", "B-", "AB+", "AB-", "O+", "O-", "A+", "A+"]
s = pd.Series(tipo_sanguineo, dtype="category")
s

0     A+
1     A-
2     B+
3     B-
4    AB+
5    AB-
6     O+
7     O-
8     A+
9     A+
dtype: category
Categories (8, object): ['A+', 'A-', 'AB+', 'AB-', 'B+', 'B-', 'O+', 'O-']

Ainda há 8 níveis (categorias) após a modificação!

Para a utilização dos valores declarados em técnicas direcionadas a variáveis nominais, o procedimento acima basta e está completo.

Para o caso de variáveis ordinais, o trabalho deve ser estendido. Vamos criar um objeto com novas categorias:

In [46]:
nivel_escolarizacao = ["fundamental", "médio", "graduação"]
s = pd.Series(nivel_escolarizacao, dtype="category")
s

0    fundamental
1          médio
2      graduação
dtype: category
Categories (3, object): ['fundamental', 'graduação', 'médio']

Observe as categorias. Não é essa a ordem comumente aceita. Como faremos para o Python entender a ordem fundamental, médio, graduação?

Com o Pandas, é possível resolver essa questão de algumas maneiras:

In [47]:
# Primeira maneira
nivel_esc = pd.Categorical(nivel_escolarizacao, categories=nivel_escolarizacao, ordered=True)
nivel_esc

['fundamental', 'médio', 'graduação']
Categories (3, object): ['fundamental' < 'médio' < 'graduação']

In [48]:
# Segunda maneira
from pandas.api.types import CategoricalDtype
s = pd.Series(nivel_escolarizacao)
cat_type = CategoricalDtype(categories=nivel_escolarizacao, ordered=True)
s = s.astype(cat_type)
s

0    fundamental
1          médio
2      graduação
dtype: category
Categories (3, object): ['fundamental' < 'médio' < 'graduação']

E se tivéssemos recebido uma base de dados cujos rótulos para as categorias fossem números? Vamos assumir o exemplo de que em dada base o valor "0" equivale a "não"; o valor "1" equivale a sim; e o valor "99" equivale a "talvez".

In [49]:
respostas = [0, 1, 1, 1, 99, 0, 99, 0, 0, 0, 1, 99]
respostas = pd.Series(respostas)
cat_type = CategoricalDtype(categories=[0, 99, 1], ordered=True)
respostas = respostas.astype(cat_type)
respostas

0      0
1      1
2      1
3      1
4     99
5      0
6     99
7      0
8      0
9      0
10     1
11    99
dtype: category
Categories (3, int64): [0 < 99 < 1]

In [50]:
respostas = respostas.cat.rename_categories({0: "não", 99: "talvez", 1: "sim"})
respostas

0        não
1        sim
2        sim
3        sim
4     talvez
5        não
6     talvez
7        não
8        não
9        não
10       sim
11    talvez
dtype: category
Categories (3, object): ['não' < 'talvez' < 'sim']

## Juntando objetos para a criação de bases de dados

In [51]:
empresas = ["Empresa A", np.nan, "Empresa C", "Empresa D", "Empresa E"]
funcionarios = [100, 5000, 230, 12000, 1700]
presenca_bolsa = [False, True, np.nan, True, True]
sede_brasil = [np.nan, 0, 1, 0, 0]
diretor_executivo = [np.nan, "daniel", "carlos", "carla", "solange"]

Antes de juntarmos os vetores, devemos verificar se seus comprimentos são iguais:

In [52]:
print(len(empresas))
print(len(funcionarios))
print(len(presenca_bolsa))
print(len(sede_brasil))
print(len(diretor_executivo))

5
5
5
5
5


In [53]:
dados = pd.DataFrame(list(zip(empresas, funcionarios, presenca_bolsa, sede_brasil, diretor_executivo)),
                     columns=['empresas', 'funcionarios', 'presenca_bolsa', 'sede_brasil', 'diretor_executivo'])
dados

Unnamed: 0,empresas,funcionarios,presenca_bolsa,sede_brasil,diretor_executivo
0,Empresa A,100,False,,
1,,5000,True,0.0,daniel
2,Empresa C,230,,1.0,carlos
3,Empresa D,12000,True,0.0,carla
4,Empresa E,1700,True,0.0,solange


Para alterar os nomes das variáveis da nova base de dados, basta alterar os nomes no parâmetro *columns*! Também é possível realizar o seguinte procedimento:

In [54]:
dados.columns = ['companies', 'employees', 'stock_exchange', 'brazil_hq', 'ceo']
dados

Unnamed: 0,companies,employees,stock_exchange,brazil_hq,ceo
0,Empresa A,100,False,,
1,,5000,True,0.0,daniel
2,Empresa C,230,,1.0,carlos
3,Empresa D,12000,True,0.0,carla
4,Empresa E,1700,True,0.0,solange


## Salvando objetos carregados no R

Para salvar objetos, independentemente de sua classe (e.g. gráficos, bases de dados, modelos de machine learning, arquivos pdf, arquivos do Microsoft Office, etc.), **não há um equivalente ao formato .RData em Python!** Pode-se, como substituto, salvar dados no formato **Pickle**:

In [55]:
dados.to_pickle("./dados.pkl") 

Caso quiséssemos carregar os objetos salvos num outro momento, deveríamos utilizar a função read_pickle().

In [56]:
dados_df = pd.read_pickle("./dados.pkl")  
dados_df 

Unnamed: 0,companies,employees,stock_exchange,brazil_hq,ceo
0,Empresa A,100,False,,
1,,5000,True,0.0,daniel
2,Empresa C,230,,1.0,carlos
3,Empresa D,12000,True,0.0,carla
4,Empresa E,1700,True,0.0,solange


## Carregando e salvando arquivos de alguns softwares/formatos mais utilizados

### Carregando e salvando .csv

In [65]:
bicicletas = pd.read_csv('bicicletas.csv', delimiter=';')
bicicletas

Unnamed: 0,id,estacao,dia_util,aluguel
0,1,4,0,800
1,2,4,0,826
2,3,4,1,900
3,4,1,0,2100
4,5,1,1,4740
5,6,1,1,4900
6,7,2,0,3000
7,8,2,1,5800
8,9,2,1,6200
9,10,3,0,2910


**Observação**: nesse momento, em R, seria necessário instalar e carregar o pacote **readr**. Em Python, não será necessário, mas caso seja, utilizar **!pip install \<package\>** para instalar um pacote e **import \<package\>** para utilizá-lo.

Caso quiséssemos salvar o nosso dataframe 'dados' em formato *.csv:

In [66]:
dados.to_csv('dados.csv', index=False)

### Carregando e salvando .xlsx

In [67]:
stricto_2018 = pd.read_excel('stricto_2018.xlsx')
stricto_2018

Unnamed: 0,sigla,cod,ano,regiao,uf,doutorado_matriculado,doutorado _titulado,mestrado_matriculado,mestrado _titulado,mestrado_profissional_matriculado,mestrado_profissional_titulado,total
0,CBPF,,2018,SUDESTE,RJ,74,10,29,9,17,6,145
1,CCD/SES,,2018,SUDESTE,SP,30,9,29,15,0,0,83
2,CDTN,,2018,SUDESTE,MG,52,13,53,20,0,0,138
3,CEETEPS,,2018,SUDESTE,SP,0,0,0,0,89,48,137
4,CEFET/MG,,2018,SUDESTE,MG,170,16,407,161,14,0,768
...,...,...,...,...,...,...,...,...,...,...,...,...
422,UTFPR,588.0,2018,SUL,PR,485,60,1230,435,669,183,3062
423,UTP,355.0,2018,SUL,PR,95,22,105,48,0,0,270
424,UVA,165.0,2018,SUDESTE,RJ,72,13,83,27,50,20,265
425,UVA-CE,95.0,2018,NORDESTE,CE,0,0,58,23,43,0,124


In [68]:
dados.to_excel("dados.xlsx")

### Carregando e salvando SPSS

In [69]:
!pip install pyreadstat



In [70]:
bolsa_estudos = pd.read_spss("bolsa_estudos.sav")
bolsa_estudos

Unnamed: 0,estudante,idade,renda
0,Gabriela,33.0,1500.0
1,Luiz Felipe,27.0,1500.0
2,Patrícia,27.0,1600.0
3,Ovídio,30.0,1600.0
4,Leonor,36.0,1800.0
...,...,...,...
95,Sheila,24.0,1700.0
96,Pedro,33.0,1500.0
97,Horácio,33.0,1100.0
98,Leandro,36.0,1700.0


In [71]:
import pyreadstat
pyreadstat.write_sav(dados, "dados.sav")

### Carregando e salvando Stata

In [72]:
vestibular = pd.read_stata('vestibular.dta')
vestibular

Unnamed: 0,estudante,matemática,física,química
0,Gabriela,3.7,2.7,9.1
1,Luiz Felipe,7.8,8.0,1.5
2,Patrícia,8.9,1.0,2.7
3,Ovídio,7.0,1.0,9.0
4,Leonor,3.4,2.0,5.0


In [73]:
vestibular.to_stata('vestibular2.dta')

/usr/local/lib/python3.7/dist-packages/pandas/io/stata.py:2397: InvalidColumnName: 
Not all pandas column names were valid Stata variable names.
The following replacements have been made:

    matemática   ->   matem_tica
    física   ->   f_sica
    química   ->   qu_mica

If this is not what you expect, please make sure you have Stata-compliant
column names in your DataFrame (strings only, max 32 characters, only
alphanumerics and underscores, no Stata reserved words)



### Carregando .csv online

In [74]:
covid = pd.read_csv("https://opendata.ecdc.europa.eu/covid19/nationalcasedeath/csv/data.csv",
                    encoding='utf-8')
covid.head(5)

Unnamed: 0,country,country_code,continent,population,indicator,weekly_count,year_week,rate_14_day,cumulative_count,source,note
0,Afghanistan,AFG,Asia,38928341,cases,0.0,2020-01,,0,Epidemic intelligence national data,
1,Afghanistan,AFG,Asia,38928341,cases,0.0,2020-02,0.0,0,Epidemic intelligence national data,
2,Afghanistan,AFG,Asia,38928341,cases,0.0,2020-03,0.0,0,Epidemic intelligence national data,
3,Afghanistan,AFG,Asia,38928341,cases,0.0,2020-04,0.0,0,Epidemic intelligence national data,
4,Afghanistan,AFG,Asia,38928341,cases,0.0,2020-05,0.0,0,Epidemic intelligence national data,


## Introdução à manipulação de dados

Para ver a documentação ou buscar ajuda a respeito de algum pacote:

In [75]:
help(pd)

Help on package pandas:

NAME
    pandas

DESCRIPTION
    pandas - a powerful data analysis and manipulation library for Python
    
    **pandas** is a Python package providing fast, flexible, and expressive data
    structures designed to make working with "relational" or "labeled" data both
    easy and intuitive. It aims to be the fundamental high-level building block for
    doing practical, **real world** data analysis in Python. Additionally, it has
    the broader goal of becoming **the most powerful and flexible open source data
    analysis / manipulation tool available in any language**. It is already well on
    its way toward this goal.
    
    Main Features
    -------------
    Here are just a few of the things that pandas does well:
    
      - Easy handling of missing data in floating point as well as non-floating
        point data.
      - Size mutability: columns can be inserted and deleted from DataFrame and
        higher dimensional objects
      - Automatic an

O Pandas não possui bases de dados internas. Para obter uma base sample, podemos utilizar um pacote como o Statsmodels:

In [76]:
import statsmodels.api as sm

mtcars = sm.datasets.get_rdataset("mtcars", "datasets", cache=True).data
mtcars = pd.DataFrame(mtcars)
mtcars.head(5)

  import pandas.util.testing as tm


Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


Se você está aqui é porque se interessa por dados, e pode ser que as bases de dados que você utiliza sejam extensas! Assim, vamos utilizar as funções head() e tail():

In [77]:
mtcars.head(5)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [78]:
mtcars.tail(3)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Ferrari Dino,19.7,6,145.0,175,3.62,2.77,15.5,0,1,5,6
Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8
Volvo 142E,21.4,4,121.0,109,4.11,2.78,18.6,1,1,4,2


Outra função interessante é a função info()

In [79]:
# Equivalente a str()
mtcars.info()

<class 'pandas.core.frame.DataFrame'>
Index: 32 entries, Mazda RX4 to Volvo 142E
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   mpg     32 non-null     float64
 1   cyl     32 non-null     int64  
 2   disp    32 non-null     float64
 3   hp      32 non-null     int64  
 4   drat    32 non-null     float64
 5   wt      32 non-null     float64
 6   qsec    32 non-null     float64
 7   vs      32 non-null     int64  
 8   am      32 non-null     int64  
 9   gear    32 non-null     int64  
 10  carb    32 non-null     int64  
dtypes: float64(5), int64(6)
memory usage: 3.0+ KB


In [80]:
count_row = mtcars.shape[0]
print(count_row)
count_col = mtcars.shape[1]
print(count_col)
number_of_rows = len(mtcars)
print(number_of_rows)
mtcars_shape = mtcars.shape
print(mtcars_shape)

32
11
32
(32, 11)


Podemos, ainda, ter acesso aos nomes das variáveis da base de dados com o auxílio da propriedade **columns**:

In [81]:
mtcars.columns

Index(['mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am', 'gear',
       'carb'],
      dtype='object')

Podemos acessar uma variável da nossa base de dados com colchetes ou ponto:

In [82]:
mtcars['mpg'].head(3)

Mazda RX4        21.0
Mazda RX4 Wag    21.0
Datsun 710       22.8
Name: mpg, dtype: float64

In [83]:
mtcars.cyl.head(3)

Mazda RX4        6
Mazda RX4 Wag    6
Datsun 710       4
Name: cyl, dtype: int64

Também podemos acessar uma variável com o uso da função iloc[]:

In [84]:
mtcars.iloc[:, 10].head(3)

Mazda RX4        4
Mazda RX4 Wag    4
Datsun 710       1
Name: carb, dtype: int64

Podemos acessar as observações também com iloc[]:

In [85]:
mtcars.iloc[1, :]

mpg      21.000
cyl       6.000
disp    160.000
hp      110.000
drat      3.900
wt        2.875
qsec     17.020
vs        0.000
am        1.000
gear      4.000
carb      4.000
Name: Mazda RX4 Wag, dtype: float64

Assim, é possível acessar valores específicos ao combinarmos o aprendido:

In [86]:
mtcars.iloc[2, 1]

4

Podemos, ainda, combinar as posições com o nome das variáveis:

In [87]:
mtcars.iloc[1]['mpg']

21.0

In [88]:
mtcars[['mpg', 'cyl', 'disp']].head(3)

Unnamed: 0,mpg,cyl,disp
Mazda RX4,21.0,6,160.0
Mazda RX4 Wag,21.0,6,160.0
Datsun 710,22.8,4,108.0


Para filtrar valores, podemos também usar colchetes ou também a função **query()**.
Vamos supor que a intenção seja que o Python filtre todos os carros cujo valor para a variável mpg seja igual a 21:

In [89]:
mtcars[mtcars['mpg'] == 21]

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4


In [90]:
mtcars.query('mpg == 21')

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4


Nesse momento é oportuno apresentar dois novos operadores:
* & significa "e"
* | significa "ou".

Por exemplo, carros cujo valor para a variável mpg seja igual a 21 E com a variável qsec menor do que 17:

In [91]:
mtcars[(mtcars['mpg']==21) & (mtcars['qsec']<17)]

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4


Carros cujo valor para a variável mpg seja igual a 21 OU com a variável qsec menor do que 17:

In [92]:
mtcars[(mtcars['mpg']==21) | (mtcars['qsec']<17)]

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
Dodge Challenger,15.5,8,318.0,150,2.76,3.52,16.87,0,0,3,2
Camaro Z28,13.3,8,350.0,245,3.73,3.84,15.41,0,0,3,4
Porsche 914-2,26.0,4,120.3,91,4.43,2.14,16.7,0,1,5,2
Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
Ferrari Dino,19.7,6,145.0,175,3.62,2.77,15.5,0,1,5,6
Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8


### Criando e excluindo variáveis em uma base de dados

In [93]:
mtcars['var_nova'] = np.nan
mtcars.head(3)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,var_nova
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4,
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4,
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,


Para excluir uma coluna de nossa base de dados, utilizamos o comando **del**:

In [94]:
del mtcars['var_nova']
mtcars.head(3)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


### Editando valores das observações

Podemos utilizar as funções **iat/at**:

In [95]:
mtcars.iat[1, 1] = 82

In [96]:
mtcars.iloc[1, :]

mpg      21.000
cyl      82.000
disp    160.000
hp      110.000
drat      3.900
wt        2.875
qsec     17.020
vs        0.000
am        1.000
gear      4.000
carb      4.000
Name: Mazda RX4 Wag, dtype: float64

Caso houvesse um padrão de repetição para uma determinada substituição, podemos usar a função replace (em substituição ao gsub, no R):

In [97]:
mtcars['cyl'] = mtcars['cyl'].replace(6, 8)
mtcars.head(5)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,8,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,82,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,8,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


Vamos salvar as 3 primeiras observaçoes do dataset mtcars num objeto novo:

In [98]:
exemplo = mtcars.iloc[0:3,:]
exemplo

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,8,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,82,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


Agora vamos, propositalmente, repetir as observações da base de dados obtida por 3 vezes, usando a função **concat()**:

In [99]:
# Equivalente a rbind() no R
exemplo_final = pd.concat([exemplo, exemplo, exemplo])
exemplo_final

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,8,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,82,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Mazda RX4,21.0,8,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,82,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Mazda RX4,21.0,8,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,82,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


Aplicando a função **drop_duplicates()**:

In [100]:
# Equivalente a unique() no R
exemplo_final = exemplo_final.drop_duplicates()
exemplo_final

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,8,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,82,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
