# **Criando Series e DataFrames com Pandas:**

### **Importando bibliotecas:**

In [2]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

### **Criando e fazendo seleções em Series:**

In [3]:
objeto = pd.Series([1, 2, 3], index=['um', 'dois', 'tres'])

objeto[['um', 'dois']]

um      1
dois    2
dtype: int64

In [4]:
'tres' in objeto   #obs: Procura pelo índice

True

In [5]:
objeto.values

array([1, 2, 3])

In [6]:
objeto.index

Index(['um', 'dois', 'tres'], dtype='object')

### **Convertendo dicionários em Series**

Obs: As chaves se tornam índices e os valores as linhas

In [7]:
estados = {'SP': 44000000, 'MG': 20000000, 'RG': 6748000, 'AM': 3874000, 'PR': 11000000}
estados_br = pd.Series(estados)
estados_br

SP    44000000
MG    20000000
RG     6748000
AM     3874000
PR    11000000
dtype: int64

**Atribuindo o índice de outra lista:**

In [8]:
nome_estados = ['Utah', 'SP', 'MG', 'RG', 'AM']
estados_gerais = pd.Series(estados, index=nome_estados)
estados_gerais

Utah           NaN
SP      44000000.0
MG      20000000.0
RG       6748000.0
AM       3874000.0
dtype: float64

In [9]:
estados_br + estados_gerais                 #Somando duas Series, é feito um join

AM       7748000.0
MG      40000000.0
PR             NaN
RG      13496000.0
SP      88000000.0
Utah           NaN
dtype: float64

**Identificando números nulos:**

In [10]:
estados_gerais.isnull()

Utah     True
SP      False
MG      False
RG      False
AM      False
dtype: bool

In [11]:
estados_gerais.notnull()

Utah    False
SP       True
MG       True
RG       True
AM       True
dtype: bool

**Nomeando Índices e Nomes:**

In [12]:
estados_gerais.index.name = 'Estados:'
estados_gerais

Estados:
Utah           NaN
SP      44000000.0
MG      20000000.0
RG       6748000.0
AM       3874000.0
dtype: float64

In [13]:
estados_gerais.name = 'Populacao'
estados_gerais

Estados:
Utah           NaN
SP      44000000.0
MG      20000000.0
RG       6748000.0
AM       3874000.0
Name: Populacao, dtype: float64

### **DataFrame:**

In [14]:
data = {'Estado': ['São Paulo', 'São Paulo', 'São Paulo', 'Minas Gerais', 'Minas Gerais', 'Minas Gerais'],
'Ano': [2000, 2005, 2010, 2000, 2010, 2020],
'População': [36974378, 39201179, 41223683, 17891494, 19597330, 21292666]}
dados = pd.DataFrame(data)
dados.head()

Unnamed: 0,Estado,Ano,População
0,São Paulo,2000,36974378
1,São Paulo,2005,39201179
2,São Paulo,2010,41223683
3,Minas Gerais,2000,17891494
4,Minas Gerais,2010,19597330


**Escolhendo colunas do jeito que eu quero:**

In [15]:
pd.DataFrame(data, columns=['Ano', 'Estado', 'População'])

Unnamed: 0,Ano,Estado,População
0,2000,São Paulo,36974378
1,2005,São Paulo,39201179
2,2010,São Paulo,41223683
3,2000,Minas Gerais,17891494
4,2010,Minas Gerais,19597330
5,2020,Minas Gerais,21292666


Obs: Caso não tenha a coluna que eu criei, ele preenche a coluna com NaN

In [16]:
pd.DataFrame(data, columns=['Ano', 'Estado', 'População', 'Renda'])

Unnamed: 0,Ano,Estado,População,Renda
0,2000,São Paulo,36974378,
1,2005,São Paulo,39201179,
2,2010,São Paulo,41223683,
3,2000,Minas Gerais,17891494,
4,2010,Minas Gerais,19597330,
5,2020,Minas Gerais,21292666,


In [17]:
dados[['Ano']]

Unnamed: 0,Ano
0,2000
1,2005
2,2010
3,2000
4,2010
5,2020


**Criando uma nova coluna com os valores desejados:**

In [18]:
dados['Renda'] = 2000
dados

Unnamed: 0,Estado,Ano,População,Renda
0,São Paulo,2000,36974378,2000
1,São Paulo,2005,39201179,2000
2,São Paulo,2010,41223683,2000
3,Minas Gerais,2000,17891494,2000
4,Minas Gerais,2010,19597330,2000
5,Minas Gerais,2020,21292666,2000


In [19]:
valor = pd.Series([-1, 1, 2, -2], index=['Teste', 'Exemplo', 'Amostra', '14'])
dados['Renda'] = valor
dados

Unnamed: 0,Estado,Ano,População,Renda
0,São Paulo,2000,36974378,
1,São Paulo,2005,39201179,
2,São Paulo,2010,41223683,
3,Minas Gerais,2000,17891494,
4,Minas Gerais,2010,19597330,
5,Minas Gerais,2020,21292666,


**Criando uma coluna com uma variável booleana**

In [20]:
dados['Confere'] = dados['Ano'] == 2010
dados

Unnamed: 0,Estado,Ano,População,Renda,Confere
0,São Paulo,2000,36974378,,False
1,São Paulo,2005,39201179,,False
2,São Paulo,2010,41223683,,True
3,Minas Gerais,2000,17891494,,False
4,Minas Gerais,2010,19597330,,True
5,Minas Gerais,2020,21292666,,False


**Deletando colunas:**

In [21]:
del dados['Confere']
dados

Unnamed: 0,Estado,Ano,População,Renda
0,São Paulo,2000,36974378,
1,São Paulo,2005,39201179,
2,São Paulo,2010,41223683,
3,Minas Gerais,2000,17891494,
4,Minas Gerais,2010,19597330,
5,Minas Gerais,2020,21292666,


**Criando DataFrames a partir de dicionários:**

In [22]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
      'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [23]:
dados_new = pd.DataFrame(pop)
dados_new

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [24]:
dados_new.T #faz a transposição do DataFrame assim como no array NumPy

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


**Renomeando colunas e indices:**

In [25]:
dados_new.columns.name = 'Anos:'; dados_new.index.name = 'Estados'
dados_new

Anos:,Nevada,Ohio
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [26]:
dados_new.index.is_unique    #Retorna true se o índice não tiver itens repetidos

True

### **Reorganizando novos índices e colunas do jeito que eu quero:**

In [27]:
obj = pd.Series(np.arange(1, 6), index=['Terceiro', 'Primeiro', 'Segundo', 'Quinto', 'Quarto'])
obj

Terceiro    1
Primeiro    2
Segundo     3
Quinto      4
Quarto      5
dtype: int64

Obs: Caso um novo índice não exista nos elementos que escolhi, ele cria uma nova coluna com NaN

In [28]:
obj2 = obj.reindex(['Primeiro', 'Segundo', 'Terceiro', 'Quarto', 'Quinto', '6º'])
pd.DataFrame(obj2)

Unnamed: 0,0
Primeiro,2.0
Segundo,3.0
Terceiro,1.0
Quarto,5.0
Quinto,4.0
6º,


In [29]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [30]:
obj3.reindex(range(6))

0      blue
1       NaN
2    purple
3       NaN
4    yellow
5       NaN
dtype: object

In [31]:
obj3.reindex(range(6), method='ffill')      #ffill Preenche o NaN com o valor encontrado no índice anterior (o índice anterior preenche pra frente o próximo NaN, por isso ffill(forward fill), bfill é o contrário)

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [32]:
obj3.reindex(range(6), method='bfill') #bfill Preenche o NaN com o valor encontrado no índice posterior (o indice após o NaN passa a preencher o valor de de NaN)

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

In [33]:
obj4 = pd.DataFrame(np.arange(1, 10).reshape(3, 3), index=['A', 'C', 'D'], columns=['Utah', 'Las Vegas', 'California'])
obj4

Unnamed: 0,Utah,Las Vegas,California
A,1,2,3
C,4,5,6
D,7,8,9


In [34]:
obj4.reindex(['A', 'B', 'C', 'D'], columns=['California', 'Las Vegas', 'Texas'])

Unnamed: 0,California,Las Vegas,Texas
A,3.0,2.0,
B,,,
C,6.0,5.0,
D,9.0,8.0,


In [35]:
obj5 = pd.Series(np.arange(5), index=['Primeiro', 'Segundo', 'Terceiro', 'Quarto', 'Quinto'])

new_obj = obj5.drop('Terceiro')  #drop deleta conforme o índice, e devolve a Series, embora modificação não seja inplace

### **Descartando entradas de um eixo:**

In [36]:
obj5.drop(['Terceiro', 'Quarto']) 

Primeiro    0
Segundo     1
Quinto      4
dtype: int64

In [37]:
dadinhos = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['AM', 'PR', 'SP', 'RS'],
                    columns=['UM', 'DOIS', 'TRES', 'QUATRO'])

In [38]:
dadinhos.drop(['AM', 'RS'])

Unnamed: 0,UM,DOIS,TRES,QUATRO
PR,4,5,6,7
SP,8,9,10,11


**Apagando pelas colunas:**

In [39]:
dadinhos.drop(['UM', 'QUATRO'], axis=1)

Unnamed: 0,DOIS,TRES
AM,1,2
PR,5,6
SP,9,10
RS,13,14


Obs: Se quisesse fazer mudança inplace, teria que colocar inplace= True nos parâmetros

### **Slices em series:**

Funciona parecido com os arrays NumPy, com diferença que você pode fazer o slice pelo nome do índice da Series, não somente o modo convencional de numeros

In [40]:
letras = pd.Series(np.arange(10), index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'])
letras[1:4]

b    1
c    2
d    3
dtype: int64

In [41]:
letras['b':'d']

b    1
c    2
d    3
dtype: int64

In [42]:
letras[['b', 'c','d']]

b    1
c    2
d    3
dtype: int64

In [43]:
letras[letras>5]

g    6
h    7
i    8
j    9
dtype: int64

In [44]:
letras[['j', 'a']] = 20
letras

a    20
b     1
c     2
d     3
e     4
f     5
g     6
h     7
i     8
j    20
dtype: int64

In [45]:
nomes = pd.DataFrame(np.arange(16).reshape((4, 4)), 
                     index= ['Maria', 'Carla', 'Joao', 'Matheus'],
                     columns= ['UM', 'DOIS', 'TRES', 'QUATRO'])
nomes

Unnamed: 0,UM,DOIS,TRES,QUATRO
Maria,0,1,2,3
Carla,4,5,6,7
Joao,8,9,10,11
Matheus,12,13,14,15


In [46]:
nomes[['DOIS']]

Unnamed: 0,DOIS
Maria,1
Carla,5
Joao,9
Matheus,13


In [47]:
nomes[['DOIS', 'QUATRO']]

Unnamed: 0,DOIS,QUATRO
Maria,1,3
Carla,5,7
Joao,9,11
Matheus,13,15


In [48]:
nomes[:2]

Unnamed: 0,UM,DOIS,TRES,QUATRO
Maria,0,1,2,3
Carla,4,5,6,7


In [49]:
nomes[nomes['QUATRO']>10]

Unnamed: 0,UM,DOIS,TRES,QUATRO
Joao,8,9,10,11
Matheus,12,13,14,15


Obs: Uma simples operação com um operador normal volta um DataFrame booleano

In [50]:
nomes >10 

Unnamed: 0,UM,DOIS,TRES,QUATRO
Maria,False,False,False,False
Carla,False,False,False,False
Joao,False,False,False,True
Matheus,True,True,True,True


In [51]:
# nomes[nomes == 0] = 'R/N'
nomes

Unnamed: 0,UM,DOIS,TRES,QUATRO
Maria,0,1,2,3
Carla,4,5,6,7
Joao,8,9,10,11
Matheus,12,13,14,15


In [52]:
nomes.loc[['Maria'], ['UM',  'QUATRO']]

Unnamed: 0,UM,QUATRO
Maria,0,3


### **Fazendo slices com iloc e loc**

In [53]:
nomes.iloc[[0], [0, 3]]

Unnamed: 0,UM,QUATRO
Maria,0,3


In [54]:
nomes.iloc[:, :3][nomes.TRES>=10]

Unnamed: 0,UM,DOIS,TRES
Joao,8,9,10
Matheus,12,13,14


In [55]:
ser = pd.Series(np.arange(5.))

#Se indexasse um valor de -1 com inteiro ou loc na series
#geraria um bug por não conseguir identificar se era uma label ou um inteiro. Pra corrigir, seria necessário colocar um index com valor

ser

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
dtype: float64

In [56]:
ser2 = pd.Series([1, 2, 3, 4, 5], index=['A', 'B', 'C', 'D', 'E'])
ser2

A    1
B    2
C    3
D    4
E    5
dtype: int64

In [57]:
ser2[-1]

5

### **Aritmética e alinhamento de dados:**

In [58]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [59]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

Obs: Quando objetos estiverem sendo somados, se algum par de índices
não for igual, o respectivo índice no resultado será a união dos
pares de índices.

In [60]:
s1+s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [63]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [66]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


**No caso do DataFrame com Index, o alinhamento é feito tanto nas linhas
quanto nas colunas:**

In [65]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [68]:
df3 = pd.DataFrame({'A': [1, 2]})
df3

Unnamed: 0,A
0,1
1,2


In [70]:
df4 = pd.DataFrame({'B': [3, 4]})
df4

Unnamed: 0,B
0,3
1,4


**Se você somar objetos DataFrame sem rótulos para colunas ou
linhas em comum, o resultado conterá somente nulos:**

In [73]:
df3+df4

Unnamed: 0,A,B
0,,
1,,
