* A biblioteca PANDAS é mais adequada para tratar dados heterogêneos
* Estruturas fundamentais de trabalho no pandas são as 'Series' e o 'Dataframe'

### Importando a biblioteca PANDAS

In [1]:
import pandas as pd
import numpy as np

### Uso de series

* Objeto do tipo array unidimensional contendo uma sequência de valores e um array associado de rótulos

In [2]:
s1 = pd.Series([1,2,-5,0])

print(s1)

# Os ìndices estão associados à esquerda

0    1
1    2
2   -5
3    0
dtype: int64


In [3]:
print(s1.values)

# mostra a descrição dos índices
print(s1.index)

[ 1  2 -5  0]
RangeIndex(start=0, stop=4, step=1)


### Exemplo de criação de ìndices manualmente
* Na criação da series, é passado um parâmetro com os nomes de cada elementod a Series (podem ser valores tanto numéricos como Strings)

In [4]:
s2 = pd.Series([1,2,-5,0], index=['primeiro', 'segundo', 'terceiro', 'quarto'])

print(s2)

primeiro    1
segundo     2
terceiro   -5
quarto      0
dtype: int64


In [5]:
print(s2.index)

# acesso ao valor usando o índice
print(s2['segundo'])

Index(['primeiro', 'segundo', 'terceiro', 'quarto'], dtype='object')
2


### Comparação de posições

In [6]:
# parecido com a máscara do Numpy
# fornece valores e índices
print(s2[s2>= 1])

primeiro    1
segundo     2
dtype: int64


## Algebra

In [7]:
print(s2)

print(s2 * 2)

primeiro    1
segundo     2
terceiro   -5
quarto      0
dtype: int64
primeiro     2
segundo      4
terceiro   -10
quarto       0
dtype: int64


In [8]:
# verifica valor por valor se há nulos
print(s2.isnull())

primeiro    False
segundo     False
terceiro    False
quarto      False
dtype: bool


## Uso de Dataframe
*  Representa uma tabela de dados retangular e contém uma coleção ordenada de colunas, cada uma podendo conter um valor diferente
* Basicamente cria uma tabela com colunas representando cada atributos

In [9]:
# estado, ano e pop são labels das series
dados = {'estado': ['SP', 'MG', 'PR', 'SP', 'MG', 'PR'], 'ano': [2019, 2019,2019,2020,2020,2020], 'pop': [45.9, 21.2, 16.9, 46.6, 21.4, 17.3]}

# cria o dataframe
df1 = pd.DataFrame(dados)

display(df1)

Unnamed: 0,estado,ano,pop
0,SP,2019,45.9
1,MG,2019,21.2
2,PR,2019,16.9
3,SP,2020,46.6
4,MG,2020,21.4
5,PR,2020,17.3


### Visualizando partes do DF

In [10]:
# printa os últimos x registros que a função .tail recebe
print(df1.tail(2))

  estado   ano   pop
4     MG  2020  21.4
5     PR  2020  17.3


In [11]:
# printa x valores aleatórios
print(df1.sample(2))

  estado   ano   pop
0     SP  2019  45.9
5     PR  2020  17.3


### Gera um novo DF a partir do anterior

In [12]:
# Gera um novo Dataframe , podendo alterar a ordem das colunas existentes
df2 = pd.DataFrame(dados, columns = ['ano', 'estado', 'pop'])

display(df2)

Unnamed: 0,ano,estado,pop
0,2019,SP,45.9
1,2019,MG,21.2
2,2019,PR,16.9
3,2020,SP,46.6
4,2020,MG,21.4
5,2020,PR,17.3


### Observar DF

In [13]:
print(df2['estado'])

print(df2.estado)

0    SP
1    MG
2    PR
3    SP
4    MG
5    PR
Name: estado, dtype: object
0    SP
1    MG
2    PR
3    SP
4    MG
5    PR
Name: estado, dtype: object


In [14]:
# Mostra o tipo dos dados de cada coluna do DF
print(df2.dtypes)

ano         int64
estado     object
pop       float64
dtype: object


### Atribuir valores

In [15]:
# cria uma nova coluna de nome 'estimativa' e atribui o valor 50 para todas as linhas
df2['estimativa'] = 50

display(df2)

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,50
1,2019,MG,21.2,50
2,2019,PR,16.9,50
3,2020,SP,46.6,50
4,2020,MG,21.4,50
5,2020,PR,17.3,50


In [16]:
# cria um array de 0 a 5, e atribui às linhas da coluna estimativa
df2['estimativa'] = np.arange(6)

display(df2)

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2019,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


In [17]:
df3 = df2

display(df3)

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2019,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


In [18]:
# Cria um recorte, copiando apenas a coluna de ano
df3 = df2['ano']

display(df3)

0    2019
1    2019
2    2019
3    2020
4    2020
5    2020
Name: ano, dtype: int64

#### !! Não é preciso usar laço, tudo isso já é feito pelas bibliotecas

In [19]:

df2['Não Paraná'] = df2['estado'] != 'PR'

# OU

df2['Não Paraná'] = df2.estado != 'PR'

display(df2)

Unnamed: 0,ano,estado,pop,estimativa,Não Paraná
0,2019,SP,45.9,0,True
1,2019,MG,21.2,1,True
2,2019,PR,16.9,2,False
3,2020,SP,46.6,3,True
4,2020,MG,21.4,4,True
5,2020,PR,17.3,5,False


### Excluir Coluna

In [20]:
del df2['Não Paraná']

display(df2)

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2019,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


### Entendendo o DF

In [21]:
# mostra a dimensão do DF (linhas e colunas)
print(df2.shape)

# mostra o tamanho da primeira dimensão (apenas da linhas)
print(df2.shape[0])

# mostra o tamanho da segunda dimensão (apenas da coluna)
print(df2.shape[1])

# mostra os índices do DF
print(df2.index)

# mostra as colunas do DF
print(df2.columns)

# conta a qtd de registros em cada coluna, ´pde ser aplicado para cada coluna individualmente
print(df2.count())

(6, 4)
6
4
RangeIndex(start=0, stop=6, step=1)
Index(['ano', 'estado', 'pop', 'estimativa'], dtype='object')
ano           6
estado        6
pop           6
estimativa    6
dtype: int64


### Alterar informação das colunas

In [22]:
# .columns altera o nome das colunas de um DF já existente
df2.columns = ['Ano', 'Estado', 'Populacao', 'Estimativa']

display(df2)

Unnamed: 0,Ano,Estado,Populacao,Estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2019,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


### Analisar o DF

In [23]:
# Faz uma descrição completa dos dados de cada coluna do DF, incluindo informações como qtd, itens únicos, média, min, etc.
df2.describe(include='all')

Unnamed: 0,Ano,Estado,Populacao,Estimativa
count,6.0,6,6.0,6.0
unique,,3,,
top,,SP,,
freq,,2,,
mean,2019.5,,28.216667,2.5
std,0.547723,,14.096725,1.870829
min,2019.0,,16.9,0.0
25%,2019.0,,18.275,1.25
50%,2019.5,,21.3,2.5
75%,2020.0,,39.775,3.75


### Alterar valores e consultar dados

In [24]:
df2['Ano'] = df2['Ano'] + 2

# OU

df2['Ano'] += 2

display(df2)

Unnamed: 0,Ano,Estado,Populacao,Estimativa
0,2023,SP,45.9,0
1,2023,MG,21.2,1
2,2023,PR,16.9,2
3,2024,SP,46.6,3
4,2024,MG,21.4,4
5,2024,PR,17.3,5


In [25]:
# Uso de 'máscara' para mostrar apenas os anos que correspondem à condição
# df2['Ano'] > 2021 retorna um array booleano, que é usado para determinar quais valores do df2 serão printados
# como apenas as três últimas linhas retornam True, apenas elas são printadas
print(df2['Ano'] > 2021)

display(df2[df2["Ano"] > 2021])

0    True
1    True
2    True
3    True
4    True
5    True
Name: Ano, dtype: bool


Unnamed: 0,Ano,Estado,Populacao,Estimativa
0,2023,SP,45.9,0
1,2023,MG,21.2,1
2,2023,PR,16.9,2
3,2024,SP,46.6,3
4,2024,MG,21.4,4
5,2024,PR,17.3,5


In [42]:
df4 = df2[df2['Ano'] > 2023]

display(df4)

Unnamed: 0,Ano,Estado,Populacao,Estimativa
3,2024,SP,46.6,3
4,2024,MG,21.4,4
5,2024,PR,17.3,5


### Excluindo colunas (2)

In [43]:
# Exclui, no eixo das colunas, aquela que corresponde ao 'Ano', porém é necessário definir o parâmetro inplace como True, para que a mudança seja permanente
df4.drop('Ano', axis='columns', inplace=True)

display(df4)

# Sem o inplace definido como True, a coluna é apenas excluida momentaneamente

display(df2.drop('Ano', axis='columns'))

# a coluna Ano volta ao normal após a linha, pois o parametro inplace não foi definido como True
display(df2)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4.drop('Ano', axis='columns', inplace=True)


Unnamed: 0,Estado,Populacao,Estimativa
3,SP,46.6,3
4,MG,21.4,4
5,PR,17.3,5


Unnamed: 0,Estado,Populacao,Estimativa
0,SP,45.9,0
1,MG,21.2,1
2,PR,16.9,2
3,SP,46.6,3
4,MG,21.4,4
5,PR,17.3,5


Unnamed: 0,Ano,Estado,Populacao,Estimativa
0,2023,SP,45.9,0
1,2023,MG,21.2,1
2,2023,PR,16.9,2
3,2024,SP,46.6,3
4,2024,MG,21.4,4
5,2024,PR,17.3,5


### Excluindo linhas

In [44]:
# exclui temporariamente as linhas no intervalo dado
print(df2.drop([0,1]))

# para que a mudança fosse definitiva, seria necessário definir o parâmetro inplace como true

    Ano Estado  Populacao  Estimativa
2  2023     PR       16.9           2
3  2024     SP       46.6           3
4  2024     MG       21.4           4
5  2024     PR       17.3           5


In [45]:
dflinhas = df2

# Como o parametro inplace é = True, as linhas foram excluidas permanentemente
dflinhas.drop([0,1], inplace=True)

display(dflinhas)

Unnamed: 0,Ano,Estado,Populacao,Estimativa
2,2023,PR,16.9,2
3,2024,SP,46.6,3
4,2024,MG,21.4,4
5,2024,PR,17.3,5


### Ver dados de linhas

In [49]:
# vê uma posição especifica no DF
display(df2.iloc[0])

display(df2.iloc[0:3])

# pode selecionar linhas e colunas especificas
# nesse caso pega a linha de indice 0 ate  indice 2 e as colunas de indice 1 e 2
# primeiro parametro são as linhas dejesadas (seja em uma lista ou em um slicing) e depois as colunas dejesadas(em slicing ou em uma lista)
display(df2.iloc[0:3, [1,2]])

Ano           2023
Estado          PR
Populacao     16.9
Estimativa       2
Name: 2, dtype: object

Unnamed: 0,Ano,Estado,Populacao,Estimativa
2,2023,PR,16.9,2
3,2024,SP,46.6,3
4,2024,MG,21.4,4


Unnamed: 0,Estado,Populacao,Estimativa
2,PR,16.9,2
3,SP,46.6,3
4,MG,21.4,4
