# PANDAS (Panel Data) - A biblioteca mais importante de Python?

A biblioteca pandas pode ser considerada a mais importante dentro do mundo da análise de dados para o Python. É a ferramenta principal para construção de estrutura, manipulação e limpeza de dados, sendo também utilizada com bibliotecas de processamento numérico e construção de gráficos.

# Importando o Pandas e Numpy



In [59]:
import pandas as pd
import numpy as np

# SERIES


Series é uma estrutura de dados <b>unidimensional</b> da biblioteca Pandas em Python, que é capaz de armazenar dados de diferentes tipos, incluindo inteiros, floats e strings. <br> 
É <b>semelhante a um array numpy, mas com rótulos de índice</b>, permitindo que os dados sejam acessados por rótulo, ao invés de apenas por posição. As séries podem ser criadas a partir de listas, dicionários e outras estruturas de dados.

In [60]:
# Notar os indíces na esquerda
s1 = pd.Series([1,2,-5,0])
s1

0    1
1    2
2   -5
3    0
dtype: int64

In [61]:
s1.values

array([ 1,  2, -5,  0])

In [62]:
s1.index

RangeIndex(start=0, stop=4, step=1)

In [63]:
s2 = pd.Series([1,2,-5,0], index=['a', 'b', 'c', 'd'])
s2

a    1
b    2
c   -5
d    0
dtype: int64

In [64]:
s2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [65]:
s2['a'] = 1000
s2

a    1000
b       2
c      -5
d       0
dtype: int64

# Comparação

In [66]:
s2[s2>0]

a    1000
b       2
dtype: int64

# Álgebra

In [67]:
s2*2

a    2000
b       4
c     -10
d       0
dtype: int64

In [68]:
s2

a    1000
b       2
c      -5
d       0
dtype: int64

In [69]:
s2.isnull()

a    False
b    False
c    False
d    False
dtype: bool

# DATAFRAME

Um <b>dataframe</b> em Python é uma estrutura de dados bidimensional que permite armazenar e manipular dados tabulares de forma eficiente. Ele é uma das principais estruturas de dados da biblioteca pandas e pode ser pensado como uma <b>tabela de dados com linhas e colunas. </b><br>
<b>Um dataframe é formado por series :)</b>

# Criando um Dataframe

In [70]:
# Criando um array, definindo os dados do dataframe
dados={'estado': ['SP', 'MG', 'PR', 'SP', 'MG', 'PR'], 'ano': [2019, 2019, 2020, 2020, 2020, 2020], 'pop': [45.9,21.2, 16.9, 46.6, 21.4, 17.3]}
# Criando o DataFrame com o array dados
df1 = pd.DataFrame(dados)
df1

Unnamed: 0,estado,ano,pop
0,SP,2019,45.9
1,MG,2019,21.2
2,PR,2020,16.9
3,SP,2020,46.6
4,MG,2020,21.4
5,PR,2020,17.3


# Visualizar partes do DataFrame


In [71]:
# Head - exibe n valores do topo
df1.head(2)

Unnamed: 0,estado,ano,pop
0,SP,2019,45.9
1,MG,2019,21.2


In [72]:
# Tail - exibe n valores do final
df1.tail(2)

Unnamed: 0,estado,ano,pop
4,MG,2020,21.4
5,PR,2020,17.3


In [73]:
# Sample - exibe aleatoriamente n valores do DataFrame
df1.sample(2)

Unnamed: 0,estado,ano,pop
1,MG,2019,21.2
2,PR,2020,16.9


# Gerando um novo DataFrame a partir do anterior

In [74]:
# Gerando um novo DataFrame e definindo a ordem das colunas que eu quero que apareça:
df2 = pd.DataFrame(dados, columns=['ano', 'estado', 'pop'])
df2

Unnamed: 0,ano,estado,pop
0,2019,SP,45.9
1,2019,MG,21.2
2,2020,PR,16.9
3,2020,SP,46.6
4,2020,MG,21.4
5,2020,PR,17.3


# Observando o DataFrame

In [75]:
df2['estado']

0    SP
1    MG
2    PR
3    SP
4    MG
5    PR
Name: estado, dtype: object

In [76]:
df2.ano

0    2019
1    2019
2    2020
3    2020
4    2020
5    2020
Name: ano, dtype: int64

In [77]:
# dtypes - mostra o tipo de cada coluna
# notar que cada coluna pode ter um tipo diferente
df2.dtypes

ano         int64
estado     object
pop       float64
dtype: object

# Atribuindo Valores

In [78]:
# Criando uma coluna nova através do df2['estimativa]
# e atribuindo o valor 50 a todas as linhas ( = 50)
df2['estimativa'] = 50
df2

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,50
1,2019,MG,21.2,50
2,2020,PR,16.9,50
3,2020,SP,46.6,50
4,2020,MG,21.4,50
5,2020,PR,17.3,50


In [79]:
# Alterando os valores da coluna estimativa para valores de 0 a 5
df2['estimativa'] = np.arange(6)
df2

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2020,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


In [80]:
# Criando um novo DataFrame a partir do DataFrame df2
df3 = df2
df3

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2020,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


In [81]:
# Alterando o df3 para somente um recorte do df2, neste caso somente a coluna ano
df3 = df2['ano']
df3

0    2019
1    2019
2    2020
3    2020
4    2020
5    2020
Name: ano, dtype: int64

In [82]:
# Gerando uma nova coluna com o resultado da comparação de uma coluna do df2
df2['Não Paraná'] = df2.estado != 'PR'
df2

Unnamed: 0,ano,estado,pop,estimativa,Não Paraná
0,2019,SP,45.9,0,True
1,2019,MG,21.2,1,True
2,2020,PR,16.9,2,False
3,2020,SP,46.6,3,True
4,2020,MG,21.4,4,True
5,2020,PR,17.3,5,False


# Excluir Coluna

In [83]:
del df2['Não Paraná']
df2

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2020,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


# Entender o DataFrame

In [84]:
# Shape - mostra o tamanho do dataframe
# Neste caso, df2 tem 6 linhas e 4 colunas
df2.shape

(6, 4)

In [85]:
# Exibe a quantidade de linhas da tabela
df2.shape[0]

6

In [86]:
# Exibe a quantidade de colunas da tabela
df2.shape[1]

4

In [87]:
# Index - exibe o index da tabela
# neste caso, de 0 a 6, de um em um. ou seja: 0 1 2 3 4 5
df2.index

RangeIndex(start=0, stop=6, step=1)

In [88]:
# Columns - exibe as colunas da tabela
df2.columns

Index(['ano', 'estado', 'pop', 'estimativa'], dtype='object')

In [89]:
# Count - exibe quantos valores tem em cada coluna
df2.count()

ano           6
estado        6
pop           6
estimativa    6
dtype: int64

# Alterar Informação das Colunas

In [90]:
# Recriando o nome das colunas
df2.columns = ['Ano', 'Estado', 'Populacao', 'Estimativa']
df2

Unnamed: 0,Ano,Estado,Populacao,Estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2020,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


# Analisar o DataFrame

In [91]:
df2.describe()

Unnamed: 0,Ano,Populacao,Estimativa
count,6.0,6.0,6.0
mean,2019.666667,28.216667,2.5
std,0.516398,14.096725,1.870829
min,2019.0,16.9,0.0
25%,2019.25,18.275,1.25
50%,2020.0,21.3,2.5
75%,2020.0,39.775,3.75
max,2020.0,46.6,5.0


In [92]:
df2.describe(include='all')

Unnamed: 0,Ano,Estado,Populacao,Estimativa
count,6.0,6,6.0,6.0
unique,,3,,
top,,SP,,
freq,,2,,
mean,2019.666667,,28.216667,2.5
std,0.516398,,14.096725,1.870829
min,2019.0,,16.9,0.0
25%,2019.25,,18.275,1.25
50%,2020.0,,21.3,2.5
75%,2020.0,,39.775,3.75


# Alterar valores e consultar dados

In [93]:
df2['Ano'] = df2['Ano'] + 2
df2

Unnamed: 0,Ano,Estado,Populacao,Estimativa
0,2021,SP,45.9,0
1,2021,MG,21.2,1
2,2022,PR,16.9,2
3,2022,SP,46.6,3
4,2022,MG,21.4,4
5,2022,PR,17.3,5


In [94]:
# Exibe somente os valores na coluna ano, em que ano é maior que 2021
# neste caso, é feito somente uma consulta, não é alterado o DataFrame
df2[ df2['Ano'] > 2021 ]

Unnamed: 0,Ano,Estado,Populacao,Estimativa
2,2022,PR,16.9,2
3,2022,SP,46.6,3
4,2022,MG,21.4,4
5,2022,PR,17.3,5


In [95]:
# Criando um novo DataFrame com o resultado da comparação
df4 = df2[ df2['Ano'] > 2021 ]
df4

Unnamed: 0,Ano,Estado,Populacao,Estimativa
2,2022,PR,16.9,2
3,2022,SP,46.6,3
4,2022,MG,21.4,4
5,2022,PR,17.3,5


# Exluir Colunas

In [96]:
df4.drop('Ano', axis='columns')

Unnamed: 0,Estado,Populacao,Estimativa
2,PR,16.9,2
3,SP,46.6,3
4,MG,21.4,4
5,PR,17.3,5


In [97]:
df4

Unnamed: 0,Ano,Estado,Populacao,Estimativa
2,2022,PR,16.9,2
3,2022,SP,46.6,3
4,2022,MG,21.4,4
5,2022,PR,17.3,5


In [98]:
df4.drop('Ano', axis='columns', inplace=True)
df4

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4.drop('Ano', axis='columns', inplace=True)


Unnamed: 0,Estado,Populacao,Estimativa
2,PR,16.9,2
3,SP,46.6,3
4,MG,21.4,4
5,PR,17.3,5


# Excluir Linhas

In [99]:
df2.drop([0,1]) #exclui mas não altera o valor do DataFrame original

Unnamed: 0,Ano,Estado,Populacao,Estimativa
2,2022,PR,16.9,2
3,2022,SP,46.6,3
4,2022,MG,21.4,4
5,2022,PR,17.3,5


In [100]:
df2

Unnamed: 0,Ano,Estado,Populacao,Estimativa
0,2021,SP,45.9,0
1,2021,MG,21.2,1
2,2022,PR,16.9,2
3,2022,SP,46.6,3
4,2022,MG,21.4,4
5,2022,PR,17.3,5


# Observe a propagação na exclusão definitiva

In [107]:
# Criei uma cópia do df2, desta forma, tudo que eu fizer no dflinhas vai ser feito também no df2
dflinhas = df2

In [105]:
dflinhas.drop([2,3],inplace=True)
dflinhas

Unnamed: 0,Ano,Estado,Populacao,Estimativa
4,2022,MG,21.4,4
5,2022,PR,17.3,5


In [106]:
df2

Unnamed: 0,Ano,Estado,Populacao,Estimativa
4,2022,MG,21.4,4
5,2022,PR,17.3,5


# Ver dados de linhas

In [108]:
df2.iloc[0]

Ano           2022
Estado          MG
Populacao     21.4
Estimativa       4
Name: 4, dtype: object

In [109]:
df2.iloc[1:3]

Unnamed: 0,Ano,Estado,Populacao,Estimativa
5,2022,PR,17.3,5


In [110]:
df2.iloc[1:3,[1,2]]

Unnamed: 0,Estado,Populacao
5,PR,17.3


In [111]:
df2

Unnamed: 0,Ano,Estado,Populacao,Estimativa
4,2022,MG,21.4,4
5,2022,PR,17.3,5
