In [35]:
# Versão da Linguagem Python 
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.13


Guia de Usuário do Pandas:

https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html#user-guide

In [36]:
# Instala a versão exata do pacote
!pip install -q pandas==1.5.3

In [37]:
import pandas as pd

In [38]:
pd.__version__

'1.5.3'

# Manipulando Dados em DataFrames do Pandas

In [39]:
# Cria um dicionário
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantis', 'Bahia', 'Minas Gerais'],
         'Ano': [2004, 2005, 2006, 2007, 2008],
         'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}

In [40]:
print(dados)

{'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantis', 'Bahia', 'Minas Gerais'], 'Ano': [2004, 2005, 2006, 2007, 2008], 'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}


In [41]:
# Importa a função DataFrame do Pandas
from pandas import DataFrame

In [42]:
# Converte o dicionário em um dataframe
df = DataFrame(dados)

In [43]:
# Visualiza as 5 primeiras linhas
df.head()

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2004,1.5
1,Rio de Janeiro,2005,1.7
2,Tocantis,2006,1.6
3,Bahia,2007,2.4
4,Minas Gerais,2008,2.7


In [44]:
type(df)

pandas.core.frame.DataFrame

In [45]:
DataFrame(dados, columns=['Estado', 'Taxa Desemprego', 'Ano'])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2004
1,Rio de Janeiro,1.7,2005
2,Tocantis,1.6,2006
3,Bahia,2.4,2007
4,Minas Gerais,2.7,2008


In [46]:
# Criando outro dataframe com os mesmo dados anteriores mas adicionando uma coluna
df2 = DataFrame(dados,
                columns=['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
                index=['estado1', 'estado2', 'estado3', 'estado4', 'estado5'])

In [47]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantis,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [48]:
df2.values

array([['Santa Catarina', 1.5, nan, 2004],
       ['Rio de Janeiro', 1.7, nan, 2005],
       ['Tocantis', 1.6, nan, 2006],
       ['Bahia', 2.4, nan, 2007],
       ['Minas Gerais', 2.7, nan, 2008]], dtype=object)

In [49]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [50]:
df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [51]:
# Imprimindo apenas uma coluna do DataFrame
df2['Estado']

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3          Tocantis
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [52]:
# Linguagem Python é case sensitive
# df2['estado']

In [53]:
# Imprimindo apenas duas colunas do DataFrame
df2[['Taxa Desemprego', 'Ano']]

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2004
estado2,1.7,2005
estado3,1.6,2006
estado4,2.4,2007
estado5,2.7,2008


In [54]:
df2.index

Index(['estado1', 'estado2', 'estado3', 'estado4', 'estado5'], dtype='object')

In [55]:
# Filtrando pelo índice
# axis = 0 -> Linha
# axis = 1 -> Coluna
df2.filter(items = ['estado3'], axis=0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,Tocantis,1.6,,2006


# Usando NumPy e Pandas Para Manipulação de Dados

In [56]:
df2.head()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantis,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [57]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [58]:
# Resumo estatístico do DataFrame
df2.describe()

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.98,2006.0
std,0.535724,1.581139
min,1.5,2004.0
25%,1.6,2005.0
50%,1.7,2006.0
75%,2.4,2007.0
max,2.7,2008.0


In [59]:
# isna -> Tem valor nulo?
df2.isna()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,False,False,True,False
estado2,False,False,True,False
estado3,False,False,True,False
estado4,False,False,True,False
estado5,False,False,True,False


In [60]:
df2['Taxa Crescimento'].isna()

estado1    True
estado2    True
estado3    True
estado4    True
estado5    True
Name: Taxa Crescimento, dtype: bool

In [61]:
# Importando o NumPy
import numpy as np

In [62]:
# Usando o NumPy para alimentar um das colunas do DataFrame
df2['Taxa Crescimento'] = np.arange(5.)

In [63]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantis,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007
estado5,Minas Gerais,2.7,4.0,2008


In [64]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento    float64
Ano                   int64
dtype: object

In [65]:
df2['Taxa Crescimento'].isna()

estado1    False
estado2    False
estado3    False
estado4    False
estado5    False
Name: Taxa Crescimento, dtype: bool

In [66]:
# Resumo estatístico do DataFrame
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.98,2.0,2006.0
std,0.535724,1.581139,1.581139
min,1.5,0.0,2004.0
25%,1.6,1.0,2005.0
50%,1.7,2.0,2006.0
75%,2.4,3.0,2007.0
max,2.7,4.0,2008.0
