# Pandas

Guia do usuário Pandas:

https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html#user-guide

In [5]:
# Instala a versão exata do pacote 
!pip install -q pandas==1.5.3

In [6]:
import pandas as pd

In [7]:
pd.__version__

'1.5.3'

# Manipulando Dados em DataFrames do Pandas

In [8]:
# Cria um dicionário 
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'],
         'Ano': [2004, 2005, 2006, 2007, 2008],
         'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}

In [9]:
# Importa a função DataFrame do Pandas
from pandas import DataFrame

In [10]:
# Converte o dicionário em um DataFrame
df = DataFrame(dados)

In [11]:
# Visualiza as 5 primeiras linhas
df.head()

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2004,1.5
1,Rio de Janeiro,2005,1.7
2,Tocantins,2006,1.6
3,Bahia,2007,2.4
4,Minas Gerais,2008,2.7


In [12]:
type(df)

pandas.core.frame.DataFrame

In [13]:
# Reorganizando as colunas
DataFrame(dados, columns = ['Estado', 'Taxa Desemprego', 'Ano'])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2004
1,Rio de Janeiro,1.7,2005
2,Tocantins,1.6,2006
3,Bahia,2.4,2007
4,Minas Gerais,2.7,2008


In [14]:
# Criando outro DataFrame com os mesmos dados anteriores mas adicionando uma coluna
df2 = DataFrame(dados,
               columns = ['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
               index = ['estado1', 'estado2', 'estado3', 'estado4', 'estado5'])

In [15]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [18]:
df2.values

array([['Santa Catarina', 1.5, nan, 2004],
       ['Rio de Janeiro', 1.7, nan, 2005],
       ['Tocantins', 1.6, nan, 2006],
       ['Bahia', 2.4, nan, 2007],
       ['Minas Gerais', 2.7, nan, 2008]], dtype=object)

In [19]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [16]:
df2.columns # Retorno é uma lista de strings

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [17]:
# Imprimindo apenas uma coluna do DataFrame
df2['Estado'] # Um colchete

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3         Tocantins
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [20]:
# Linguagem Python é case sensitive 
# df2['estado']

In [21]:
# Imprimindo apenas duas colunas do DataFrame
df2[['Taxa Desemprego', 'Ano']] # Dois colchetes

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2004
estado2,1.7,2005
estado3,1.6,2006
estado4,2.4,2007
estado5,2.7,2008


In [22]:
df2.index

Index(['estado1', 'estado2', 'estado3', 'estado4', 'estado5'], dtype='object')

In [24]:
# Filtrando pelo indice 
df2.filter(items = ['estado3'], axis = 0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,Tocantins,1.6,,2006
