# Data Science Academy 

## Capítulo 10 - Manipulação de Dados com Pandas

## Por que usar a biblioteca Pandas?
Com a biblioteca Pandas a manipulação de dados é muito mais rápida e fácil

In [1]:
# Versão da Linguagem Python
from platform import python_version
print("Versão da Linguagem Python Usada Neste Jupyter Notebbok:", python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebbok: 3.12.4


In [2]:
import pandas as pd

## Manipulando Dados em DataFrames do Pandas

In [4]:
# Cria um dicionário
dados = {"Estado": ["Santa Catarina", "Rio de Janeiro", "Tocantins", "Bahia", "Minas Gerais"],
         "Ano": [2004, 2005, 2006, 2007, 2008],
         "Taxa Desemprego": [1.5, 1.7, 1.6, 2.4, 2.7]}
print(dados)

{'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'], 'Ano': [2004, 2005, 2006, 2007, 2008], 'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}


In [5]:
# Importa a função DataFrame do Pandas
from pandas import DataFrame

In [6]:
# Converte o dicionário em um dataframe (df)
df = DataFrame(dados)

In [8]:
# Visualiza as 5 primeiras linhas
df.head()

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2004,1.5
1,Rio de Janeiro,2005,1.7
2,Tocantins,2006,1.6
3,Bahia,2007,2.4
4,Minas Gerais,2008,2.7


In [10]:
# Verificando o tipo do objeto df
type(df)

pandas.core.frame.DataFrame

In [11]:
# Reorganizando a ordem das colunas
DataFrame(dados, columns =["Estado", "Taxa Desemprego", "Ano"])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2004
1,Rio de Janeiro,1.7,2005
2,Tocantins,1.6,2006
3,Bahia,2.4,2007
4,Minas Gerais,2.7,2008


In [14]:
# Criando outro DataFrame com os mesmos dados anteriores mas adicionando uma nova coluna
# Usando o parâmetro index para personalizar o índice
df2 = DataFrame(dados, 
                columns = ["Estado", "Taxa Desemprego", "Taxa Crescimento", "Ano"],
                index = ["estado1", "estado2", "estado3", "estado4", "estado5"])

In [13]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


`Observação:` __NaN__ significa _Not an Number_ ou seja aponta para um valor ausente (ausência de informação). Esse valor pode ter vindo do próprio dataset ou esses valores podem ter sido gerados durante a manipulação de dados. Por isso é importante manter a atenção durante esse processo.

In [20]:
# Obtendo os valores presentes no dataset
df2.values

array([['Santa Catarina', 1.5, nan, 2004],
       ['Rio de Janeiro', 1.7, nan, 2005],
       ['Tocantins', 1.6, nan, 2006],
       ['Bahia', 2.4, nan, 2007],
       ['Minas Gerais', 2.7, nan, 2008]], dtype=object)

In [22]:
# Obtendo os tipos de dados associados às colunas
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [17]:
# Obtendo as colunas
df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [23]:
# Imprimindo apenas uma coluna do DataFrame
df2["Estado"]

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3         Tocantins
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [24]:
# Imprimindo apenas 2 colunas
df2[["Taxa Desemprego", "Ano"]]

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2004
estado2,1.7,2005
estado3,1.6,2006
estado4,2.4,2007
estado5,2.7,2008


In [25]:
df2.index

Index(['estado1', 'estado2', 'estado3', 'estado4', 'estado5'], dtype='object')

In [26]:
# Filtrando por índice
df2.filter(items = ['estado3'], axis=0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,Tocantins,1.6,,2006
