# AULA 16 - Noções do pacote PANDAS -  parte A
## Algoritmos e Estrutura de Dados I - Prof. Piva
-----------

### Instalação do Pandas
Podemos instalar uma versão específica do Pandas com o seguinte comando:
**!pip install -q pandas==1.5.3**

In [9]:
# Instalação de uma versão exata do pacote Pandas
!pip install -q pandas==2.2.2

In [10]:
# Importação do pacote Pandas para utilização
import pandas as pd

In [11]:
# Verificando a versão do Pandas
pd.__version__

'2.1.4'

### Manipulando dados em DataFrames

In [1]:
# Criando um dicionário
dados = {'Cidade': ['Sorocaba', 'Campinas', 'São Paulo', 'Ribeirão Preto', 'Jundiaí'],
          'Ano': [2018, 2019, 2020, 2021, 2022],
          'Taxa Desemprego': [1.6, 1.8, 1.9, 1.2, 1.0]}

In [2]:
from pandas import DataFrame

In [3]:
# Converte um dicionário para um DataFrame
df = DataFrame(dados)

In [4]:
# Visualizar as 5  primeiras linhas do DataFrame criado
df.head()

Unnamed: 0,Cidade,Ano,Taxa Desemprego
0,Sorocaba,2018,1.6
1,Campinas,2019,1.8
2,São Paulo,2020,1.9
3,Ribeirão Preto,2021,1.2
4,Jundiaí,2022,1.0


In [5]:
# Traz os 5 últimos
df.tail()

Unnamed: 0,Cidade,Ano,Taxa Desemprego
0,Sorocaba,2018,1.6
1,Campinas,2019,1.8
2,São Paulo,2020,1.9
3,Ribeirão Preto,2021,1.2
4,Jundiaí,2022,1.0


In [6]:
#Verificando o tipo de dados do objeto df
type(df)

pandas.core.frame.DataFrame

In [7]:
# Reorganizando as colunas do DataFrame
DataFrame(dados, columns = ['Cidade', 'Taxa Desemprego', 'Ano'])

Unnamed: 0,Cidade,Taxa Desemprego,Ano
0,Sorocaba,1.6,2018
1,Campinas,1.8,2019
2,São Paulo,1.9,2020
3,Ribeirão Preto,1.2,2021
4,Jundiaí,1.0,2022


In [8]:
#Criando um outro dataframe, com os mesmos dados anteriores, acrescentando uma coluna e mudando o índice.
df2 = DataFrame(dados,
                columns = ['Cidade', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
                index = ['cidade1', 'cidade2', 'cidade3', 'cidade4', 'cidade5'])

In [9]:
df2

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,Sorocaba,1.6,,2018
cidade2,Campinas,1.8,,2019
cidade3,São Paulo,1.9,,2020
cidade4,Ribeirão Preto,1.2,,2021
cidade5,Jundiaí,1.0,,2022


In [10]:
# Mostrar os valores do DataFrame - isolar dados 
df2.values

array([['Sorocaba', 1.6, nan, 2018],
       ['Campinas', 1.8, nan, 2019],
       ['São Paulo', 1.9, nan, 2020],
       ['Ribeirão Preto', 1.2, nan, 2021],
       ['Jundiaí', 1.0, nan, 2022]], dtype=object)

In [11]:
# Mostrar os tipos de dados do DataFrame - para o pandas tipos de dados só existe inteiro, float 
df2.dtypes

Cidade               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [12]:
# Mostrar as colunas do DataFrame
df2.columns

Index(['Cidade', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [13]:
# Mostrando apenas uma coluna(série) específica do DataFrame
df2['Cidade']
#Atenção: a linguagem Python é case sensitive - diferencia maiusculo de minusculo (se colocasse 'cidade' minusculo daria erro)

cidade1          Sorocaba
cidade2          Campinas
cidade3         São Paulo
cidade4    Ribeirão Preto
cidade5           Jundiaí
Name: Cidade, dtype: object

In [14]:
# Se quiser mostrar mais de uma coluna, terá que passar os nomes das colunas dentro de uma lista.
# Por exemplo... vamos mostrar as colunas: Cidade e Ano
df2[ ['Cidade', 'Ano']]

Unnamed: 0,Cidade,Ano
cidade1,Sorocaba,2018
cidade2,Campinas,2019
cidade3,São Paulo,2020
cidade4,Ribeirão Preto,2021
cidade5,Jundiaí,2022


In [15]:
# Para exibir os índices...
df2.index

Index(['cidade1', 'cidade2', 'cidade3', 'cidade4', 'cidade5'], dtype='object')

In [16]:
#Filtrando os dados pelo índice
df2.filter(items = ['cidade3'], axis = 0) #axis é o eixo - são as linhas

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade3,São Paulo,1.9,,2020


### Usando Pandas com Numpy para Manipular Dados

In [17]:
df2.head()

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,Sorocaba,1.6,,2018
cidade2,Campinas,1.8,,2019
cidade3,São Paulo,1.9,,2020
cidade4,Ribeirão Preto,1.2,,2021
cidade5,Jundiaí,1.0,,2022


In [18]:
df2.dtypes

Cidade               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [19]:
# Mostrando o resumo estatístico desse DataFrame
df2.describe()
# Atenção: O método describe() faz o resumo estatístico apenas das colunas numéricas

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.5,2020.0
std,0.387298,1.581139
min,1.0,2018.0
25%,1.2,2019.0
50%,1.6,2020.0
75%,1.8,2021.0
max,1.9,2022.0


In [20]:
#Verificando se existem valores NA (not available) no dataFrame
df2.isna()

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,False,False,True,False
cidade2,False,False,True,False
cidade3,False,False,True,False
cidade4,False,False,True,False
cidade5,False,False,True,False


In [22]:
df2.isna().sum() # existem 5 valores nulos 

Cidade              0
Taxa Desemprego     0
Taxa Crescimento    5
Ano                 0
dtype: int64

In [21]:
# Para verificar apenas uma coluna específica...
df2['Taxa Crescimento'].isna()

cidade1    True
cidade2    True
cidade3    True
cidade4    True
cidade5    True
Name: Taxa Crescimento, dtype: bool

Vamos utilizar o Numpy para preencher esses valores ausentes.

In [23]:
#Importando o NumPy
import numpy as np

In [24]:
#Usando o NumPy para alimentar uma das colunas do dataFrame
df2['Taxa Crescimento'] = np.arange(5.) #arranjo de um limite de 0 a 5, onde 5 é a borda e o ponto '.' é para manter casa decimais

In [25]:
df2

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,Sorocaba,1.6,0.0,2018
cidade2,Campinas,1.8,1.0,2019
cidade3,São Paulo,1.9,2.0,2020
cidade4,Ribeirão Preto,1.2,3.0,2021
cidade5,Jundiaí,1.0,4.0,2022


In [26]:
df2['Taxa Crescimento'].isna()

cidade1    False
cidade2    False
cidade3    False
cidade4    False
cidade5    False
Name: Taxa Crescimento, dtype: bool

In [27]:
df2.isna().sum() 

Cidade              0
Taxa Desemprego     0
Taxa Crescimento    0
Ano                 0
dtype: int64

In [28]:
#Resumo estatístico
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.5,2.0,2020.0
std,0.387298,1.581139,1.581139
min,1.0,0.0,2018.0
25%,1.2,1.0,2019.0
50%,1.6,2.0,2020.0
75%,1.8,3.0,2021.0
max,1.9,4.0,2022.0


### Fatiamento do DataFrame (slicing)

In [29]:
# Mostrando todo o dataFrame
df2

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,Sorocaba,1.6,0.0,2018
cidade2,Campinas,1.8,1.0,2019
cidade3,São Paulo,1.9,2.0,2020
cidade4,Ribeirão Preto,1.2,3.0,2021
cidade5,Jundiaí,1.0,4.0,2022


In [30]:
# Fatiando todas as linhas do índice cidade2 até cidade4
df2['cidade2':'cidade4']
#Atenção: veja que o segundo parâmetro do slice não é exclusivo... ele é incluso no retorno.

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade2,Campinas,1.8,1.0,2019
cidade3,São Paulo,1.9,2.0,2020
cidade4,Ribeirão Preto,1.2,3.0,2021


In [31]:
# Fatiamento do DataFrame com todos os dados onde Taxa de Desemprego for < 1.7
df2[ df2['Taxa Desemprego'] < 1.7 ]
# Quando eu utilizo colchetes é por que eu quero fatiar meu dataframe.

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,Sorocaba,1.6,0.0,2018
cidade4,Ribeirão Preto,1.2,3.0,2021
cidade5,Jundiaí,1.0,4.0,2022


In [32]:
# Para fatiar por mais de uma coluna, temos que passar as colunas em uma lista python
df2[ ['Taxa Crescimento', 'Taxa Desemprego'] ]

Unnamed: 0,Taxa Crescimento,Taxa Desemprego
cidade1,0.0,1.6
cidade2,1.0,1.8
cidade3,2.0,1.9
cidade4,3.0,1.2
cidade5,4.0,1.0
