# AULA 16 - Noções do pacote PANDAS -  parte A
## Algoritmos e Estrutura de Dados I - Prof. Piva
-----------

### Instalação do Pandas
Podemos instalar uma versão específica do Pandas com o seguinte comando:
**!pip install -q pandas==1.5.3**

In [1]:
# Instalação de uma versão exata do pacote Pandas
!pip install pandas==2.2.2

Defaulting to user installation because normal site-packages is not writeable
Collecting pandas==2.2.2
  Using cached pandas-2.2.2-cp311-cp311-win_amd64.whl.metadata (19 kB)
Using cached pandas-2.2.2-cp311-cp311-win_amd64.whl (11.6 MB)
Installing collected packages: pandas
  Attempting uninstall: pandas
    Found existing installation: pandas 1.5.3
    Uninstalling pandas-1.5.3:
      Successfully uninstalled pandas-1.5.3
Successfully installed pandas-2.2.2


In [2]:
# Importação do pacote Pandas para utilização
import pandas as pd

In [3]:
# Verificando a versão do Pandas
pd.__version__

'2.2.2'

### Manipulando dados em DataFrames

In [48]:
# Criando um dicionário
dados = {'Cidade': ['Sorocaba', 'Campinas', 'São Paulo', 'Ribeirão Preto', 'Jundiaí', 'Piracicaba', 'Amparo'],
          'Ano': [2018, 2019, 2020, 2021, 2022, 2023, 2024],
          'Taxa Desemprego': [1.6, 1.8, 1.9, 1.2, 1.0, 2.8, 3.0]}

In [49]:
from pandas import DataFrame

In [50]:
# Converte um dicionário para um DataFrame
df = DataFrame(dados)

In [51]:
# Visualizar as 5  primeiras linhas do DataFrame criado
df.head()

Unnamed: 0,Cidade,Ano,Taxa Desemprego
0,Sorocaba,2018,1.6
1,Campinas,2019,1.8
2,São Paulo,2020,1.9
3,Ribeirão Preto,2021,1.2
4,Jundiaí,2022,1.0


In [52]:
df.tail()

Unnamed: 0,Cidade,Ano,Taxa Desemprego
2,São Paulo,2020,1.9
3,Ribeirão Preto,2021,1.2
4,Jundiaí,2022,1.0
5,Piracicaba,2023,2.8
6,Amparo,2024,3.0


In [53]:
#Verificando o tipo de dados do objeto df
type(df)

pandas.core.frame.DataFrame

In [54]:
# Reorganizando as colunas do DataFrame
DataFrame(dados, columns = ['Cidade', 'Taxa Desemprego', 'Ano'])

Unnamed: 0,Cidade,Taxa Desemprego,Ano
0,Sorocaba,1.6,2018
1,Campinas,1.8,2019
2,São Paulo,1.9,2020
3,Ribeirão Preto,1.2,2021
4,Jundiaí,1.0,2022
5,Piracicaba,2.8,2023
6,Amparo,3.0,2024


In [56]:
#Criando um outro dataframe, com os mesmos dados anteriores, acrescentando uma coluna e mudando o índice.
df2 = DataFrame(dados,
                columns = ['Cidade', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
                index = ['cidade1', 'cidade2', 'cidade3', 'cidade4', 'cidade5', 'cidade6', 'cidade7'])

In [57]:
df2

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,Sorocaba,1.6,,2018
cidade2,Campinas,1.8,,2019
cidade3,São Paulo,1.9,,2020
cidade4,Ribeirão Preto,1.2,,2021
cidade5,Jundiaí,1.0,,2022
cidade6,Piracicaba,2.8,,2023
cidade7,Amparo,3.0,,2024


In [58]:
# Mostrar os valores do DataFrame
df2.values

array([['Sorocaba', 1.6, nan, 2018],
       ['Campinas', 1.8, nan, 2019],
       ['São Paulo', 1.9, nan, 2020],
       ['Ribeirão Preto', 1.2, nan, 2021],
       ['Jundiaí', 1.0, nan, 2022],
       ['Piracicaba', 2.8, nan, 2023],
       ['Amparo', 3.0, nan, 2024]], dtype=object)

In [59]:
# Mostrar os tipos de dados do DataFrame
df2.dtypes

Cidade               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [60]:
# Mostrar as colunas do DataFrame
df2.columns

Index(['Cidade', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [61]:
# Mostrando apenas uma coluna específica do DataFrame
df2['Cidade']
#Atenção: a linguagem Python é case sensitive

cidade1          Sorocaba
cidade2          Campinas
cidade3         São Paulo
cidade4    Ribeirão Preto
cidade5           Jundiaí
cidade6        Piracicaba
cidade7            Amparo
Name: Cidade, dtype: object

In [62]:
# Se quiser mostrar mais de uma coluna, terá que passar os nomes das colunas dentro de uma lista.
# Por exemplo... vamos mostrar as colunas: Cidade e Ano
df2[ ['Cidade', 'Ano']]

Unnamed: 0,Cidade,Ano
cidade1,Sorocaba,2018
cidade2,Campinas,2019
cidade3,São Paulo,2020
cidade4,Ribeirão Preto,2021
cidade5,Jundiaí,2022
cidade6,Piracicaba,2023
cidade7,Amparo,2024


In [63]:
# Para exibir os índices...
df2.index

Index(['cidade1', 'cidade2', 'cidade3', 'cidade4', 'cidade5', 'cidade6',
       'cidade7'],
      dtype='object')

In [64]:
#Filtrando os dados pelo índice
df2.filter(items = ['cidade2'], axis = 0)

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade2,Campinas,1.8,,2019


### Usando Pandas com Numpy para Manipular Dados

In [65]:
df2.head()

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,Sorocaba,1.6,,2018
cidade2,Campinas,1.8,,2019
cidade3,São Paulo,1.9,,2020
cidade4,Ribeirão Preto,1.2,,2021
cidade5,Jundiaí,1.0,,2022


In [66]:
df2.dtypes

Cidade               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [74]:
# Mostrando o resumo estatístico desse DataFrame
df2.describe()
# Atenção: O método describe() faz o resumo estatístico apenas das colunas numéricas

Unnamed: 0,Taxa Desemprego,Ano
count,7.0,7.0
mean,1.9,2021.0
std,0.754983,2.160247
min,1.0,2018.0
25%,1.4,2019.5
50%,1.8,2021.0
75%,2.35,2022.5
max,3.0,2024.0


In [80]:
#Verificando se existem valores NA (not available) no dataFrame
df2.isna()



Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,False,False,True,False
cidade2,False,False,True,False
cidade3,False,False,True,False
cidade4,False,False,True,False
cidade5,False,False,True,False
cidade6,False,False,True,False
cidade7,False,False,True,False


In [81]:
df2.isna().sum()


Cidade              0
Taxa Desemprego     0
Taxa Crescimento    7
Ano                 0
dtype: int64

In [82]:
# Para verificar apenas uma coluna específica...
df2['Taxa Crescimento'].isna()

cidade1    True
cidade2    True
cidade3    True
cidade4    True
cidade5    True
cidade6    True
cidade7    True
Name: Taxa Crescimento, dtype: bool

Vamos utilizar o Numpy para preencher esses valores ausentes.

In [83]:
#Importando o NumPy
import numpy as np

In [94]:
#Usando o NumPy para alimentar uma das colunas do dataFrame
df2['Taxa Crescimento'] = np.arange(7.)

In [95]:
df2

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,Sorocaba,1.6,0.0,2018
cidade2,Campinas,1.8,1.0,2019
cidade3,São Paulo,1.9,2.0,2020
cidade4,Ribeirão Preto,1.2,3.0,2021
cidade5,Jundiaí,1.0,4.0,2022
cidade6,Piracicaba,2.8,5.0,2023
cidade7,Amparo,3.0,6.0,2024


In [96]:
df2['Taxa Crescimento'].isna()

cidade1    False
cidade2    False
cidade3    False
cidade4    False
cidade5    False
cidade6    False
cidade7    False
Name: Taxa Crescimento, dtype: bool

In [99]:
#Resumo estatístico
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,7.0,7.0,7.0
mean,1.9,3.0,2021.0
std,0.754983,2.160247,2.160247
min,1.0,0.0,2018.0
25%,1.4,1.5,2019.5
50%,1.8,3.0,2021.0
75%,2.35,4.5,2022.5
max,3.0,6.0,2024.0


### Fatiamento do DataFrame (slicing)

In [100]:
# Mostrando todo o dataFrame
df2

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,Sorocaba,1.6,0.0,2018
cidade2,Campinas,1.8,1.0,2019
cidade3,São Paulo,1.9,2.0,2020
cidade4,Ribeirão Preto,1.2,3.0,2021
cidade5,Jundiaí,1.0,4.0,2022
cidade6,Piracicaba,2.8,5.0,2023
cidade7,Amparo,3.0,6.0,2024


In [103]:
# Fatiando todas as linhas do índice cidade2 até cidade4
df2['cidade1':'cidade4']
#Atenção: veja que o segundo parâmetro do slice não é exclusivo... ele é incluso no retorno.

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade1,Sorocaba,1.6,0.0,2018
cidade2,Campinas,1.8,1.0,2019
cidade3,São Paulo,1.9,2.0,2020
cidade4,Ribeirão Preto,1.2,3.0,2021


In [105]:
# Fatiamento do DataFrame com todos os dados onde Taxa de Desemprego for < 1.7
df2[ df2['Taxa Desemprego'] > 1.7 ]
# Quando eu utilizo colchetes é por que eu quero fatiar meu dataframe.

Unnamed: 0,Cidade,Taxa Desemprego,Taxa Crescimento,Ano
cidade2,Campinas,1.8,1.0,2019
cidade3,São Paulo,1.9,2.0,2020
cidade6,Piracicaba,2.8,5.0,2023
cidade7,Amparo,3.0,6.0,2024


In [108]:
# Para fatiar por mais de uma coluna, temos que passar as colunas em uma lista python
df2[ ['Taxa Crescimento', 'Taxa Desemprego'] ]

Unnamed: 0,Taxa Crescimento,Taxa Desemprego
cidade1,0.0,1.6
cidade2,1.0,1.8
cidade3,2.0,1.9
cidade4,3.0,1.2
cidade5,4.0,1.0
cidade6,5.0,2.8
cidade7,6.0,3.0
