# Parte 1 - O que é uma biblioteca


Ao longo do documento, há diversas saídas ocultas, ou seja, que estão sendo omitidas por ocupar muito espaço. Clicar no ícone ao lado da saída oculta dá a opção de vê-la.

**IMPORTANTE - Durante a prova, o passo de importar as bibliotecas é sempre o mesmo. Antes de executar qualquer comando no documento, é preciso rodar esse código. Durante a prova, é apenas necessário copiar os quatro comandos de import.**

In [None]:
# Uma biblioteca é uma extensão de funções e métodos para o python. Algumas bibliotecas necessitam de instalação antes do uso, como o próprio pandas e o matplotlib.
# O pandas é uma biblioteca de visualização, preparação e gerenciamento de dados. Com ele, também é necessário instalar o numpy.

# Abaixo, estamos importando as bibliotecas numpy e pandas. Esse bloco de código deve ser sempre rodado antes de utilizar essas bibliotecas.
# Então, o "import" seguido do nome da biblioteca importa toda sua funcionalidade. A palavra "as" e as abreviações conseguintes utilizadas são para facilitar o acesso às bibliotecas.
import numpy as np
import pandas as pd

# A outra bilioteca que utilizaremos, a matplotlib, é uma extensão para o numpy que permite a modificação de gráficos e outras coisas.
# O matplotlib.pyplot é uma extensão da matplotlib
import matplotlib as mp
import matplotlib.pyplot as plt

# Parte 2 - Criando um dataframe

---



In [None]:
# Primeiramente, o que é um dataframe?
# Os dataframes são a base do pandas. Eles são basicamente uma tabela, contendo linhas e colunas, e podem ser armazenados em uma variável.

# Para criar um dataframe, é preciso de um arquivo com a extensão ".csv", que será utilizado em conjunto com a função "pd.read_csv()"
df = pd.read_csv("https://github.com/danieltb3006/DM_Ibmec/raw/main/notas_alunos_Ibmec.csv")

# Acima, um dataframe está sendo criado a partir do link de download de um arquivo .csv

# Agora, vou apenas digitar "df" (O nome da variável criada contendo o dataframe) e rodar o código para exibir ele no terminal
df

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe3 in position 168: invalid continuation byte

In [None]:
# Como é possível observar, aconteceu um erro de decodificação, chamado "UnicodeDecodeError"
# Sempre que esse for o caso, um outro atributo deverá ser colocado na criação do dataframe: o "encoding="

df = pd.read_csv("https://github.com/danieltb3006/DM_Ibmec/raw/main/notas_alunos_Ibmec.csv", encoding="ISO-8859-1") # -> ISO-8859-1 é o mesmo que "latin1"
# O atributo inserido, ISO-8859-1, é o teclado Latin1, que resolverá esse problema de decodificação.

# Agora, vamos tentar visualizar o dataframe digitando o nome da variável novamente e rodando o código
df

Unnamed: 0,Curso;Alunos;AP1;AP2;Ap3
0,Adm;Joao;4.5;5;6
1,Dir;Pedro;7.9;9;7
2,Eco;Ana Maria;2;3;5
3,RI;Paulo;10;8.8;9
4,Adm;Maria;3;7;9
5,Adm;Priscila;8;6.5;4
6,Adm;Manoel;5;8;9.5
7,Dir;João Paulo;1;3;5
8,Eco;Ana Paula;4.5;3;7.5
9,RI;Joana;7;8;8


In [None]:
# Como é possível observar, a tabela continua estranha, já que parece haver apenas uma coluna com todos os nomes do que deveriam ser colunas separadas.
# Para separar todos esses dados em colunas diferentes, utilizaremos o atributo "sep=", no qual colocaremos o caracter que separa as colunas (nesse caso, o ";")

df = pd.read_csv("https://github.com/danieltb3006/DM_Ibmec/raw/main/notas_alunos_Ibmec.csv", sep=";", encoding="ISO-8859-1")

# Agora, finalmente, nosso dataframe está 100% correto. Vamos visualizá-lo.
df

Unnamed: 0,Curso,Alunos,AP1,AP2,Ap3
0,Adm,Joao,4.5,5.0,6.0
1,Dir,Pedro,7.9,9.0,7.0
2,Eco,Ana Maria,2.0,3.0,5.0
3,RI,Paulo,10.0,8.8,9.0
4,Adm,Maria,3.0,7.0,9.0
5,Adm,Priscila,8.0,6.5,4.0
6,Adm,Manoel,5.0,8.0,9.5
7,Dir,João Paulo,1.0,3.0,5.0
8,Eco,Ana Paula,4.5,3.0,7.5
9,RI,Joana,7.0,8.0,8.0


In [None]:
# Também há como trazer arquivos do próprio google drive para se tornarem dataframes
# Para isso, primeiro devemos conectar o google drive com o código através de um import

from google.colab import drive
# Abaixo, estamos permitindo que o colab acesse o google drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Para criar o dataframe dessa forma, precisaremos usar o "read_csv()" novamente, mas agora, colocar o caminho da pasta no drive
# Para pegar esse caminho, abra aqui mesmo, no colab, os arquivos na barra de pesquisa à esquerda da tela.
# Lá, haverá a pasta "drive". Entre nela e verá todos os arquivos e pastas que você possui no seu drive. (A pasta drive só aparecerá depois de rodar o código acima)
# Quando encontrar o arquivo .csv desejado, clique com o botão direito nele e depois em "Copiar caminho"

df_teste = pd.read_csv("/content/drive/MyDrive/aulas_ibmec/Pandas/notas_alunos_Ibmec.csv", sep=";")

# Acima, só foi necessário colar o caminho copiado ao invés do link do download

In [None]:
df_teste # -> Ficou igual ao outro método

Unnamed: 0,Curso,Alunos,AP1,AP2,Ap3
0,Adm,Joao,4.5,5.0,6.0
1,Dir,Pedro,7.9,9.0,7.0
2,Eco,Ana Maria,2.0,3.0,5.0
3,RI,Paulo,10.0,8.8,9.0
4,Adm,Maria,3.0,7.0,9.0
5,Adm,Priscila,8.0,6.5,4.0
6,Adm,Manoel,5.0,8.0,9.5
7,Dir,João Paulo,1.0,3.0,5.0
8,Eco,Ana Paula,4.5,3.0,7.5
9,RI,Joana,7.0,8.0,8.0


# Parte 3 - Visualizando um dataframe

In [96]:
# Como é possível observar, as tabelas criadas acima estão sendo inteiramente impressas. Isso fornece informações demais, então, caso queira apenas checar a tabela rapidamente, pode usar 2 métodos.
# Caso queira ver as linhas da parte superior, use .head()
# Se for utilizado sem colocar nada entre os parênteses, mostrará 5 linhas por padrão. Colocar um número dentro altera o número de linhas mostradas.

df.head() # -> As cinco primeiras linhas da tabela sendo exibidas

Unnamed: 0,Curso,Alunos,AP1,AP2,Ap3
0,Adm,Joao,4.5,5.0,6.0
1,Dir,Pedro,7.9,9.0,7.0
2,Eco,Ana Maria,2.0,3.0,5.0
3,RI,Paulo,10.0,8.8,9.0
4,Adm,Maria,3.0,7.0,9.0


In [97]:
# Mas se quiser ver as linhas da parte inferior, use .tail()
# Este método também tem por padrão a impressão de 5 linhas.

df.tail() # -> As cinco últimas linhas da tabela sendo exibidas

Unnamed: 0,Curso,Alunos,AP1,AP2,Ap3
36,Adm,João Pedro,5.9,4.0,5.3
37,Adm,Bruna,2.6,3.0,7.5
38,Adm,Renato,9.0,9.0,8.4
39,Dir,Raisa,4.0,7.0,9.8
40,Eco,Gabriela,9.0,4.0,9.0


In [None]:
# Se o dataframe for grande demais, será difícil contar o número de linhas e colunas a dedo. Para isso, utilizamos o método ".shape"
# Esse método vai exibir o número de linhas e colunas na seguinte formatação: (linhas, colunas)

df.shape

(41, 5)

In [None]:
# Também podemos exibir o nome de todas as colunas com o método ".columns"

df.columns

Index(['Curso', 'Alunos', 'AP1', 'AP2', 'Ap3'], dtype='object')

In [None]:
# Também é possível que todas as colunas sejam impressas de outra forma, de forma que também revela os tipos de dados de cada coluna e quantos valores estão inseridos em cada uma
# Para isso, utilizamos o .info()

df.info()

# Os tipos de dados (Dtype), no geral, são 3:
# float64 -> Um número decimal, chamado apenas de "float" no python primitivo
# int64 -> Um número inteiro, chamado apenas de "int" no python primitivo
# object -> Um objeto, que geralmente é um texto, ou seja, uma "string"

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Curso   41 non-null     object 
 1   Alunos  41 non-null     object 
 2   AP1     41 non-null     float64
 3   AP2     41 non-null     float64
 4   Ap3     41 non-null     float64
dtypes: float64(3), object(2)
memory usage: 1.7+ KB


In [None]:
# É possível acessar apenas os valores de uma única coluna, inserindo, após a variável do dataframe, colchetes com o nome da coluna dentro
# IMPORTANTE - O python é sensível à letras maiúsculas e minúsculas. O nome da coluna deverá estar exatamente igual para o comando funcionar, incluíndo CAPS e acentos

df["Alunos"].head() # -> Acessando a coluna alunos e utilizando o .head() para imprimir apenas os primeiros 5, para checar se está funcionando o comando

Unnamed: 0,Alunos
0,Joao
1,Pedro
2,Ana Maria
3,Paulo
4,Maria


In [None]:
# Durante as ACs, o professor, às vezes, usou outro método para acessar as colunas. Para isso, ao invés dos colchetes, ele utiliza ".{Nome da Coluna}"
# Eu prefiro o método que mostrei acima, porém, demonstrarei aqui como é:

df.Alunos.head() # -> Também imprime os 5 primeiros alunos, assim como o comando de cima

Unnamed: 0,Alunos
0,Joao
1,Pedro
2,Ana Maria
3,Paulo
4,Maria


In [None]:
# Também é possível acessar múltiplas colunas inserindo uma lista de nomes de colunas

df[["Alunos", "AP1"]].head()
# IMPORTANTE - Note que tem 2 colchetes sendo abertos. O valor passado não são apenas duas colunas, mas uma LISTA com o nome das duas colunas
# Utilizei o .head() para checar apenas as primeiras 5 linhas e ver se o comando foi executado de forma correta

Unnamed: 0,Alunos,AP1
0,Joao,4.5
1,Pedro,7.9
2,Ana Maria,2.0
3,Paulo,10.0
4,Maria,3.0


In [99]:
# Já para acessar uma linha, podemos utilizar "loc"
# Quando utilizamos o loc, podemos pegar apenas uma ou mais linhas ou, alternativamente, uma ou mais linhas e colunas

df.loc[0]
# O método acima pega apenas a primeira linha de toda tabela

Unnamed: 0,0
Curso,Adm
Alunos,Joao
AP1,4.5
AP2,5.0
Ap3,6.0


In [103]:
# Para pegar linhas e colunas, seguimos essa fórmula:
# {Nome dataframe}.loc[[Linha, Linha...], ["Coluna", "Colunas"...]]
# Exemplo abaixo

df.loc[0:2, "Alunos":"AP2"] # -> Intervalos podem ser escritos também, contanto que estejam fora de parênteses. 0:2, por exemplo, significa da linha 0 até a 2.
# Pegando o nome e as duas primeiras notas dos três primeiros alunos da tabela

Unnamed: 0,Alunos,AP1,AP2
0,Joao,4.5,5.0
1,Pedro,7.9,9.0
2,Ana Maria,2.0,3.0


In [None]:
# Outro possível uso do "loc" é acessando a coluna do lado de fora e a linha dentro
df["Alunos"].loc[0]

'Joao'

In [107]:
# Podemos utilizar o método .value_counts() para contar quantas ocorrências possui um valor na coluna

df["AP1"].value_counts().head()
# O comando acima mostra quantos alunos tiraram cada nota. Utilizei o .head() para simplificar a impressão

Unnamed: 0_level_0,count
AP1,Unnamed: 1_level_1
10.0,4
7.0,3
2.0,3
8.0,3
9.0,3


In [109]:
# Por fim, é importante citar os métodos .isnull(), .fillna() e .dropna()
# O método .isnull() retorna se a tabela possui alguma coluna com valores nulos

df.isnull().head()

Unnamed: 0,Curso,Alunos,AP1,AP2,Ap3
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False


In [None]:
# Como é possível ver, é ruim visualizar esses dados dessa forma. Por isso, utilizamos o .sum() para visualizar de forma melhor quantos valores nulos possuimos
df.isnull().sum()
# Essa tabela não possui valores nulos.

Unnamed: 0,0
Curso,0
Alunos,0
AP1,0
AP2,0
Ap3,0


In [None]:
# Caso possuísse, tem uma forma simples de trocá-los por um valor válido. É necessário utilizar o .fillna() para isso.

df.fillna(0).head(2) # -> Isso exibiria todos os valores nulos da tabela alterados pelo valor entre os parênteses, no caso, 0
# Fazer isso não alteraria a tabela em si, apenas exibiria os valores dessa forma. Para de fato alterar esse valores nulos, você poderia fazer o seguinte:

df = df.fillna(0)
# Com isso, você estaria sobrepondo a tabela original pela tabela com os valores nulos trocados pelo 0

In [None]:
# Para finalizar, temos o .dropna(). Esse método é utilizado caso, ao invés de trocar os valores nulos por um valor válido, você queira apenas ignorar as linhas que os possuem.
# Caso o .dropna() seja aplicado na impressão de um dataframe que possui linhas com valores nulos, essas linhas serão excluídas da impressão.

df.dropna()

Unnamed: 0,Curso,Alunos,AP1,AP2,Ap3
0,Adm,Joao,4.5,5.0,6.0
1,Dir,Pedro,7.9,9.0,7.0
2,Eco,Ana Maria,2.0,3.0,5.0
3,RI,Paulo,10.0,8.8,9.0
4,Adm,Maria,3.0,7.0,9.0
5,Adm,Priscila,8.0,6.5,4.0
6,Adm,Manoel,5.0,8.0,9.5
7,Dir,João Paulo,1.0,3.0,5.0
8,Eco,Ana Paula,4.5,3.0,7.5
9,RI,Joana,7.0,8.0,8.0


# Parte 4 - Filtragem de dados

In [None]:
# Há formas diferentes de filtrar informações e dataframes em pandas
# Dentre elas, temos os métodos .where() para filtrar dados, .filter() para filtrar colunas de dataframes e .groupby() para
# Organizar diferentes colunas, transformando colunas em índices (linhas) que servirão para agrupar valores

# O .filter() será abordado na Parte 5, na qual faremos a preparação de um dataframe que não está pronto para uso

In [111]:
# Começando pelo .where(), esse é um método para fazer queries, que são basicamente a filtragem de dados por certas condições
# Podemos, por exemplo, utilizar o .where() para visualizar apenas as linhas que contém alunos de administração

df.where(df["Curso"] == "Adm").dropna() # -> O .dropna() aqui é essencial, pois ele tira os valores nulos, que não se encaixam no teste da query

Unnamed: 0,Curso,Alunos,AP1,AP2,Ap3
0,Adm,Joao,4.5,5.0,6.0
4,Adm,Maria,3.0,7.0,9.0
5,Adm,Priscila,8.0,6.5,4.0
6,Adm,Manoel,5.0,8.0,9.5
13,Adm,Karen,8.0,7.0,6.0
14,Adm,Leonardo,1.0,8.0,10.0
15,Adm,Sofia,2.0,6.0,9.0
22,Adm,Emerson,6.0,9.0,4.0
23,Adm,Patrick,9.0,7.0,6.0
24,Adm,Bianca,8.0,9.0,10.0


In [None]:
# Outro exemplo de aplicação do .where() é visualizar apenas as pessoas que chamam "Maria"

df.where(df["Alunos"] == "Maria").dropna()

Unnamed: 0,Curso,Alunos,AP1,AP2,Ap3
4,Adm,Maria,3.0,7.0,9.0


In [113]:
# É possível fazer um teste com uma query em um valor de uma coluna e procurar por um valor de outra coluna
# Para isso, depois do parênteses com o teste, é necessário colocar entre colchetes a coluna desejada

df.where(df["Curso"] == "Eco")["AP1"].dropna()
# A query acima mostra a nota da AP1 para todos os alunos que estão no curso de economia

Unnamed: 0,AP1
2,2.0
8,4.5
10,2.9
11,10.0
17,10.0
20,3.5
26,2.6
31,3.5
33,6.9
34,8.8


In [119]:
# Agora, queremos que os alunos de ADM sejam mostrado em ordem decrescente, começando pelo aluno com maior nota na prova 2 e indo até o aluno com menor nota nessa mesma prova
# Para isso, usaremos a função .sort_values(), que possui os atributos "by=" e "ascending="
df.where(df["Curso"] == "Adm").dropna().sort_values(by="AP2", ascending=False)

Unnamed: 0,Curso,Alunos,AP1,AP2,Ap3
22,Adm,Emerson,6.0,9.0,4.0
24,Adm,Bianca,8.0,9.0,10.0
38,Adm,Renato,9.0,9.0,8.4
6,Adm,Manoel,5.0,8.0,9.5
14,Adm,Leonardo,1.0,8.0,10.0
29,Adm,Joao Paulo,5.0,8.0,6.0
4,Adm,Maria,3.0,7.0,9.0
13,Adm,Karen,8.0,7.0,6.0
23,Adm,Patrick,9.0,7.0,6.0
5,Adm,Priscila,8.0,6.5,4.0


In [None]:
# Agora, abordaremos o método .groupby() que, como citado acima, serve para agrupar diferentes colunas em um dataframe, transformando uma ou mais colunas em índices (linhas)
# Esse agrupamento pega todos os valores das colunas que estão sendo medidas e agrupa-as dependendo do valor que cada linha possui em uma coluna específica.
# Por exemplo, caso eu queira ver as médias das notas na prova 2 por curso, estou juntado as linhas que possuem o mesmo valor na coluna "Curso", pois quero saber a média baseada nisso

# Agora utilizaremos o groupby para ver as médias das notas na prova 2 por curso (Agrupando curso e AP2)

df.groupby("Curso")["AP2"].mean() # -> Transformando a coluna "Curso" em índice, ou seja, em linhas, agrupando todas as notas e fazendo sua média com .mean()

Unnamed: 0_level_0,AP2
Curso,Unnamed: 1_level_1
Adm,6.892857
Dir,7.25
Eco,6.072727
RI,6.53


# Parte 5 - Preparando um dataframe

In [None]:
# Alguns arquivos .csv, contendo dados, podem vir de forma que não podem ser utilizados para análises profundas de dados por agruparem aspectos que são mais desejáveis separados
# Por exemplo, ao invés de dividir uma territorialidade entre cidade e unidade federal, apenas coloca ambos valores em uma mesma coluna
# Alternativamente, esses arquivos também podem ter números que utilizam o vírgula ao invés do ponto para indicar casas decimais
# Em Python, é necessário que números decimais (float) devem ser separados por ponto, e não por vírgula

# Para resolver o problema dos números decimais, é simples. Demonstrarei um novo atributo da função pd.read_csv() no csv abaixo, tirado do simulado
# O novo atributo que será utilizado é o "decimal=", que especifíca qual é o caracter que está sendo utilizado para representar decimais (no caso do português, o vírgula)

dataframe = pd.read_csv("https://github.com/marcelovc785/AP2_PML_8001/raw/main/IDSC_BR_AP2_E01d2G01.csv", sep=";", encoding="latin1")

# No atributo "encoding=", utilizei o latin1, que é a mesma coisa que o ISO-8859-1
# Acima, não utilizei o "decimal=", possibilitando vermos que, no dataframe, as colunas com valores decimais estão separadas por vírgula
dataframe.head()

Unnamed: 0,id,Territorialidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5
0,5200050.0,;Abadia de Goiás;GO;CO;,19128.0,4806,2226.0,4239,6457,3367,4863,2109.0,4436,3952,3367
1,3100104.0,;Abadia dos Dourados;MG;SE;,6272.0,4565,3143.0,5121,6508,1616,4684,2688.0,5363,6953,1616
2,5200100.0,;Abadiânia;GO;CO;,17228.0,4936,1773.0,4483,7623,2780,5011,1648.0,4371,6024,2780
3,3100203.0,;Abaeté;MG;SE;,22675.0,5273,899.0,4713,7796,1508,4959,1801.0,4760,5721,1508
4,1500107.0,;Abaetetuba;PA;N;,158188.0,3792,5293.0,3808,7162,2020,3811,5215.0,3764,5652,2020


In [None]:
# Analisando o tipo de dados desse dataframe sem "decimal=", podemos observar que essas colunas que deveriam ser "float64" são "object", ou seja, textos

dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   id                         5570 non-null   float64
 1   Territorialidade           5570 non-null   object 
 2   População_Ref              5570 non-null   float64
 3   Pontuação Indice ODS 2022  5570 non-null   object 
 4   Classificação 2022         5570 non-null   float64
 5   2022 ODS 1                 5570 non-null   object 
 6   2022 ODS 3                 5570 non-null   object 
 7   2022 ODS 5                 5570 non-null   object 
 8   Pontuação Indice ODS 2019  5570 non-null   object 
 9   Classificação 2019         5570 non-null   float64
 10  2019 ODS 1                 5570 non-null   object 
 11  2019 ODS 3                 5570 non-null   object 
 12  2019 ODS 5                 5570 non-null   object 
dtypes: float64(4), object(9)
memory usage: 566.0+ KB

In [None]:
dataframe = pd.read_csv("https://github.com/marcelovc785/AP2_PML_8001/raw/main/IDSC_BR_AP2_E01d2G01.csv", sep=";", encoding="latin1", decimal=",").dropna() # -> .dropna() retirando nulos

dataframe.head()
# Agora, adicionando o atributo "decimal=", as vírgulas foram substituídas por pontos

Unnamed: 0,id,Territorialidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5
0,5200050.0,;Abadia de Goiás;GO;CO;,19128.0,48.06,2226.0,42.39,64.57,33.67,48.63,2109.0,44.36,39.52,33.67
1,3100104.0,;Abadia dos Dourados;MG;SE;,6272.0,45.65,3143.0,51.21,65.08,16.16,46.84,2688.0,53.63,69.53,16.16
2,5200100.0,;Abadiânia;GO;CO;,17228.0,49.36,1773.0,44.83,76.23,27.8,50.11,1648.0,43.71,60.24,27.8
3,3100203.0,;Abaeté;MG;SE;,22675.0,52.73,899.0,47.13,77.96,15.08,49.59,1801.0,47.6,57.21,15.08
4,1500107.0,;Abaetetuba;PA;N;,158188.0,37.92,5293.0,38.08,71.62,20.2,38.11,5215.0,37.64,56.52,20.2


In [None]:
# Além disso, utilizando novamente o .info() para analisar os tipos de dados, podemos observar que os dados que antes eram "object" agora são "float64"

dataframe.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5570 entries, 0 to 5569
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   id                         5570 non-null   float64
 1   Territorialidade           5570 non-null   object 
 2   População_Ref              5570 non-null   float64
 3   Pontuação Indice ODS 2022  5570 non-null   float64
 4   Classificação 2022         5570 non-null   float64
 5   2022 ODS 1                 5570 non-null   float64
 6   2022 ODS 3                 5570 non-null   float64
 7   2022 ODS 5                 5570 non-null   float64
 8   Pontuação Indice ODS 2019  5570 non-null   float64
 9   Classificação 2019         5570 non-null   float64
 10  2019 ODS 1                 5570 non-null   float64
 11  2019 ODS 3                 5570 non-null   float64
 12  2019 ODS 5                 5570 non-null   float64
dtypes: float64(12), object(1)
memory usage: 609.2+ KB


In [None]:
# Para o próximo passo, é necessário explicar alguns métodos: o .str.split() e o .str.strip()

# O método .str.split() basicamente separa um texto por um caracter específico, gerando uma lista com essa separação
# Contudo, com o atributo "expand=True", ao invés de gerar uma lista, são geradas diferentes colunas. Ou seja, com isso, é possível dividir uma coluna em três rapidamente

exemplo = dataframe.loc[0:1, "Territorialidade"] # -> Essa linha de código está salvando, na variável exemplo, os valores ";Abadia de Goiás;GO;CO;" e ";Abadia dos Dourados;MG;SE;"
exemplo.str.split(";", expand=True)

# Como é possível observar no resultado, por eu ter utilizado o expand=True, os valores foram divididos em colunas diferentes e inseridos na variável exemplo
# Contudo, pode ser difícil perceber, mas abaixo há 5 valores:
# " ", "Abadia de Goiás", "GO", "CO" e " " -> ou seja, tem dois espaços vazios. Por quê? -> Resposta: os pontos e vírgulas no começo e fim

Unnamed: 0,0,1,2,3,4
0,,Abadia de Goiás,GO,CO,
1,,Abadia dos Dourados,MG,SE,


In [None]:
# Para conseguir separar esses dados em três colunas diferentes, precisamos que apenas três colunas apareçam. Por isso, tiraremos os ; do começo e fim através do .str.strip()
# Para isso é só utilizarmos o mesmo comando mas adicionando o .str.strip() no fim e especificando o ";"

dataframe["Territorialidade"] = dataframe["Territorialidade"].str.strip(";") # -> Nessa linha, substituímos toda a coluna por ela mesma, porém, sem o ponto e vírgula inicial e final
dataframe.head() # -> Como é possível observar, agora, todos os valores da coluna "Territorialidade" perderam o ";" no começo e fim.

Unnamed: 0,id,Territorialidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5
0,5200050.0,Abadia de Goiás;GO;CO,19128.0,48.06,2226.0,42.39,64.57,33.67,48.63,2109.0,44.36,39.52,33.67
1,3100104.0,Abadia dos Dourados;MG;SE,6272.0,45.65,3143.0,51.21,65.08,16.16,46.84,2688.0,53.63,69.53,16.16
2,5200100.0,Abadiânia;GO;CO,17228.0,49.36,1773.0,44.83,76.23,27.8,50.11,1648.0,43.71,60.24,27.8
3,3100203.0,Abaeté;MG;SE,22675.0,52.73,899.0,47.13,77.96,15.08,49.59,1801.0,47.6,57.21,15.08
4,1500107.0,Abaetetuba;PA;N,158188.0,37.92,5293.0,38.08,71.62,20.2,38.11,5215.0,37.64,56.52,20.2


In [None]:
# Com isso, finalmente podemos dividir essa coluna em três outras colunas
# Então iremos separar a coluna "Territorialidade" em "Região", "UF" e "Cidade", já que esses valores agrupados limitam as análises

# Para fazer isso, primeiro, é necessário criar três novas colunas, como faço abaixo.
# Os valores atribuídos a essas colunas serão basicamente o valor de territorialidade dividido em partes através do método .str.split(), utilizando expand
dataframe["Região"] = dataframe["Territorialidade"].str.split(";", expand=True)[2]
dataframe["UF"] = dataframe["Territorialidade"].str.split(";", expand=True)[1]
dataframe["Cidade"] = dataframe["Territorialidade"].str.split(";", expand=True)[0]

# Os indicadores [0], [1] e [2] referem-se à qual coluna está o valor desejado.
# Como o valor original na coluna Territorialidade tinha a ordem "Cidade, Estado, Região", devemos espeficiar que a cidade está no índice 0, a UF no 1 e a região no 2

dataframe.head()
# Pronto, agora, no fim da tabela, à direita, foram criadas as colunas que necessitávamos

Unnamed: 0,id,Territorialidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Região,UF,Cidade
0,5200050.0,Abadia de Goiás;GO;CO,19128.0,48.06,2226.0,42.39,64.57,33.67,48.63,2109.0,44.36,39.52,33.67,CO,GO,Abadia de Goiás
1,3100104.0,Abadia dos Dourados;MG;SE,6272.0,45.65,3143.0,51.21,65.08,16.16,46.84,2688.0,53.63,69.53,16.16,SE,MG,Abadia dos Dourados
2,5200100.0,Abadiânia;GO;CO,17228.0,49.36,1773.0,44.83,76.23,27.8,50.11,1648.0,43.71,60.24,27.8,CO,GO,Abadiânia
3,3100203.0,Abaeté;MG;SE,22675.0,52.73,899.0,47.13,77.96,15.08,49.59,1801.0,47.6,57.21,15.08,SE,MG,Abaeté
4,1500107.0,Abaetetuba;PA;N,158188.0,37.92,5293.0,38.08,71.62,20.2,38.11,5215.0,37.64,56.52,20.2,N,PA,Abaetetuba


In [None]:
# Para terminar o preparo dessa tabela, utilizaremos o método .filter(), com o atributo "items=", que nos permite reorganizar a ordem das colunas e ignorar colunas
# Abaixo, usarei o método .columns para ver o nome de todas as colunas

dataframe.columns

Index(['id', 'Territorialidade', 'População_Ref', 'Pontuação Indice ODS 2022',
       'Classificação 2022', '2022 ODS 1', '2022 ODS 3', '2022 ODS 5',
       'Pontuação Indice ODS 2019', 'Classificação 2019', '2019 ODS 1',
       '2019 ODS 3', '2019 ODS 5', 'Região', 'UF', 'Cidade'],
      dtype='object')

In [None]:
# Em breve análise, conclui que "Territorialidade" não é mais necessário pois será substituído, e o "id" é inútil. por isso, não os inserirei no filtro
# Vou criar uma nova variável para adicionar o dataframe filtrado. É necessário colocar em ordem as colunas desejadas

dataframe_preparado = dataframe.filter(items=['Região', 'UF', 'Cidade', 'População_Ref', 'Pontuação Indice ODS 2022',
                                              'Classificação 2022', '2022 ODS 1', '2022 ODS 3', '2022 ODS 5',
                                              'Pontuação Indice ODS 2019', 'Classificação 2019', '2019 ODS 1',
                                              '2019 ODS 3', '2019 ODS 5'])

# Depois de inserir Região, UF e Cidade no começo da tabela, apenas copiei e colei as colunas da impressão acima, tirando o "id" e "Territorialidade"

In [None]:
# E então, finalizamos a preparação. Vamos visualizá-lo:

dataframe_preparado

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5
0,CO,GO,Abadia de Goiás,19128.0,48.06,2226.0,42.39,64.57,33.67,48.63,2109.0,44.36,39.52,33.67
1,SE,MG,Abadia dos Dourados,6272.0,45.65,3143.0,51.21,65.08,16.16,46.84,2688.0,53.63,69.53,16.16
2,CO,GO,Abadiânia,17228.0,49.36,1773.0,44.83,76.23,27.80,50.11,1648.0,43.71,60.24,27.80
3,SE,MG,Abaeté,22675.0,52.73,899.0,47.13,77.96,15.08,49.59,1801.0,47.60,57.21,15.08
4,N,PA,Abaetetuba,158188.0,37.92,5293.0,38.08,71.62,20.20,38.11,5215.0,37.64,56.52,20.20
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5565,NE,BA,Xique-Xique,44757.0,43.94,3754.0,21.91,73.14,34.99,40.12,4786.0,18.01,52.20,34.99
5566,NE,PB,Zabelê,2228.0,45.14,3331.0,46.92,84.31,1.04,44.97,3312.0,48.34,65.88,1.04
5567,SE,SP,Zacarias,2692.0,57.54,214.0,60.64,80.32,15.94,53.09,1009.0,59.96,69.56,15.94
5568,NE,MA,Zé Doca,40801.0,38.86,5161.0,36.28,62.28,20.90,35.90,5434.0,28.97,46.85,20.90


In [None]:
# Vamos checar se realmente os tipos de dados estão corretos

dataframe_preparado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5570 entries, 0 to 5569
Data columns (total 14 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Região                     5570 non-null   object 
 1   UF                         5570 non-null   object 
 2   Cidade                     5570 non-null   object 
 3   População_Ref              5570 non-null   float64
 4   Pontuação Indice ODS 2022  5570 non-null   float64
 5   Classificação 2022         5570 non-null   float64
 6   2022 ODS 1                 5570 non-null   float64
 7   2022 ODS 3                 5570 non-null   float64
 8   2022 ODS 5                 5570 non-null   float64
 9   Pontuação Indice ODS 2019  5570 non-null   float64
 10  Classificação 2019         5570 non-null   float64
 11  2019 ODS 1                 5570 non-null   float64
 12  2019 ODS 3                 5570 non-null   float64
 13  2019 ODS 5                 5570 non-null   float64
dt

In [None]:
# Tudo certo!

# Parte 6 - Queries avançadas (IMPORTANTE)

**No simulado e nas ACS 08, 09 e 10 é uma das coisas mais importantes. Basicamente, é a união do .loc com .where para encontrar valores que cumpram características muito específicas**

In [None]:
dataframe_preparado.head()

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5
0,CO,GO,Abadia de Goiás,19128.0,48.06,2226.0,42.39,64.57,33.67,48.63,2109.0,44.36,39.52,33.67
1,SE,MG,Abadia dos Dourados,6272.0,45.65,3143.0,51.21,65.08,16.16,46.84,2688.0,53.63,69.53,16.16
2,CO,GO,Abadiânia,17228.0,49.36,1773.0,44.83,76.23,27.8,50.11,1648.0,43.71,60.24,27.8
3,SE,MG,Abaeté,22675.0,52.73,899.0,47.13,77.96,15.08,49.59,1801.0,47.6,57.21,15.08
4,N,PA,Abaetetuba,158188.0,37.92,5293.0,38.08,71.62,20.2,38.11,5215.0,37.64,56.52,20.2


In [120]:
# Nesse caso, utilizaremos o dataframe preparado na parte 5 para mostrar alguns exemplos e demonstrar essa prática

# Exemplo 1
# Nesse exemplo, iremos descobrir qual cidade do estado Bahia teve a maior taxa de crescimento na coluna ODS 3 entre 2019 e 2022

# Primeiro, precisaremos criar uma nova coluna que calcule essa taxa de crescimento, utilizando a seguinte fórmula:
# Taxa = (ODS3_2022 - ODS3_2019) / ODS3_2019 -> Subtração do mais recente pelo mais antigo dividido pelo mais antigo

df_novo = dataframe_preparado # -> Mudando o nome da variável com o dataframe para simplificar o código (nome era muito grande)

df_novo["Taxa crescimento ODS3"] = (df_novo["2022 ODS 3"] - df_novo["2019 ODS 3"]) / df_novo["2019 ODS 3"]
# É importante lembrar do parênteses na subtração, essa operação deve ocorrer antes da divisão

# Agora vamos visualizar se a criação da nova coluna funcionou
df_novo.head()

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Taxa crescimento ODS3,Taxa crescimento ODS1
0,CO,GO,Abadia de Goiás,19128.0,48.06,2226.0,42.39,64.57,33.67,48.63,2109.0,44.36,39.52,33.67,0.633856,-0.044409
1,SE,MG,Abadia dos Dourados,6272.0,45.65,3143.0,51.21,65.08,16.16,46.84,2688.0,53.63,69.53,16.16,-0.064001,-0.045124
2,CO,GO,Abadiânia,17228.0,49.36,1773.0,44.83,76.23,27.8,50.11,1648.0,43.71,60.24,27.8,0.265438,0.025623
3,SE,MG,Abaeté,22675.0,52.73,899.0,47.13,77.96,15.08,49.59,1801.0,47.6,57.21,15.08,0.362699,-0.009874
4,N,PA,Abaetetuba,158188.0,37.92,5293.0,38.08,71.62,20.2,38.11,5215.0,37.64,56.52,20.2,0.267162,0.01169


In [None]:
# Com essa nova coluna, podemos procurar pela cidade que fica em Bahia e teve a maior taxa de crescimento com uma query
# Primeiro, faremos um filtro com .where para criar um novo dataframe, apenas com cidades que estão na Bahia

df_BA = df_novo.where(df_novo["UF"] == "BA").dropna() # -> .where pedindo para o UF ser BA, .dropna() para retirar os valores vazios
df_BA.head() # -> Checando se o novo dataframe está correto

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Taxa crescimento ODS3
6,NE,BA,Abaíra,7301.0,45.07,3361.0,43.74,74.64,29.11,46.19,2922.0,43.7,65.32,29.11,0.142682
7,NE,BA,Abaré,17639.0,48.64,2026.0,29.84,73.91,28.43,48.2,2254.0,31.03,58.67,28.43,0.259758
17,NE,BA,Acajutiba,13795.0,38.18,5263.0,29.22,69.42,20.24,40.11,4787.0,24.77,54.23,20.24,0.280103
34,NE,BA,Adustina,14200.0,39.36,5072.0,37.55,66.32,20.8,37.22,5325.0,35.49,56.67,20.8,0.170284
57,NE,BA,Água Fria,14497.0,40.22,4897.0,35.33,80.39,20.96,40.97,4567.0,33.65,58.89,20.96,0.365087


In [None]:
# Agora, utilizaremos essa tabela para fazer a query. Farei passo a passo, com uma parte em cada linha de código
df_BA["Cidade"].loc[ # -> Nessa primeira parte, acessamos a coluna que possui nossa resposta (Alguma cidade) e utilizamos o .loc, pois procuraremos por um ou mais valores específicos
    df_BA["Taxa crescimento ODS3"] == # -> Aqui, faremos um teste lógico. Então, acessaremos a coluna da taxa e checaremos se é igual ao valor da taxa máxima
    df_BA["Taxa crescimento ODS3"].max() # -> Aqui, estamos obtendo o maior valor da coluna "Taxa crescimento ODS3" no df_BA através do método .max()
]

# Agora vamos rodar esse código e checar se está funcionando

Unnamed: 0,Cidade
1023,Cândido Sales


In [None]:
# O código de cima, geralmente, é escrito em apenas uma linha, da seguinte forma:
df_BA["Cidade"].loc[df_BA["Taxa crescimento ODS3"] == df_BA["Taxa crescimento ODS3"].max()]

# Mesma resposta abaixo

Unnamed: 0,Cidade
1023,Cândido Sales


**Este é um método alternativo e não é recomendado!**

In [None]:
# Também podemos fazer um código que não utilize o filtro df_BA que criamos. Nesse caso, citaremos na query que esse estado deve ser da Bahia

df_novo["Cidade"].loc[ # -> Acessando a coluna cidade que possui nossa resposta
    df_novo["Taxa crescimento ODS3"] == # -> Começando o teste lógico
    df_novo.where(df_novo["UF"] == "BA") # -> Aqui, diferentemente de cima, utilizamos o .where para especificar que queremos um estado baiano
    ["Taxa crescimento ODS3"].max()] # -> Aqui, obtemos o valor máximo da "Taxa crescimento ODS3" dentre estados baianos

Unnamed: 0,Cidade
1023,Cândido Sales


In [None]:
# O código acima geralmente é escrito do seguinte jeito:

df_novo["Cidade"].loc[df_novo["Taxa crescimento ODS3"] == df_novo.where(df_novo["UF"] == "BA")["Taxa crescimento ODS3"].max()]

Unnamed: 0,Cidade
1023,Cândido Sales


**IMPORTANTE:** Dentre essas práticas, o método que cria um filtro com todas as cidades da Bahia é mais eficaz, pois no segundo método, cidades que não são da Bahia podem aparecer na resposta se tiverem uma taxa exatamente igual à maior taxa de crescimento da cidade Cândido Sales.

________________________________________________________________________________________________________

In [None]:
# Podemos também, caso solicitado no enunciado, descobrir valores próximos à média de uma certa coluna
df_BA["Taxa crescimento ODS3"].mean()

0.2604216330020228

In [None]:
df_BA.where(df_BA["Taxa crescimento ODS3"] <= 0.2604216330020228).sort_values(by="Taxa crescimento ODS3", ascending=False).dropna().head(3) # -> Vendo os 3 valores mais próximos à média vindo de baixo (menores que a média)

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Taxa crescimento ODS3
2662,NE,BA,Jussiape,7379.0,45.07,3366.0,37.03,78.38,3.72,40.03,4811.0,35.71,62.2,3.72,0.260129
7,NE,BA,Abaré,17639.0,48.64,2026.0,29.84,73.91,28.43,48.2,2254.0,31.03,58.67,28.43,0.259758
3193,NE,BA,Mortugaba,11143.0,43.91,3765.0,43.03,78.73,20.96,43.34,3819.0,43.14,62.63,20.96,0.257065


In [None]:
dist = 0.2604216330020228 - 0.260129 # -> Calculando a distancia entre o valor mais próximo e a média
dist

0.00029263300202281295

In [None]:
df_BA.where(df_BA["Taxa crescimento ODS3"] >= 0.2604216330020228).sort_values(by="Taxa crescimento ODS3", ascending=True).dropna().head(3) # -> Vendo os 3 valores mais próximos à média vindo de cima (maiores que a média)

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Taxa crescimento ODS3
3366,NE,BA,Nova Redenção,7538.0,36.35,5435.0,31.17,78.62,21.38,38.0,5237.0,26.11,62.37,21.38,0.260542
119,NE,BA,Almadina,5218.0,39.44,5058.0,17.85,76.6,42.8,39.61,4900.0,20.53,60.62,42.8,0.263609
1707,NE,BA,Esplanada,32556.0,42.19,4339.0,32.1,65.19,32.12,38.91,5066.0,27.4,51.57,32.12,0.264107


In [None]:
dist = 0.260542 - 0.2604216330020228 # -> Calculando a distancia entre o valor mais próximo e a média
dist

0.00012036699797718375

In [None]:
df_BA["2019 ODS 3"].loc[3366] # -> Conseguimos descobrir, visualizando a tabela, que a "Nova Redenção" era o valor mais próximo da média. Aqui, pegamos o valor da coluna "2019 ODS 3" para essa cidade

62.37

## Questão 4 da prova vazada

In [None]:
df_NE = df_novo.where(df_novo["Região"] == "NE").dropna() # -> Criando um dataframe que contém apenas as cidades que estão no nordeste
df_NE.head()

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Taxa crescimento ODS3,Taxa crescimento ODS1
5,NE,CE,Abaiara,10038.0,42.91,4104.0,38.53,72.9,22.83,44.53,3462.0,40.99,60.8,22.83,0.199013,-0.060015
6,NE,BA,Abaíra,7301.0,45.07,3361.0,43.74,74.64,29.11,46.19,2922.0,43.7,65.32,29.11,0.142682,0.000915
7,NE,BA,Abaré,17639.0,48.64,2026.0,29.84,73.91,28.43,48.2,2254.0,31.03,58.67,28.43,0.259758,-0.03835
13,NE,PE,Abreu e Lima,98462.0,41.01,4703.0,40.26,76.79,40.23,43.62,3743.0,37.98,56.41,40.23,0.361283,0.060032
16,NE,MA,Açailândia,106550.0,37.98,5286.0,38.53,61.31,27.8,36.82,5363.0,36.12,50.67,27.8,0.209986,0.066722


In [None]:
df_NE["Taxa crescimento ODS3"].mean() # -> Calculando a média de crescimento

0.2715816178401253

In [None]:
df_SC = df_novo.where(df_novo["UF"] == "SC").dropna()
df_SC.shape # -> O número de linhas no dataframe é o número de cidades total - Será usado no cálculado da porcentagem

(295, 16)

In [None]:
df_menor_media = df_SC.loc[df_SC["Taxa crescimento ODS3"] < 0.2715816178401253].dropna() # Criando outro dataframe que contém cidades com taxas menores do que a média
df_menor_media.shape # -> O número de linhas no dataframe é o número de cidades que tem o valor abaixo da média - Será usado no cálculado da porcentagem

(204, 16)

In [None]:
x = 204 * 100 / 295 # -> Regra de 3 para calcular a porcentagem de cidades de SC com taxas menores do que a média do nordeste
x # -> Resultado é 69.15%

69.15254237288136

## Questão 5 da prova vazada

In [None]:
df_SE = df_novo.where(df_novo["Região"] == "SE").dropna().sort_values(by="Taxa crescimento ODS3", ascending=False)
df_SE.head()

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Taxa crescimento ODS3,Taxa crescimento ODS1
3216,SE,MG,Munhoz,7451.0,44.94,3417.0,45.89,77.79,7.53,45.49,3135.0,44.56,35.06,7.53,1.218768,0.029847
2715,SE,SP,Lagoinha,5083.0,53.32,784.0,67.15,72.92,14.55,52.81,1060.0,66.03,35.19,14.55,1.07218,0.016962
1320,SE,MG,Comendador Gomes,2773.0,51.4,1195.0,48.12,60.24,27.56,53.59,908.0,44.62,29.85,27.56,1.01809,0.07844
5246,SE,MG,Tiradentes,7744.0,49.31,1785.0,53.05,73.13,27.36,50.52,1547.0,39.43,40.11,27.36,0.823236,0.345422
940,SE,MG,Campestre,20696.0,48.22,2181.0,56.95,71.85,36.11,49.42,1859.0,54.12,39.97,36.11,0.797598,0.052291


In [None]:
df_MG = df_SE.where(df_SE["UF"] == "MG").dropna()
df_MG.head()

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Taxa crescimento ODS3,Taxa crescimento ODS1
3216,SE,MG,Munhoz,7451.0,44.94,3417.0,45.89,77.79,7.53,45.49,3135.0,44.56,35.06,7.53,1.218768,0.029847
1320,SE,MG,Comendador Gomes,2773.0,51.4,1195.0,48.12,60.24,27.56,53.59,908.0,44.62,29.85,27.56,1.01809,0.07844
5246,SE,MG,Tiradentes,7744.0,49.31,1785.0,53.05,73.13,27.36,50.52,1547.0,39.43,40.11,27.36,0.823236,0.345422
940,SE,MG,Campestre,20696.0,48.22,2181.0,56.95,71.85,36.11,49.42,1859.0,54.12,39.97,36.11,0.797598,0.052291
4499,SE,MG,Santana de Pirapama,7030.0,53.54,747.0,46.4,82.47,30.4,49.93,1704.0,41.68,46.68,30.4,0.76671,0.113244


In [None]:
df_MG["Taxa crescimento ODS3"].mean()

0.25068515037092254

In [None]:
df_MG.where(df_MG["Taxa crescimento ODS3"] < 0.25068515037092254).sort_values(by="Taxa crescimento ODS3", ascending=False).head(3)

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Taxa crescimento ODS3,Taxa crescimento ODS1
785,SE,MG,Brumadinho,38915.0,53.02,833.0,54.01,59.77,43.03,57.6,304.0,55.76,47.79,43.03,0.25068,-0.031385
4455,SE,MG,Santa Rita do Itueto,5826.0,48.33,2144.0,49.45,79.06,17.62,43.07,3895.0,52.12,63.23,17.62,0.250356,-0.051228
3670,SE,MG,Paulistas,4389.0,49.06,1858.0,49.07,80.02,21.01,47.07,2632.0,38.47,64.01,21.01,0.250117,0.275539


In [None]:
dist = 0.25068515037092254 - 0.250680
format(dist,".10f")

'0.0000051504'

In [None]:
df_MG.where(df_MG["Taxa crescimento ODS3"] > 0.25068515037092254).sort_values(by="Taxa crescimento ODS3", ascending=True).head(3)

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Taxa crescimento ODS3,Taxa crescimento ODS1
4236,SE,MG,Rio Pomba,17443.0,53.45,760.0,55.4,75.52,26.95,50.18,1628.0,54.12,60.38,26.95,0.250745,0.023651
4575,SE,MG,Santo Hipólito,2717.0,44.72,3494.0,47.84,59.09,16.5,44.95,3317.0,49.05,47.24,16.5,0.250847,-0.024669
591,SE,MG,Belo Horizonte,2315560.0,55.53,481.0,52.88,63.81,30.48,59.22,163.0,51.88,51.01,30.48,0.250931,0.019275


In [None]:
dist = 0.250745 - 0.25068515037092254
format(dist,".10f")

'0.0000598496'

In [None]:
df_MG["2022 ODS 5"].loc[785]

43.03

________________________________________________________________________________________________________

> Adicionar aspas



In [None]:
# Exemplo 2
# Indique a taxa de crescimento da ODS 1 e a População_Ref da cidade que cumpriu as exigências do exemplo anterior

# Aqui, como sabemos exatamente a linha da cidade que cumpriu o exemplo anterior, o exercício fica simples
# Essa cidade, como é possível ver na resposta anterior, está na linha 1023

# Primeiro, criaremos uma nova coluna para armazenar a taxa de crescimento da ODS 1 entre 2019 e 2022
df_novo["Taxa crescimento ODS1"] = (df_novo["2022 ODS 1"] - df_novo["2019 ODS 1"]) / df_novo["2019 ODS 1"]

df_novo.head() # -> Checando se funcionou

Unnamed: 0,Região,UF,Cidade,População_Ref,Pontuação Indice ODS 2022,Classificação 2022,2022 ODS 1,2022 ODS 3,2022 ODS 5,Pontuação Indice ODS 2019,Classificação 2019,2019 ODS 1,2019 ODS 3,2019 ODS 5,Taxa crescimento ODS3,Taxa crescimento ODS1
0,CO,GO,Abadia de Goiás,19128.0,48.06,2226.0,42.39,64.57,33.67,48.63,2109.0,44.36,39.52,33.67,0.633856,-0.044409
1,SE,MG,Abadia dos Dourados,6272.0,45.65,3143.0,51.21,65.08,16.16,46.84,2688.0,53.63,69.53,16.16,-0.064001,-0.045124
2,CO,GO,Abadiânia,17228.0,49.36,1773.0,44.83,76.23,27.8,50.11,1648.0,43.71,60.24,27.8,0.265438,0.025623
3,SE,MG,Abaeté,22675.0,52.73,899.0,47.13,77.96,15.08,49.59,1801.0,47.6,57.21,15.08,0.362699,-0.009874
4,N,PA,Abaetetuba,158188.0,37.92,5293.0,38.08,71.62,20.2,38.11,5215.0,37.64,56.52,20.2,0.267162,0.01169


In [None]:
# Agora, faremos um .loc[] apenas citando as colunas e a linha desejada

df_novo.loc[1023, ["Taxa crescimento ODS1", "População_Ref"]]
# Lembrando que, se quisermos 2 colunas no loc, é necessário colocar o nome das colunas entre parênteses

Unnamed: 0,1023
Taxa crescimento ODS1,0.316556
População_Ref,25247.0


**Com isso, finalizamos a matéria da prova!**