# Exercícios Programação Data Science - Utilizando Pandas
---


In [1]:
import os
import numpy as np
import pandas as pd
import re
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()
%matplotlib inline

## Step 1

* Carregue para um DataFrame a lista de municípios de fronteira do Brasil utilizando o arquivo "arq_municipios_fronteiricos.csv".

In [2]:
# Variavel contendo o nome do arquivo
arquivo = 'arquivos/arq_municipios_fronteiricos.csv'

# Complete o código abaixo para realizar a leitura do arquivo
# o arquivo utiliza tabulação como separador
# dentro de strings a tabulação é representada como ,
df = pd.read_csv(arquivo, sep = ',') 


# Visualize as 5 primeiras linhas do DataFrame
df.head(5)

Unnamed: 0,Município,Estado,Área territorial,População (IBGE/2007),Densidade demográfica (hab/km2),PIB (IBGE/2005,PIB per capita (R$),IDH/2000
0,1 – Aceguá,Rio Grande do Sul,1.55,4.138,266,71.638.000,17.266,ni
1,2 – Acrelândia,Acre,1.575,11.52,731,114.350.000,9.986,0680
2,3 – Alecrim,Rio Grande do Sul,315.0,7.357,2335,44.373.000,5.944,0743
3,4 – Almeirim,Pará,72.96,30.903,42,462.258.000,13.485,0745
4,5 – Alta Floresta d'Oeste,Rondônia,7.067,23.857,337,186.812.000,6.525,0715


In [3]:
df.Estado.unique()

array(['Rio Grande do Sul', 'Acre', 'Pará', 'Rondônia', 'Roraima',
       'Mato Grosso do Sul', 'Amazonas', 'Santa Catarina', 'Paraná',
       'Mato Grosso', 'Amapá', 'Santa Cataria'], dtype=object)

* Realize um tratamento na coluna Município para remover os números e hífens.
    * primeiro crie uma função recebe uma string com o nome do município, realiza a remoção dos números e hifens e retorna a nova string tratada
    * faça os testes com a sua função até que o resultado esteja satisfatório
    * passe a sua função como parâmetro para o método apply do DataFrame

In [4]:
# função que irá realizar o tratamento para um município
def tratar_nome_municipio(nome_municipio):
    #realize a limpeza
    nome_municipio_tratado = re.sub(r'([\d]* [–-] )(.*)', r'\2', nome_municipio)    
    return nome_municipio_tratado

In [5]:
tratar_nome_municipio('1 – Aceguá')

'Aceguá'

In [6]:
# aplique a função utilizando o método apply
municipios_tratados = df['Município'].apply(tratar_nome_municipio)
df['Município'] = municipios_tratados

In [7]:
# exiba todos os dados e verifique se o resultado está correto
df.head(20)

Unnamed: 0,Município,Estado,Área territorial,População (IBGE/2007),Densidade demográfica (hab/km2),PIB (IBGE/2005,PIB per capita (R$),IDH/2000
0,Aceguá,Rio Grande do Sul,1.55,4.138,266,71.638.000,17.266,ni
1,Acrelândia,Acre,1.575,11.52,731,114.350.000,9.986,0680
2,Alecrim,Rio Grande do Sul,315.0,7.357,2335,44.373.000,5.944,0743
3,Almeirim,Pará,72.96,30.903,42,462.258.000,13.485,0745
4,Alta Floresta d'Oeste,Rondônia,7.067,23.857,337,186.812.000,6.525,0715
5,Alto Alegre,Roraima,25.567,14.386,56,115.786.000,5.239,0662
6,Alto Alegre dos Parecis,Rondônia,3.959,11.615,293,90.226.000,6.001,ni
7,Amajari,Roraima,28.472,7.586,26,31.897,5.240.000,0654
8,Antônio João,Mato Grosso do Sul,1.144,8.35,729,39.989.000,5.067,0702
9,Aral Moreira,Mato Grosso do Sul,1.656,9.236,557,105.697.000,13 132,0723


Algumas linhas ainda possuem hífen e números?

In [8]:
# problemas com caracteres são comuns
print(hex(ord('-'))) # código UTF8 do caracter (hexadecimal)
print(hex(ord('–'))) # código UTF8 do caracter (hexadecimal)
'-' == '–'

0x2d
0x2013


False

* HYPHEN-MINUS: __&#x2D;__
    * https://www.fileformat.info/info/unicode/char/2d/index.htm
* EN DASH: __&#x2013;__
    * https://www.fileformat.info/info/unicode/char/2013/index.htm

In [9]:
# com todos os municípios devidamente tratados
# sobrescreva a coluna Município com os novos valores

# exiba as informações
df

Unnamed: 0,Município,Estado,Área territorial,População (IBGE/2007),Densidade demográfica (hab/km2),PIB (IBGE/2005,PIB per capita (R$),IDH/2000
0,Aceguá,Rio Grande do Sul,1.550,4.138,266,71.638.000,17.266,ni
1,Acrelândia,Acre,1.575,11.520,731,114.350.000,9.986,0680
2,Alecrim,Rio Grande do Sul,315.000,7.357,2335,44.373.000,5.944,0743
3,Almeirim,Pará,72.960,30.903,042,462.258.000,13.485,0745
4,Alta Floresta d'Oeste,Rondônia,7.067,23.857,337,186.812.000,6.525,0715
...,...,...,...,...,...,...,...,...
117,Tunápolis,Santa Cataria,133.000,4.650,3496,40.845.000,9.420,0821
118,Uiramutã,Roraima,8.066,7.403,091,27.251.000,4.238,0542
119,Uruguaiana,Rio Grande do Sul,5.716,123.743,2164,1.187.038.000,8.798,0788
120,Vila Bela da Santíssima Trindade,Mato Grosso,13.631,13.886,101,116.908.000,8.047,0715


In [10]:
df[df['IDH/2000'] == 'ni']['IDH/2000'].count()

18

## EX02

Ainda utilizando o DataFrame carregado no exercício anterior, verifique os tipos de dados das colunas do dataframe. Todos os dados numéricos deverão ser transformados para tipos numéricos.

* utilize o método info() do DataFrame para saber detalhes dos tipos de dados das colunas
* verifique se os números possuem os símbolos de decimal e separadores de milhar compatíveis com a linguagem. Se necessário, fazer as substituições pertinentes.

In [11]:
# verifique os tipos das colunas do DataFrame. Utilize o método info(): df_muni_front
#df.dtypes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122 entries, 0 to 121
Data columns (total 8 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Município                        122 non-null    object 
 1   Estado                           122 non-null    object 
 2   Área territorial                 122 non-null    float64
 3   População (IBGE/2007)            122 non-null    float64
 4   Densidade demográfica (hab/km2)  122 non-null    object 
 5   PIB (IBGE/2005                   122 non-null    object 
 6   PIB per capita (R$)              122 non-null    object 
 7   IDH/2000                         122 non-null    object 
dtypes: float64(2), object(6)
memory usage: 7.8+ KB


In [12]:
# faça a conversão do campo 'Área territorial'
def converter_para_float(texto):
    # faça as operações necessárias e 
    # devolva um objeto do tipo float
    # ou np.NaN (tipo Not a Number do numpy)
    t = texto.replace(' ','').replace('.','').replace(',','.');
    return float(t)

# aplique a função de conversão utilizando o método apply na coluna 'Área territorial'
#area_territorial = converter_para_float(df['Área territorial'])
# exiba alguns valores da com valores convertidos
for var in ['Densidade demográfica (hab/km2)', 'PIB (IBGE/2005', 'PIB per capita (R$)']:
    df[var] = df[var].apply(converter_para_float)
    
df.info()    

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122 entries, 0 to 121
Data columns (total 8 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Município                        122 non-null    object 
 1   Estado                           122 non-null    object 
 2   Área territorial                 122 non-null    float64
 3   População (IBGE/2007)            122 non-null    float64
 4   Densidade demográfica (hab/km2)  122 non-null    float64
 5   PIB (IBGE/2005                   122 non-null    float64
 6   PIB per capita (R$)              122 non-null    float64
 7   IDH/2000                         122 non-null    object 
dtypes: float64(5), object(3)
memory usage: 7.8+ KB


In [13]:
# substitua a coluna pelos valores convertidos


# faça o mesmo para a coluna PIB


In [14]:
# imprima novamente as informações das colunas e verifique os tipos



In [15]:
# imprima novamente as primeiras linhas do DataFrame


## EX03



Crie uma coluna com a sigla dos estados.

* crie um set à partir da coluna Estados. Atribua a uma variável chamada __nomes_estados__.

In [16]:
# crie o set e verifique o seu conteúdo



# exiba o set gerado


Você identificou um problema no nome dos estados?
Vamos corrigir no final.

* crie um dicionário onde o nome completo do estado é a chave e a sigla é o valor: __dic_nomes_siglas__

In [17]:
# crie o dicionário
dic={'ceara': 'ce'}


* utilize a função map do DataFrame para criar uma nova coluna de siglas à partir dos nomes dos estados. Passe o dicionário criado para a função map. Atribua a Série criada à variável __coluna_siglas_uf__.

In [18]:
# faça o mapeamento dos valores e atribua a : coluna_siglas_uf


# verifique os 10 primeiros itens criados


In [19]:
# crie a coluna sigla

# verifique as informações do dataframe


In [20]:
# verifique quantos registros possuem o nome do estado de Santa Catarina escrito errado "Santa Cataria"


In [21]:
# faça a correção dos registros que possuem o nome do estado de Santa Catarina escrito errado


In [22]:
# verifique, novamente, quantos registros possuem o nome do estado de Santa Catarina escrito errado


## EX04

Identifique quais municípios possuem 2 ou mais desvios na coluna PIB.

In [23]:
# normalize a coluna PIB em quantidade de desvios padrão

# exiba um histograma para as informações de PIB normalizado


In [24]:
# quais cidades possuem mais de 2 desvios 


## EX05

Perguntas rápidas.

In [25]:
# quantos registros possuem NaN na coluna IDH/2000?


In [26]:
# quantas cidades por estado?


In [27]:
# faça a ordenação do DataFrame pelo nome do município


# a ordenação está correta?
#Não. A cidade de Óbidos, acentuada, ficou incorretame