# Manipulação de dados do Estado do Paraná

O objetivo da coleta e organização de dados feita a seguir foi criar arquivos .csv para serem transformados em tabelas de bancos de dados. Tais tabelas contém informações sobre as mesorregiões e municípios do Estado do Paraná, organizados na seguinte estrutura SQL:


```
CREATE TABLE Regiao(
	idRegiao Serial Integer not null Primary Key,
	nomeRegiao varchar(40)
);

CREATE TABLE Municipio(
	idMunicip Serial Integer not null Primary Key,
	nomeMunicip varchar(40),
	fkRegiao Integer not null,
	Foreign Key (fkRegiao) References Regiao (idRegiao)
);
```
As amostras de dados foram extraídas da página [Lista de mesorregiões e microrregiões do Paraná
](https://pt.wikipedia.org/wiki/Lista_de_mesorregi%C3%B5es_e_microrregi%C3%B5es_do_Paran%C3%A1) da Wikipédia.


In [None]:
import pandas as pd

# Regiões do estado


In [None]:
arquivo = pd.read_html('https://pt.wikipedia.org/wiki/Lista_de_mesorregi%C3%B5es_e_microrregi%C3%B5es_do_Paran%C3%A1')
arquivo

[              Mesorregião[1][2]  Código Área  (km²/2002)[4]  \
 0           Noroeste Paranaense       1          24 488,647   
 1           Noroeste Paranaense       1          24 488,647   
 2           Noroeste Paranaense       1          24 488,647   
 3   Centro Ocidental Paranaense       2          11 937,031   
 4   Centro Ocidental Paranaense       2          11 937,031   
 5      Norte Central Paranaense       3          24 555,727   
 6      Norte Central Paranaense       3          24 555,727   
 7      Norte Central Paranaense       3          24 555,727   
 8      Norte Central Paranaense       3          24 555,727   
 9      Norte Central Paranaense       3          24 555,727   
 10     Norte Central Paranaense       3          24 555,727   
 11     Norte Central Paranaense       3          24 555,727   
 12     Norte Central Paranaense       3          24 555,727   
 13    Norte Pioneiro Paranaense       4          12 726,675   
 14    Norte Pioneiro Paranaense       4

In [None]:
regioes = arquivo[0][['Código', 'Mesorregião[1][2]']]
regioes = regioes.drop_duplicates()
regioes.rename(columns={'Código': 'idRegiao', 'Mesorregião[1][2]': 'nomeRegiao'}, inplace=True)
regioes

Unnamed: 0,idRegiao,nomeRegiao
0,1,Noroeste Paranaense
3,2,Centro Ocidental Paranaense
5,3,Norte Central Paranaense
13,4,Norte Pioneiro Paranaense
18,5,Centro Oriental Paranaense
21,6,Oeste Paranaense
24,7,Sudoeste Paranaense
27,8,Centro-Sul Paranaense
30,9,Sudeste Paranaense
34,10,Metropolitana de Curitiba


In [None]:
regioes.to_csv('Regiao.csv', index=False)

#Região Noroeste Paranaense


In [None]:
noroeste = arquivo[1]
noroeste = noroeste.fillna(1)
noroeste = noroeste[['Localização', 'Municípios']]
noroeste

Unnamed: 0,Localização,Municípios
0,1.0,Alto Paraná
1,1.0,Amaporã
2,1.0,Cruzeiro do Sul
3,1.0,Diamante do Norte
4,1.0,Guairaçá
...,...,...
56,1.0,Rondon
57,1.0,São Manoel do Paraná
58,1.0,São Tomé
59,1.0,Tapejara


# Regiao Centro-Ocidental



In [None]:
centro_oc = arquivo[2]
centro_oc = centro_oc.fillna(2)

centro_oc= centro_oc[['Localização', 'Municípios']]
centro_oc

Unnamed: 0,Localização,Municípios
0,2.0,Altamira do Paraná
1,2.0,Boa Esperança
2,2.0,Campina da Lagoa
3,2.0,Goioerê
4,2.0,Janiópolis
5,2.0,Juranda
6,2.0,Moreira Sales
7,2.0,Nova Cantu
8,2.0,Quarto Centenário
9,2.0,Rancho Alegre d'Oeste


# Região Norte Central

In [None]:
norte_central = arquivo[3]
norte_central = norte_central.fillna(3)
norte_central = norte_central[['Localização', 'Municípios']]
norte_central

Unnamed: 0,Localização,Municípios
0,3.0,Ângulo
1,3.0,Astorga
2,3.0,Atalaia
3,3.0,Cafeara
4,3.0,Centenário do Sul
...,...,...
74,3.0,Nova Tebas
75,3.0,Rio Branco do Ivaí
76,3.0,Rosário do Ivaí
77,3.0,São João do Ivaí


#Região Norte Pioneiro

In [None]:
norte_pioneiro = arquivo[4]
norte_pioneiro = norte_pioneiro.fillna(4)
norte_pioneiro = norte_pioneiro[['Localização', 'Municípios']]
norte_pioneiro

Unnamed: 0,Localização,Municípios
0,4.0,Assaí
1,4.0,Jataizinho
2,4.0,Nova Santa Bárbara
3,4.0,Rancho Alegre
4,4.0,Santa Cecília do Pavão
5,4.0,São Jerônimo da Serra
6,4.0,São Sebastião da Amoreira
7,4.0,Uraí
8,4.0,Abatiá
9,4.0,Andirá


# Região Centro-Oriental

In [None]:
centro_or = arquivo[5]
centro_or = centro_or.fillna(5)
centro_or = centro_or[['Localização', 'Municípios']]
centro_or

Unnamed: 0,Localização,Municípios
0,5.0,Imbaú
1,5.0,Ortigueira
2,5.0,Reserva
3,5.0,Telêmaco Borba
4,5.0,Tibagi
5,5.0,Ventania
6,5.0,Arapoti
7,5.0,Jaguariaíva
8,5.0,Piraí do Sul
9,5.0,Sengés


#Região Oeste


In [None]:
oeste = arquivo[6]
oeste = oeste.fillna(6)
oeste = oeste[['Localização', 'Municípios']]
oeste

Unnamed: 0,Localização,Municípios
0,6.0,Assis Chateaubriand
1,6.0,Diamante d'Oeste
2,6.0,Entre Rios do Oeste
3,6.0,Formosa do Oeste
4,6.0,Guaíra
5,6.0,Iracema do Oeste
6,6.0,Jesuítas
7,6.0,Marechal Cândido Rondon
8,6.0,Maripá
9,6.0,Mercedes


#Região Sudoeste


In [None]:
sudoeste = arquivo[7]
sudoeste = sudoeste.fillna(7)
sudoeste = sudoeste[['Localização', 'Municípios']]
sudoeste

Unnamed: 0,Localização,Municípios
0,7.0,Ampére
1,7.0,Bela Vista da Caroba
2,7.0,Capanema
3,7.0,Pérola d'Oeste
4,7.0,Planalto
5,7.0,Pranchita
6,7.0,Realeza
7,7.0,Santa Izabel do Oeste
8,7.0,Barracão
9,7.0,Boa Esperança do Iguaçu


#Região Centro Sul

In [None]:
centroSul = arquivo[8]
centroSul = centroSul.fillna(8)
centroSul = centroSul[['Localização', 'Municípios']]
centroSul

Unnamed: 0,Localização,Municípios
0,8.0,Boa Ventura de São Roque
1,8.0,Laranjal
2,8.0,Mato Rico
3,8.0,Palmital
4,8.0,Pitanga
5,8.0,Santa Maria do Oeste
6,8.0,Campina do Simão
7,8.0,Candói
8,8.0,Cantagalo
9,8.0,Espigão Alto do Iguaçu


#Região Sudeste

In [None]:
sudeste = arquivo[9]
sudeste = sudeste.fillna(9)
sudeste = sudeste[['Localização', 'Municípios']]
sudeste

Unnamed: 0,Localização,Municípios
0,9.0,Fernandes Pinheiro
1,9.0,Guamiranga
2,9.0,Imbituva
3,9.0,Ipiranga
4,9.0,Ivaí
5,9.0,Prudentópolis
6,9.0,Teixeira Soares
7,9.0,Irati
8,9.0,Mallet
9,9.0,Rebouças


#Região Metropolitana de Curitiba


In [None]:
ctba = arquivo[10]
ctba = ctba.fillna(10)
ctba = ctba[['Localização', 'Municípios']]
ctba

Unnamed: 0,Localização,Municípios
0,10.0,Adrianópolis
1,10.0,Cerro Azul
2,10.0,Doutor Ulysses
3,10.0,Lapa
4,10.0,Porto Amazonas
5,10.0,Almirante Tamandaré
6,10.0,Araucária
7,10.0,Balsa Nova
8,10.0,Bocaiúva do Sul
9,10.0,Campina Grande do Sul


In [None]:
municipios = pd.concat([noroeste, centro_oc, centro_or, centroSul, norte_central, norte_pioneiro, oeste, ctba, sudeste, sudoeste ])
municipios

Unnamed: 0,Localização,Municípios
0,1.0,Alto Paraná
1,1.0,Amaporã
2,1.0,Cruzeiro do Sul
3,1.0,Diamante do Norte
4,1.0,Guairaçá
...,...,...
32,7.0,Pato Branco
33,7.0,São João
34,7.0,Saudade do Iguaçu
35,7.0,Sulina


In [None]:
municipios.info()

<class 'pandas.core.frame.DataFrame'>
Index: 399 entries, 0 to 36
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Localização  399 non-null    float64
 1   Municípios   399 non-null    object 
dtypes: float64(1), object(1)
memory usage: 9.4+ KB


# Tratamento de Dados

In [None]:
municipios['Localização'] = municipios['Localização'].astype(int)
municipios.info()

<class 'pandas.core.frame.DataFrame'>
Index: 399 entries, 0 to 36
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Localização  399 non-null    int64 
 1   Municípios   399 non-null    object
dtypes: int64(1), object(1)
memory usage: 9.4+ KB


In [None]:
regioes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 0 to 34
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   idRegiao    10 non-null     int64 
 1   nomeRegiao  10 non-null     object
dtypes: int64(1), object(1)
memory usage: 240.0+ bytes


In [None]:
municipios.rename(columns={'Localização': 'fkRegiao', 'Municípios': 'nomeMunicip', 'index': 'idMunicip'}, inplace=True)
municipios

Unnamed: 0,fkRegiao,nomeMunicip
0,1,Alto Paraná
1,1,Amaporã
2,1,Cruzeiro do Sul
3,1,Diamante do Norte
4,1,Guairaçá
...,...,...
32,7,Pato Branco
33,7,São João
34,7,Saudade do Iguaçu
35,7,Sulina


In [None]:
municipios.to_csv('Municipio.csv', index=True)