# Apresentação Numpy e Pandas

## Indice

- Modulos para à analise de dados
- [Numpy](#numpy)
    - Introdução Numpy
    - Array
        - Manipulação de Array
- [Pandas](#pandas)
    - Introdução Pandas
    - Series
    - Dataframe
        - Criando um dataframe
        - Lendo Arquivos com Dataframe
        - Manipulando Dataframes

___



# Modulos para à analise de dados

Para mais detalhes sobre modulos vide [_Intro_Python](../_Intro_Python/Intro_Python.ipynb)

Por mais que a linguagem Python venha com uma série de recursos que otimizam bastante o tempo de desenvolvimento dos algoritmos, ela não é completa. Há uma série de cálculos, estruturas de dados e recursos para tratar com formatos de arquivos específicos que não está disponível nativamente na linguagem.

Para a analise da dados há modulos/bibliotecas do Python que são essenciais para otimizar o trabalho de analise e engenharia de dados.

Bibliotecas padrão para analise de dados

In [1]:
#importando as bibliotecas antes de começar a rodar o codigo

import pandas as pd
import numpy as np



___

# Numpy



## Introdução Numpy

<a id='numpy'></a>

Numpy é um biblioteca de Álgebra Linear para Python
- É o bloco de construção de todas as outras bibliotecas de análise de dados
- A ideia fundamental do NumPy é o suporte à matrizes multidimensionais
- Pode ser considerado como a base para a computação numérica no Python e foi criado para permitir que o Python seja usado na resolução de problemas matemáticos e científicos


https://numpy.org/doc/stable/user/absolute_beginners.html

O Numpy permite manupular arrays mais rapido que a listas nativas de Python

In [2]:

import time
start_time=time.time()
a=range (10000000)
b=range (10000000)
c=[]

for i in range(len(a)):
    c.append(a[i]+b[i])
elapsed_time=time.time() - start_time
print('tempo sem a biblioteca numpy :',elapsed_time)

tempo sem a biblioteca numpy : 2.5472261905670166


In [3]:
import numpy as np
import time

start_time=time.time()
a=np.arange (10000000)
b=np.arange (10000000)
c=[]

c=a+b
elapsed_time=time.time() - start_time
print('tempo de execução com numpy:',elapsed_time)

tempo de execução com numpy: 0.10774350166320801


In [4]:
d=np.arange(10)
print(type(d))
print(type(np.array([1,2,3])))


<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


## Array

Com o Numpy temos acesso à uma estrutura de dados chamada array, a mesma é um container como listas e tuplas, mas com diversas funcionalidades adicionais

```python
import numpy as np
a=np.array([1,2,3])
```


![image.png](attachment:image.png)

### Manipulação de Arrays

Arrays são coleções mutáveis e podem ser manipuladas acessando a posição de um determinado elemento.

```python
import numpy as np
```


- `np.array([l])` retorna um array da lista l
- `np.arrange(n)` retorna um array ([0,1,2,...,n-1])
- `np.arrange(inicio,parada,inc)` retorna um array ([inicio,inicio+inc,...,parada -1]) 
- `np.arange(n).reshape(x,y)` retorna um array bidimensional com x(linhas)+y(colunas)=n
- `np.zeros(n,dtype=t)` retorna um array unidimensional com n zeros onde os zeros sao do tipo de variavel t
- `a.shape` retorna a quantidade de linhas e colunas do array a como (linhas,colunas)
- `a.ndim` retorna a quantidade de dimensões do array
- `a.dtype.name` falta ajustar
- `a.itemsize` falta ajustar
- `a.size` retorna o numero de elementos do array


> Obs.: a função arrange() se comporta como a função range(), mas para uso com arrays

In [5]:
#criando um array declarando os valores

a=np.array([1,2,3])
print('a:',a)
print('type(a):',type(a))

#criando um array com a função arange(), similar a função range()

d=np.arange(1,4)
print('d:',d)
print('type(d):',type(d))


a: [1 2 3]
type(a): <class 'numpy.ndarray'>
d: [1 2 3]
type(d): <class 'numpy.ndarray'>


FALTA ADICIONAR MAIS SOBRE ARRAY

___

# Pandas




## Introdução Pandas

<a id='pandas'></a>

Pandas é um biblioteca para analise de dados para Python
- Pandas e numpy são os blocos de construção de todas as outras bibliotecas de análise de dados
- Fornece estruturas de dados de alto desempenho e fáceis de usar
- https://pandas.pydata.org/docs/user_guide/10min.html

Existem dois tipos principais de estruturas de dados no pandas:
- DataFrame
- Series

## Series 
É um array unidimensional , parecido com uma lista, mas alem do indice e valor, tambem pode ter um index, portanto é como a serie fosse um misto de lista de dicionario



```python
import pandas as pd
a=pd.array([1,2,3])
```

### Manipulação de Series

Arrays são coleções mutáveis e podem ser manipuladas acessando a posição de um determinado elemento.

```python
import pandas as pd
```




- `pd.Series([l], index=[d])` retorna uma serie da lista l com index de acordo com a lista d

- `np.arange(n).reshape(x,y)` retorna um array bidimensional com x(linhas)+y(colunas)=n
- `np.zeros(n,dtype=t)` retorna um array unidimensional com n zeros onde os zeros sao do tipo de variavel t

- `a.values` retorna os valores da serie a
- `a.value_counts(normalize=False,sort=True,ascending=False,dropna=True)` retorna os valores da serie a e é possivel tambem normalizar esses valores, realizar um sort, deixar em ordem crescente e tirar os NaN (not a number) se utilizar um dos parametros dentro dos ()
- `a.unique()` retorna um conjunto contendo todos os valores do array a
- `a.sort_values(by=? , ascending=True)` retorna o array a reordenado conforme alguma expressão do by ou pelo ascending se for informado
- `a.mean()` retorna a media dos valores numericos da serie a
- `a.median()` retorna a mediana dos valores numericos da serie a
- `a.std()` retorna o desvio padrão dos valores numericos da serie a
- `a.describe()` retorna alguns valores como media , desvio padrão entre outros dos valores numericos da serie a
- `a.apply(f)` aplica a função f na serie a
- `a.drop_duplicates()` retorna a serie a retirando os valores duplicados
- `a.groupby(by)` XXXXXXXXXX
- `a.size()` retorna o numero de elementos da serie a
- `a.str.replace(old, new)` retorna a serie a com os valores old substituidos por new
- `a.astype(dtype)` retorna a serie a com seus valores com o itpo de variavel dtype que for escolhido

> Obs.: a função arrange() se comporta como a função range(), mas para uso com arrays

In [6]:
#importando as bibliotecas antes de começar a rodar o codigo

import pandas as pd
import numpy as np

In [7]:
#Criando uma serie
notas=pd.Series([2,4,5,np.nan,6])
notas

0    2.0
1    4.0
2    5.0
3    NaN
4    6.0
dtype: float64

In [8]:
notas.value_counts()

2.0    1
4.0    1
5.0    1
6.0    1
Name: count, dtype: int64

In [9]:
#Criando uma serie definindo tambem seu index
boletim=pd.Series([2,4,5,np.nan,6],index=["mat","fis","quim",np.nan,"port"])
print("\n  boletim: \n",boletim)

#retornando  apenas os valores
print("\n boletim.values: \n", boletim.values)

#retornando um valor pelo seu indice
print("\n boletim[0]: \n",boletim[0])

#retornando um valor pelo seu index
print('\n boletim["fis"]: \n',boletim["fis"])


  boletim: 
 mat     2.0
fis     4.0
quim    5.0
NaN     NaN
port    6.0
dtype: float64

 boletim.values: 
 [ 2.  4.  5. nan  6.]

 boletim[0]: 
 2.0

 boletim["fis"]: 
 4.0


In [10]:
notas2=pd.Series([2,7,5,10,6], index=["Victor","Joiyce","Felipe","Carol","Maria"])

print("Média:",notas2.mean())
print("Desvio Padrão:", notas2.std())
print(".describe():", notas2.describe())

Média: 6.0
Desvio Padrão: 2.9154759474226504
.describe(): count     5.000000
mean      6.000000
std       2.915476
min       2.000000
25%       5.000000
50%       6.000000
75%       7.000000
max      10.000000
dtype: float64


In [11]:
notas2**2

Victor      4
Joiyce     49
Felipe     25
Carol     100
Maria      36
dtype: int64

In [12]:
np.log(notas2)

Victor    0.693147
Joiyce    1.945910
Felipe    1.609438
Carol     2.302585
Maria     1.791759
dtype: float64


## DataFrame

DataFrames são estruturas de dados bidimensionais mutáveis parecidos com uma matriz, mas alem de indices e valor, tambem tem indexes para a coluna e linhas

```python
import pandas as pd
```


### Criando um dataframe

- `pd.DataFrame({Coluna1: [X valores1],...,ColunaY: [X valoresY]})` retorna um data frame com Y colunas e X linhas com index de acordo com p nome das colunas
- `pd.DataFrame(a,colums=c)` retorna um data frame do array a , com colunas de acordo com o array c

In [2]:
df=pd.DataFrame({'Aluno': ["Victor", "Joyce","Felipe","Carol","Maria"],
                "Faltas": [3,4,2,1,4],
                "Prova" : [2,7,5,10,6],
                "Seminario": [8.5,7.5,9.0,7.5,8]})

df

Unnamed: 0,Aluno,Faltas,Prova,Seminario
0,Victor,3,2,8.5
1,Joyce,4,7,7.5
2,Felipe,2,5,9.0
3,Carol,1,10,7.5
4,Maria,4,6,8.0


In [3]:
#Criando uma serie
a=pd.Series([2,4,5,np.nan,6])
c=pd.Series(['nota'])
dfa=pd.DataFrame(a,columns=c)
dfa

Unnamed: 0,nota
0,2.0
1,4.0
2,5.0
3,
4,6.0


### Leitura de Arquivos como Data Frame

#### Ler arquivos Excel (xlsx)

In [4]:
#Ler arquivos Excel (xlsx)

dfs = pd.read_excel("notas.xlsx", sheet_name="Sheet1")
dfs

Unnamed: 0,Aluno,Prova,Projeto,Seminário
0,Joao,8,6,10
1,Maria,7,7,9
2,Victor,9,8,8
3,Joyce,10,9,7
4,Felipe,6,10,6
5,Pedro,8,9,5
6,Carla,6,5,2


In [5]:
dfs.describe()

Unnamed: 0,Prova,Projeto,Seminário
count,7.0,7.0,7.0
mean,7.714286,7.714286,6.714286
std,1.496026,1.799471,2.690371
min,6.0,5.0,2.0
25%,6.5,6.5,5.5
50%,8.0,8.0,7.0
75%,8.5,9.0,8.5
max,10.0,10.0,10.0


In [6]:
dfs[dfs["Seminário"] > 8.0]

Unnamed: 0,Aluno,Prova,Projeto,Seminário
0,Joao,8,6,10
1,Maria,7,7,9


#### Ler arquivos html

In [18]:
#Ler arquivos html

import requests
url = 'https://www.worldcoinindex.com/'
crypto_url = requests.get(url)
crypto_url

<Response [200]>

In [19]:
crypto_data = pd.read_html(crypto_url.text)
len(crypto_data), type(crypto_data)

(1, list)

In [20]:
crypto_data = crypto_data[0]
crypto_final = crypto_data.iloc[:,2:]
crypto_final.head()

Unnamed: 0,Name,Ticker,Last price,%,24 high,24 low,Price Charts 7d,24 volume,# Coins,Market cap
0,Bitcoin,BTC,"$ 29,195",+0.07%,"$ 29,225","$ 29,160",,$ 4.83B,19.45M,$ 568.09B
1,Ethereum,ETH,"$ 1,826.95",-0.02%,"$ 1,829.66","$ 1,826.24",,$ 2.06B,122.37M,$ 223.57B
2,Ripple,XRP,$ 0.608366,-0.23%,$ 0.609790,$ 0.605620,,$ 875.65M,52.78B,$ 32.11B
3,Tether,USDT,$ 0.999165,-0.02%,$ 0.999685,$ 0.998893,,$ 530.60M,42.99B,$ 42.95B
4,Usd coin,USDC,$ 0.999978,-0.02%,$ 1.00,$ 0.999530,,$ 488.32M,7.00B,$ 7.00B


#### Ler arquivo CSV

- `pd.read_csv("arquivo", sep="separador", usecols=None, enconding='latin1')` retorna um data frame construido do CSV "arquivo" , onde o usecols e encoding são opcionais , i usecols substitui o sep se necessario

O arquivo tambem pode ser de um arquivo na internet como o exemplo abaixo:

```python
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/agconti/kaggle-titanic/master/data/train.csv')
```



In [7]:

df1 = pd.read_csv("imoveis.csv", sep="," ) 
df1

Unnamed: 0,ultimaAtualizacaoCadastral,situacao,sequencialImovel,proprietarioPrincipal,natureza,inscricaoImobiliaria,enderecoImovelNomeLogradouro,enderecoImovelMunicipio,enderecoImovelEstado,enderecoImovelComplemento,...,aliquotaImposto,situacaoPavimentacao,distrito,setor,quadra,face,lote,sequencial,longitude,latitude
0,02/12/2015,Ativo,1031171,MUNICIPIO DO RECIFE,Territorial,1.1410.190.02.0025.0000-6,RUA PAULINO GOMES DE SOUZA Q-PRACA,RECIFE,PE,,...,0.000,Parcialmente Pavimentado,1,1410,190,2,25,1031171,,
1,29/11/2015,Ativo,1032984,MUNICIPIO DO RECIFE,Territorial,1.1410.140.01.0730.0000-0,RUA DO FUTURO Q-AREA L-D,RECIFE,PE,,...,0.030,Parcialmente Pavimentado,1,1410,140,1,730,1032984,-34.904747,-8.036815
2,29/11/2015,Ativo,1049160,MUNICIPIO DO RECIFE,Predial,1.1426.030.01.0170.0000-3,RUA DR JOAQUIM ARRUDA FALCAO,RECIFE,PE,,...,0.000,Parcialmente Pavimentado,1,1426,30,1,170,1049160,-34.887555,-8.040748
3,29/11/2015,Ativo,1050834,MUNICIPIO DO RECIFE,Predial,1.1426.043.01.0379.0000-4,RUA SACADURA CABRAL,RECIFE,PE,,...,0.000,Não Pavimentado,1,1426,43,1,379,1050834,,
4,29/11/2015,Ativo,1063391,MUNICIPIO DO RECIFE,Territorial,1.1445.155.02.0670.0000-4,RUA CEL VIRGILIO DE MEDEIROS Q-A L-12,RECIFE,PE,,...,0.000,Parcialmente Pavimentado,1,1445,155,2,670,1063391,-34.876882,-8.044247
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3090,29/11/2015,Ativo,7777400,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0319-2,RUA AMADOR BUENO,RECIFE,PE,APTO 306 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777400,-34.897103,-8.089021
3091,29/11/2015,Ativo,7777418,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0320-6,RUA AMADOR BUENO,RECIFE,PE,APTO 307 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777418,-34.897103,-8.089021
3092,29/11/2015,Ativo,7777426,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0321-4,RUA AMADOR BUENO,RECIFE,PE,APTO 308 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777426,-34.897103,-8.089021
3093,29/11/2015,Ativo,7780141,MUNICIPIO DO RECIFE,Territorial,4.1540.067.01.0010.0001-5,RUA EDEIA,RECIFE,PE,,...,0.000,Parcialmente Pavimentado,4,1540,67,1,10,7780141,,


### Manipulação de DataFrames

DataFrames são estruturas de dados bidimensionais mutáveis parecidos com uma matriz, mas alem de indices e valor, tambem tem indexes para a coluna e linhas

```python
import pandas as pd
```


####  Metodos pandas


- `pd.get_dummies(df,columns=['Collumns'])` retorna um dataframe com colunas novas para cada um dos valores possiveis das colunas Colluumns, serve para binarizar atributos categoricos, caso houvesse algum valor como NAN ele se transforma em Zero ou False para as todas as novas colunas criadas
- `pd.to_numeric(df['Collumns'])` retorna um dataframe com as columnas collumns como valor numericos, por exemplo se fosse string '1' retornaria 1

In [22]:
df1['natureza'].value_counts()

natureza
Predial        2402
Territorial     693
Name: count, dtype: int64

In [23]:
df1_natureza=pd.get_dummies(df1,columns=['natureza'])

In [24]:
#transformando e natureza_Predial e Territorial em valores numericos, ao realisar o pd.get_dummies no colab não precisou dessa etapa

df1_natureza.loc[df1_natureza['natureza_Predial']==True,'natureza_Predial']= 1
df1_natureza.loc[df1_natureza['natureza_Predial']==False,'natureza_Predial']=0
df1_natureza.loc[df1_natureza['natureza_Territorial']==True,'natureza_Territorial']=1
df1_natureza.loc[df1_natureza['natureza_Territorial']==False,'natureza_Territorial']=0

Ao inves do loc para ajustar valores não numericos para numerico, seria possivel realizar o mesmo ajuste com o metodo pd.to_numeric ou a função df.astype 


pd.to_numeric (string representando numero para valor numerico)

```python
df1_natureza['natureza_Predial']=pd.to_numeric(df1_natureza['natureza_Predial'])
df1_natureza['natureza_Territorial']=pd.to_numeric(df1_natureza['natureza_Territorial'])

```

df.astype (string representando numero ou boleano para valor numerico)

```python
df1_natureza['natureza_Predial']=df1_natureza['natureza_Predial'].astype('int')
df1_natureza['natureza_Territorial']=df1_natureza['natureza_Territorial'].astype('int')


```

In [25]:
df1_natureza[['natureza_Predial','natureza_Territorial']].head()

Unnamed: 0,natureza_Predial,natureza_Territorial
0,0,1
1,0,1
2,1,0
3,1,0
4,0,1


####  Funções para um DataFrame df



- `df.head(x)` retorna os valores do DataFrame "df" para as x primeiras linhas, se não for passado um valor para x o head retorna as 5 primeiras linhas 
- `df.tail(x)` retorna os valores do DataFrame "df" para as ultimas x linhas, se não for passado um valor para x o tail retorna as 5 ultimas linhas 
- `df.dropna()` retorna os valores do DataFrame "df"  excluindo linhas que tenham algum valor NaN (not a Number)
- `df.columns` retorna os valores das colunas do DataFrame "df"
- `df.drop(columns=[list])` retorna os valores do DataFrame "df"  excluindo as colunas contidas na lista list) 
- `df[collum_name]` retorna os valores da coluna collum_name do DataFrame "df" 
- `df.rename(columns={"A": "a", "B": "b"})` renomeia a coluna A e coluna B para colunas a e b respectivamente 
- `df[['collum_name1','colum_name2]]` retorna um Dataframe com os as colunas collum_name1 e colllum_name2 do DataFrame "df" 
- `df[expressão booleana]` retorna os valores do DataFrame "df" onde a expressão booleana é verdadeira com a diferença do python padrão de que as variaveis boleanas aqui tem que ser tabalhadas com os operadores & | e ~ao inves de and, or ou not
- `df[collum_name].astype(dtype)` modifica os valores das variaveis da coluna collum_name do Dataframe "df" para o tipo de variavel definido no dtype, 'int' por exemplo
- `df.values` retorna os valores da serie a
- `df.dtypes` retorna os tipos de variaveis para cada coluna no DataFrame "df"
- `df.loc[x]` retorna as linhas com o valor x (pode ser expressão boleana) do DataFrame "df"
- `df.iloc[n]` retorna a linha n do DataFrame "df"
- `df.index` retorna os indices das linhas 
- `df.reset_index` Reset the index of the DataFrame, and use the default one instead. If the DataFrame has a MultiIndex, this method can remove one or more levels.
- `df.fillna(x)` substitui o NaN com o valor x
- `df.isna()` retorna as linhas com algum NaN
- `df.std()` retorna o desvio padrão dos valores numericos das colunas do DataFrame df
- `df.describe()` retorna alguns valores como media , desvio padrão entre outros dos valores numericos das colunas do DataFrame df

In [8]:
df

Unnamed: 0,Aluno,Faltas,Prova,Seminario
0,Victor,3,2,8.5
1,Joyce,4,7,7.5
2,Felipe,2,5,9.0
3,Carol,1,10,7.5
4,Maria,4,6,8.0


In [9]:
df.dtypes

Aluno         object
Faltas         int64
Prova          int64
Seminario    float64
dtype: object

In [10]:
df.columns

Index(['Aluno', 'Faltas', 'Prova', 'Seminario'], dtype='object')

In [11]:
df["Seminario"]

0    8.5
1    7.5
2    9.0
3    7.5
4    8.0
Name: Seminario, dtype: float64

In [12]:
df.sort_values(by="Seminario")

Unnamed: 0,Aluno,Faltas,Prova,Seminario
1,Joyce,4,7,7.5
3,Carol,1,10,7.5
4,Maria,4,6,8.0
0,Victor,3,2,8.5
2,Felipe,2,5,9.0


In [13]:
df.iloc[3]

Aluno        Carol
Faltas           1
Prova           10
Seminario      7.5
Name: 3, dtype: object

In [14]:
df.loc[df['Aluno']=='Carol']

Unnamed: 0,Aluno,Faltas,Prova,Seminario
3,Carol,1,10,7.5


In [15]:
df[df["Seminario"]>8]

Unnamed: 0,Aluno,Faltas,Prova,Seminario
0,Victor,3,2,8.5
2,Felipe,2,5,9.0


In [16]:
df[(df["Seminario"]<8) | (df["Prova"]>3)] #diferente do python padrão as variaveis boleanas aqui tem que ser tabalhadas com os operadores & | e ~ao inves de and, or ou not

Unnamed: 0,Aluno,Faltas,Prova,Seminario
1,Joyce,4,7,7.5
2,Felipe,2,5,9.0
3,Carol,1,10,7.5
4,Maria,4,6,8.0


In [17]:
df[["Prova","Seminario"]]

Unnamed: 0,Prova,Seminario
0,2,8.5
1,7,7.5
2,5,9.0
3,10,7.5
4,6,8.0


In [18]:
df1.head(10)

Unnamed: 0,ultimaAtualizacaoCadastral,situacao,sequencialImovel,proprietarioPrincipal,natureza,inscricaoImobiliaria,enderecoImovelNomeLogradouro,enderecoImovelMunicipio,enderecoImovelEstado,enderecoImovelComplemento,...,aliquotaImposto,situacaoPavimentacao,distrito,setor,quadra,face,lote,sequencial,longitude,latitude
0,02/12/2015,Ativo,1031171,MUNICIPIO DO RECIFE,Territorial,1.1410.190.02.0025.0000-6,RUA PAULINO GOMES DE SOUZA Q-PRACA,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,1,1410,190,2,25,1031171,,
1,29/11/2015,Ativo,1032984,MUNICIPIO DO RECIFE,Territorial,1.1410.140.01.0730.0000-0,RUA DO FUTURO Q-AREA L-D,RECIFE,PE,,...,0.03,Parcialmente Pavimentado,1,1410,140,1,730,1032984,-34.904747,-8.036815
2,29/11/2015,Ativo,1049160,MUNICIPIO DO RECIFE,Predial,1.1426.030.01.0170.0000-3,RUA DR JOAQUIM ARRUDA FALCAO,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,1,1426,30,1,170,1049160,-34.887555,-8.040748
3,29/11/2015,Ativo,1050834,MUNICIPIO DO RECIFE,Predial,1.1426.043.01.0379.0000-4,RUA SACADURA CABRAL,RECIFE,PE,,...,0.0,Não Pavimentado,1,1426,43,1,379,1050834,,
4,29/11/2015,Ativo,1063391,MUNICIPIO DO RECIFE,Territorial,1.1445.155.02.0670.0000-4,RUA CEL VIRGILIO DE MEDEIROS Q-A L-12,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,1,1445,155,2,670,1063391,-34.876882,-8.044247
5,28/11/2015,Ativo,1063405,MUNICIPIO DO RECIFE,Predial,1.1445.155.02.0777.0000-9,RUA CEL VIRGILIO DE MEDEIROS,RECIFE,PE,,...,0.0125,Não Pavimentado,1,1445,155,2,777,1063405,-34.876774,-8.044325
6,29/11/2015,Ativo,1065114,MUNICIPIO DO RECIFE,Predial,1.1445.183.03.0012.0000-7,AV CRUZ CABUGA,RECIFE,PE,,...,0.0,Pavimentado,1,1445,183,3,12,1065114,-34.87664,-8.046684
7,29/11/2015,Ativo,1070312,MUNICIPIO DO RECIFE,Territorial,1.1445.714.77.0001.0000-8,AV NORTE MIGUEL ARRAES DE ALENCAR,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,1,1445,714,77,1,1070312,,
8,29/11/2015,Ativo,1081039,MUNICIPIO DO RECIFE,Predial,1.1450.140.04.0075.0000-4,AV CRUZ CABUGA,RECIFE,PE,,...,0.0,Pavimentado,1,1450,140,4,75,1081039,-34.876458,-8.047484
9,29/11/2015,Ativo,1087517,MUNICIPIO DO RECIFE,Predial,1.1450.290.02.0110.0000-8,RUA COELHO LEITE,RECIFE,PE,,...,0.0,Pavimentado,1,1450,290,2,110,1087517,-34.880778,-8.049867


In [19]:
df1.tail(10)

Unnamed: 0,ultimaAtualizacaoCadastral,situacao,sequencialImovel,proprietarioPrincipal,natureza,inscricaoImobiliaria,enderecoImovelNomeLogradouro,enderecoImovelMunicipio,enderecoImovelEstado,enderecoImovelComplemento,...,aliquotaImposto,situacaoPavimentacao,distrito,setor,quadra,face,lote,sequencial,longitude,latitude
3085,29/11/2015,Ativo,7777353,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0314-1,RUA AMADOR BUENO,RECIFE,PE,APTO 301 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777353,-34.897103,-8.089021
3086,29/11/2015,Ativo,7777361,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0315-0,RUA AMADOR BUENO,RECIFE,PE,APTO 302 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777361,-34.897103,-8.089021
3087,29/11/2015,Ativo,7777370,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0316-8,RUA AMADOR BUENO,RECIFE,PE,APTO 303 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777370,-34.897103,-8.089021
3088,29/11/2015,Ativo,7777388,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0317-6,RUA AMADOR BUENO,RECIFE,PE,APTO 304 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777388,-34.897103,-8.089021
3089,29/11/2015,Ativo,7777396,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0318-4,RUA AMADOR BUENO,RECIFE,PE,APTO 305 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777396,-34.897103,-8.089021
3090,29/11/2015,Ativo,7777400,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0319-2,RUA AMADOR BUENO,RECIFE,PE,APTO 306 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777400,-34.897103,-8.089021
3091,29/11/2015,Ativo,7777418,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0320-6,RUA AMADOR BUENO,RECIFE,PE,APTO 307 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777418,-34.897103,-8.089021
3092,29/11/2015,Ativo,7777426,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0321-4,RUA AMADOR BUENO,RECIFE,PE,APTO 308 BLOCO J,...,0.006,Pavimentado,6,1710,69,2,251,7777426,-34.897103,-8.089021
3093,29/11/2015,Ativo,7780141,MUNICIPIO DO RECIFE,Territorial,4.1540.067.01.0010.0001-5,RUA EDEIA,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,4,1540,67,1,10,7780141,,
3094,28/11/2015,Ativo,7780249,MUNICIPIO DO RECIFE,Predial,2.1185.015.10.0357.0001-6,RUA PORTAO DO GELO,RECIFE,PE,,...,0.0,Não Pavimentado,2,1185,15,10,357,7780249,,


In [20]:
df1[df1['natureza']=='Predial']

Unnamed: 0,ultimaAtualizacaoCadastral,situacao,sequencialImovel,proprietarioPrincipal,natureza,inscricaoImobiliaria,enderecoImovelNomeLogradouro,enderecoImovelMunicipio,enderecoImovelEstado,enderecoImovelComplemento,...,aliquotaImposto,situacaoPavimentacao,distrito,setor,quadra,face,lote,sequencial,longitude,latitude
2,29/11/2015,Ativo,1049160,MUNICIPIO DO RECIFE,Predial,1.1426.030.01.0170.0000-3,RUA DR JOAQUIM ARRUDA FALCAO,RECIFE,PE,,...,0.0000,Parcialmente Pavimentado,1,1426,30,1,170,1049160,-34.887555,-8.040748
3,29/11/2015,Ativo,1050834,MUNICIPIO DO RECIFE,Predial,1.1426.043.01.0379.0000-4,RUA SACADURA CABRAL,RECIFE,PE,,...,0.0000,Não Pavimentado,1,1426,43,1,379,1050834,,
5,28/11/2015,Ativo,1063405,MUNICIPIO DO RECIFE,Predial,1.1445.155.02.0777.0000-9,RUA CEL VIRGILIO DE MEDEIROS,RECIFE,PE,,...,0.0125,Não Pavimentado,1,1445,155,2,777,1063405,-34.876774,-8.044325
6,29/11/2015,Ativo,1065114,MUNICIPIO DO RECIFE,Predial,1.1445.183.03.0012.0000-7,AV CRUZ CABUGA,RECIFE,PE,,...,0.0000,Pavimentado,1,1445,183,3,12,1065114,-34.876640,-8.046684
8,29/11/2015,Ativo,1081039,MUNICIPIO DO RECIFE,Predial,1.1450.140.04.0075.0000-4,AV CRUZ CABUGA,RECIFE,PE,,...,0.0000,Pavimentado,1,1450,140,4,75,1081039,-34.876458,-8.047484
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3089,29/11/2015,Ativo,7777396,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0318-4,RUA AMADOR BUENO,RECIFE,PE,APTO 305 BLOCO J,...,0.0060,Pavimentado,6,1710,69,2,251,7777396,-34.897103,-8.089021
3090,29/11/2015,Ativo,7777400,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0319-2,RUA AMADOR BUENO,RECIFE,PE,APTO 306 BLOCO J,...,0.0060,Pavimentado,6,1710,69,2,251,7777400,-34.897103,-8.089021
3091,29/11/2015,Ativo,7777418,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0320-6,RUA AMADOR BUENO,RECIFE,PE,APTO 307 BLOCO J,...,0.0060,Pavimentado,6,1710,69,2,251,7777418,-34.897103,-8.089021
3092,29/11/2015,Ativo,7777426,MUNICIPIO DO RECIFE,Predial,6.1710.069.02.0251.0321-4,RUA AMADOR BUENO,RECIFE,PE,APTO 308 BLOCO J,...,0.0060,Pavimentado,6,1710,69,2,251,7777426,-34.897103,-8.089021


In [21]:
df1[df1['latitude'].isna()]

Unnamed: 0,ultimaAtualizacaoCadastral,situacao,sequencialImovel,proprietarioPrincipal,natureza,inscricaoImobiliaria,enderecoImovelNomeLogradouro,enderecoImovelMunicipio,enderecoImovelEstado,enderecoImovelComplemento,...,aliquotaImposto,situacaoPavimentacao,distrito,setor,quadra,face,lote,sequencial,longitude,latitude
0,02/12/2015,Ativo,1031171,MUNICIPIO DO RECIFE,Territorial,1.1410.190.02.0025.0000-6,RUA PAULINO GOMES DE SOUZA Q-PRACA,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,1,1410,190,2,25,1031171,,
3,29/11/2015,Ativo,1050834,MUNICIPIO DO RECIFE,Predial,1.1426.043.01.0379.0000-4,RUA SACADURA CABRAL,RECIFE,PE,,...,0.0,Não Pavimentado,1,1426,43,1,379,1050834,,
7,29/11/2015,Ativo,1070312,MUNICIPIO DO RECIFE,Territorial,1.1445.714.77.0001.0000-8,AV NORTE MIGUEL ARRAES DE ALENCAR,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,1,1445,714,77,1,1070312,,
25,29/11/2015,Ativo,1152050,MUNICIPIO DO RECIFE,Territorial,1.1490.270.04.0025.0000-8,PRC DO DERBY,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,1,1490,270,4,25,1152050,,
28,29/11/2015,Ativo,1157248,MUNICIPIO DO RECIFE,Territorial,1.1495.016.01.0001.0004-5,RUA PEDRO AFONSO,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,1,1495,16,1,1,1157248,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2770,28/11/2015,Ativo,7767161,MUNICIPIO DO RECIFE,Territorial,2.5080.020.01.0527.0001-8,EST DA MUMBECA Q-QB L-8,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,2,5080,20,1,527,7767161,,
2771,28/11/2015,Ativo,7767170,MUNICIPIO DO RECIFE,Territorial,2.5080.020.01.0600.0001-1,EST DA MUMBECA Q-QB L-9,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,2,5080,20,1,600,7767170,,
2772,28/11/2015,Ativo,7767196,MUNICIPIO DO RECIFE,Predial,2.5080.020.01.0687.0001-2,EST DA MUMBECA,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,2,5080,20,1,687,7767196,,
3093,29/11/2015,Ativo,7780141,MUNICIPIO DO RECIFE,Territorial,4.1540.067.01.0010.0001-5,RUA EDEIA,RECIFE,PE,,...,0.0,Parcialmente Pavimentado,4,1540,67,1,10,7780141,,


In [22]:
#Substituiu os Nan na Latitudo pela mediana dos valores da Latitude, esse exemplo não faz sentido, mas para algo como idade talvez fosse uma boa ideia para tirar os Nan

df1.loc[df1.latitude.isna() , 'latitude'] = df1.latitude.median()

In [23]:
df1[df1['latitude'].isna()]

Unnamed: 0,ultimaAtualizacaoCadastral,situacao,sequencialImovel,proprietarioPrincipal,natureza,inscricaoImobiliaria,enderecoImovelNomeLogradouro,enderecoImovelMunicipio,enderecoImovelEstado,enderecoImovelComplemento,...,aliquotaImposto,situacaoPavimentacao,distrito,setor,quadra,face,lote,sequencial,longitude,latitude


In [29]:
df1_natureza=df1['natureza'].value_counts().reset_index()
df1_natureza

Unnamed: 0,natureza,count
0,Predial,2402
1,Territorial,693
