# Análise Exploratória da Base de Dados Bairro

##### Autor: Thiago Vilarinho Lemes 
##### Data: 10/02/2024

## Análise Exploratória

In [1]:
# Importando as bibliotecas necessárias
from google.cloud import bigquery
import os
import pandas as pd

# Arquivo com a configurações para acessar o GCP
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = '../key_only_read.json'

# Nome do projeto no GCP
project_id  = 'projeto-desafio-dados-rio'

client      = bigquery.Client(project=project_id)

sql         = "SELECT * FROM datario.dados_mestres.bairro;"

df          = client.query(sql).to_dataframe()

df.head(3)


Unnamed: 0,id_bairro,nome,id_area_planejamento,id_regiao_planejamento,nome_regiao_planejamento,id_regiao_administrativa,nome_regiao_administrativa,subprefeitura,area,perimetro,geometry_wkt,geometry
0,2,Gamboa,1,1.1,Centro,1,Portuaria,Centro,1112903.0,4612.83363,POLYGON ((-43.18791509600138 -22.8931217212322...,"POLYGON((-43.1879150960014 -22.8931217212322, ..."
1,1,Saúde,1,1.1,Centro,1,Portuaria,Centro,363817.6,2646.220568,POLYGON ((-43.181151633502964 -22.895430284304...,"POLYGON((-43.181151633503 -22.8954302843042, -..."
2,4,Caju,1,1.1,Centro,1,Portuaria,Centro,5347481.0,19800.522524,MULTIPOLYGON (((-43.22522241788469 -22.8746498...,MULTIPOLYGON(((-43.196711909178 -22.8872495021...


In [2]:
# Verificando a quantidade de registro e colunas
df_size = df.shape
print(f'Total de registros: {df_size[0]}')
print(f'Total de colunas: {df_size[1]}')

Total de registros: 164
Total de colunas: 12


In [3]:
# Verificando informações dos tipos dos dados
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 164 entries, 0 to 163
Data columns (total 12 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   id_bairro                   164 non-null    object 
 1   nome                        164 non-null    object 
 2   id_area_planejamento        164 non-null    object 
 3   id_regiao_planejamento      164 non-null    object 
 4   nome_regiao_planejamento    164 non-null    object 
 5   id_regiao_administrativa    164 non-null    object 
 6   nome_regiao_administrativa  164 non-null    object 
 7   subprefeitura               164 non-null    object 
 8   area                        164 non-null    float64
 9   perimetro                   164 non-null    float64
 10  geometry_wkt                164 non-null    object 
 11  geometry                    164 non-null    object 
dtypes: float64(2), object(10)
memory usage: 15.5+ KB


In [4]:
# Verificando os tipos de variáveis
df.dtypes

id_bairro                      object
nome                           object
id_area_planejamento           object
id_regiao_planejamento         object
nome_regiao_planejamento       object
id_regiao_administrativa       object
nome_regiao_administrativa     object
subprefeitura                  object
area                          float64
perimetro                     float64
geometry_wkt                   object
geometry                       object
dtype: object

In [5]:
# Verificando Quarteto
df.describe()

Unnamed: 0,area,perimetro
count,164.0,164.0
mean,7342363.0,13143.53587
std,18007720.0,12886.202656
min,161117.8,2122.524107
25%,1359042.0,6486.095329
50%,2556970.0,9077.203224
75%,4815665.0,14131.44473
max,131786600.0,88693.995709


In [6]:
# Verificando o Quarteto do type object
df.describe(include='object')

Unnamed: 0,id_bairro,nome,id_area_planejamento,id_regiao_planejamento,nome_regiao_planejamento,id_regiao_administrativa,nome_regiao_administrativa,subprefeitura,geometry_wkt,geometry
count,164,164,164,164.0,164,164,164,164,164,164
unique,164,164,5,16.0,16,33,33,9,164,164
top,2,Gamboa,3,3.3,Madureira,13,Meier,Zona Norte,POLYGON ((-43.18791509600138 -22.8931217212322...,"POLYGON((-43.1879150960014 -22.8931217212322, ..."
freq,1,1,80,19.0,19,16,16,65,1,1


In [7]:
# Verificando a somatória dos dados nulos e vazios
df.isnull().sum() 

id_bairro                     0
nome                          0
id_area_planejamento          0
id_regiao_planejamento        0
nome_regiao_planejamento      0
id_regiao_administrativa      0
nome_regiao_administrativa    0
subprefeitura                 0
area                          0
perimetro                     0
geometry_wkt                  0
geometry                      0
dtype: int64

In [8]:
# Verificando a somatória dos dados nulos e vazios % 
df.isnull().sum()/df.shape[0] 

id_bairro                     0.0
nome                          0.0
id_area_planejamento          0.0
id_regiao_planejamento        0.0
nome_regiao_planejamento      0.0
id_regiao_administrativa      0.0
nome_regiao_administrativa    0.0
subprefeitura                 0.0
area                          0.0
perimetro                     0.0
geometry_wkt                  0.0
geometry                      0.0
dtype: float64