In [6]:
# Data Manipulation
import pandas as pd
import numpy as np
from pandas.io.stata import StataReader

# Visualization
import matplotlib.pyplot as plt
import seaborn as sns

# Profiling
import ydata_profiling as yp

# 1. Reading the data

In [7]:
# Read the file and the labels
with StataReader('../stata/amostra_domicilios_2010_RJ.dta') as reader:
    data_micro = reader.read(convert_categoricals=False)
    col_labels = reader.variable_labels()
    value_labels = reader.value_labels()

# Remove '_lbl' from the keys in value_labels
value_labels = {k.replace('_lbl', ''): v for k, v in value_labels.items()}

# Apply the labels to the data
for col, labels in value_labels.items():
    if col in data_micro:
        data_micro[col] = data_micro[col].map(labels)

# Apply the labels to the columns
data_micro = data_micro.rename(columns=col_labels)

In [8]:
data_micro.head()

Unnamed: 0,UNIDADE DA FEDERAÇÃO,CÓDIGO DO MUNICÍPIO,ÁREA DE PONDERAÇÃO,CONTROLE,PESO AMOSTRAL,REGIÃO GEOGRÁFICA,CÓDIGO DA MESORREGIÃO,CÓDIGO DA MICRORREGIÃO,CÓDIGO DA REGIÃO METROPOLITANA,SITUAÇÃO DO DOMICÍLIO,...,MARCA DE IMPUTAÇÃO NA V0218,MARCA DE IMPUTAÇÃO NA V0219,MARCA DE IMPUTAÇÃO NA V0220,MARCA DE IMPUTAÇÃO NA V0221,MARCA DE IMPUTAÇÃO NA V0222,MARCA DE IMPUTAÇÃO NA V0301,MARCA DE IMPUTAÇÃO NA V0401,MARCA DE IMPUTAÇÃO NA V0402,MARCA DE IMPUTAÇÃO NA V0701,Situação do setor
0,Rio de Janeiro,Angra dos Reis,3300100000000.0,12833.0,107200900000000.0,Região sudeste (uf=31 a 33 e 35),Sul Fluminense,Baía da Ilha Grande,0,Urbana,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Área urbanizada
1,Rio de Janeiro,Angra dos Reis,3300100000000.0,20358.0,190106100000000.0,Região sudeste (uf=31 a 33 e 35),Sul Fluminense,Baía da Ilha Grande,0,Rural,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Área rural de extensão urbana
2,Rio de Janeiro,Angra dos Reis,3300100000000.0,27895.0,89298380000000.0,Região sudeste (uf=31 a 33 e 35),Sul Fluminense,Baía da Ilha Grande,0,Urbana,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Área urbanizada
3,Rio de Janeiro,Angra dos Reis,3300100000000.0,42944.0,140504100000000.0,Região sudeste (uf=31 a 33 e 35),Sul Fluminense,Baía da Ilha Grande,0,Urbana,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Área urbanizada
4,Rio de Janeiro,Angra dos Reis,3300100000000.0,52534.0,123356300000000.0,Região sudeste (uf=31 a 33 e 35),Sul Fluminense,Baía da Ilha Grande,0,Urbana,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Área urbanizada


In [9]:
df_rio = data_micro[data_micro['CÓDIGO DO MUNICÍPIO'] == 'Rio de Janeiro']
df_rio.head()

Unnamed: 0,UNIDADE DA FEDERAÇÃO,CÓDIGO DO MUNICÍPIO,ÁREA DE PONDERAÇÃO,CONTROLE,PESO AMOSTRAL,REGIÃO GEOGRÁFICA,CÓDIGO DA MESORREGIÃO,CÓDIGO DA MICRORREGIÃO,CÓDIGO DA REGIÃO METROPOLITANA,SITUAÇÃO DO DOMICÍLIO,...,MARCA DE IMPUTAÇÃO NA V0218,MARCA DE IMPUTAÇÃO NA V0219,MARCA DE IMPUTAÇÃO NA V0220,MARCA DE IMPUTAÇÃO NA V0221,MARCA DE IMPUTAÇÃO NA V0222,MARCA DE IMPUTAÇÃO NA V0301,MARCA DE IMPUTAÇÃO NA V0401,MARCA DE IMPUTAÇÃO NA V0402,MARCA DE IMPUTAÇÃO NA V0701,Situação do setor
196547,Rio de Janeiro,Rio de Janeiro,3304557000000.0,2171.0,182423600000000.0,Região sudeste (uf=31 a 33 e 35),Metropolitana do Rio de Janeiro,Rio de Janeiro,19,Urbana,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Área urbanizada
196548,Rio de Janeiro,Rio de Janeiro,3304557000000.0,11523.0,220751100000000.0,Região sudeste (uf=31 a 33 e 35),Metropolitana do Rio de Janeiro,Rio de Janeiro,19,Urbana,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Área urbanizada
196549,Rio de Janeiro,Rio de Janeiro,3304557000000.0,13794.0,144174800000000.0,Região sudeste (uf=31 a 33 e 35),Metropolitana do Rio de Janeiro,Rio de Janeiro,19,Urbana,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Área urbanizada
196550,Rio de Janeiro,Rio de Janeiro,3304557000000.0,22268.0,183266200000000.0,Região sudeste (uf=31 a 33 e 35),Metropolitana do Rio de Janeiro,Rio de Janeiro,19,Urbana,...,Não,Não,Não,Não,Não,Não,Não,Sim,Não,Área urbanizada
196551,Rio de Janeiro,Rio de Janeiro,3304557000000.0,37328.0,178325700000000.0,Região sudeste (uf=31 a 33 e 35),Metropolitana do Rio de Janeiro,Rio de Janeiro,19,Urbana,...,Não,Não,Não,Não,Não,Não,Não,Sim,Não,Área urbanizada


# 2. Importando SHP

In [12]:
from scipy import stats
import statsmodels.formula.api as sm
import os

# para gráficos
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

# para a análise de dados espaciais
import geopandas as gp
import pysal as ps
import splot
import mapclassify as mc
# from libpysal.weights import Queen
# from libpysal import weights
# from esda import Moran, Moran_Local, G_Local
# from splot.esda import plot_moran, moran_scatterplot, lisa_cluster, plot_local_autocorrelation

In [14]:
gdf = gp.read_file('shp/rj_setores_censitarios/33SEE250GC_SIR.shp')

In [15]:
gdf.info()
gdf.head()

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 28318 entries, 0 to 28317
Data columns (total 14 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   ID          28318 non-null  int64   
 1   CD_GEOCODI  28318 non-null  object  
 2   TIPO        28318 non-null  object  
 3   CD_GEOCODB  21179 non-null  object  
 4   NM_BAIRRO   21179 non-null  object  
 5   CD_GEOCODS  28318 non-null  object  
 6   NM_SUBDIST  14550 non-null  object  
 7   CD_GEOCODD  28318 non-null  object  
 8   NM_DISTRIT  28318 non-null  object  
 9   CD_GEOCODM  28318 non-null  object  
 10  NM_MUNICIP  28318 non-null  object  
 11  NM_MICRO    28318 non-null  object  
 12  NM_MESO     28318 non-null  object  
 13  geometry    28318 non-null  geometry
dtypes: geometry(1), int64(1), object(12)
memory usage: 3.0+ MB


Unnamed: 0,ID,CD_GEOCODI,TIPO,CD_GEOCODB,NM_BAIRRO,CD_GEOCODS,NM_SUBDIST,CD_GEOCODD,NM_DISTRIT,CD_GEOCODM,NM_MUNICIP,NM_MICRO,NM_MESO,geometry
0,43773,330025805000046,URBANO,,,33002580500,,330025805,ARRAIAL DO CABO,3300258,ARRAIAL DO CABO,LAGOS,BAIXADAS,"POLYGON ((-42.01954 -22.96936, -42.02059 -22.9..."
1,43774,330025805000047,URBANO,,,33002580500,,330025805,ARRAIAL DO CABO,3300258,ARRAIAL DO CABO,LAGOS,BAIXADAS,"POLYGON ((-42.02282 -22.96769, -42.02290 -22.9..."
2,43775,330025805000048,URBANO,,,33002580500,,330025805,ARRAIAL DO CABO,3300258,ARRAIAL DO CABO,LAGOS,BAIXADAS,"POLYGON ((-42.16022 -22.94740, -42.16241 -22.9..."
3,43776,330025805000049,URBANO,,,33002580500,,330025805,ARRAIAL DO CABO,3300258,ARRAIAL DO CABO,LAGOS,BAIXADAS,"POLYGON ((-42.17397 -22.94625, -42.17588 -22.9..."
4,43777,330025805000050,URBANO,,,33002580500,,330025805,ARRAIAL DO CABO,3300258,ARRAIAL DO CABO,LAGOS,BAIXADAS,"POLYGON ((-42.17588 -22.94609, -42.17848 -22.9..."


In [18]:
df_rio['ÁREA DE PONDERAÇÃO'] = df_rio['ÁREA DE PONDERAÇÃO'].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_rio['ÁREA DE PONDERAÇÃO'] = df_rio['ÁREA DE PONDERAÇÃO'].astype(int)


196547   -2147483648
196548   -2147483648
196549   -2147483648
196550   -2147483648
196551   -2147483648
             ...    
301254   -2147483648
301255   -2147483648
301256   -2147483648
301257   -2147483648
301258   -2147483648
Name: ÁREA DE PONDERAÇÃO, Length: 104712, dtype: int32