# Pré-Requisitos

## Sweetviz - https://pypi.org/project/sweetviz/

In [None]:
!pip install sweetviz

## Baixa o Dataset

In [None]:
url = "https://rafaelescalfoni.net/"
filename = "prefeito_rio_2020.csv"
!wget --no-check-certificate {url + filename}

## Copia dataset do Google Drive

In [None]:
from google.colab import drive
# Caminho do arquivo dentro do Drive
filepath = "_DS/"
filename = "prefeito_rio_2020.csv"
drive.mount('/content/drive')

!cp drive/MyDrive/{filepath + filename} .

# Bibliotecas

In [None]:
import pandas as pd
import sweetviz as sv
import json

# Abre o DataSet

## Localmente

In [None]:
ds = pd.read_csv(filename)
ds.head()

## Direto da internet

Desabilita verificação SSL em caso de certificado auto-assinado:

In [None]:
import ssl

ssl._create_default_https_context = ssl._create_unverified_context

Lê o Dataset:

In [None]:
uri = "https://rafaelescalfoni.net/prefeito_rio_2020.csv"
ds = pd.read_csv(uri)
ds.head()

# Mostra informações sobre o DataSet

In [None]:
ds.info()

# Seleciona registros com dados nulos

In [None]:
ds[ds.isna().any(axis=1)]

# Mostra total de valores nulos por colunas

In [None]:
ds.isna().sum()

# Mostra as colunas informando sobre valores nulos

In [None]:
ds.isna().any()

# Lista somente as colunas que possuem valores nulos

In [None]:
ds.columns[ds.isna().any()].tolist()

# Lista colunas com objetos JSON

In [None]:
# Função que verifica se determinada string é um objeto json (parâmetro opcional = somente dicionário)
def is_json(myjson, ignore_list=True):
  try:
    json_object = json.loads(myjson)
  except:
    return False
  # Verifica se o objeto json é uma lista
  if (ignore_list and type(json_object) == list):
    return False
  else:
    return True
# Analisa sempre o primeiro índice não nulo da referida coluna, ou 0 quando a coluna é vazia
[column for column in ds.columns if is_json(ds[column][ds[column].first_valid_index() or 0])]

# Análise Exploratória de Dados - Sweetviz

## Dataset inteiro

In [None]:
report = sv.analyze(ds)
report.show_notebook()

### Exporta relatório para HTML

In [None]:
report.show_html()

## Colunas com objetos JSON

Função para converter listas para string json no DataFrame:

In [None]:
from pandas.core.frame import DataFrame

def converte_lista_json(df: DataFrame):
  for column in df.columns:
    df[column] = df[column].apply(lambda x: json.dumps(x) if type(x) == list else x)

### Coluna user

Transforma os objetos JSON da coluna em um DataFrame:

In [None]:
expanded_user = pd.json_normalize(ds.user.apply(json.loads))
expanded_user.head()

Analisa o DataFrame (Sweetviz):

In [None]:
report_user = sv.analyze(expanded_user)
report_user.show_notebook()

Exporta relatório para HTML:

In [None]:
report_user.show_html(filepath='SWEETVIZ_REPORT_USER.html')

### Coluna geo

Transforma os objetos JSON da coluna em um DataFrame:

In [None]:
# Transforma dados null em objetos json vazio {} antes de carregar
expanded_geo = pd.json_normalize(ds.geo.fillna('{}').apply(json.loads))
expanded_geo.head()

Analisa o DataFrame (Sweetviz):

In [None]:
converte_lista_json(expanded_geo)
report_geo = sv.analyze(expanded_geo)
report_geo.show_notebook()

Exporta relatório para HTML:

In [None]:
report_geo.show_html(filepath='SWEETVIZ_REPORT_GEO.html')

### Coluna coordinates

Transforma os objetos JSON da coluna em um DataFrame:

In [None]:
# Transforma dados null em objetos json vazio {} antes de carregar
expanded_coordinates = pd.json_normalize(ds.coordinates.fillna('{}').apply(json.loads))
expanded_coordinates.head()

Analisa o DataFrame (Sweetviz):

In [None]:
converte_lista_json(expanded_coordinates)
report_coordinates = sv.analyze(expanded_coordinates)
report_coordinates.show_notebook()

Exporta relatório para HTML:

In [None]:
report_coordinates.show_html(filepath='SWEETVIZ_REPORT_COORDINATES.html')

### Coluna place

Transforma os objetos JSON da coluna em um DataFrame:

In [None]:
# Transforma dados null em objetos json vazio {} antes de carregar
expanded_place = pd.json_normalize(ds.place.fillna('{}').apply(json.loads))
expanded_place.head()

Analisa o DataFrame (Sweetviz):

In [None]:
converte_lista_json(expanded_place)
report_place = sv.analyze(expanded_place)
report_place.show_notebook()

Exporta relatório para HTML:

In [None]:
report_place.show_html(filepath='SWEETVIZ_REPORT_PLACE.html')

### Coluna extended_tweet

Transforma os objetos JSON da coluna em um DataFrame:

In [None]:
# Transforma dados null em objetos json vazio {} antes de carregar
expanded_ext_tweet = pd.json_normalize(ds.extended_tweet.fillna('{}').apply(json.loads))
expanded_ext_tweet.head()

Analisa o DataFrame (Sweetviz):

In [None]:
converte_lista_json(expanded_ext_tweet)
report_ext_tweet = sv.analyze(expanded_ext_tweet)
report_ext_tweet.show_notebook()

Exporta relatório para HTML:

In [None]:
report_ext_tweet.show_html(filepath='SWEETVIZ_REPORT_EXTENDED_TWEET.html')

### Coluna entities

Transforma os objetos JSON da coluna em um DataFrame:

In [None]:
expanded_entities = pd.json_normalize(ds.entities.apply(json.loads))
expanded_entities.head()

Analisa o DataFrame (Sweetviz):

In [None]:
converte_lista_json(expanded_entities)
report_entities = sv.analyze(expanded_entities)
report_entities.show_notebook()

Exporta relatório para HTML:

In [None]:
report_entities.show_html(filepath='SWEETVIZ_REPORT_ENTITIES.html')