**This notebook is an exercise in the [Data Cleaning](https://www.kaggle.com/learn/data-cleaning) course.  You can reference the tutorial at [this link](https://www.kaggle.com/alexisbcook/handling-missing-values).**

---


In this exercise, you'll apply what you learned in the **Handling missing values** tutorial.

# Setup

The questions below will give you feedback on your work. Run the following cell to set up the feedback system.

In [1]:
from learntools.core import binder
binder.bind(globals())
from learntools.data_cleaning.ex1 import *
print("Setup Complete")

# 1) Take a first look at the data

Run the next code cell to load in the libraries and dataset you'll use to complete the exercise.

**Licenças de construção emitidas por São Francisco.**

Uma licença de construção é um documento de aprovação oficial emitido por uma agência governamental que permite que você ou seu empreiteiro prossiga com um projeto de construção ou reforma em sua propriedade

Este conjunto de dados pertence a todos os tipos de licenças estruturais. Os dados incluem detalhes sobre números de solicitação/permissão, endereços de trabalho, distritos de supervisão e o status atual das solicitações. 

In [2]:
# modules we'll use
import pandas as pd
import numpy as np

# read in all our data
sf_permits = pd.read_csv("../input/building-permit-applications-data/Building_Permits.csv")

# set seed for reproducibility
np.random.seed(0) 

Use the code cell below to print the first five rows of the `sf_permits` DataFrame.

In [3]:
# TODO: Your code here!
sf_permits.head()

Podemos perceber que existem colunas com dados faltantes nesse nosso dataframe, como por exemplo: "Street Number Suffix","Proposed Construction Type", "Proposed Construction Type Description" e "Site Permit".

In [4]:
sf_permits.shape

Nosso dataframe possui 198900 linhas e 43 colunas.. ufa! Bastante dados, não é mesmo?

Does the dataset have any missing values?  Once you have an answer, run the code cell below to get credit for your work.

In [None]:
# Check your answer (Run this code cell to receive credit!)
q1.check()

In [None]:
# Line below will give you a hint
#q1.hint()

# 2) How many missing data points do we have?

What percentage of the values in the dataset are missing?  Your answer should be a number between 0 and 100.  (If 1/4 of the values in the dataset are missing, the answer is 25.)

Agora vamos contabilizar quantos dados faltantes nós temos e em quais classes.

In [5]:
# TODO: Your code here!
# get the number of missing data points per column
missing_values_count = sf_permits.isnull().sum()
# look at the # of missing points in the first ten columns
missing_values_count[0:43]

Existe uma grande quantidade de dados ausentes em diversas classes.
Agora vamos ordenar as classes de forma descrescente de quantidade de dados ausentes.

In [6]:
# how many total missing values do we have?
total_cells = np.product(sf_permits.shape)
total_missing = missing_values_count.sum()

# percent of data that is missing
percent_missing = (total_missing/total_cells) * 100
print(percent_missing)

# Check your answer
q2.check()

Temos um total de 26.26% de dados ausentes em nosso dataset.

In [None]:
# Lines below will give you a hint or solution code
#q2.hint()
#q2.solution()

# 3) Figure out why the data is missing

Look at the columns **"Street Number Suffix"** and **"Zipcode"** from the [San Francisco Building Permits dataset](https://www.kaggle.com/aparnashastry/building-permit-applications-data). Both of these contain missing values. 
- Which, if either, are missing because they don't exist? 
- Which, if either, are missing because they weren't recorded?  

Once you have an answer, run the code cell below.

Agora, vamos descobrir por que temos tantos dados ausentes em "Street Number Suffix" e "Zipcode".
Portanto, temos que responder as seguintes perguntas:
* Quais estão faltando por que não existem?
* Quais estão faltando por que não foram registrados?

Como pode-se notar, "Street Number Suffix" é uma das classes que contém os dados mais ausentes de nosso dataset. 

"Street Number Suffix" informação que contém um ou mais caracteres que seguem o número da rua em um endereço de São Fransisco.
"Zipcode" é o famoso código postal, que conhecemos.

**Porcentagem de dados ausentes em "Street Number Suffix" e "Zipcode"**

In [7]:
total_lines = sf_permits.shape[0] #pegando a quantidade total de linhas do nosso dataset

total_missing1 = (sf_permits['Street Number Suffix'].isnull()).sum() #total de dados ausentes nessa classe
total_missing2 = (sf_permits['Zipcode'].isnull()).sum()

percent_missing1 = (total_missing1/total_lines)*100 #porcentagem de dados ausentes na classe
percent_missing2 = (total_missing2/total_lines)*100 

print("A percentagem de dados ausentes em Street Number Suffix é", percent_missing1)
print("A percentagem de dados ausentes em Zipcode é", percent_missing2)

Logo, podemos concluir que em Street Number Suffix, 98.89% dos dados estão ausentes porque não existem.
Já em Zipcode, 0.86% dados ausentes podem não ter sido coletados, devido a quantidade ser muito pequena em relação aos dados totais.

In [None]:
# Check your answer (Run this code cell to receive credit!)
q3.check()

In [None]:
# Line below will give you a hint
#q3.hint()

# 4) Drop missing values: rows

If you removed all of the rows of `sf_permits` with missing values, how many rows are left?

**Note**: Do not change the value of `sf_permits` when checking this.  

Agora vamos pensar como fazer para eliminar as linhas com os dados ausentes. Primeiro, vamos ver como fica o perfil do nosso dataset ao eliminar todas as linhas com dados ausentes.

In [8]:
sf_permits.dropna()

Ao fazer essa ação, eliminamos praticamente todas as linhas. E por que? Porque em todas as linhas temos dados ausentes. Logo, isso não é o mais indicado a fazer, pois precisamos examinar melhor nosso dataset e averiguar como vamos fazer essa eliminação de dados ausentes sem prejudicar nosso trabalho.

Once you have an answer, run the code cell below.

In [None]:
# Check your answer (Run this code cell to receive credit!)
q4.check()

In [None]:
# Line below will give you a hint
#q4.hint()

# 5) Drop missing values: columns

Now try removing all the columns with empty values.  
- Create a new DataFrame called `sf_permits_with_na_dropped` that has all of the columns with empty values removed.  
- How many columns were removed from the original `sf_permits` DataFrame? Use this number to set the value of the `dropped_columns` variable below.

In [9]:
# TODO: Your code here
sf_permits_with_na_dropped = sf_permits.dropna(axis=1)
columns_sf_permits = sf_permits.shape[1]
columns_na_dropped = sf_permits_with_na_dropped.shape[1]
#dropped_columns = sf_permits_with_na_dropped.shape[1]
dropped_columns = columns_sf_permits - columns_na_dropped
dropped_columns #colunas restantes após a remoção. não entendi essa resposta, pos para mim o correto eraa quantidade removida apenas

print('A quantidade de colunas restantes após a remoção das colunas com ao menos um dado ausente é', dropped_columns)
#print('Quantidade de colunas no data set original', sf_permits.shape[1])
#print('Quantidade de colunas após a remoção das colunas com dados ausentes', dropped_columns)

In [None]:
# Check your answer
q5.check()

In [None]:
# Lines below will give you a hint or solution code
#q5.hint()
#q5.solution()

# 6) Fill in missing values automatically

Try replacing all the NaN's in the `sf_permits` data with the one that comes directly after it and then replacing any remaining NaN's with 0.  Set the result to a new DataFrame `sf_permits_with_na_imputed`.

Agora vamos preencher as células com os valores ausentes do nosso dataset. A técnica será preencher todos os NaN's com os valores que aparecem diretamente após esses e os restantes serão substituídos por zero. De acordo com a autora do tutorial 'Isso faz muito sentido para conjuntos de dados em que as observações têm algum tipo de ordem lógica.' Para o nosso caso, ainda precisamos avaliar se isso faz algum sentido..

In [10]:
# TODO: Your code here
sf_permits_with_na_imputed = sf_permits.fillna(method='bfill',axis=0).fillna(0)
sf_permits_with_na_imputed.head()

In [None]:
# Check your answer
q6.check()

In [None]:
# Lines below will give you a hint or solution code
#q6.hint()
#q6.solution()

# More practice

If you're looking for more practice handling missing values:

* Check out [this noteboook](https://www.kaggle.com/alexisbcook/missing-values) on handling missing values using scikit-learn's imputer. 
* Look back at the "Zipcode" column in the `sf_permits` dataset, which has some missing values. How would you go about figuring out what the actual zipcode of each address should be? (You might try using another dataset. You can search for datasets about San Fransisco on the [Datasets listing](https://www.kaggle.com/datasets).) 

# Keep going

In the next lesson, learn how to [**apply scaling and normalization**](https://www.kaggle.com/alexisbcook/scaling-and-normalization) to transform your data.

---




*Have questions or comments? Visit the [course discussion forum](https://www.kaggle.com/learn/data-cleaning/discussion) to chat with other learners.*