<a href="https://colab.research.google.com/github/fernandoawari/calculadora-aluguel-turma-set-20/blob/main/2-manipulacao/manipulacao_ml_pandas_clean_code.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
# Importações
import pandas as pd
import numpy as np
import re

In [3]:
# Parâmetros
url = 'https://raw.githubusercontent.com/fernandoawari/calculadora-aluguel-turma-set-20/main/1-web-scraping/dados_aluguel_ml_sao_paulo.csv'

In [4]:
# Funções
def extrair_area(entrada):
  """Criar função que possua como entrada um texto e retorne a área contida no
  mesmo. Retornar np.nan se for ausentes. Alguns exemplos:
      >>> extrair_area('79 m² construídos1 quarto')
      >>> 79
      >>> extrair_area('280 m² construídos')
      >>> 280
      >>> extrair_area('2,600 m² construídos'
      >>> 2600
      >>> extrair_area('2 quartos')
      >>> np.nan
      """
  if ' m²' in entrada:
    area = entrada.split(' m²')[0]
    area = area.replace(',', '')
  else:
    area = np.nan
  return area

def extrair_quartos(entrada):
  """Criar função que possua como entrada um texto e retorne uma tupla com a 
  área e o quarto. Retornar np.nan se um dos dois for ausentes. Alguns exemplos:
      >>> extrair_quarto('79 m² construídos1 quarto')
      >>> 1
      >>> extrair_quarto('280 m² construídos')
      >>> np.nan
      >>> extrair_quarto('2,600 m² construídos'
      >>> np.nan
      >>> extrair_quarto('2 quartos')
      >>> 2"""
  if 'quarto' in entrada:
    n_quartos = re.findall('(\d*) quarto', entrada)[0]
  else:
    n_quartos = np.nan
  return n_quartos

In [5]:
# Execução
df = pd.read_csv(url, thousands='.')

In [6]:
df['area']=df['area_quartos'].apply(extrair_area).astype(float)

In [8]:
df['quartos'] = df['area_quartos'].apply(extrair_quartos).astype(float)

In [9]:
df = df.drop('area_quartos', axis=1)

In [10]:
cols = ['zona', 'enderecos_lista', 'area', 'quartos', 'aluguel']

In [11]:
df=df[cols]

In [12]:
df.head()

Unnamed: 0,zona,enderecos_lista,area,quartos,aluguel
0,norte,"Praça Rafael Mendes De Carvalho, Jardim Paraís...",50.0,2.0,1150
1,norte,"Rua Almirante Noronha, Jardim São Paulo, São P...",76.0,3.0,1480
2,norte,"Rua Cássio De Almeida, Vila Guilherme, São Pau...",30.0,1.0,800
3,norte,"Rua Cabo José Da Silva, Parque Novo Mundo, São...",80.0,3.0,1180
4,norte,"Parque Domingos Luís, Jardim São Paulo, São Pa...",70.0,2.0,1300


In [13]:
df.to_csv('dados_aluguel_ml_sao_paulo_preprocessado.csv', index=False)

In [None]:
pd.read_csv('dados_aluguel_ml_sao_paulo_preprocessado.csv')

Unnamed: 0,zona,enderecos_lista,area,quartos,aluguel
0,norte,"Praça Rafael Mendes De Carvalho, Jardim Paraís...",50.0,2.0,1150
1,norte,"Rua Almirante Noronha, Jardim São Paulo, São P...",76.0,3.0,1480
2,norte,"Rua Cássio De Almeida, Vila Guilherme, São Pau...",30.0,1.0,800
3,norte,"Rua Cabo José Da Silva, Parque Novo Mundo, São...",80.0,3.0,1180
4,norte,"Parque Domingos Luís, Jardim São Paulo, São Pa...",70.0,2.0,1300
...,...,...,...,...,...
1339,oeste,"Rua Piauí, Higienópolis, São Paulo Zona Oeste,...",480.0,4.0,13280
1340,oeste,"Rua Doutor Aires Martins Torres, Vila São Fran...",620.0,4.0,15000
1341,oeste,"Rua Doutor Martins De Oliveira, Jardim Londrin...",64.0,3.0,2390
1342,oeste,"Rua Natingui, Vila Madalena, São Paulo Zona Oe...",44.0,1.0,3600


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1344 entries, 0 to 1343
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   zona             1344 non-null   object 
 1   enderecos_lista  1344 non-null   object 
 2   area             1341 non-null   float64
 3   quartos          1273 non-null   float64
 4   aluguel          1344 non-null   int64  
dtypes: float64(2), int64(1), object(2)
memory usage: 52.6+ KB


### Lidando com Dados Ausentes

In [None]:
df.dropna()

Unnamed: 0,zona,enderecos_lista,area,quartos,aluguel
0,norte,"Praça Rafael Mendes De Carvalho, Jardim Paraís...",50.0,2.0,1150
1,norte,"Rua Almirante Noronha, Jardim São Paulo, São P...",76.0,3.0,1480
2,norte,"Rua Cássio De Almeida, Vila Guilherme, São Pau...",30.0,1.0,800
3,norte,"Rua Cabo José Da Silva, Parque Novo Mundo, São...",80.0,3.0,1180
4,norte,"Parque Domingos Luís, Jardim São Paulo, São Pa...",70.0,2.0,1300
...,...,...,...,...,...
1339,oeste,"Rua Piauí, Higienópolis, São Paulo Zona Oeste,...",480.0,4.0,13280
1340,oeste,"Rua Doutor Aires Martins Torres, Vila São Fran...",620.0,4.0,15000
1341,oeste,"Rua Doutor Martins De Oliveira, Jardim Londrin...",64.0,3.0,2390
1342,oeste,"Rua Natingui, Vila Madalena, São Paulo Zona Oe...",44.0,1.0,3600


In [None]:
df.fillna(-1)

Unnamed: 0,zona,enderecos_lista,area,quartos,aluguel
0,norte,"Praça Rafael Mendes De Carvalho, Jardim Paraís...",50.0,2.0,1150
1,norte,"Rua Almirante Noronha, Jardim São Paulo, São P...",76.0,3.0,1480
2,norte,"Rua Cássio De Almeida, Vila Guilherme, São Pau...",30.0,1.0,800
3,norte,"Rua Cabo José Da Silva, Parque Novo Mundo, São...",80.0,3.0,1180
4,norte,"Parque Domingos Luís, Jardim São Paulo, São Pa...",70.0,2.0,1300
...,...,...,...,...,...
1339,oeste,"Rua Piauí, Higienópolis, São Paulo Zona Oeste,...",480.0,4.0,13280
1340,oeste,"Rua Doutor Aires Martins Torres, Vila São Fran...",620.0,4.0,15000
1341,oeste,"Rua Doutor Martins De Oliveira, Jardim Londrin...",64.0,3.0,2390
1342,oeste,"Rua Natingui, Vila Madalena, São Paulo Zona Oe...",44.0,1.0,3600


In [None]:
df.describe()

Unnamed: 0,area,quartos,aluguel
count,1341.0,1273.0,1344.0
mean,112.697987,2.106834,4396.404762
std,259.503149,0.882869,29225.842756
min,1.0,1.0,299.0
25%,48.0,1.0,1500.0
50%,67.0,2.0,2200.0
75%,106.0,3.0,3577.5
max,7800.0,5.0,870000.0


In [None]:
df.mean()

area        112.697987
quartos       2.106834
aluguel    4396.404762
dtype: float64

In [None]:
df.median()

area         67.0
quartos       2.0
aluguel    2200.0
dtype: float64

In [None]:
df.fillna(df.median())

Unnamed: 0,zona,enderecos_lista,area,quartos,aluguel
0,norte,"Praça Rafael Mendes De Carvalho, Jardim Paraís...",50.0,2.0,1150
1,norte,"Rua Almirante Noronha, Jardim São Paulo, São P...",76.0,3.0,1480
2,norte,"Rua Cássio De Almeida, Vila Guilherme, São Pau...",30.0,1.0,800
3,norte,"Rua Cabo José Da Silva, Parque Novo Mundo, São...",80.0,3.0,1180
4,norte,"Parque Domingos Luís, Jardim São Paulo, São Pa...",70.0,2.0,1300
...,...,...,...,...,...
1339,oeste,"Rua Piauí, Higienópolis, São Paulo Zona Oeste,...",480.0,4.0,13280
1340,oeste,"Rua Doutor Aires Martins Torres, Vila São Fran...",620.0,4.0,15000
1341,oeste,"Rua Doutor Martins De Oliveira, Jardim Londrin...",64.0,3.0,2390
1342,oeste,"Rua Natingui, Vila Madalena, São Paulo Zona Oe...",44.0,1.0,3600
