# Informe de Análisis V

## Tratamiento de Datos Faltantes

In [4]:
import pandas as pd

In [5]:
datos = pd.read_csv('datos/alquiler_residencial.csv', sep = ';')

In [None]:
datos.head(10)

In [None]:
# genera un DataFrame booleano
datos.isnull()

In [None]:
# genera un DataFrame booleano
datos.notnull()

In [6]:
# podemos visualizar un resumen de la información de la Bases de datos
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22580 entries, 0 to 22579
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Unnamed: 0           22580 non-null  int64  
 1   Tipo                 22580 non-null  object 
 2   Barrio               22580 non-null  object 
 3   Cuartos              22580 non-null  int64  
 4   Nro_Estacionamiento  22580 non-null  int64  
 5   Suites               22580 non-null  int64  
 6   Area                 22580 non-null  int64  
 7   Valor                22571 non-null  float64
 8   Condominio           20765 non-null  float64
 9   IPTU                 15795 non-null  float64
dtypes: float64(3), int64(5), object(2)
memory usage: 1.7+ MB


In [7]:
# Serie booleana
datos['Valor'].isnull()

0        False
1        False
2        False
3        False
4        False
         ...  
22575    False
22576    False
22577    False
22578    False
22579    False
Name: Valor, Length: 22580, dtype: bool

In [8]:
# Colectamos estos registros directamente en la base de datos (9 registros)
datos[datos['Valor'].isnull()]

Unnamed: 0.1,Unnamed: 0,Tipo,Barrio,Cuartos,Nro_Estacionamiento,Suites,Area,Valor,Condominio,IPTU
58,58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,1683,Casa,Campo Grande,3,4,3,363,,,
2012,2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,4941,Casa,Campo Grande,3,2,1,100,,,
8568,8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0


Crearemos una variable **A**, que contendrá la cantidad de registros del DataFrame original. A continuación, escribiremos ``datos.dropna()``, el método recibirá como argumento *susbset*, que es una lista de variables. A continuación, crearemos una nueva variable **B**, que contendrá el resultado del nuevo conjunto de datos que no contiene valores nulos. Entonces escribiremos **A - B**.

In [9]:
# usamos el método dropna() para eliminar estos valores nulos
A = datos.shape[0]
datos.dropna(subset = ['Valor'], inplace = True)
B = datos.shape[0]
A - B

9

In [10]:
datos[datos['Valor'].isnull()]

Unnamed: 0.1,Unnamed: 0,Tipo,Barrio,Cuartos,Nro_Estacionamiento,Suites,Area,Valor,Condominio,IPTU


## Tratamiento de Datos Faltantes (continuación)

Tenemos las variables **Condominio** e **IPTU** con algunos problemas. En el caso de Condominio, los datos nulos no siempre son incorrectos, después de todo, en el caso de una casa, realmente no existe tal tarifa. Para este caso, debemos considerar la variable Tipo: si la propiedad es un apartamento, se excluirán los datos nulos.

In [11]:
datos[datos['Condominio'].isnull()].shape[0]

1813

In [12]:
# Seleccionamos los registros cuyo tipo contiene 'Apartamento'  
# y tienen datos nulos enCondominio
seleccion = (datos['Tipo'] == 'Apartamento') & (datos['Condominio'].isnull())

In [14]:
# Para eliminar los registros nulos seleccionados en lugar de recopilarlas,
# agregaremos ~ en selección, que invierte la serie booleana.
A = datos.shape[0]
datos = datos[~seleccion]
B = datos.shape[0]
A - B

  datos = datos[~seleccion]


0

Fueron eliminados 745 elementos de la base de datos. 

In [15]:
# Verificamos registros nulos en 'Condominio'
datos[datos['Condominio'].isnull()].shape[0]

1068

In [17]:
# Ahora necesitamos filtrar los datos según el tipo de Apartamento 
# y 'Condominio' nulo
seleccion = (datos['Tipo'] == 'Apartamento') & (datos['Condominio'].isnull())
seleccion.shape[0]

21826

In [18]:
#  Usamos la función fillna(), que recibirá el valor 0 e inplace = True.
datos = datos.fillna({'Condominio': 0, 'IPTU': 0})

In [19]:
datos[datos['Condominio'].isnull()].shape[0]

0

In [20]:
datos[datos['IPTU'].isnull()].shape[0]

0

In [22]:
# Verificamos los valores nulos
datos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21826 entries, 0 to 22579
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Unnamed: 0           21826 non-null  int64  
 1   Tipo                 21826 non-null  object 
 2   Barrio               21826 non-null  object 
 3   Cuartos              21826 non-null  int64  
 4   Nro_Estacionamiento  21826 non-null  int64  
 5   Suites               21826 non-null  int64  
 6   Area                 21826 non-null  int64  
 7   Valor                21826 non-null  float64
 8   Condominio           21826 non-null  float64
 9   IPTU                 21826 non-null  float64
dtypes: float64(3), int64(5), object(2)
memory usage: 1.8+ MB


In [23]:
# Actualizamos el conjunto de datos
datos.to_csv('datos/alquiler_residencial.csv', sep = ';', index = False)