In [152]:
import pandas as pd

In [153]:
url = ("https://gist.githubusercontent.com/ahcamachod/a572cfcc2527046db93101f88011b26e/raw/ffb13f45a79d31223e645611a119397dd127ee3c/alquiler.csv")
df = pd.read_csv(url,sep=';')

In [154]:
# Verificar la existencia de datos nulos.
inmuebles_comerciales = ['Conjunto Comercial/Sala',
      'Edificio Completo', 'Departamento en Hotel',
       'Tienda/Salón', 'Casa Comercial', 'Casa de Vecindad',
       'Terreno Estándar', 'Cochera/Estacionamiento', 'Loft',
       'Galpón/Depósito/Almacén', 'Tienda en Centro Comercial', 'Rancho',
       'Posada/Chalé', 'Estudio', 'Hotel', 'Loteo/Condominio',
       'Industria']

In [155]:
# Ahora vamos a empezar a filtrar
df.query('@inmuebles_comerciales not in Tipo')

Unnamed: 0,Tipo,Colonia,Habitaciones,Garages,Suites,Area,Valor,Condominio,Impuesto
0,Cocineta,Condesa,1,0,0,40,5950.0,1750.0,210.0
1,Casa,Polanco,2,0,1,100,24500.0,,
3,Departamento,Centro Histórico,1,0,0,15,2800.0,1365.0,70.0
4,Departamento,Del Valle,1,0,0,48,2800.0,805.0,
5,Casa de Condominio,Santa Fe,5,4,5,750,77000.0,,
...,...,...,...,...,...,...,...,...,...
25114,Departamento,Narvarte,1,0,0,28,3500.0,1260.0,87.5
25115,Casa de Condominio,Santa Fe,5,3,4,450,52500.0,5988.5,8162.0
25117,Cocineta,Centro Histórico,0,0,0,27,2800.0,1225.0,87.5
25118,Departamento,Mixcoac,2,1,0,48,4900.0,1781.5,129.5


In [156]:
df_residencial = df.query('@inmuebles_comerciales not in Tipo')

# Tratamiento de datos nulos

Una de las formas mas sencillas de poder encontrar datos nulos en pandas es utilizar la función `isnull()`, la cual nos devolverá un DataFrame de booleanos indicando si el valor es nulo o no.
O tambien agrupar por columnas y usar `isnull().sum()` para ver la cantidad de datos nulos por columna.

In [157]:
df_residencial.isnull().sum()

Tipo               0
Colonia            0
Habitaciones       0
Garages            0
Suites             0
Area               0
Valor              7
Condominio      1007
Impuesto        4469
dtype: int64

En este caso a los datos nulos se les agregara un 0

In [158]:
df_residencial = df.fillna(0) # Rellenar los datos nulos con 0
df_residencial.isnull().sum()

Tipo            0
Colonia         0
Habitaciones    0
Garages         0
Suites          0
Area            0
Valor           0
Condominio      0
Impuesto        0
dtype: int64

> Existen varias formas de tratar datos nulos con Pandas. Algunas de las formas principales son:

- `Eliminar los datos nulos`: Es posible eliminar las filas o columnas que contienen valores nulos utilizando el método dropna(). Este método elimina todas las filas o columnas que tienen al menos un valor nulo.

- `Llenar los datos nulos`: Utilizando el método fillna(), podemos llenar los valores nulos con un valor específico. Además, también es posible utilizar argumentos específicos del método fillna(), como method="ffill" o method="bfill", para llenar los valores nulos con el valor anterior o posterior, respectivamente.

- `Interpolar los datos nulos`: Es posible utilizar el método interpolate() para llenar los valores nulos con valores interpolados, es decir, valores calculados a partir de los valores vecinos.

## Remover registros inconsistentes

In [159]:
df_residencial.query('Valor == 0 | Condominio == 0').index

Index([    1,     5,     7,    11,    24,    49,    53,    74,    78,    96,
       ...
       25010, 25014, 25029, 25032, 25053, 25055, 25086, 25098, 25099, 25116],
      dtype='int64', length=2638)

In [160]:
df_remover = df_residencial.query('Valor == 0 | Condominio == 0').index

In [161]:
df_residencial.drop(df_remover,axis = 0, inplace=True)

In [162]:
df_residencial.head()

Unnamed: 0,Tipo,Colonia,Habitaciones,Garages,Suites,Area,Valor,Condominio,Impuesto
0,Cocineta,Condesa,1,0,0,40,5950.0,1750.0,210.0
2,Conjunto Comercial/Sala,Santa Fe,0,4,0,150,18200.0,14070.0,3888.5
3,Departamento,Centro Histórico,1,0,0,15,2800.0,1365.0,70.0
4,Departamento,Del Valle,1,0,0,48,2800.0,805.0,0.0
6,Conjunto Comercial/Sala,Centro Histórico,0,3,0,695,122500.0,67175.5,10605.0


In [163]:
# Ahora vamos a ver el tipo y vamos a quitar el tipo porque como todo son departamentos no nos sirve de nada que esten ahi
df_residencial = df_residencial.query('Tipo == "Departamento"')


In [164]:
# Eliminamos la columna Tipo
df_residencial.drop('Tipo',axis = 1,inplace = True )
df_residencial.sample(10)

Unnamed: 0,Colonia,Habitaciones,Garages,Suites,Area,Valor,Condominio,Impuesto
5768,Coyoacán,3,1,1,150,16800.0,4900.0,882.0
17319,Condesa,1,0,1,41,5600.0,1806.0,238.0
1988,Condesa,4,2,2,389,43400.0,12327.0,0.0
10978,Narvarte,3,0,0,110,7350.0,2870.0,385.0
23948,Santa Fe,4,2,1,297,26281.5,12950.0,39515.0
24810,Condesa,2,0,0,118,12250.0,3850.0,570.5
17477,Roma,3,1,1,108,21000.0,4830.0,1274.0
17124,Condesa,1,0,0,56,3850.0,3220.0,0.0
2196,Condesa,4,2,1,298,26250.0,9163.0,1067.5
21149,Santa Fe,4,3,4,206,31500.0,10500.0,12250.0


El método `drop()` de la biblioteca Pandas permite eliminar una o más filas y/o columnas de un DataFrame. Esta eliminación se puede realizar de forma permanente en el DataFrame original. Es posible especificar los índices de las filas y/o columnas que se deben eliminar, así como el eje en el que debe ocurrir la eliminación.

# **Aplicar Filtros**

In [165]:
df_f1 = df_residencial.query('(Habitaciones == 1 & Valor < 4200) ')

df_f2 = df_residencial.query('(Habitaciones == 2 & Valor < 10500 & Area > 70)')


### Exportación de datos

In [166]:
df_residencial.to_csv('./data/alquiler_residencial_limpio.csv',index=False,sep = ';')
df_f1.to_csv('./data/alquiler_residencial_filtro1.csv',index=False,sep = ';')
df_f2.to_csv('./data/alquiler_residencial_filtro2.csv',index=False,sep = ';')