*Estudiante: Giselle andrea vásquez López*



# Proyecto: Análisis de mercado inmobiliario



¡Bienvenido/a al primer proyecto de la carrera de Data Science de Acamica! 

El objetivo de este proyecto es reproducir los pasos que haría un/a Data Scientist cuando se enfrenta a una problemática real. Por eso, consta de tres secciones:
* En la Parte 1, te presentamos la problemática sobre la cual vas a trabajar. En esta sección deberás decidir qué datos te ayudarán a trabajar en este problema y dónde puedes conseguirlos.
* En la Parte 2 te proveemos de un dataset para abordar la problemática planteada. Deberás realizar un Análisis Exploratorio de Datos sobre este dataset.
* En la Parte 3, deberás utilizar herramientas de Machine Learning para predecir la variable de interés.


En este proyecto vas a trabajar con un dataset de propiedades en venta publicado en el portal [Properati](www.properati.com.ar).

**Importante:** recuerda que un notebook es un informe, por lo que debes ir explicando lo que haces a medida que resuelves las consignas. Es importante que quien que lo lea entienda el flujo de trabajo, qué quisiste hacer. Recuerda, simple y conciso es una combinación ganadora. 

## Problema

Recientemente te has incorporado al equipo de Datos de una gran inmobiliaria. La primera tarea que se te asigna es ayudar a los tasadores/as a valuar las propiedades, ya que es un proceso difícil y, a veces, subjetivo. Para ello, propones crear un modelo de Machine Learning que, dadas ciertas características de la propiedad, prediga su precio de venta.

### 1. Pensando como un/a Data Scientist

Responde la siguientes pregunta:
1. ¿Qué datos crees que te ayudarían a trabajar en el problema?¿Por qué?

**Importante**: NO deberás buscar esos datos, solamente justificar qué información crees que te ayudaría a resolver la problemática planteada.

Los avalúos para las viviendas es uno de los procesos más complejos que se desarrollan a la hora de vender o alquilar una propiedad, ya que influyen muchos aspectos. Considero que los datos que me ayudarían son:

**1.** Localidad de la propiedad: es comercial o residencial, estrato del sector y ubicación(se encuentra cerca a colegios, hospitales, centros comerciales, etc).

**2.** Tipo de vivienda: apartamento, casa, lote, entre otros. 

**3.** Características del inmueble: ¿Es nuevo o es usado?, esta pregunta es importante ya que los inmuebles nuevos tienden a tener un valor más alto en el mercado o si es usado cuantos años la construcción. 

**4.** Área total. 

**5.** Estado físico del inmueble: se encuentra renovado, con que tipo de acabados cuenta, entre otros. 

**6.** Extras: Que tipo de extras tiene, por ejemplo cuenta con garaje, cuarto útil o se encuentra en una zona cerrada con seguridad.

**7.** Avalúo catastral: Valor del predio determinado por la unidad administrativa especial de catastro.


Es muy importante tener en cuenta todas las variables y colocar un precio acertado al inmueble, ya que si no será difícil su venta o alquiler o tomará más tiempo del necesario. 

---

<br />
<br />

# SECCIÓN 1: Exploración datos.
<br />
<br />

---

### 2. Análisis Exploratorio de Datos

En esta sección, debes realizar un Análisis Exploratorio de Datos sobre el dataset de propiedades de Properati. Es importante que respondas las siguientes preguntas durante el análisis:

* ¿Qué tamaño tiene el dataset?¿Cuántas instancias y cuántas columnas?
* ¿Cuántos valores faltantes hay en cada columna?
* ¿Cómo es la distribución de cada variable? Deberás hacer histogramas para las variables numéricas y gráficos de barras para las variables categóricas.
* ¿Cómo se relacionan las variables entre sí?¿Qué tipo de gráfico será conveniente para presentar esta información?
* ¿Cómo están correlacionadas las variables numéricas?¿Qué tipo de gráfico será conveniente para presentar esta información?¿Cuáles serán los mejores predictores de la variable de interés?

Vas a encontrar instrucciones para responder estas preguntas. Es importante aclarar que estas instrucciones corresponden al **mínimo entregable** que esperamos en la consigna.

**Comentarios sobre el dataset** 
1. Nosotros ya hicimos un *curado* sobre el dataset que puedes descargar directamente de la página de Properati. Muchos de los pasos que hicimos para curar el conjunto de datos los veremos durante el Bloque 2 de la carrera.

2. Si tienes dudas sobre qué representa alguna de las columnas, puedes consultar [aquí](https://www.properati.com.ar/data/). Notarás que algunas columnas fueron descartadas.

3. `Capital Federal` refiere a la Ciudad de Buenos Aires. `Bs.As. G.B.A. Zona Norte`, `Bs.As. G.B.A. Zona Sur` y `Bs.As. G.B.A. Zona Oeste` son regiones que conforman el [Gran Buenos Aires](https://es.wikipedia.org/wiki/Gran_Buenos_Aires), un conjunto de ciudades que rodean a la Ciudad de Buenos Aires.

**0.** Importa las librerías necesarias para trabajar en la consigna.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
import plotly.express as px

**1.** Carga el dataset usando las funcionalidades de Pandas. 

In [None]:
data = pd.read_csv(r'data.csv')

**Explicación de cada uno de los datos obtenidos:**
1. start_date - Fecha de alta del aviso.
2. nd_date - Fecha de baja del aviso.
3. created_on - Fecha de alta de la primera versión del aviso.
4. lat - Latitud.
5. lon - Longitud.
6. l1 - Nivel administrativo 1: país.
7. l2 - Nivel administrativo 2: usualmente provincia.
8. l3 - Nivel administrativo 3: usualmente ciudad.
9. rooms - Cantidad de ambientes (útil en Argentina).
10. bedrooms - Cantidad de dormitorios (útil en el resto de los países).
11. bathrooms - Cantidad de baños.
12. surface_total - Superficie total en m².
13. surface_covered - Superficie cubierta en m².
14. price - Precio publicado en el anuncio.
15. currency - Moneda del precio publicado.
16. title - Título del anuncio.
17. description - Descripción del anuncio.
18. type - Tipo de propiedad (Casa, Departamento, PH).
19. operation - Tipo de operación (Venta, Alquiler).


En primera instancia genero las funciones que usaré en la exploración de datos.

In [None]:
def porcentajes (data1):
    cantidad= data[data1].value_counts()
    porcentaje= round(data[data1].value_counts(normalize=True) * 100, 2)
    data_percent = pd.DataFrame({ "cantidad": cantidad, "porcentaje": porcentaje})
    print(data_percent)

Imprimir cuántas filas y columnas tiene, y sus cinco primeras instancias.

In [None]:
#cuántas filas
print('cantidad de filas son:', len(data.index))
print('')

#cuántas columnas
print('cantidad de columnas son:',data.shape[1] )
print('')

#cuántas filas y columnas
print('cantidad de filas y columnas son:', data.shape)

In [None]:
#cinco primeras instancias
print('Las cinco primera instancias son:' )
data[:6]

**2. Valores Faltantes:** Imprime en pantalla los nombres de las columnas y cuántos valores faltantes hay por columna.

In [None]:
print(' Valores faltantes en cantidad y porcentaje')
cantidad = data.isnull().sum()
porcentaje = round(data.isna().sum()/data.shape[0]*100)
df_11 = pd.DataFrame({ "cantidad": cantidad, "porcentaje": porcentaje})
print(df_11)

In [None]:
msno.matrix(data)

Por medio del mapa de calor podemos reafirmar que la información de faltantes está correcta, y se concentran en los datos de la superficie total y la superficie cubierta. Esta información es importante tenerla presente a la hora de realizar análisis. 
La columna de la derecha de nuestro grafico resume de forma general el grado de “completitud” de los datos, además nos enseña las filas con mayor y menor número de “missing values” de nuestra base de datos.

In [None]:
print('Cantidad de datos duplicados:')
duplicados = data.duplicated()
duplicados.value_counts()

En el dataset ( el cual posee 146.660 ingresos) encontramos 2.358 registros duplicados, lo cual es el 1.6% de todo el dataset. Aunque son pocos datos repetidos pueden generar una visión algo errónea a la hora de estudiar el comportamiento de los datos si estos son muy desproporcionados.

**3. Tipos de propiedad:** ¿Cuántos tipos de propiedad hay publicados según este dataset?¿Cuántos instancias por cada tipo de propiedad hay en el dataset? Responde esta pregunta usando las funcionalidad de Pandas y con un gráfico apropiado de Seaborn. **Pistas**: Te puede ser útil googlear cómo rotar las etiquetas del eje x.

In [None]:
print('Nombres de las propiedades:', data['property_type'].unique())
print('')

# ¿Cuántos tipos de propiedad hay publicados según este dataset?
q= data['property_type'].unique()
w= len(q)
print('¿Cuántos tipos de propiedad hay publicados según este dataset?:', w )

print('')

#¿Cuántos instancias por cada tipo de propiedad hay en el dataset?
print('¿Cuántas instancias por cada tipo de propiedad hay en el dataset?:')
porcentajes ('property_type')

Actualmente hay 3 tipos de propiedad que ocupan el 97.6% = Departamento, PH y Casa.

In [None]:
max_min= data['property_type'].value_counts().index
#Datos grafica:
fig, ax = plt.subplots(figsize = (12,8))
sns.countplot(y = 'property_type', data = data, palette='flare', order= max_min) #data
plt.title('Tipo De Propiedades', size = 25, weight=600, pad = 70) 
plt.ylabel('Tipo de propiedad', size = 14, weight=600, labelpad=20) #titulo y
ax.xaxis.set_ticks_position('top') #subir #s eje x
ax.text(0.40, 1.08, 'Cantidad propiedades', transform=ax.transAxes, size=14, weight=600) #subir el nombre eje x
ax.set_xlim(0, 120000)
ax.set_xlabel('') 

**4. ¿De qué regiones son las publicaciones?** Haz gráficos de barras para las variables `l2` y `l3`. Si te animas, puedes hacer los dos gráficos usando `subplot` de Matplotlib. Dale un tamaño apropiado a la figura para que ambos gráficos se visualicen correctamente.

In [None]:
print('Las regiones de las cuales son las publicaciones son:')
porcentajes ('l2')
print('')
print('')

max_min_l2= data['l2'].value_counts().index
#Datos grafica:
plt.figure(figsize = (13,10))
plt.subplot(2,1,1)
sns.countplot(x = 'l2', data = data, palette="flare", order= max_min_l2) #data
plt.title('Tipo de Propiedades por regiones', size = 25, weight=600, pad = 30) 
plt.ylabel('cantidad de propiedades', size = 14, weight=600, labelpad=20) 
plt.xlabel('Regiones', size = 14, weight=600, labelpad=20)

Capital Federal ocupa más del 50% de los registros.

In [None]:
print('Las barrios de las cuales son las publicaciones son:')
porcentajes ('l3')
print('')
print('')

max_min_l3= data['l3'].value_counts().index
#Datos grafica:
plt.figure(figsize = (40,20))
plt.subplot(2,1,1)
sns.countplot(x = 'l3', data = data, palette='flare', order= max_min_l3) #data
plt.title('Tipo de Propiedades por barrios', size = 30, weight=600, pad = 30) 
plt.ylabel('cantidad de propiedades', size = 14, weight=600, labelpad=20) 
plt.xticks(rotation= 90)
plt.xlabel('Barrios', size = 14, weight=600, labelpad=20)

**5. Filtrando el Dataset:** A partir de los resultados del punto 3. y 4., selecciona las tres clases más abundantes de tipos de propiedad y la región con más propiedades publicadas. Crea un nuevo Data Frame con aquellas instancias que cumplen con esas condiciones e imprime su `shape`.

In [None]:
propiedad=["Departamento","PH","Casa"]
regiones=["Capital Federal"]
nueva_data = data[data.property_type.isin(propiedad) & data.l2.isin(regiones)] 
print("Data shape:", nueva_data.shape)

como podemos observar obtuvimos un dataset con 91485 instacias y 19 columnas, como fue solicitado. 


In [None]:
nueva_data.head()

In [None]:
fig = px.scatter_mapbox(nueva_data, lat="lat", lon="lon", color="property_type", hover_data=['price'],hover_name="title",animation_frame="l3",zoom=10,title="Mapa de propiedades en venta",)
fig.update_layout(mapbox_style="open-street-map")
fig.show()

In [None]:
plt.figure(figsize = (10,5))
sns.countplot(x='property_type', data = nueva_data, palette='flare')
plt.xlabel('Tipo de propiedad', size = 13)
plt.ylabel('Cantidad', size = 13)
plt.title('Top 3 de propiedades a la venta en Capital Federal', size = 15, weight=600, pad = 30)
plt.show()

In [None]:
pie = nueva_data['property_type'].value_counts()
myexplode = [0.2, 0, 0]
mycolors = ['#D47D6F', '#B1516E', '#7B3B6B']
title = 'Top 3 de propiedades a la venta en Capital Federal'
pie.plot.pie(subplots=True, figsize=(11, 6), autopct='%1.1f%%', explode = myexplode, colors = mycolors, ylabel='', title = title)

Como podemos observar departamento es el inmueble que más se encuentra actualmente en venta con un total de 73.18% del total de inmuebles, si tomamos solo el top 3 encontramos que su porcentaje crece al 86.4%

---

<br />
<br />

# SECCIÓN 2: Distribuciones.
<br />
<br />

---

**Distribuciones y relaciones de a pares:** Estudia la distribución y las relaciones de a pares de las variables `rooms`, `bedrooms`, `bathrooms`, `surface_total`, `surface_covered`, `price` para cada tipo de propiedad. Para ello, ten en cuenta:

1. Obtiene estadísticos que te sirvan para tener una primera idea de los valores que abarcan estas variables. ¿Cuáles crees que toman valores que tal vez no tengan mucho sentido?

2. Algunas instancias tienen valores de superficie (`surface_total`) muy grandes y dificultan la correcta visualización. Estudia la distribución de esa variable y filtra por un valor razonable que te permita obtener gráficos comprensibles. Puede ser útil un boxplot para determinar un rango razonable. Lo mismo ocurre con valores de superficie total muy chico. Las propiedades no pueden tener `surface_covered` mayor a `surface_total`. Si eso sucede, debes filtrar esas instancias.

3. El rango de precios que toman las propiedades es muy amplio. Estudia la distribución de esa variable y filtra por un valor razonable que te permita obtener gráficos comprensibles. Puede ser útil un boxplot para determinar un rango razonable.

4. Una vez filtrado el dataset, puedes utilizar la función `pairplot` de Seaborn.

Tomo el dataset que filtramos con las 3 propiedades más importantes que se encuentran exclusivamente en la Capital Federal. 

In [None]:
# Creo una copia del dataframe:
distri_data = nueva_data.copy()  

Importo las librerías adicionales que usaré en este punto.

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.figure(figsize = (16,10))
sns.pairplot(data = distri_data, hue = 'property_type')
plt.show()

In [None]:
print('Descripción datos:')
distri_data.describe()

 **¿Cuáles crees que toman valores que tal vez no tengan mucho sentido?**
 
**1.Rooms:** Tenemos un valor máximo de 26 cuartos con 2 registros (31583, 111651), sin embargo es el mismo registro (la fecha de creación es la única información distinta). También encontramos errores ya que el mínimo es 0, lo cual no es posible. 
Revisando otros valores la media es de 2.9 y la desviación estandar de 1.3, entonces todos los datos en la muestra entre 4 y 1 representarán aproximadamente el 68% de la muestra de datos.


**2. Bedrooms:** Tenemos una cantidad máxima de 15 bedrooms, con un total de 6 publicaciones (8843,31583, 34580, 44167, 69101, 111651), sin embargo una de las publicaciones esta registrada 3 veces (34580, 44167,69101), y otra 2(111651, 31583), por lo cual quedamos con solo 3 registros.


**3. Bathrooms:** contamos con un valor máximo de 14 baños (tenemos 3 registros con esta cantidad (35960, 132709, 136930), pero dos son repetidos (132709, 136930)). El valor mínimo se encuentra cerca del promedio (valor mínimo = 1 baño y el promedio es 1.5 baños). 
Otro problema encontrado es que hay 2.171 registros menos que el total de registros.


**4. surface_total**: el valor máximo se encuentra demasiado alejado de la media, al igual que el mínimo, lo que hace necesario filtrar la información para poder realizar un análisis confiable, ademas hace falta 8.917 registros y encontramos varios registros duplicados.



**5. surface_covered:** Tenemos que el valor mínimo es de 1 metro cuadrado cubierto, pero a la hora de hacer una comparación con la superficie total en metros (surface_total) solo 3 registros tienen la información registrada y con valores bastante altos.

Pro ejemplo el registro N°131428 (registro que se encuentra duplicado en la fila 108471) nos muestra una superficie total de 229 metros y solo 1 metro se encuentra cubierto. 

**2.** Algunas instancias tienen valores de superficie (surface_total) muy grandes y dificultan la correcta visualización. Estudia la distribución de esa variable y filtra por un valor razonable que te permita obtener gráficos comprensibles. Puede ser útil un boxplot para determinar un rango razonable.

En primera instancia creo funciones que contengan las gráficas, de forma que no sea necesario repetir código. 

In [None]:
 def boxplots(quantile1,quantile2, data_2):
    filtro_0= (distri_data[data_2].quantile(quantile1)<=distri_data[data_2]) & (distri_data[data_2]< distri_data[data_2].quantile(quantile2))
    plt.figure(figsize = (15,5))
    plt.subplot(2,1,1)
    sns.boxplot(x= distri_data[data_2][filtro_0], palette='flare')
    plt.xlabel("")
    plt.title(f'Distribución de la superficie total filtrando cuantil {quantile2}', weight=600, size = 25, pad = 20) 

Primero voy a dar una mirada a la distribución de los datos, por medio de un boxplot.

In [None]:
plt.figure(figsize = (15,5))
sns.set_style(style='ticks')
ax = sns.boxplot(x=distri_data["surface_total"], palette='flare')
plt.title('Distribución de superficie total', size = 25, weight=600, pad = 30) 
ax.set_xlabel('') 

En el boxplot de la superficie total podemos observar muchos outliers, los cuales son valores muy grandes que se alejan demasiado del promedio de los datos. 
El promedio de la superficie total es de 112.6 metros cuadrados, pero tenemos un dato de mas de 120.000 m2, lo que nos indica que posiblemente es información que fue ingresada de forma erronea.  

Para comenzar el análisis se eliminan las siguientes columnas del dataframe:

**1. currency:** solo toma un valor > USD.

**2. title:** No será usado para el estudio.

**3. description:** No será usado para el estudio.

**4. l1:** solo toma un valor > Argentina.

**5. start_date:** No será usado para el estudio.

**6. end_date:** No será usado para el estudio.

 **7. operation_type:** solo toma un valor > Venta.

**8. l2:** Solo tomaremos un valor 'Capital federal, por lo cual no es necesario tomarlo en el estudio. 

**9. created_on:** No será usado para el estudio.

In [None]:
distri_data.drop(['currency', 'title', 'description', 'l1','start_date', 'end_date', 'operation_type', 'l2', 'created_on', 'lat', 'lon' ],axis=1, inplace = True)

Continuo eliminando los datos duplicados.

In [None]:
'''
Elimino los datos duplicados. Coloco inplace=True para que no me cree un nuevo dataframe.
'''
distri_data.drop_duplicates(inplace=True)

Resviso si actualmente hay valores vacios o nulos. 

In [None]:
distri_data.isnull().values.any()

In [None]:
#¿Cuántos valores perdidos totales tenemos?
missing_values_count = distri_data.isnull().sum()
total_cells = np.product(distri_data.shape)
total_missing = missing_values_count.sum()

# porcentaje de datos que faltan
print('El porcentaje de valores vacios o nulos es')
(total_missing/total_cells) * 100

Efectivamente contamos con valores nulos en nuestra base de datos, pero solo es el 3% de los datos. por lo cual decido dejarlos de la misma forma, ya que al eliminarlos se puede perder otra información valiosa.
 

Ahora procedo a revisar los quantiles y elegir el que mejor filtre la información para seguirlo usando. 

In [None]:
boxplots(0.01, 0.99, 'surface_total')
boxplots(0.5, 0.95, 'surface_total')
boxplots(0.10, 0.90, 'surface_total')

Tomo el cuantil 95, ya que quedo con una cantidad razonable de outliers y la convierto en una mascara.

In [None]:
mask = distri_data['surface_total'] < distri_data['surface_total'].quantile(0.95)
distri_data = distri_data[mask]

Ahora elimino los registros en los cuales la superficie cubierta sea mayor a la superfie total.

In [None]:
mask_1 = distri_data['surface_covered'] <= distri_data['surface_total']
distri_data = distri_data[mask_1]

In [None]:
sns.scatterplot(data=distri_data, x='surface_total', y='surface_covered')
plt.grid()

En la grafica podemos observar que todos los valores mayores fueron eliminados

Ahora paso a revisar que no tengamos valores muy pequeños (10 mts2).

In [None]:
distri_data.nsmallest(10, ['surface_total'])

Como podemos observar no tenemos valores de 10mts2.

**3.** El rango de precios que toman las propiedades es muy amplio. Estudia la distribución de esa variable y filtra por un valor razonable que te permita obtener gráficos comprensibles. Puede ser útil un boxplot para determinar un rango razonable.

In [None]:
plt.figure(figsize = (15,5))
sns.set_style(style='ticks')
ax = sns.boxplot(x=distri_data["price"])
plt.title('Distribución Precio propiedades', size = 25, weight=600, pad = 30) 
ax.set_xlabel('')

Procedo a revisar los cuantiles parael precio de las propiedades.

In [None]:
boxplots(0.01, 0.99, 'price')
boxplots(0.5, 0.95, 'price')
boxplots(0.10, 0.90, 'price')

Elijo el cuantil 95 al igual que con la superficie total

In [None]:
mask_2= (distri_data['price'].quantile(0.05)<=distri_data['price']) & (distri_data['price']< distri_data['price'].quantile(0.95))
distri_data = distri_data[mask_2]

Resviso la diferencia entre el dataframe incial y el final.

In [None]:
shape_1 = len(nueva_data.index)
shape_2 = len(distri_data.index)
shape_3 = shape_1 - shape_2
print('Cantidad de registros en el dataframe inicial:', shape_1)
print('Cantidad de registros en el dataframe final:',shape_2)
print(f'la cantidad de valores que fueron recortados del dataframe incial es:', shape_3)

En total fueron recortados 50415 datos ( 44.8% )

Por último reviso si hay algunos valores extraños que tengamos. Para esto primero reviso el código de la edificación argentina y encontrar valores que no sean posibles tener. 

In [None]:
distri_data.describe()

Como podemos ver tenemos un problema en la columna 'surface_covered' que pasaremos a revisar. Tenemos un mínimo de 1 lo cual no es posible. Es importante recordar que la legislación porteña aprobó, en 2018,  los nuevos códigos de habitabilidad, permitiendo la construcción de microambientes mínimos, desde 18 metros cuadrados, sin contar el baño. Hasta la reforma, impulsada por la gestión de Horacio Rodríguez Larreta, el tipo de unidad con sólo un ambiente debía tener por lo menos 29,30 metros cuadrados cubiertos.

Por esta razón eliminaremos los tamaños menores a 18 metros.

[Bibliografía](https://www.tiempoar.com.ar/nota/la-vida-en-18-m2-una-ley-a-medida-del-negocio-inmobiliario)



In [None]:
distri_data = distri_data[distri_data['surface_covered'] >= 18] 
distri_data.nsmallest(5, ['surface_covered'])

Ahora pasamos a revisar la columna 'Rooms', ya que el valor  máximo  es demasiado alto.

In [None]:
distri_data.nlargest(10, ['rooms'])

Luego de leer las descripciones de las viviendas decido eliminar la viviendas con más de 10, ya que muchas son oficinas. 

In [None]:
distri_data = distri_data[distri_data['rooms'] < 10] 
distri_data.nlargest(5, ['rooms'])

Ahora revisamos la columna 'bedrooms'

In [None]:
distri_data.nlargest(10, ['bedrooms'])

Decido dejar solo las viviendas menores a 9 habitaciones, ya que las descripciones de las que son más grandes parecen de algo diferente a vivienda

In [None]:
distri_data = distri_data[distri_data['bedrooms'] < 8]
distri_data.nlargest(5, ['bedrooms'])

por último reviso los baños

In [None]:
distri_data.nlargest(10, ['bathrooms'])

Voy a eliminar solo 9 registros que se alejan mucho de la media y que veo pueden ser valores erroneos por la descripción

In [None]:
distri_data = distri_data[distri_data['bathrooms'] < 7]
distri_data.nlargest(5, ['bathrooms'])

Ahora vuelvo a revisar la descripción de los valores para asegurarme que todo este bien

In [None]:
distri_data.describe()

Sobre las habitaciónes sin cuarto no tenemos problema, ya que es común la venta de apartamentos que son monoambientes.

Tampoco tenemos problemas con los baños, ya que ahora el mínimo es 1

Decido terminar la exploración de los datos ya que no veo más datos  desfasados.

**4.**Una vez filtrado el dataset, puedes utilizar la función pairplot de Seaborn.

In [None]:
plt.figure(figsize = ((16,10)))
sns.pairplot(data = distri_data, hue = 'property_type')
plt.show()

---

<br />
<br />

# SECCIÓN 3: Correlaciones
<br />
<br />

---

**Correlaciones:** Estudia la correlación entre las variables `rooms`, 
`bedrooms`, `bathrooms`, `surface_total`, `surface_covered`, `price`. ¿Cuáles son las mejores variables para predecir el precio?¿Qué diferencias encuentras según cada tipo de propiedad?

El primer paso será realizar los mapas de calor.  Esta gráfica es muy sencilla de interpretar ya que entre más fuerte sea el color, mayor será la magnitud de la correlación.

In [None]:
departamento= distri_data[distri_data.property_type == 'Departamento']
casa = distri_data[distri_data.property_type == 'Casa']
ph = distri_data[distri_data.property_type == 'PH']

In [None]:
plt.figure(figsize=(20,20))

#heatmap general:
plt.subplot(2,2,1)
correlation_matrix =distri_data.corr()
sns.heatmap(correlation_matrix,cmap= "YlGnBu", annot=True)

# Revisamos el heatmap para los departamentos:
plt.subplot(2,2,2)
sns.heatmap(departamento.corr(),cmap= "YlGnBu",annot=True)
plt.title('Matriz de correlación para los departamentos:')

# Revisamos el heatmap para las casas:
plt.subplot(2,2,3)
sns.heatmap(casa.corr(),cmap= "YlGnBu",annot=True)
plt.title('Matriz de correlación para las casas:')

# Revisamos el heatmap para las HP:
plt.subplot(2,2,4)
sns.heatmap(ph.corr(),cmap= "YlGnBu",annot=True)
plt.title('Matriz de correlación para la propiedad horizontal:')

**¿Cuáles son las mejores variables para predecir el precio?**

como podemos ver en las gráficas surface_total and surface_covered son lás mejores variables para predecir el precio. en menor proporción podríamos tomar los baños. 

Si hablamos especificamente del tipo de propiedad 'Casa', surface_total tiene una correlación relativamente baja sin embargo casa solo es el 2.2% de las propiedades totales, por lo cual seguiremos tomando en cuenta el surface_total.

**Qué diferencias encuentras según cada tipo de propiedad?**

encuentro una gran relación entre la matriz general y la matriz filtrada por departamentos. Considero que esto se debe a que el 85.4% de los datos pertenecen a este tipo de propiedad. 

La relación de la matriz generada para casas tiene las correlaciones más pequeñas. la correlación entre bathrooms y surface_total es de solo 0.31, a diferencia de departamentos, en el cual este valor asciende a 0.64.

PH, a diferencia de las casas, tiene valores un poco más cercamos a departamento, sin embargo gran parte de las correlaciones son menores que las registradas en departamentos. 

---

<br />
<br />

# SECCIÓN 4: Desafío.
<br />
<br />

---

En el dataset provisto hay mucha información, más allá del problema planteado. Propone una pregunta que pueda ser respondida por el dataset e intenta responderla.¿Cuáles son los sesgos de la respuesta obtenida?(¿Cuán generalizable es la respuesta obtenida?)¿Necesitas información complementaria?¿Cómo la obtendrías?

Por ejemplo: ¿Cuál es el barrio más caro de Buenos Aires? Probablemente puedas responder esta pregunta con este dataset. Pero podria ocurrir que la respuesta esté sesgada. ¿Cómo? Tal vez las propiedades más caras no se publican de forma online, sino que utilizan otro canal de venta.

El desafió elegido es los barrios más costosos de Buenos Aires.

In [None]:
#Creo un nuevo dataframe.
desafio_data = pd.read_csv(r'data.csv')

In [None]:
desafio_data.drop_duplicates(inplace=True)

In [None]:
#Creo una nueva columna para realizar la operación
desafio_data['diferencia'] = desafio_data['price'] / desafio_data['surface_total']
desafio_data[:4]

In [None]:
dataframe_desafio = pd.pivot_table(desafio_data, values='diferencia', index=['l3'], aggfunc = np.mean)

In [None]:
barrios_mas = dataframe_desafio.sort_values('diferencia', ascending=False)
print('Top 5 barrios más costosos')
barrios_mas.head(5)

In [None]:
barrios_menos = dataframe_desafio.sort_values('diferencia', ascending=True)
print('Top 5 barrios más baratos')
barrios_menos.head(5)

**CONCLUSIONES**

El barrio más costoso es Puerto madero con una media de 6.082 dolares por cada metro cuadrado, casi 559.000 pesos argentinos.De acuerdo al instituto nacional de estadística Puerto madera es el barrio más costoso para vivir de Argentina y de América Latina. 
Es importante recordar que estos datos no son actuales y que para el año 2021 los precios de las viviendas presentaron una variación negativa como resultado del covid-19. Para el barrio puerto madero, la compañía Properati, reporto una caída del 9% de los precios.

Sobre la forma de venta en propiedades de lujo, después de una investigación en diferentes bases de datos, encontré que estos tipos de clientes buscan personas especializadas en la venta de este tipo de viviendas, con un amplio conocimiento del sector y muchas veces que sean reconocidas. Los clientes buscan un trato directo, ameno y que genere una sensación de confianza que es difícil de lograr de forma online. 

Gran parte de los inmuebles de lujo se venden por relaciones publicas inmobiliarias, por lo cual muchas veces no son necesarios publicarlos de forma online en páginas de venta y alquiler, generando un sesgo en la información obtenida para el análisis.  

El barrio Presidente Perón, el cual se encuentra a 30 kilómetros de la ciudad de Buenos aires, es el más económico

[Bibliografía](https://www.bbc.com/mundo/noticias-44091339)

---

<br />
<br />

# SECCIÓN 5: Machine Learning.
<br />
<br />

---

En esta sección, debes entrenar dos modelos de Machine Learning - uno de vecinos más cercanos y otro de árboles de decisión -  para predecir el precio de las propiedades tipo `Departamento`, `PH` y `Casa`  en la Ciudad Autónoma de Buenos Aires (`Capital Federal`). Para ello, no debes olvidarte de:

* Elegir una métrica apropiada para evaluar los resultados de los modelos.
* Seleccionar las variables predictoras (`X`) y la variable a predecir (`y`). 
* Realizar un Train/Test split de los datos.
* Generar un modelo *benchmark* y evaluarlo.
* Entrenar un modelo de vecinos más cercanos y un modelo de árbol de decisión con hiperparámetros iniciales de su elección.
* Evaluar los modelos obtenidos. Para ello, evalúa la métrica elegida en el conjunto de Test y en el conjunto de Train. También, realiza gráficos de valores reales vs. valores predichos.
* Mejorar el desempeño de sus modelos optimizando el número de vecinos y la profundidad del árbol, respectivamente.
* Entre los modelos entrenados, ¿cuál elegirías para utilizar?¿Por qué? 
* Ser **crítico/a** con la metodología utilizada. Por ejemplo, responde las siguientes preguntas: ¿Qué información no estás usando que podría ayudar al modelo?¿Qué información puede estar demás o repetida?

Estos lineamientos corresponden al **mínimo entregable** de esta sección.


**Importante:** para asegurarnos que trabajes con un dataset apropiados, debes volver a cargar los datos y realizar el siguiente filtrado:

1. Selecciona aquellas propiedades en Capital Federal y cuyo tipo de propiedad es Departamento, PH o Casa.
1. Selecciona aquellas propiedades cuya superficie total es menor a 1000 m2 y mayor a 15 m2.
1. Selecciona aquellas propiedades cuya precio es menor 4000000 dólares.
1. Selecciona las columnas `rooms`, `bedrooms`, `bathrooms`, `surface_total`, `surface_covered` y `price`.
1. Descarta aquellas instacias con valores faltantes.

**Checkpoint:** deberías obtener un dataset con 81019 instacias y 6 columnas.

**0.** Importo las librerías necesarias para trabajar en el machine learning.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor

**1.** Cargo el dataset y creo el filtrado

In [None]:
ml_data = pd.read_csv(r'data.csv')

In [None]:
filtro_ml_0 = (ml_data['l2'] == 'Capital Federal')& (ml_data['property_type'].isin(['Departamento','PH','Casa']))
filtro_ml_1 = (ml_data['surface_total'] >= 15) & (ml_data['surface_total'] <= 1000)
filtro_ml_2 = ml_data['price'] <= 4000000
ml_data = ml_data[ (filtro_ml_0) & (filtro_ml_1)& (filtro_ml_2)]
usecols= ['rooms', 'bedrooms','bathrooms','surface_total', 'surface_covered', 'price']
ml_data =ml_data[usecols]
ml_data.dropna(inplace=True)

Reviso que el dataset tenga 81019 instacias y 6 columnas.

In [None]:
ml_data.shape

Daremos una mirada a como quedo el dataset.

In [None]:
ml_data.head()

**2.** Funciones creadas para el desarrollo del modelo de machine learning:

In [None]:
# función para medir el error cuadratico:
def rmse(predictions, targets, types):
    rmse_1 = round(np.sqrt(((predictions - targets) ** 2).mean()),2)
    print(f'La raíz del error cuadrático medio para {types} es de: {rmse_1}')
    return 

# función para medir el coeficiente de determinación:
def r2(predictions, targets, types):
    r2_1 = round(r2_score(predictions, targets),3)
    print(f'El coeficiente de determinación  para {types} es de: {r2_1}')
    return 

# función para medir el coeficiente de regresión:
def coef(model):
    print(model.coef_)

# variance score: 1 means perfect prediction
def var(model):
    print('Score Varianza: {}'.format(model.score(X_test, y_test)))

**3.** Elegir una métrica apropiada para evaluar los resultados de los modelos.

Las metricas elegidas para evaluar los resultados de los modelos son:

**A. RMSE (Error Cuadrático Medio)**: Mide la cantidad de error que hay entre dos conjuntos de datos ( train y test).
lo elegí porque me muestra cuán cerca están los puntos de datos observados de los valores predichos del modelo. 

Sin embargo esta métrica tiene una dificultad y es que da mucha importancia a los errores grandes. 

**B. R2 (R-cuadrado)**: es una medida estadística que me muestra  qué tan cerca están los datos de la línea de regresión ajustada.
Toma valores de 0 a 1, lo cual se traduce en:
Si es 0 (0%) o cerca indica que el modelo no explica ninguna porción de la variabilidad de los datos en torno a su media.
si es 1 (100%)indica que el modelo explica toda la variabilidad de los datos de respuesta en torno a su media.


**4.** Seleccionar las variables predictoras (X) y la variable a predecir (y).

In [None]:
X = ml_data[['rooms', 'bedrooms', 'bathrooms', 'surface_total', 'surface_covered']]
y = ml_data['price']

**5.** Realizar un Train/Test split de los datos.

In [None]:
# trabajamos con 70% de entrenamiento y 30% de prueba
X_train,X_test,y_train,y_test= train_test_split(X,y,test_size=0.30,random_state=42)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

Vamos a trabajar con 70% de entrenamiento y 30% de prueba. 

Se asignaron 56713 ejemplos (70% por ciento) al conjunto de entrenamiento y 24306 ejemplos (30% por ciento) al conjunto de prueba, como especificamos en el split.

**6.** Generar un modelo benchmark y evaluarlo.

El modelo benchmark elegido es la regresión lineal, el cual es uno de los modelos más usados. lo escogí porque es muy fácil de visualizar, explicar y entender.

In [None]:
lineal = LinearRegression()

In [None]:
lineal.fit(X_train, y_train)

In [None]:
y_train_lineal = lineal.predict(X_train)
y_test_lineal = lineal.predict(X_test)

Ahora vamos a evaluar con las métricas elegidas.

In [None]:
rmse(y_train, y_train_lineal, 'Train')
rmse(y_test, y_test_lineal, 'Test')
r2(y_train,y_train_lineal, 'Train')
r2(y_test, y_test_lineal, 'Test')
var(lineal)

In [None]:
#Gráfica error residual.

#estilo
plt.style.use('fivethirtyeight')
 
plt.scatter(lineal.predict(X_train), lineal.predict(X_train) - y_train, color = "#C70039", s = 10, label = 'Train data')
plt.scatter(lineal.predict(X_test), lineal.predict(X_test) - y_test, color = "#33DDFF", s = 10, label = 'Test data')

plt.hlines(y = 0, xmin = 0, xmax = 50, linewidth = 2)
plt.legend(loc = 'upper right')
plt.title("ERROR RESIDUAL")
plt.show()

Cuando el score de la varianza es igual a 1 significa que tendremos una predicción perfecta.
Nuestro modelo tiene un score de 0.55. Lo cual para mi esta muy lejos.

Lo mismo sucede con la métrica RMSE, entre más pequeño es el valor más cercanos son los valores predichos y observados, es decir mejor es el modelo. 

Tambien podemos observar que los valores de RMSE train y RMSE test se acercan bastante.

**7.** Entrenar un modelo de vecinos más cercanos y un modelo de árbol de decisión con hiperparámetros iniciales de su elección.

**7.1 Modelo de árbol de decisión**




Para mí modelo elegí la opción de árbol de regresión ya que son más útiles con variales continuas o númericas, como es nuestro caso; a diferencia del árbol de clasificación que es más últi a la hora de obtener variables categoricas. 
Aunque el árbol de regresión tiene caraceteristicas similares al árbol de clasificación observo algunas ventajas para nuestro analisis:
1. Divisiones no sesgadas. 
2. No hay muchas limitaciones para los algoritmos del árbol de regresión

In [None]:
tree = DecisionTreeRegressor()

In [None]:
tree.fit(X_train, y_train)

In [None]:
y_train_tree = tree.predict(X_train)
y_test_tree = tree.predict(X_test)

Procedemos a realizar la evaluación:

In [None]:
rmse(y_train, y_train_tree, 'Train')
rmse(y_test, y_test_tree, 'Test')
r2(y_train, y_train_tree, 'Train')
r2(y_test, y_test_tree, 'Test')
var(tree)

Vemos una gran mejora en los datos obtenidos, el R2 es más alto, al igual que la varianza.

También los valores de RMSE bajaron a comparación de la regresión líneal.

**7.2 Modelo vecinos más cercanos**

In [None]:
knn = KNeighborsRegressor()

In [None]:
knn.fit(X_train,y_train)

In [None]:
y_train_knn = knn.predict(X_train)
y_test_knn = knn.predict(X_test)

Procedemos a realizar la evaluación:

In [None]:
rmse(y_train, y_train_knn, 'Train')
rmse(y_test, y_test_knn, 'Test')
r2(y_train, y_train_knn, 'Train')
r2(y_test, y_test_knn, 'Test')
var(knn)

Encontramos que los coeficientes de determinación son más bajos que en el modelo de árbol, al igual que en la varianza.

En el RMSE vemos un aumento de los valores comparado con el modelo anterior.

**8.** Evaluar los modelos obtenidos. Para ello, evalúa la métrica elegida en el conjunto de Test y en el conjunto de Train. También, realiza gráficos de valores reales vs. valores predichos.



In [None]:
print('Modelo de regresión lineal')
rmse(y_train, y_train_lineal, 'Train')
rmse(y_test, y_test_lineal, 'Test')
r2(y_train,y_train_lineal, 'Train')
r2(y_test, y_test_lineal, 'Test')
print('')
print('-------------------------------')

print('Modelo de árbol de decisión')
rmse(y_train, y_train_tree, 'Train')
rmse(y_test, y_test_tree, 'Test')
r2(y_train, y_train_tree, 'Train')
r2(y_test, y_test_tree, 'Test')
print('')
print('-------------------------------')

print('Modelo de vecinos cercanos')
rmse(y_train, y_train_knn, 'Train')
rmse(y_test, y_test_knn, 'Test')
r2(y_train, y_train_knn, 'Train')
r2(y_test, y_test_knn, 'Test')

Realizo las gráficas para que sea más sencilla su interpretación

In [None]:
modelos_1 = ['Regresión lineal', 'Árbol de Decisión', 'Vecinos más cercanos']

for i, modelo_2 in enumerate([lineal, tree, knn]):
    y_train_pred = modelo_2.predict(X_train)
    y_test_pred = modelo_2.predict(X_test)
    print(f'Modelo: {modelos_1[i]}')

    plt.figure(figsize = (20,4))
   
    ax = plt.subplot(1,2,2)
    ax.scatter(y_test,y_test_pred, s =2, color='#D47D6F')

    lims = [np.min([ax.get_xlim(), ax.get_ylim()]),  np.max([ax.get_xlim(), ax.get_ylim()]),]
    
    ax.plot(lims, lims, 'k-', alpha=0.75, zorder=0)
    plt.xlabel('y (test)')
    plt.ylabel('y_pred (test)')
    plt.tight_layout()
    plt.show()

**8.** Mejorar el desempeño de sus modelos optimizando el número de vecinos y la profundidad del árbol, respectivamente.

**8.1 Modelo Árbol de desición**

In [None]:
tree_train_l = []
tree_test_l = []
tree_train_r = 0
tree_test_r = 0
max_depths = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25]

for i in max_depths:
    tree_reg = DecisionTreeRegressor(max_depth = i)
    tree_reg.fit(X_train,y_train)
    
    y_train_pred_tree = tree_reg.predict(X_train)
    tree_train_rmse = np.sqrt(mean_squared_error(y_train, y_train_pred_tree))

    y_test_pred_tree = tree_reg.predict(X_test)
    tree_test_r = np.sqrt(mean_squared_error(y_test, y_test_pred_tree))
    
    tree_train_l.append(tree_train_rmse)
    tree_test_l.append(tree_test_r)

In [None]:
min_test_tree = np.amin(tree_test_l)
lista_tree_test_r_tree_op = tree_test_l.index(min(tree_test_l))
max_depths_op = max_depths[lista_tree_test_r_tree_op]

plt.figure(figsize=(15,5))

plt.plot(max_depths, tree_train_l, 'o-', label = 'RMSE train', color='#7B3B6B')
plt.plot(max_depths, tree_test_l, 'o-', label = 'RMSE test',color='#D47D6F')
plt.xlabel('Profundidad', size = 15)
plt.ylabel('RMSE', size =15)
plt.title('Rendimiento Árbol de Decisión', size = 20)
plt.scatter(max_depths_op, min_test_tree, s=300, marker = '*', 
         label = 'RMSE = {} \nmax_depth = {} '.format(round(min_test_tree),max_depths_op), color = '#33D4FF')
plt.legend(loc = 'upper right', fontsize = 15)

plt.show()

La profundidad del árbol obtenida es de 17, con un RMSE de 147138

**8.2 Modelo vecinos más cercanos**

In [None]:
rmse_train_r = []
rmse_test_r = []
vecinos = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]

for i in vecinos:
    knn_reg = KNeighborsRegressor(n_neighbors = i)
    knn_reg.fit(X_train,y_train)
    
    y_train_pred_knn = knn_reg.predict(X_train)
    rmse_train_knn = np.sqrt(mean_squared_error(y_train, y_train_pred_knn))

    y_test_pred_knn = knn_reg.predict(X_test)
    rmse_test_knn = np.sqrt(mean_squared_error(y_test, y_test_pred_knn))
    
    rmse_train_r.append(rmse_train_knn)
    rmse_test_r.append(rmse_test_knn)

In [None]:
min_test_knn = np.amin(rmse_test_r)
lista_rmse_test_knn_op = rmse_test_r.index(min(rmse_test_r))
vecinos_op = vecinos[lista_rmse_test_knn_op]

plt.figure(figsize=(15,5))

plt.plot(vecinos, rmse_train_r, 'o-', label = 'RMSE train', color='#7B3B6B')
plt.plot(vecinos, rmse_test_r, 'o-', label = 'RMSE test',color='#D47D6F')
plt.xlabel('Cantidad vecinos', size = 15)
plt.ylabel('RMSE', size =15)
plt.title('Rendimiento KNN', size = 20)
plt.scatter(vecinos_op, min_test_knn, s=300, marker = '*', 
         label = 'RMSE = {} \nn_neighbors = {} '.format(round(min_test_knn),vecinos_op), color = '#33D4FF')
plt.legend(loc = 'center right', fontsize = 15)

plt.show()

Obtuvimos un RMSE de 152317 y una cantidad de vecinos optima de 3

**8.3 Modelo Árbol de decisión OPTIMO**



In [None]:
tree_optimo = DecisionTreeRegressor(max_depth= 17,random_state=42)
tree_optimo.fit(X_train,y_train)

In [None]:
y_train_tree_optimo = tree_optimo.predict(X_train)
y_test_tree_optimo = tree_optimo.predict(X_test)

**8.4 Modelo vecinos más cercanos OPTIMO**


In [None]:
knn_optimo = KNeighborsRegressor(n_neighbors=3)
knn_optimo.fit(X_train,y_train)

In [None]:
y_train_knn_optimo = knn_optimo.predict(X_train)
y_test_knn_optimo = knn_optimo.predict(X_test)

**8.5 Evaluación modelos**

In [None]:
print('Modelo de regresión lineal')
rmse(y_train, y_train_lineal, 'Train')
rmse(y_test, y_test_lineal, 'Test')
r2(y_train,y_train_lineal, 'Train')
r2(y_test, y_test_lineal, 'Test')
print('')
print('-------------------------------')

print('Modelo de árbol de decisión')
rmse(y_train, y_train_tree_optimo, 'Train')
rmse(y_test, y_test_tree_optimo, 'Test')
r2(y_train, y_train_tree_optimo, 'Train')
r2(y_test, y_test_tree_optimo, 'Test')
print('')
print('-------------------------------')

print('Modelo de vecinos cercanos')
rmse(y_train, y_train_knn_optimo, 'Train')
rmse(y_test, y_test_knn_optimo, 'Test')
r2(y_train, y_train_knn_optimo, 'Train')
r2(y_test, y_test_knn_optimo, 'Test')

In [None]:
modelos_1 = ['Regresión lineal', 'Árbol de Decisión', 'Vecinos más cercanos']

for i, modelo_2 in enumerate([lineal, tree_optimo, knn_optimo]):
    y_train_pred = modelo_2.predict(X_train)
    y_test_pred = modelo_2.predict(X_test)
    print(f'Modelo: {modelos_1[i]}')

    plt.figure(figsize = (20,4))
   
    ax = plt.subplot(1,2,2)
    ax.scatter(y_test,y_test_pred, s =2, color='#D47D6F')

    lims = [np.min([ax.get_xlim(), ax.get_ylim()]),  np.max([ax.get_xlim(), ax.get_ylim()]),]
    
    ax.plot(lims, lims, 'k-', alpha=0.75, zorder=0)
    plt.xlabel('y (test)')
    plt.ylabel('y_pred (test)')
    plt.tight_layout()
    plt.show()

**9.** Entre los modelos entrenados, ¿cuál elegirías para utilizar?¿Por qué? 

Para realizar el estudio del RMSE primero observare cuanto es la media de 'Price'

In [None]:
ml_data['price'].mean()

**RMSE:**

El mejor modelo fue el del árbol optimizado, con un RMSE de 146.092 USD. sin embargo considero que el valor es muy alto si tenemos en cuenta que para el precio tenemos una media de 263.772 USD. 
El peor modelo fue la regresión lineal, con un RMSE de 202.449 USD, lo cual es exageradamente alto.

**R2:**

Con los resultados obtenidos en R2 el mejor modelo, al igual que con RMSE, es el árbol de decisión optmizado.

**CONCLUSIÓN:**

En conclusión escogería el árbol de decisión optimizado si tuviera que quedarme con un modelo, sin embargo no me siento conforme con los datos obtenidos, ya que creo que el nivel de error es muy grande. 

Esto se puede deber a los outliers, datos repetidos que no fueron eliminados, o registros con información erronea y alejada de la realidad, lo cual puede llegar a distorsionar los resultados obtenidos.

**10.** Ser crítico/a con la metodología utilizada. Por ejemplo, responde las siguientes preguntas: ¿Qué información no estás usando que podría ayudar al modelo?¿Qué información puede estar demás o repetida?

**¿Qué información no estás usando que podría ayudar al modelo?**

Más que información, considero que existen otras formas más exactas para filtrar los datos, que no sea a criterio de la persona que realiza el modelo. Esto podría ayudar a obtener un modelo más ajustado con datos reales. 

**¿Qué información puede estar demás o repetida?**
En filtrados anteriores habiamos encontrado registros que se encontraban varias veces y solo cmabia una columna. Creo que todavía podriamos tener parte de estos registros, ya que no se hizo un analisis exhaustivo antes de comenzar a realizar el modelo.