# **Sprint 4- Continuación a la manipulación de datos**

## Objetivos

Seguiremos explorando diferentes dataframes y preparar la información disponible. Debemos de ser muy criticos y bastante creativos en como exploramos o encontramos error o sugerencias de normalización de los datos.

## Bueno, ahora qué?

El propósito de esta sección es proporcionar una estructura clara y eficiente para la exploración de datos y la ingeniería de características. Estas son etapas críticas en el análisis de datos y en la preparación de modelos de aprendizaje automático. 

Este documento también incluye una breve explicación de **Kaggle**, una plataforma ampliamente utilizada en la comunidad de ciencia de datos.

---

## Estructura del Notebook

### 1. **Encabezado**
   - Título del proyecto.
   - Descripción breve del propósito del notebook.
   - Fecha y autor.

### 2. **Importación de Librerías**
   - Cargar las librerías necesarias, como `pandas`, `numpy`, `matplotlib`, `seaborn`, y cualquier otra específica del proyecto.
   - Ejemplo:
     ```python
     import pandas as pd
     import numpy as np
     import matplotlib.pyplot as plt
     import seaborn as sns
     ```

### 3. **Carga de los Datos**
   - Leer los datos desde el archivo o fuente correspondiente.
   - Mostrar una vista general de los datos cargados:
     - Número de filas y columnas.
     - Tipos de datos.
     - Valores nulos y duplicados.

### 4. **Análisis Exploratorio de Datos (EDA)**
   - **Resumen Estadístico**:
     - Distribución de las variables.
     - Estadísticas descriptivas (`mean`, `std`, etc.).
   - **Visualización**:
     - Histogramas para distribuciones.
     - Diagramas de dispersión para relaciones entre variables.
     - Gráficos de correlación para identificar relaciones lineales.
   - Identificación de patrones y valores atípicos.

### 5. **Ingeniería de Características**
   - Transformaciones de datos:
     - Normalización y estandarización.
     - Codificación de variables categóricas.
   - Creación de nuevas características a partir de las existentes.
   - Manejo de valores nulos y valores atípicos.
   - Selección de características relevantes.

### 6. **Preparación para el Modelado**
   - División de los datos en conjuntos de entrenamiento y prueba.
   - Escalado de las variables si es necesario.

### 7. **Cierre**
   - Resumen de los hallazgos principales.
   - Ideas para mejorar los datos o las características.
   - Preparación para el modelado o los siguientes análisis.

---

## ¿Qué es Kaggle?

**Kaggle** es una plataforma en línea para científicos de datos y profesionales de aprendizaje automático. Proporciona recursos clave como:
   - **Competencias de Ciencia de Datos**: Permite a los usuarios participar en desafíos reales organizados por empresas y organizaciones.
   - **Conjuntos de Datos**: Una extensa base de datos públicos que incluye información de una amplia variedad de dominios.
   - **Notebooks de Kaggle**: Entornos interactivos para ejecutar código directamente en la nube, sin necesidad de instalar herramientas locales.
   - **Cursos**: Ofrece cursos introductorios y avanzados en temas como Python, Machine Learning y Deep Learning.

Kaggle es ideal para aprender, practicar y colaborar en proyectos de ciencia de datos. Es una herramienta imprescindible para cualquiera que quiera mejorar sus habilidades en este campo.

---

## Recomendaciones Finales
- Organiza tu notebook con encabezados claros y comentarios en el código.
- Guarda y documenta todos los pasos para facilitar la reproducibilidad.
- Utiliza Kaggle para compartir tus notebooks y recibir retroalimentación de la comunidad.

¡Buena suerte con tu exploración de datos y proyectos de ingeniería de características!


## **Ejercicio 0: Exploración**

En el principio del todo

In [1]:
import numpy as np
import pandas as pd

<div style="text-align: center;">
    <img src="min.jpeg" alt="Propera" style="width:50%;"/>
</div>

In [2]:
# Cargar el conjunto de datos
data = pd.read_csv('datos_properati.csv')

In [3]:
data.shape

(18979, 17)

In [4]:
data.head()

Unnamed: 0,created_on,operation,property_type,place_with_parent_names,lat-lon,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,properati_url,barrio,comuna
0,2017-09-22,sell,house,|Argentina|Capital Federal|Palermo|Palermo Viejo|,"-34.5889531469,-58.4298817776",-34.588953,-58.429882,2000000.0,312.0,,6410.25641,,,,https://www.properati.com.ar/2os_venta_casa_pa...,PALERMO,14.0
1,2017-08-01,sell,store,|Argentina|Capital Federal|Palermo|,"-34.586069,-58.414431",-34.586069,-58.414431,790000.0,121.0,121.0,6528.92562,,,,https://www.properati.com.ar/1cl7l_venta_local...,PALERMO,14.0
2,2017-08-02,sell,store,|Argentina|Capital Federal|Palermo|Palermo Soho|,"-34.589723,-58.4325664",-34.589723,-58.432566,343000.0,122.0,108.0,2811.47541,,2.0,,https://www.properati.com.ar/1cm8w_venta_local...,PALERMO,14.0
3,2017-08-03,sell,store,|Argentina|Capital Federal|Palermo|,"-34.5923646,-58.4144028",-34.592365,-58.414403,145000.0,24.0,24.0,6041.666667,,,,https://www.properati.com.ar/1covk_venta_local...,PALERMO,14.0
4,2017-08-08,sell,store,|Argentina|Capital Federal|Barrio Norte|,"-34.585652875,-58.4114933233",-34.585653,-58.411493,175000.0,24.0,24.0,7291.666667,,,,https://www.properati.com.ar/1csk7_venta_local...,PALERMO,14.0


In [5]:
data.columns

Index(['created_on', 'operation', 'property_type', 'place_with_parent_names',
       'lat-lon', 'lat', 'lon', 'price_aprox_usd', 'surface_total_in_m2',
       'surface_covered_in_m2', 'price_usd_per_m2', 'floor', 'rooms',
       'expenses', 'properati_url', 'barrio', 'comuna'],
      dtype='object')

In [6]:
data['rooms'].unique()

array([nan,  2.,  1.,  4.,  6.,  3.,  5.,  7.,  9.,  8., 10., 11., 12.,
       16., 24., 13., 32., 38., 30., 17., 34., 15., 20.])

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18979 entries, 0 to 18978
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   created_on               18979 non-null  object 
 1   operation                18979 non-null  object 
 2   property_type            18979 non-null  object 
 3   place_with_parent_names  18979 non-null  object 
 4   lat-lon                  18979 non-null  object 
 5   lat                      18979 non-null  float64
 6   lon                      18979 non-null  float64
 7   price_aprox_usd          17445 non-null  float64
 8   surface_total_in_m2      16586 non-null  float64
 9   surface_covered_in_m2    16876 non-null  float64
 10  price_usd_per_m2         16037 non-null  float64
 11  floor                    2756 non-null   float64
 12  rooms                    13517 non-null  float64
 13  expenses                 3815 non-null   float64
 14  properati_url         

In [8]:
data.describe()

Unnamed: 0,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,comuna
count,18979.0,18979.0,17445.0,16586.0,16876.0,16037.0,2756.0,13517.0,3815.0,18979.0
mean,-34.600838,-58.435161,296355.9,142.784758,127.491171,2760.408525,11.040639,3.033661,4884.536,7.981137
std,0.026372,0.040787,410834.4,1731.936727,1524.167396,1940.153216,53.448795,1.778162,30246.17,5.007441
min,-34.695717,-58.530822,5043.3,0.0,1.0,0.958333,1.0,1.0,1.0,1.0
25%,-34.619827,-58.464637,120000.0,48.0,43.0,1984.126984,2.0,2.0,1600.0,3.0
50%,-34.601014,-58.434293,180000.0,75.0,67.0,2545.454545,4.0,3.0,2800.0,7.0
75%,-34.582748,-58.401513,320000.0,134.0,117.0,3162.790698,8.0,4.0,5000.0,13.0
max,-34.534315,-58.353227,13500000.0,184000.0,150000.0,142450.141026,904.0,38.0,1843611.0,15.0


## **Ejercicio 1.1: Convertir Tipos de Datos**

**Descripción:** Convierte la columna `rooms` a entero y verifica el cambio usando `np.array_equal`.

**Pista:** Usa `astype('int')` y `np.array_equal`.

In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18979 entries, 0 to 18978
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   created_on               18979 non-null  object 
 1   operation                18979 non-null  object 
 2   property_type            18979 non-null  object 
 3   place_with_parent_names  18979 non-null  object 
 4   lat-lon                  18979 non-null  object 
 5   lat                      18979 non-null  float64
 6   lon                      18979 non-null  float64
 7   price_aprox_usd          17445 non-null  float64
 8   surface_total_in_m2      16586 non-null  float64
 9   surface_covered_in_m2    16876 non-null  float64
 10  price_usd_per_m2         16037 non-null  float64
 11  floor                    2756 non-null   float64
 12  rooms                    13517 non-null  float64
 13  expenses                 3815 non-null   float64
 14  properati_url         

In [10]:
data['rooms'].unique()

array([nan,  2.,  1.,  4.,  6.,  3.,  5.,  7.,  9.,  8., 10., 11., 12.,
       16., 24., 13., 32., 38., 30., 17., 34., 15., 20.])

In [11]:
# Convertir el tipo de columna
data['rooms'] = data['rooms'].fillna(0).astype('int')

In [12]:
data['rooms'].unique()

array([ 0,  2,  1,  4,  6,  3,  5,  7,  9,  8, 10, 11, 12, 16, 24, 13, 32,
       38, 30, 17, 34, 15, 20])

In [13]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18979 entries, 0 to 18978
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   created_on               18979 non-null  object 
 1   operation                18979 non-null  object 
 2   property_type            18979 non-null  object 
 3   place_with_parent_names  18979 non-null  object 
 4   lat-lon                  18979 non-null  object 
 5   lat                      18979 non-null  float64
 6   lon                      18979 non-null  float64
 7   price_aprox_usd          17445 non-null  float64
 8   surface_total_in_m2      16586 non-null  float64
 9   surface_covered_in_m2    16876 non-null  float64
 10  price_usd_per_m2         16037 non-null  float64
 11  floor                    2756 non-null   float64
 12  rooms                    18979 non-null  int32  
 13  expenses                 3815 non-null   float64
 14  properati_url         

In [14]:
# Verificación
original = data['rooms'].astype('float')
converted = data['rooms']
print("Arrays iguales:", np.array_equal(original, converted))

Arrays iguales: True


In [15]:
# Después de la conversión
print("Después de la conversión:\n", data['rooms'].head())

Después de la conversión:
 0    0
1    0
2    2
3    0
4    0
Name: rooms, dtype: int32


**Pregunta:** ¿Por qué es importante convertir tipos de datos en análisis de datos?

## **Ejercicio 1.2: Transformaciones de Fecha y Hora**

**Descripción:** Convierte la columna `created_on` a formato datetime, luego extrae el mes y localiza a `America/Toronto`.
**Pista:** Usa `pd.to_datetime` y el accesorio `dt` para manipulaciones de fecha y hora.

In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18979 entries, 0 to 18978
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   created_on               18979 non-null  object 
 1   operation                18979 non-null  object 
 2   property_type            18979 non-null  object 
 3   place_with_parent_names  18979 non-null  object 
 4   lat-lon                  18979 non-null  object 
 5   lat                      18979 non-null  float64
 6   lon                      18979 non-null  float64
 7   price_aprox_usd          17445 non-null  float64
 8   surface_total_in_m2      16586 non-null  float64
 9   surface_covered_in_m2    16876 non-null  float64
 10  price_usd_per_m2         16037 non-null  float64
 11  floor                    2756 non-null   float64
 12  rooms                    18979 non-null  int32  
 13  expenses                 3815 non-null   float64
 14  properati_url         

In [17]:
data.head()

Unnamed: 0,created_on,operation,property_type,place_with_parent_names,lat-lon,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,properati_url,barrio,comuna
0,2017-09-22,sell,house,|Argentina|Capital Federal|Palermo|Palermo Viejo|,"-34.5889531469,-58.4298817776",-34.588953,-58.429882,2000000.0,312.0,,6410.25641,,0,,https://www.properati.com.ar/2os_venta_casa_pa...,PALERMO,14.0
1,2017-08-01,sell,store,|Argentina|Capital Federal|Palermo|,"-34.586069,-58.414431",-34.586069,-58.414431,790000.0,121.0,121.0,6528.92562,,0,,https://www.properati.com.ar/1cl7l_venta_local...,PALERMO,14.0
2,2017-08-02,sell,store,|Argentina|Capital Federal|Palermo|Palermo Soho|,"-34.589723,-58.4325664",-34.589723,-58.432566,343000.0,122.0,108.0,2811.47541,,2,,https://www.properati.com.ar/1cm8w_venta_local...,PALERMO,14.0
3,2017-08-03,sell,store,|Argentina|Capital Federal|Palermo|,"-34.5923646,-58.4144028",-34.592365,-58.414403,145000.0,24.0,24.0,6041.666667,,0,,https://www.properati.com.ar/1covk_venta_local...,PALERMO,14.0
4,2017-08-08,sell,store,|Argentina|Capital Federal|Barrio Norte|,"-34.585652875,-58.4114933233",-34.585653,-58.411493,175000.0,24.0,24.0,7291.666667,,0,,https://www.properati.com.ar/1csk7_venta_local...,PALERMO,14.0


In [18]:
data['created_on'].loc[0]

'2017-09-22'

In [19]:
# Convertir a formato datetime
data['created_on'] = pd.to_datetime(data['created_on'], format='%Y-%m-%d')

In [20]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18979 entries, 0 to 18978
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   created_on               18979 non-null  datetime64[ns]
 1   operation                18979 non-null  object        
 2   property_type            18979 non-null  object        
 3   place_with_parent_names  18979 non-null  object        
 4   lat-lon                  18979 non-null  object        
 5   lat                      18979 non-null  float64       
 6   lon                      18979 non-null  float64       
 7   price_aprox_usd          17445 non-null  float64       
 8   surface_total_in_m2      16586 non-null  float64       
 9   surface_covered_in_m2    16876 non-null  float64       
 10  price_usd_per_m2         16037 non-null  float64       
 11  floor                    2756 non-null   float64       
 12  rooms                    18979 n

In [21]:
data.head()

Unnamed: 0,created_on,operation,property_type,place_with_parent_names,lat-lon,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,properati_url,barrio,comuna
0,2017-09-22,sell,house,|Argentina|Capital Federal|Palermo|Palermo Viejo|,"-34.5889531469,-58.4298817776",-34.588953,-58.429882,2000000.0,312.0,,6410.25641,,0,,https://www.properati.com.ar/2os_venta_casa_pa...,PALERMO,14.0
1,2017-08-01,sell,store,|Argentina|Capital Federal|Palermo|,"-34.586069,-58.414431",-34.586069,-58.414431,790000.0,121.0,121.0,6528.92562,,0,,https://www.properati.com.ar/1cl7l_venta_local...,PALERMO,14.0
2,2017-08-02,sell,store,|Argentina|Capital Federal|Palermo|Palermo Soho|,"-34.589723,-58.4325664",-34.589723,-58.432566,343000.0,122.0,108.0,2811.47541,,2,,https://www.properati.com.ar/1cm8w_venta_local...,PALERMO,14.0
3,2017-08-03,sell,store,|Argentina|Capital Federal|Palermo|,"-34.5923646,-58.4144028",-34.592365,-58.414403,145000.0,24.0,24.0,6041.666667,,0,,https://www.properati.com.ar/1covk_venta_local...,PALERMO,14.0
4,2017-08-08,sell,store,|Argentina|Capital Federal|Barrio Norte|,"-34.585652875,-58.4114933233",-34.585653,-58.411493,175000.0,24.0,24.0,7291.666667,,0,,https://www.properati.com.ar/1csk7_venta_local...,PALERMO,14.0


In [22]:
# Extraer mes y localizar zona horaria
data['month'] = data['created_on'].dt.month

In [23]:
data.head()

Unnamed: 0,created_on,operation,property_type,place_with_parent_names,lat-lon,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,properati_url,barrio,comuna,month
0,2017-09-22,sell,house,|Argentina|Capital Federal|Palermo|Palermo Viejo|,"-34.5889531469,-58.4298817776",-34.588953,-58.429882,2000000.0,312.0,,6410.25641,,0,,https://www.properati.com.ar/2os_venta_casa_pa...,PALERMO,14.0,9
1,2017-08-01,sell,store,|Argentina|Capital Federal|Palermo|,"-34.586069,-58.414431",-34.586069,-58.414431,790000.0,121.0,121.0,6528.92562,,0,,https://www.properati.com.ar/1cl7l_venta_local...,PALERMO,14.0,8
2,2017-08-02,sell,store,|Argentina|Capital Federal|Palermo|Palermo Soho|,"-34.589723,-58.4325664",-34.589723,-58.432566,343000.0,122.0,108.0,2811.47541,,2,,https://www.properati.com.ar/1cm8w_venta_local...,PALERMO,14.0,8
3,2017-08-03,sell,store,|Argentina|Capital Federal|Palermo|,"-34.5923646,-58.4144028",-34.592365,-58.414403,145000.0,24.0,24.0,6041.666667,,0,,https://www.properati.com.ar/1covk_venta_local...,PALERMO,14.0,8
4,2017-08-08,sell,store,|Argentina|Capital Federal|Barrio Norte|,"-34.585652875,-58.4114933233",-34.585653,-58.411493,175000.0,24.0,24.0,7291.666667,,0,,https://www.properati.com.ar/1csk7_venta_local...,PALERMO,14.0,8


In [24]:
localized = data['created_on'].dt.tz_localize('America/Toronto')

**Pregunta:** ¿Qué ventajas ofrecen las transformaciones de fecha y hora?

## **Ejercicio 2.1: Crear Nuevas Columnas**

**Descripción:** Crea una nueva columna `price_per_room` dividiendo `price_aprox_usd` entre `rooms`.

**Pista:** Maneja errores de división para filas donde `rooms` es cero.

In [25]:
data.head()

Unnamed: 0,created_on,operation,property_type,place_with_parent_names,lat-lon,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,properati_url,barrio,comuna,month
0,2017-09-22,sell,house,|Argentina|Capital Federal|Palermo|Palermo Viejo|,"-34.5889531469,-58.4298817776",-34.588953,-58.429882,2000000.0,312.0,,6410.25641,,0,,https://www.properati.com.ar/2os_venta_casa_pa...,PALERMO,14.0,9
1,2017-08-01,sell,store,|Argentina|Capital Federal|Palermo|,"-34.586069,-58.414431",-34.586069,-58.414431,790000.0,121.0,121.0,6528.92562,,0,,https://www.properati.com.ar/1cl7l_venta_local...,PALERMO,14.0,8
2,2017-08-02,sell,store,|Argentina|Capital Federal|Palermo|Palermo Soho|,"-34.589723,-58.4325664",-34.589723,-58.432566,343000.0,122.0,108.0,2811.47541,,2,,https://www.properati.com.ar/1cm8w_venta_local...,PALERMO,14.0,8
3,2017-08-03,sell,store,|Argentina|Capital Federal|Palermo|,"-34.5923646,-58.4144028",-34.592365,-58.414403,145000.0,24.0,24.0,6041.666667,,0,,https://www.properati.com.ar/1covk_venta_local...,PALERMO,14.0,8
4,2017-08-08,sell,store,|Argentina|Capital Federal|Barrio Norte|,"-34.585652875,-58.4114933233",-34.585653,-58.411493,175000.0,24.0,24.0,7291.666667,,0,,https://www.properati.com.ar/1csk7_venta_local...,PALERMO,14.0,8


In [26]:
data['precio_x_habitacion'] = data['price_aprox_usd']/data['rooms']

In [27]:
data.head()

Unnamed: 0,created_on,operation,property_type,place_with_parent_names,lat-lon,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,properati_url,barrio,comuna,month,precio_x_habitacion
0,2017-09-22,sell,house,|Argentina|Capital Federal|Palermo|Palermo Viejo|,"-34.5889531469,-58.4298817776",-34.588953,-58.429882,2000000.0,312.0,,6410.25641,,0,,https://www.properati.com.ar/2os_venta_casa_pa...,PALERMO,14.0,9,inf
1,2017-08-01,sell,store,|Argentina|Capital Federal|Palermo|,"-34.586069,-58.414431",-34.586069,-58.414431,790000.0,121.0,121.0,6528.92562,,0,,https://www.properati.com.ar/1cl7l_venta_local...,PALERMO,14.0,8,inf
2,2017-08-02,sell,store,|Argentina|Capital Federal|Palermo|Palermo Soho|,"-34.589723,-58.4325664",-34.589723,-58.432566,343000.0,122.0,108.0,2811.47541,,2,,https://www.properati.com.ar/1cm8w_venta_local...,PALERMO,14.0,8,171500.0
3,2017-08-03,sell,store,|Argentina|Capital Federal|Palermo|,"-34.5923646,-58.4144028",-34.592365,-58.414403,145000.0,24.0,24.0,6041.666667,,0,,https://www.properati.com.ar/1covk_venta_local...,PALERMO,14.0,8,inf
4,2017-08-08,sell,store,|Argentina|Capital Federal|Barrio Norte|,"-34.585652875,-58.4114933233",-34.585653,-58.411493,175000.0,24.0,24.0,7291.666667,,0,,https://www.properati.com.ar/1csk7_venta_local...,PALERMO,14.0,8,inf


In [28]:
data['estatico'] = 'Internet'

In [29]:
data.head()

Unnamed: 0,created_on,operation,property_type,place_with_parent_names,lat-lon,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,properati_url,barrio,comuna,month,precio_x_habitacion,estatico
0,2017-09-22,sell,house,|Argentina|Capital Federal|Palermo|Palermo Viejo|,"-34.5889531469,-58.4298817776",-34.588953,-58.429882,2000000.0,312.0,,6410.25641,,0,,https://www.properati.com.ar/2os_venta_casa_pa...,PALERMO,14.0,9,inf,Internet
1,2017-08-01,sell,store,|Argentina|Capital Federal|Palermo|,"-34.586069,-58.414431",-34.586069,-58.414431,790000.0,121.0,121.0,6528.92562,,0,,https://www.properati.com.ar/1cl7l_venta_local...,PALERMO,14.0,8,inf,Internet
2,2017-08-02,sell,store,|Argentina|Capital Federal|Palermo|Palermo Soho|,"-34.589723,-58.4325664",-34.589723,-58.432566,343000.0,122.0,108.0,2811.47541,,2,,https://www.properati.com.ar/1cm8w_venta_local...,PALERMO,14.0,8,171500.0,Internet
3,2017-08-03,sell,store,|Argentina|Capital Federal|Palermo|,"-34.5923646,-58.4144028",-34.592365,-58.414403,145000.0,24.0,24.0,6041.666667,,0,,https://www.properati.com.ar/1covk_venta_local...,PALERMO,14.0,8,inf,Internet
4,2017-08-08,sell,store,|Argentina|Capital Federal|Barrio Norte|,"-34.585652875,-58.4114933233",-34.585653,-58.411493,175000.0,24.0,24.0,7291.666667,,0,,https://www.properati.com.ar/1csk7_venta_local...,PALERMO,14.0,8,inf,Internet


In [30]:
# Crear columna derivada
data['price_per_room'] = data['price_aprox_usd'] / data['rooms']
data['price_per_room'] = data['price_per_room'].fillna(0)

print("Vista previa de la nueva columna:\n", data[['price_aprox_usd', 'rooms', 'price_per_room']].head())

Vista previa de la nueva columna:
    price_aprox_usd  rooms  price_per_room
0        2000000.0      0             inf
1         790000.0      0             inf
2         343000.0      2        171500.0
3         145000.0      0             inf
4         175000.0      0             inf


**Pregunta:** ¿Cómo puede la ingeniería de características mejorar el modelado predictivo?

## **Ejercicio 2.2: Aplicar Funciones**

**Descripción:** Crea una columna `expensive` que marque las propiedades como caras si su `price_aprox_usd` supera $1M.

**Pista:** Define una función personalizada para la condición.

In [33]:
def categoria_piso(piso):
    etiqueta = ''
    if piso == 1:
        etiqueta = 'primer piso'
    elif piso == 2:
        etiqueta = 'segundo piso'
    elif piso == 3:
        etiqueta = 'tercer piso'
    else:
        etiqueta = 'más de 3 pisos'
    return etiqueta

In [34]:
data['categoria_piso'] = data['floor'].apply(categoria_piso)

In [37]:
data.head()

Unnamed: 0,created_on,operation,property_type,place_with_parent_names,lat-lon,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,...,floor,rooms,expenses,properati_url,barrio,comuna,month,precio_x_habitacion,estatico,price_per_room
0,2017-09-22,sell,house,|Argentina|Capital Federal|Palermo|Palermo Viejo|,"-34.5889531469,-58.4298817776",-34.588953,-58.429882,2000000.0,312.0,,...,,0,,https://www.properati.com.ar/2os_venta_casa_pa...,PALERMO,14.0,9,inf,Internet,inf
1,2017-08-01,sell,store,|Argentina|Capital Federal|Palermo|,"-34.586069,-58.414431",-34.586069,-58.414431,790000.0,121.0,121.0,...,,0,,https://www.properati.com.ar/1cl7l_venta_local...,PALERMO,14.0,8,inf,Internet,inf
2,2017-08-02,sell,store,|Argentina|Capital Federal|Palermo|Palermo Soho|,"-34.589723,-58.4325664",-34.589723,-58.432566,343000.0,122.0,108.0,...,,2,,https://www.properati.com.ar/1cm8w_venta_local...,PALERMO,14.0,8,171500.0,Internet,171500.0
3,2017-08-03,sell,store,|Argentina|Capital Federal|Palermo|,"-34.5923646,-58.4144028",-34.592365,-58.414403,145000.0,24.0,24.0,...,,0,,https://www.properati.com.ar/1covk_venta_local...,PALERMO,14.0,8,inf,Internet,inf
4,2017-08-08,sell,store,|Argentina|Capital Federal|Barrio Norte|,"-34.585652875,-58.4114933233",-34.585653,-58.411493,175000.0,24.0,24.0,...,,0,,https://www.properati.com.ar/1csk7_venta_local...,PALERMO,14.0,8,inf,Internet,inf


**Pregunta:** ¿Cuáles son los beneficios de usar `apply` para ingeniería de características?

## **Ejercicio 3.1: Agregaciones con GroupBy**

**Descripción:** Agrupa los datos por `barrio` y calcula los precios totales y promedio usando el método `agg`.

**Pista:** Usa `groupby` y define un diccionario de agregación.

In [39]:
data.head()

Unnamed: 0,created_on,operation,property_type,place_with_parent_names,lat-lon,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,...,floor,rooms,expenses,properati_url,barrio,comuna,month,precio_x_habitacion,estatico,price_per_room
0,2017-09-22,sell,house,|Argentina|Capital Federal|Palermo|Palermo Viejo|,"-34.5889531469,-58.4298817776",-34.588953,-58.429882,2000000.0,312.0,,...,,0,,https://www.properati.com.ar/2os_venta_casa_pa...,PALERMO,14.0,9,inf,Internet,inf
1,2017-08-01,sell,store,|Argentina|Capital Federal|Palermo|,"-34.586069,-58.414431",-34.586069,-58.414431,790000.0,121.0,121.0,...,,0,,https://www.properati.com.ar/1cl7l_venta_local...,PALERMO,14.0,8,inf,Internet,inf
2,2017-08-02,sell,store,|Argentina|Capital Federal|Palermo|Palermo Soho|,"-34.589723,-58.4325664",-34.589723,-58.432566,343000.0,122.0,108.0,...,,2,,https://www.properati.com.ar/1cm8w_venta_local...,PALERMO,14.0,8,171500.0,Internet,171500.0
3,2017-08-03,sell,store,|Argentina|Capital Federal|Palermo|,"-34.5923646,-58.4144028",-34.592365,-58.414403,145000.0,24.0,24.0,...,,0,,https://www.properati.com.ar/1covk_venta_local...,PALERMO,14.0,8,inf,Internet,inf
4,2017-08-08,sell,store,|Argentina|Capital Federal|Barrio Norte|,"-34.585652875,-58.4114933233",-34.585653,-58.411493,175000.0,24.0,24.0,...,,0,,https://www.properati.com.ar/1csk7_venta_local...,PALERMO,14.0,8,inf,Internet,inf


In [43]:
gp_1 = data.groupby('property_type')['price_aprox_usd'].mean()
gp_2 = data.groupby('property_type')['price_aprox_usd'].sum()

In [42]:
gp_1

property_type
PH           212491.852393
apartment    273973.649618
house        490799.519554
store        447988.312484
Name: price_aprox_usd, dtype: float64

In [44]:
gp_2

property_type
PH           2.868640e+08
apartment    3.760836e+09
house        7.038065e+08
store        4.184211e+08
Name: price_aprox_usd, dtype: float64

In [45]:
agg_dict = {
    'price_aprox_usd': ['sum', 'mean'],
    'surface_total_in_m2': ['mean']
}

grouped = data.groupby('barrio').agg(agg_dict)


grouped.head()

Unnamed: 0_level_0,price_aprox_usd,price_aprox_usd,surface_total_in_m2
Unnamed: 0_level_1,sum,mean,mean
barrio,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
AGRONOMIA,13051000.0,203921.796875,113.054545
ALMAGRO,130831100.0,180705.902224,85.75321
BALVANERA,165144200.0,171133.930943,94.484881
BARRACAS,62180200.0,276356.462756,136.061033
BELGRANO,460474100.0,420908.654177,158.554935


**Pregunta:** ¿Qué conocimientos puedes obtener de los datos agrupados?

## **Ejercicio 3.2: Tablas Dinámicas**

**Descripción:** Construye una tabla dinámica que resuma `price_aprox_usd` por `barrio` y `property_type`.

**Pista:** Usa `pivot_table` con índices y valores apropiados.

In [None]:
pivot = pd.pivot_table(data, values='price_aprox_usd', index='barrio', columns='property_type', aggfunc='mean')
print("Vista previa de la tabla dinámica:\n", pivot.head())

**Pregunta:** ¿Cómo difieren las tablas dinámicas de las operaciones estándar de groupby?

## **Ejercicio 3.3: Combinar DataFrames**

**Descripción:** Divide el conjunto de datos por `operation`, luego concatena los DataFrames resultantes.

**Pista:** Usa `concat` con axis=0.

In [None]:
sell_data = data[data['operation'] == 'sell']
rent_data = data[data['operation'] == 'rent']
concatenated = pd.concat([sell_data, rent_data], axis=0)
print("Vista previa de los datos concatenados:\n", concatenated.head())

**Pregunta:** ¿Cuándo es útil concatenar datos?

## **Ejercicio 3.4: Fusionar DataFrames**

Fusiona el conjunto de datos con un DataFrame simulado que contiene estadísticas adicionales a nivel de barrio.

**Pista:** Usa `merge` con un tipo de unín apropiado.

In [None]:
mock_stats = pd.DataFrame({
    'barrio': ['PALERMO', 'RECOLETA'],
    'avg_income': [50000, 60000]
})
merged = pd.merge(data, mock_stats, on='barrio', how='left')
print("Vista previa de los datos fusionados:\n", merged.head())


**Pregunta:** ¿Cómo mejora el análisis de datos la combinación de DataFrames?