<a href="https://colab.research.google.com/github/ismael29h/DA_lab1/blob/master/(DA)Lab1_2025.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# DATA ANALYTICS - LABORATORIO

## Readme del dataset utilizado:
Este dataset es el resultado de muchos días de scraping.

Me gustaría darte una serie de consejos que podrían ayudarte a analizar este conjunto de datos:

- Ten en cuenta que el mercado de alquileres fue muy censurado en diciembre y a principios de enero,
por lo que podrías encontrar precios en dólares (cualquier precio inferior a 7.000 está definitivamente en dólares),
la tasa de cambio recomendada (por mi) es de 1 dólar igual a 1.000 pesos argentinos para los meses de diciembre y enero.
- Los precios con dígitos repetidos, por ejemplo:  1.111.111  222.222  9.999.999,
son datos falsos en su mayoría, esto era una forma de evitar incluir el precio en el anuncio.
- Muchos avisos no tienen un precio declarado.
- La columna de "sitio web" fue removida.

El proyecto de scraping: https://github.com/avalos-p/alquileres
Mi perfil de linkedin: https://www.linkedin.com/in/avalos-p/


## 1 - **ETL**

### 1.1 - EXTRACT

In [73]:
from google.colab import drive
import pandas as pd

drive.mount('/content/drive', force_remount=True)

file_path = '/content/drive/MyDrive/Análisis de Datos/Dataset-Laboratorio1/alquileres_database_2024-02-18.csv'

try:
    df = pd.read_csv(file_path)
    print("Archivo CSV cargado exitosamente.")
except FileNotFoundError:
    print(f"El archivo '{file_path}' no fue encontrado.")



Mounted at /content/drive
Archivo CSV cargado exitosamente.


### 1.2 - TRANSFORM

##### 1.2.1 RESUMEN INICIAL DEL DATAFRAME

In [74]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1160402 entries, 0 to 1160401
Data columns (total 8 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   name       1160402 non-null  object 
 1   price      732625 non-null   float64
 2   days       437389 non-null   float64
 3   rooms      1104338 non-null  float64
 4   bathrooms  942741 non-null   float64
 5   capacity   823157 non-null   float64
 6   date       1160402 non-null  object 
 7   province   1160402 non-null  object 
dtypes: float64(5), object(3)
memory usage: 70.8+ MB


In [75]:
print("Filas/Columnas:", df.shape)
print("Filas duplicadas:", df.duplicated().sum())

print("\nNúmero de nulos por columnas:")
nulos = df.isna().sum().sort_values(ascending=False)
print(nulos[nulos>0])

Filas/Columnas: (1160402, 8)
Filas duplicadas: 0

Número de nulos por columnas:
days         723013
price        427777
capacity     337245
bathrooms    217661
rooms         56064
dtype: int64


- Observación: el datasets supera los 100.000 registros y no posee duplicados.

In [76]:
df.sample(10)

Unnamed: 0,name,price,days,rooms,bathrooms,capacity,date,province
810183,casa para veranear en villa del dique cordoba,25000.0,1.0,2.0,1.0,6.0,2024-02-04,cordoba
567341,chalet de 4 ambientes a 2 cuadras de la playa,560000.0,7.0,3.0,2.0,8.0,2024-01-26,buenos-aires
330065,cabanas el chanar san rafael mendoza,,,1.0,1.0,5.0,2024-01-14,mendoza
274805,av del puerto condominio de la bahia 200,1100.0,,1.0,,,2024-01-12,buenos-aires
1097708,consultar direccion,45000.0,,2.0,1.0,,2024-02-15,buenos-aires
322568,alquiler depto 3 amb en miramar a dos cuadras ...,,,2.0,2.0,6.0,2024-01-14,buenos-aires
426478,mar del plata temporada 2023,,,1.0,1.0,4.0,2024-01-19,buenos-aires
595251,alberti al 3100,,,1.0,,,2024-01-27,buenos-aires
1047752,cordoba tanti hospedajealojamiento sierras rio...,20000.0,1.0,10.0,10.0,10.0,2024-02-13,cordoba
237470,miramar alquilo ph en 1er piso con balcon muy ...,49995.0,15.0,3.0,2.0,6.0,2024-01-10,buenos-aires


In [77]:
df['province'].value_counts()

Unnamed: 0_level_0,count
province,Unnamed: 1_level_1
buenos-aires,903199
cordoba,98810
mar-del-plata,58507
mendoza,48046
rosario,21890
bariloche,16713
salta,8265
misiones,2084
tucuman,1960
corrientes,928


##### 1.2.2 CORRECCIONES Y LIMPIEZA en base al resumen inicial:
- No existen registros nulos
- Ajustar tipos de datos
- Cambiar nombre a 'province'


In [78]:
# Corrección de tipo fecha - Columna 'date'
df['date'] = pd.to_datetime(df['date'])

# Nombres mejorados retocados
df['name'] = df['name'].astype(str).str.strip().str.title()

# Provincias a tipo 'category'
df['province'] = df['province'].astype(str).str.strip().str.upper().str.replace('-',' ', regex=False)
df['province'] = df['province'].astype('category')

# Columnas a enteros -> Int64 permite nulos (<NA>)
df['days']=df['days'].astype('Int64')
df['rooms']=df['rooms'].astype('Int64')
df['bathrooms']=df['bathrooms'].astype('Int64')
df['capacity']=df['capacity'].astype('Int64')

print("< Tareas completadas >")


< Tareas completadas >


In [79]:
# La columna 'province' no contiene solamente provincias
df.rename(columns={'province': 'location'}, inplace=True)
print("< Columna 'province' renombrada a 'location' >")

< Columna 'province' renombrada a 'location' >


##### 1.2.3 CREACIÓN DE NUEVAS COLUMNAS en base al Readme:
- Se necesita saber si el precio está declarado
- Determinar si el precio está en dólares
- Mostrar tasa de cambio oficial

In [80]:
# NUEVA COLUMNA: has_price -> booleano

# Si no existe un precio declarado (nulos)
df['has_price'] = ~df['price'].isna()

# Según el README, si los dígitos enteros están repetidos, el precio seguramente es falso
df['has_price'] = ~df['price'].apply(
    lambda x: (
        # no es NaN
        not pd.isna(x)
        # la parte entera tiene más de un dígito
        and len(str(int(abs(x)))) > 1
        # todos los dígitos son iguales
        and len(set(str(int(abs(x))))) == 1
    )
)

print("< 'has_price' creado exitosamente >")

< 'has_price' creado exitosamente >


In [81]:
# NUEVA COLUMNA: is_usb -> booleano

# Determina si el precio está en dólares (precio menor a 7000)
df['is_usd'] = (df['price'] < 7000) & (df['has_price'])

print("< 'is_usd' creado exitosamente >")

< 'is_usd' creado exitosamente >


In [82]:
# NUEVA COLUMNA: exchange_rate -> float

# Según el README, la tasa de cambio es 1000 en los meses de enero y diciembre
df['exchange_rate'] = df['date'].dt.month.apply(
    lambda x: 1000 if x in [12, 1] else None
)

print("< 'exchange_rate' creado exitosamente >")

< 'exchange_rate' creado exitosamente >


##### 1.2.4 VISTA PREVIA DEL DATAFRAME

In [83]:
df.sample(10)

Unnamed: 0,name,price,days,rooms,bathrooms,capacity,date,location,has_price,is_usd,exchange_rate
50808,Cabana Con Pileta Las Lomas De Miramar,100.0,1.0,5.0,3.0,8.0,2023-12-31,BUENOS AIRES,True,True,1000.0
247886,Departamento Hasta 8 Personas Carlos Paz,,,2.0,1.0,8.0,2024-01-10,CORDOBA,True,False,1000.0
272206,Complejo Pinar Del Solfin De Semana Largo 9 De...,,,2.0,2.0,3.0,2024-01-11,BUENOS AIRES,True,False,1000.0
681384,Olavarria 2200 Piso 1,160000.0,,,1.0,,2024-01-30,BUENOS AIRES,True,False,1000.0
101578,Chalet A 50M De Peatonal Y 2 Cuadras Del Mar,,,3.0,2.0,7.0,2024-01-03,BUENOS AIRES,True,False,1000.0
145238,Olascoaga,,,2.0,,,2024-01-05,MENDOZA,True,False,1000.0
63431,Av Colon 1900 Piso 6,30.0,,,1.0,,2024-01-01,BUENOS AIRES,True,True,1000.0
661363,2 Amb A 2 Cuadras Del Balneario Boutique Y 6 D...,280000.0,7.0,1.0,1.0,3.0,2024-01-30,BUENOS AIRES,True,False,1000.0
750304,Santiago Del Estero 3300,3000.0,,2.0,1.0,,2024-02-02,BUENOS AIRES,True,True,
58324,Necochea Frente Al Mar Para 5 Personas,210000.0,7.0,1.0,1.0,4.0,2024-01-01,BUENOS AIRES,True,False,1000.0


### 1.3 - LOAD

In [84]:

output_path = '/content/drive/MyDrive/Análisis de Datos/Dataset-Laboratorio1/alquileres_MODIFICADO_2024-02-18.csv'

# Guardar el dataframe transformado en un nuevo archivo CSV en Drive
df.to_csv(output_path, index=False, sep=',')

print(f'Archivo CSV guardado en: {output_path}')

Archivo CSV guardado en: /content/drive/MyDrive/Análisis de Datos/Dataset-Laboratorio1/alquileres_MODIFICADO_2024-02-18.csv


## 2 - **EDA**

### 2.1 - ANÁLISIS

##### 2.1.1 RESUMEN FINAL DE DATAFRAME

In [85]:
# Ajustes de cvisualización
pd.set_option('display.float_format', '{:,.2f}'.format)
print("< Hecho >")

< Hecho >


In [86]:
# Información actual del Dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1160402 entries, 0 to 1160401
Data columns (total 11 columns):
 #   Column         Non-Null Count    Dtype         
---  ------         --------------    -----         
 0   name           1160402 non-null  object        
 1   price          732625 non-null   float64       
 2   days           437389 non-null   Int64         
 3   rooms          1104338 non-null  Int64         
 4   bathrooms      942741 non-null   Int64         
 5   capacity       823157 non-null   Int64         
 6   date           1160402 non-null  datetime64[ns]
 7   location       1160402 non-null  category      
 8   has_price      1160402 non-null  bool          
 9   is_usd         1160402 non-null  bool          
 10  exchange_rate  709683 non-null   float64       
dtypes: Int64(4), bool(2), category(1), datetime64[ns](1), float64(2), object(1)
memory usage: 78.6+ MB


In [87]:
# Estadística básica de precios en PESOS (excluyendo aquellos que probablemente sean falsos)
df.loc[(df['has_price'] == True) & (df['is_usd'] == False), 'price'].describe()

Unnamed: 0,price
count,505152.0
mean,742574.74
std,25444558.66
min,7000.0
25%,35000.0
50%,70000.0
75%,250000.0
max,1666666665.0


In [88]:
# Estadística básica de precios en DÓLARES (excluyendo aquellos que probablemente sean falsos)
df.loc[(df['has_price'] == True) & (df['is_usd'] == True), 'price'].describe()

Unnamed: 0,price
count,209083.0
mean,843.0
std,938.66
min,1.0
25%,180.0
50%,600.0
75%,1100.0
max,6600.0


In [89]:
# DESCRIBE para PESOS para cada locación
desc_pesos = df[~df['is_usd'] & df['has_price']].groupby('location', observed=True)['price'].describe()
desc_pesos.head(20)

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
BARILOCHE,6495.0,84782.29,114920.6,7950.0,42000.0,55000.0,70000.0,1000000.0
BUENOS AIRES,376455.0,954294.73,29467016.99,7000.0,38000.0,100000.0,280000.0,1666666665.0
CORDOBA,48083.0,107730.91,191846.3,7000.0,30000.0,40000.0,85000.0,4500000.0
CORRIENTES,462.0,71266.23,59052.43,15000.0,40000.0,50000.0,80000.0,370000.0
MAR DEL PLATA,30012.0,149244.14,1647311.7,10000.0,32000.0,45000.0,120000.0,123854769.0
MENDOZA,20224.0,64699.2,1007523.82,7000.0,25000.0,30000.0,40000.0,100000000.0
MISIONES,699.0,153529.33,220276.16,7000.0,20000.0,35000.0,230000.0,880000.0
ROSARIO,18432.0,208653.75,131576.31,10000.0,142000.0,180000.0,240000.0,1750000.0
SALTA,3131.0,79262.22,154622.13,8000.0,24000.0,30000.0,50000.0,1200000.0
TUCUMAN,1159.0,96202.67,70378.88,10000.0,23400.0,110000.0,145000.0,300000.0


In [90]:
# DESCRIBE para DÓLARES para cada locación
desc_usd = df[df['is_usd'] & df['has_price']].groupby('location', observed=True)['price'].describe()
desc_usd.head(20)

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
BARILOCHE,2730.0,352.74,614.71,1.0,72.0,170.0,360.0,5000.0
BUENOS AIRES,188571.0,871.89,911.73,1.0,260.0,650.0,1100.0,6600.0
CORDOBA,4684.0,1123.77,1749.43,1.0,43.0,260.0,1500.0,6500.0
CORRIENTES,86.0,66.79,49.88,15.0,50.0,60.0,60.0,370.0
MAR DEL PLATA,6352.0,397.69,817.1,1.0,45.0,100.0,392.25,6450.0
MENDOZA,3371.0,383.87,907.87,3.0,40.0,70.0,142.5,5700.0
MISIONES,117.0,207.5,164.76,7.0,100.0,100.0,350.0,880.0
ROSARIO,2180.0,492.33,473.75,1.0,190.0,300.0,700.0,3000.0
SALTA,878.0,727.84,1071.1,1.0,100.0,500.0,750.0,6500.0
TUCUMAN,114.0,469.3,621.94,1.0,27.0,145.0,700.0,2400.0


##### 2.1.2 INTERPRETACIÓN TEXTUAL en base al resumen final:

- Los precios falsos en su mayoría se encuentran en pesos y pueden distorsionar las medidas realizadas, puesto que existen valores extremos.

- Los precios en dólares parecen menos sesgados, sus valores están más concentrados y se muestra más razonable.

- Entre provincias, existen medianas muy diferentes entre sí, lo que indica una marcada diferencia regional en los precios dados.



##### 2.1.3 PREGUNTAS DE NEGOCIO

1) Los avisos en dólares, ¿dónde son más frecuentes?

In [91]:
df_tabla_evidencia = df[df['has_price']].groupby('location', observed=True)['is_usd'].mean().mul(100).sort_values(ascending=False)
df_tabla_evidencia.head(7)

Unnamed: 0_level_0,is_usd
location,Unnamed: 1_level_1
BUENOS AIRES,21.28
BARILOCHE,16.49
MAR DEL PLATA,10.93
SALTA,10.71
ROSARIO,9.96
CORRIENTES,9.29
MENDOZA,7.03


- Respuesta 1: Los avisos en dólares son más frecuentes en Buenos Aires con un 21,28% del total en esa provincia.

2) ¿Existe un sector en el que no hayan declarado precios falsos ("dummy")?

In [92]:
df_tabla_evidencia=df.groupby('location', observed=True)['has_price'].mean().mul(100).sort_values(ascending=False)
df_tabla_evidencia.head(7)

Unnamed: 0_level_0,has_price
location,Unnamed: 1_level_1
TUCUMAN,100.0
ROSARIO,99.99
MISIONES,99.9
CORRIENTES,99.78
MENDOZA,99.75
MAR DEL PLATA,99.37
CORDOBA,99.19


- Respuesta 2: Tucumán posee el 100% de sus precios declarados.

3) ¿En qué sector los avisos de alquileres son más numerosos?

In [93]:
df_tabla_evidencia=df['location'].value_counts().sort_values(ascending=False)
df_tabla_evidencia.head(7)

Unnamed: 0_level_0,count
location,Unnamed: 1_level_1
BUENOS AIRES,903199
CORDOBA,98810
MAR DEL PLATA,58507
MENDOZA,48046
ROSARIO,21890
BARILOCHE,16713
SALTA,8265


- Respuesta 3: Buenos Aires cuenta con mayor número de avisos de alquileres, con un total de 903.199.