## **Procesamiento ETL con Pandas y MongoDB Atlas (Airbnb)**

### **💠Parte 1: Extracción de datos**
+ Conectar a MongoDB Atlas
+ Accede a mongo compass y exporta la base de Airbnb en formato .csv

**Pregunta:**
¿Cuántos registros tiene la colección "listingsAndReviews"?

In [None]:
import pandas as pd
air_bnb = pd.read_csv('sample_airbnb.listingsAndReviews.csv')

# Contar los registros de la colección "listingsAndReviews": 
contar_filas = air_bnb.shape
print(f"Número de registros en la colección: {contar_filas[0]}")

### **💠Parte 2: Transformación de datos**

+ Se crea una copia del DataFrame original.

In [None]:
air_bnb_v2 = air_bnb.copy()
air_bnb_v2.head() 

+ Elimina las filas donde price o review_scores.review_scores_rating sean nulos.

In [None]:
# Contar nulos en price:
nulos_price = air_bnb_v2['price'].isnull().sum()
# Contar nulos en reviews:
nulos_review = air_bnb_v2['review_scores.review_scores_rating'].isnull().sum()

print(f"Número de campos con valores nulos en 'price': {nulos_price}")
print(f"Número de campos con valores nulos en 'review': {nulos_review}")

In [None]:
# Eliminar filas de campos nulos en 'review'
air_bnb_v2 = air_bnb_v2.dropna(subset=['review_scores.review_scores_rating'])

nulos_review = air_bnb_v2['review_scores.review_scores_rating'].isnull().sum()
print(f"Número de campos con valores nulos en 'review': {nulos_review}")

+ Convierte price a un tipo de dato numérico (elimina signos de moneda si es necesario).

In [None]:
# Verificar el tipo de dato de price
air_bnb_v2 ['price'].dtype

In [None]:
# Convertir 'price' a entero
air_bnb_v2['price'] = air_bnb_v2 ['price'].astype('int')
air_bnb_v2 ['price'].dtype

### **💠Parte 3: Análisis de datos**

Análisis Exploratorio con Agrupaciones:
+ Calcula el precio promedio por tipo de propiedad (property_type).

In [None]:
agrupacion_propiedad = air_bnb_v2.groupby("property_type")["price"].mean().reset_index()
agrupacion_propiedad.head(10).round(2)

+ Encuentra el top 5 de tipos de propiedad con mayor cantidad de alojamientos.

In [None]:
top_5_propiedad= air_bnb_v2['property_type'].value_counts().head(5).sort_values(ascending=False)
top_5_propiedad

**Pregunta:** 
¿Cuál es el tipo de propiedad más común en la base de datos?
+ El tipo más común es: Apartamento

### **💠Parte 4: Exportación de datos**
+ Guarda el DataFrame final en un archivo CSV llamado "airbnb_cleaned.csv".

In [9]:
air_bnb_v2.to_csv("airbnb_cleaned.csv", index=False)