# An√°lise e Organiza√ß√£o de Dados do Airbnb - Rio de Janeiro üèòÔ∏èüèñÔ∏è

## üìã Objetivo do Projeto
Este projeto tem como objetivo realizar uma an√°lise completa dos dados do Airbnb no Rio de Janeiro, incluindo:
- **Prepara√ß√£o dos Dados**: Importa√ß√£o e merge de datasets
- **Tratamento de Valores Ausentes**: Identifica√ß√£o e preenchimento de dados faltantes
- **Detec√ß√£o e Tratamento de Outliers**: Remo√ß√£o de valores extremos
- **Transforma√ß√£o de Dados Categ√≥ricos**: Convers√£o para formato num√©rico

## üìä Datasets Utilizados
1. **listings_cleaned.csv**: Informa√ß√µes sobre propriedades (localiza√ß√£o, tipo, pre√ßo, acomoda√ß√µes)
2. **reviews.csv**: Avalia√ß√µes e notas dos h√≥spedes

---

## üõ†Ô∏è Tecnologias Utilizadas
- Python 3.x
- Pandas
- NumPy
- Matplotlib
- Seaborn


In [None]:
# ====================================================================
# IMPORTA√á√ÉO DE BIBLIOTECAS
# ====================================================================

# Manipula√ß√£o de dados
import pandas as pd
import numpy as np

# Visualiza√ß√£o de dados
import matplotlib.pyplot as plt
import seaborn as sns

# Configura√ß√µes de visualiza√ß√£o
plt.style.use("seaborn-v0_8-darkgrid")
sns.set_palette("husl")
plt.rcParams["figure.figsize"] = (12, 6)
plt.rcParams["font.size"] = 10

# Ignorar warnings desnecess√°rios
import warnings
warnings.filterwarnings("ignore")

print("‚úÖ Bibliotecas importadas com sucesso!")
print(f"üì¶ Vers√£o Pandas: {pd.__version__}")
print(f"üì¶ Vers√£o NumPy: {np.__version__}")


‚úÖ Bibliotecas importadas com sucesso!
üì¶ Vers√£o Pandas: 2.3.3
üì¶ Vers√£o NumPy: 2.3.3


---

# 1Ô∏è‚É£ PREPARA√á√ÉO DOS DADOS (25 pontos)

Nesta etapa, vamos:
1. Importar os arquivos CSV usando `pandas`
2. Verificar as primeiras linhas de cada DataFrame
3. Analisar tipos de dados e informa√ß√µes gerais
4. Realizar o merge entre os DataFrames usando a coluna `id`

---


In [None]:
# ====================================================================
# 1.1 IMPORTA√á√ÉO DOS DATASETS
# ====================================================================

# Definir caminho da pasta de dados
data_path = r"C:\Users\bianc\OneDrive\Documents\2-Projetos\06_Organizing_and_Analyzing_Airbnb_Data\Organizing_and_analyzing_Airbnb_data\data"

In [7]:
data_path + "\\listings_cleaned.csv"

'C:\\Users\\bianc\\OneDrive\\Documents\\2-Projetos\\06_Organizing_and_Analyzing_Airbnb_Data\\Organizing_and_analyzing_Airbnb_data\\data\\listings_cleaned.csv'

In [8]:
data_path + "\\reviews.csv"

'C:\\Users\\bianc\\OneDrive\\Documents\\2-Projetos\\06_Organizing_and_Analyzing_Airbnb_Data\\Organizing_and_analyzing_Airbnb_data\\data\\reviews.csv'

In [None]:
# Importar datasets
listings = pd.read_csv(f"{data_path}\\listings_cleaned.csv")
reviews = pd.read_csv(f"{data_path}\\reviews.csv")

print("=" * 70)
print("üìÇ DATASETS IMPORTADOS COM SUCESSO!")
print("=" * 70)
print(f"\nüìä Dimens√µes do dataset "listings": {listings.shape[0]} linhas x {listings.shape[1]} colunas")
print(f"üìä Dimens√µes do dataset "reviews": {reviews.shape[0]} linhas x {reviews.shape[1]} colunas")
print("\n" + "=" * 70)

üìÇ DATASETS IMPORTADOS COM SUCESSO!

üìä Dimens√µes do dataset 'listings': 39499 linhas x 8 colunas
üìä Dimens√µes do dataset 'reviews': 32695 linhas x 3 colunas



In [11]:
# ====================================================================
# 1.2 VISUALIZA√á√ÉO DAS PRIMEIRAS LINHAS
# ====================================================================

print("=" * 70)
print("üè† PRIMEIRAS 5 LINHAS - DATASET LISTINGS")
print("=" * 70)
display(listings.head())

print("\n" + "=" * 70)
print("‚≠ê PRIMEIRAS 5 LINHAS - DATASET REVIEWS")
print("=" * 70)
display(reviews.head())


üè† PRIMEIRAS 5 LINHAS - DATASET LISTINGS


Unnamed: 0,id,neighbourhood_cleansed,room_type,accommodates,bathrooms,bedrooms,beds,price
0,271975,Vidigal,Entire home/apt,4,1.0,2.0,2.0,236.0
1,272335,Copacabana,Entire home/apt,4,1.0,1.0,1.0,723.0
2,272631,Copacabana,Private room,2,1.0,1.0,2.0,1146.0
3,273261,Leblon,Entire home/apt,6,3.5,3.0,3.0,6742.0
4,273363,Santa Teresa,Private room,1,1.0,1.0,1.0,61.0



‚≠ê PRIMEIRAS 5 LINHAS - DATASET REVIEWS


Unnamed: 0,id,number_of_reviews,review_scores_rating
0,272335,367,4.92
1,272631,32,5.0
2,273363,5,5.0
3,273463,654,4.83
4,273496,60,4.8


In [12]:
# ====================================================================
# 1.3 INFORMA√á√ïES GERAIS DOS DATASETS
# ====================================================================

print("=" * 70)
print("üìã INFORMA√á√ïES DO DATASET LISTINGS")
print("=" * 70)
listings.info()

print("\n" + "=" * 70)
print("üìã INFORMA√á√ïES DO DATASET REVIEWS")
print("=" * 70)
reviews.info()


üìã INFORMA√á√ïES DO DATASET LISTINGS
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39499 entries, 0 to 39498
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      39499 non-null  int64  
 1   neighbourhood_cleansed  39499 non-null  object 
 2   room_type               39499 non-null  object 
 3   accommodates            39499 non-null  int64  
 4   bathrooms               36609 non-null  float64
 5   bedrooms                38976 non-null  float64
 6   beds                    36630 non-null  float64
 7   price                   36644 non-null  float64
dtypes: float64(4), int64(2), object(2)
memory usage: 2.4+ MB

üìã INFORMA√á√ïES DO DATASET REVIEWS
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32695 entries, 0 to 32694
Data columns (total 3 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id     

In [None]:
# ====================================================================
# 1.4 MERGE DOS DATASETS
# ====================================================================

# Realizar merge usando a coluna "id" como chave
df = pd.merge(listings, reviews, on="id", how="inner")

print("=" * 70)
print("üîó MERGE REALIZADO COM SUCESSO!")
print("=" * 70)
print(f"\nüìä Dimens√µes do DataFrame combinado: {df.shape[0]} linhas x {df.shape[1]} colunas")
print(f"\nüìã Colunas dispon√≠veis:")
print(df.columns.tolist())

print("\n" + "=" * 70)
print("üëÄ PRIMEIRAS 5 LINHAS DO DATAFRAME COMBINADO")
print("=" * 70)
display(df.head())


üîó MERGE REALIZADO COM SUCESSO!

üìä Dimens√µes do DataFrame combinado: 32695 linhas x 10 colunas

üìã Colunas dispon√≠veis:
['id', 'neighbourhood_cleansed', 'room_type', 'accommodates', 'bathrooms', 'bedrooms', 'beds', 'price', 'number_of_reviews', 'review_scores_rating']

üëÄ PRIMEIRAS 5 LINHAS DO DATAFRAME COMBINADO


Unnamed: 0,id,neighbourhood_cleansed,room_type,accommodates,bathrooms,bedrooms,beds,price,number_of_reviews,review_scores_rating
0,272335,Copacabana,Entire home/apt,4,1.0,1.0,1.0,723.0,367,4.92
1,272631,Copacabana,Private room,2,1.0,1.0,2.0,1146.0,32,5.0
2,273261,Leblon,Entire home/apt,6,3.5,3.0,3.0,6742.0,0,4.812309
3,273363,Santa Teresa,Private room,1,1.0,1.0,1.0,61.0,5,5.0
4,273463,Lagoa,Entire home/apt,6,2.0,2.0,6.0,1411.0,654,4.83
