<a href="https://lema.ufpb.br/"><img src="https://i.ibb.co/frrLnny/9-removebg-preview.png" alt="9-removebg-preview" border="0" width="400" title="Logo-LEMA"></a>

MIT License

Copyright (c) 2025 Laboratório de Estudos em Modelagem Aplicada - UFPB 

Permission is hereby granted, free of charge, to any person obtaining a copy
of this software and associated documentation files (the "Software"), to deal
in the Software without restriction, including without limitation the rights
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
copies of the Software, and to permit persons to whom the Software is
furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all
copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
SOFTWARE.

Autor: Pedro Henrique Medeiros Vieira

> <span style='color:red'>**ANTES DE TUDO!!**</span>

**!! Para garantir que todas as dependências estão instaladas corretamente, rode a célula notebook abaixo. !!**

Ele criará um ambiente virtual no seu projeto, para poder instalar as dependências sem conflito algum.

Vai demorar mesmo, não cancele.

In [None]:
import os
import subprocess
import sys

# Diretório do projeto
path = os.getcwd()

# Nome do ambiente virtual
venv_dir = os.path.join(path, "venv")

# Criação do ambiente virtual
subprocess.run([sys.executable, "-m", "venv", venv_dir])

# Ativação do ambiente virtual conforme o sistema operacional
if os.name == "nt":  # Windows
    activate_script = os.path.join(venv_dir, "Scripts", "activate")
else:  # Linux/Mac
    activate_script = os.path.join(venv_dir, "bin", "activate")

# Determina qual comando pip usar dentro do ambiente virtual
pip_cmd = os.path.join(venv_dir, "Scripts" if os.name == "nt" else "bin", "pip")

# Instala os pacotes do requirements.txt
cmd = f"{pip_cmd} install -r requirements.txt"
subprocess.run(cmd, shell=True)

print("Ambiente virtual criado e pacotes instalados com sucesso!")

---

## **Introdução a Técnicas de Análise de Dados**

Nesse notebook, serão apresentadas as principais atividades de Análise de Dados, utilizando a biblioteca `pandas`, a principal para Análise de Dados.

**Pandas** é uma biblioteca de código aberto para manipulação e análise de dados em Python. Ele fornece estruturas de dados e ferramentas eficientes para trabalhar com grandes volumes de informação.

O pandas trabalha com dois tipos de objetos principais:
* ``Series (pd.Series)`` → Coluna única com rótulo de índice.
* ``DataFrame (pd.DataFrame)`` → Tabela bidimensional (como uma planilha do Excel).

Principais funcionalidades do Pandas:
1. Leitura e Escrita de Arquivos
2. Estruturas de Dados Principais
3. Exploração de Dados
4. Seleção e Filtragem
5. Filtragem condicional
6. Limpeza e Transformação
7. Lidar com valores nulos
8. Remover duplicatas
9. Renomear colunas
10. Criar novas colunas
11. Análise Estatística
12. Visualização de Dados (Pandas + Matplotlib/Seaborn)

Além disso, vamos trabalhar brevemente uma biblioteca de visualização para análise exploratória, para entender melhor os dados os dados.

Ela é: ``matplotlib``.


---

## **Preparação de ambiente**

Vamos importar todas as bibliotecas ou funções específicas necessárias, por equanto

In [None]:
from pandas import read_csv # Leitura de arquivos CSV
import matplotlib.pyplot as plt # Plotagem de gráficos
from warnings import filterwarnings # Ignorar warnings

filterwarnings("ignore")

---

## **Os Dados**



### **Imóveis para Aluguel em Dubai**

O arquivo `.csv` dos dados se encontra na pasta `data` -> `data/data.csv`

#### **Resumo**  
Este conjunto de dados contém informações sobre imóveis listados para aluguel em Dubai, incluindo características do imóvel, localização, preço, contato do anunciante e data de listagem, obtidos por Web-Scrapping do site: https://www.propertyfinder.ae/en/rent/properties-for-rent.html

#### **Dicionário**  
| **Coluna**       | **Descrição**                                                                 |
|-----------------|-----------------------------------------------------------------------------|
| **Resume**      | Resumo do anúncio, geralmente destacando características principais do imóvel. |
| **Price**       | Preço do aluguel do imóvel (AED por ano).                                      |
| **Location**    | Endereço detalhado do imóvel, incluindo bairro e cidade.                      |
| **Bedrooms**    | Número de quartos no imóvel.                                                 |
| **Bathrooms**   | Número de banheiros no imóvel.                                               |
| **Area**        | Área total do imóvel (em pés quadrados).                                      |
| **Link**        | URL do anúncio original na plataforma Property Finder.                        |
| **Contact**     | Número de telefone do anunciante.                                            |
| **Listing Time** | Tempo desde que o imóvel foi listado para aluguel (exemplo: "Listed 8 days ago"). |

---

## **Leitura de Dados**

A leitura de dados é a primeira etapa no processamento de um dataset e consiste em importar informações de diferentes formatos para análise. No Pandas, usamos funções específicas para carregar arquivos comuns, como:

* **CSV**: ``pd.read_csv("arquivo.csv")``
* **Excel**: ``pd.read_excel("arquivo.xlsx")``
* **JSON**: ``pd.read_json("arquivo.json")``
* **SQL**: ``pd.read_sql(query, conexão)``

Aqui, vamos ler os dados obtidos a partir do webscrapping, com o próprio ``pandas``,

A função que vamos utilizar nesse caso, será a `read_csv`. Ela é usada para ler arquivos em texto em que os dados são separados por alguma pontuação.
Geralmente, a pontuação utilizada é a $,$ . 

Arquivos **CSV** _(Comma Separated Values / Valores Separados por Vírgula)_ são os principais arquivos utilizados para armazenar dados.

Nele, as colunas e os dados são separados por algum delimitador, que geralmente é a vírgula ','. Mas também podemos encontrar arquivos separados por
'|' ou ';'.

Exemplo: 

ID,Nome,Idade<br>
1,Ana,25<br>
2,Breno,30<br>
3,Carla,28<br>
4,Daniel,22<br>
5,Elisa,27<br>


### `pd.read_csv()`

```python
pd.read_csv(
    filepath_or_buffer:str = 'ARQUIVO.csv', # Caminho do arquivo ou LINK NA WEB
    sep:str, # Separador de colunas
    header:int, # Linha de cabeçalho
    skiprows:int, # Linhas a serem puladas
    skipfooter:int, # Linhas a serem puladas no final
    nrows:int, # Número de linhas a serem lidas 
    usecols:list, # Colunas a serem lidas
    decimal:str, # Caractere decimal
    encoding:str
)
```

In [None]:
from pandas import read_csv

caminho_arquivo = 'data/data.csv'
df = read_csv(caminho_arquivo)

# Mostra as primeiras
df.head(n=5)

---

## **Descrição dos dados**

A descrição dos dados ajuda a entender suas características estatísticas e distribuição. No Pandas, utilizamos:

* ``df.info()`` → Exibe tipos de dados, contagem de valores não nulos e colunas.
* ``df.describe()`` → Retorna estatísticas descritivas como:
    * **Média (mean)**: Valor médio dos dados.
    * **Desvio padrão (std)**: Mede a dispersão dos valores.
    * **Mínimo e Máximo (min, max)**: Valores extremos.
    * **Quartis (25%, 50%, 75%)**: Posições na distribuição dos dados.

Essas informações ajudam a identificar padrões, outliers e a necessidade de transformações antes da análise mais aprofundada.

### **Informações gerais**

In [None]:
# Info
df.info()

### **Explicação dos Dados**

O dataset contém **20 entradas** e **9 colunas**, descritas a seguir:

1. **Resume (object)** → Resumo da propriedade (texto).
2. **Price (object)** → Preço do imóvel, inicialmente uma string com símbolos e separadores.
3. **Location (object)** → Localização da propriedade (endereço ou bairro).
4. **Bedrooms (object)** → Número de quartos, mas armazenado como texto.
5. **Bathrooms (int64)** → Número de banheiros (formato numérico correto).
6. **Area (object)** → Área do imóvel, originalmente uma string com separadores numéricos.
7. **Link (object)** → URL do anúncio da propriedade.
8. **Contact (object)** → Informações de contato do anunciante.
9. **Listing Time (object)** → Tempo desde a publicação do anúncio, inicialmente um texto.

A partir disso, já conseguem notar algo de errado nesses dados?

In [None]:
# Describe
df.describe()

---

## **Acessando Colunas**

Lembre, tudo em python é um objeto, portanto, o objeto `DataFrame` possui seus atributos e funções.

E o `DataFrame` é composto por objetos `Series()`, que correspondem as colunas do DataFrame, ou seja, cada coluna é um objeto `Series()`.

Nós podemos acessá-los por meio de duas maneiras:
*   ```python
    dataframe['coluna']
    ```
*   ```python
    dataframe.coluna
    ```



In [None]:
# Acessando a coluna Area por CHAVE
print(df['Area'].head(), '\n')
print('Objeto: ', type(df['Area']))

In [None]:
# Acessando a coluna Area por ATRIBUTO
print(df.Area.head(), '\n')
print('Objeto: ', type(df.Area))

#### **Podemos também acessar várias colunas**

Para isso, passamos uma lista de colunas.

In [None]:
# Acessando várias colunas
colunas = ['Resume', 'Area', 'Bathrooms', 'Bedrooms']
display(df[colunas].head())
print('\nObjeto: ', type(df[colunas]))

#### **Selecionando colunas com base em seu tipo**

Isso pode ser útil para verificar se alguma coluna está em um formato que não deveria estar.

In [None]:
# Selecioando colunas objeto (string)
df.select_dtypes(include='object').head(2)

In [None]:
# Selecioando colunas numero
df.select_dtypes(include='number').head(2)

#### **Todas as colunas**

In [None]:
df.columns

Perceba que, não há colunas numéricas, mesmo havendo colunas de 'preço', 'área', 'quantidade de quartos' e 'quantidade de banheiros'.

Por isso precisamos limpar esses dados e corrigí-los.

---

## **Limpeza e Tratamento de Dados**

A **limpeza e tratamento de dados** são etapas essenciais no processo de análise e modelagem de dados, garantindo que as informações sejam confiáveis e utilizáveis. Esse processo envolve a identificação e correção de inconsistências, remoção de dados duplicados, tratamento de valores ausentes e outliers, além da padronização e transformação de variáveis para adequação ao modelo.  

#### **Principais Etapas:**  
1. **Identificação de Problemas** – Detecção de valores ausentes, duplicados e inconsistentes.  
2. **Remoção ou Imputação de Valores Ausentes** – Substituição por médias, medianas ou valores específicos.  
3. **Tratamento de Duplicatas** – Exclusão de registros repetidos para evitar distorções.  
4. **Correção de Erros e Inconsistências** – Padronização de formatos e ajustes de dados incorretos.  
5. **Tratamento de Outliers** – Identificação e remoção ou transformação de valores extremos.  
6. **Conversão e Normalização de Dados** – Ajuste de escalas e tipos de dados conforme necessário.  

Uma boa limpeza e tratamento de dados impacta diretamente a qualidade das análises e modelos preditivos, tornando os resultados mais confiáveis e interpretáveis.

#### **1 - Identicação de Problemas**

**Coluna espaçada**

Como mudar o nome de uma coluna?

```python
# Mudando colunas específicas
DataFrame.rename(
    columns={'ANTIGA COLUNA':'NOVA_COLUNA', 'ANTIGA COLUNA2':'NOVA_COLUNA2'},
    inplace=True
) # Inplace executa a função no próprio df em memória

"""OU"""

# Nesse método você troca todas as colunas
colunas_rename = ['COLUNA1', 'COLUNA2', 'COLUNA3', 'COLUNA4'] # Precisa ser do exato número de colunas originais
DataFrame.columns = colunas_rename
```

In [None]:
print(f'Colunas antes: {df.columns}\n')
df.rename(columns={'Listing Time': 'Listing_Time'}, inplace=True)
print(f'Colunas depois: {df.columns}')

#### **Verificando valores nulos**

In [None]:
df.info()

In [None]:
# Removendo colunas
df.isna().sum()

A coluna ``Bathrooms`` possui 3 valores nulos, e ``Bedrooms`` possui 1 valor nulo.

#### **Analisando valores fora do formato correto**

In [None]:
df.select_dtypes(include='object').head(2)

Essas colunas deveriam ser numéricas mas estão como objeto.

* Price 
* Bedrooms	
* Bathrooms
* Area	
* Listing Time

Perceba que, não consigo fazer operações matemáticas com nenhuma delas.

In [None]:
print('Tentando somar coluna "Area": ', df.select_dtypes(include='object')['Area'].sum())

Além disso, já encontramos outro problema. Há um valor 'studio' na coluna de quartos. 
Isso provavelmente acontece quando um imóvel se classifica como  'kitnet', que também é uma denotação para 'studio', pois não há quartos.

Já podemos criar uma hipótese e verificá-la quando os dados forem tratados.

$\textbf{Hipótese}: \text{Quando a área for menor que algum valor X, podemos classificar como 'studio'}$

#### **2 - Remoção ou Imputação de Valores Ausentes**

#### **Como tratar valores nulos?**

* Podemos substituir por uma constante.

ou

* Podemos dropá-los.

Dependerá do contexto.

**Substituindo**

> **!**: Não é boa prática substituir por 0, pois pode enviesar os dados!

Pode-se substituir pela média, mas ainda assim, o valor nulo pode ser um outlier, e assim estaríamos normalizando-o.

Isso serve apenas de exemplo, tudo depende do contexto.

In [None]:
# Criando uma cópia para não alterar o DataFrame original
df_sub = df.copy()

# Quartos
indice_nulo_quartos = df[df['Bedrooms'].isna()].index # Explicarei filtragem mais para frente

print('Linhas com valor do banheiro Nulo: ')
display(df.iloc[indice_nulo_quartos])

indice_nulo_banheiros = df[df['Bathrooms'].isna()].index # Explicarei filtragem mais para frente

print('Linhas com valor do banheiro Nulo: ')
display(df.iloc[indice_nulo_banheiros])


In [None]:
# Substituir por algo, por exemplo 0
df_sub['Bedrooms'].fillna(0, inplace=True)
df_sub['Bathrooms'].fillna(0, inplace=True)

# Verificando se ainda existem valores nulos
print("Após dropar valores nulos\n")
print('Banheiros')
display(df_sub.iloc[indice_nulo_banheiros])

print('\nQuartos')
display(df_sub.iloc[indice_nulo_quartos])

**Dropando**

Como são poucos dados nuloes e no caso seria o mais adequado a se fazer, vou excluir as linhas com valores nulos no DataFrame original, enão em uma cópia, como anteriormente.

In [None]:
print('Antes: Tamanho do DataFrame: ', len(df))
print(df.isna().sum())

# Dropando
df.dropna(inplace=True)

print('\nDepois Tamanho do DataFrame: ', len(df))
print(df.isna().sum())

#### **3 - Correção de Dados**

Alguns dados veem em formatos errados apenas por possuírem um valor incorreto, como um caracter em uma coluna que deveria ser numérica, por exemplo.

Para isso, podemos corrigir esses dados e torná-los utilizáveis.

Como definimos antes, essas são as colunas erradas.

* Price 
* Bedrooms	
* Bathrooms
* Area	
* Listing Time

In [None]:
fix_columns = ['Area', 'Price', 'Listing_Time','Bedrooms']
df[fix_columns].head()

Erros:
* Area: caracteres informando '$\text{pés}^2$' (sqft -> square feet). Decimal ','.
* Price: caracteres informando aluguel anual. Decimal ','.
* Listing Time: caracteres informando os dias em que o imóvel foi anunciado.

Para identificar os erros melhor nos quartos e banheiros, vou verificar os valores `Únicos` da coluna com o método:

```python
DataFrame['COLUNA'].unique() # Retorna uma lista com os valores únicos da COLUNA
```

In [None]:
unicos_banheiros = df['Bathrooms'].unique()
unicos_quartos = df['Bedrooms'].unique()

print(f'Únicos banheiros: {unicos_banheiros}')
print(f'Únicos quartos: {unicos_quartos}')

Perceba que, temos os valores 'studio' e '7+' que tornam a coluna `Bedrooms` em texto.

Para `studio` vou transformar em 0, visto que o próprio imóvel é o quarto.

Para `7+` Vou transformar em 8, visto que se é mais que 7, temos a garantia de que é pelo menos 8.

In [None]:
# Criando um mapa de conversão
map_banheiros_quartos = {'studio':0, '7+':8}

# Substituindi os valores e convertendo para 'inteiro'.
df['Bedrooms'] = df['Bedrooms'].replace(map_banheiros_quartos).astype(int)
df['Bathrooms'] = df['Bathrooms'].replace(map_banheiros_quartos).astype(int)

# Obtendo os valores únicos
unicos_banheiros = df['Bathrooms'].unique()
unicos_quartos = df['Bedrooms'].unique()

print(f'Únicos banheiros após transformação: {unicos_banheiros}')
print(f'Únicos quartos após transformação: {unicos_quartos}')

print(f'\nTipo da coluna Banheiro: {df["Bathrooms"].dtype}')
print(f'Tipo da coluna Quarto: {df["Bedrooms"].dtype}')

> <span style='color:red'>**Explicação do código**</span>

Este código faz a **padronização de dados quantitativos** em um DataFrame.  

🔹 **Passo a passo:**  
1. **Criando um dicionário de conversão:**  
   ```python
   map_banheiros_quartos = {'studio': 0, '7+': 8}
   ```
   - Converte `"studio"` para `0` e `"7+"` para `8`.  

2. **Substituindo os valores e convertendo para inteiro:**  
   ```python
   df['Bedrooms'] = df['Bedrooms'].replace(map_banheiros_quartos).astype(int)
   df['Bathrooms'] = df['Bathrooms'].replace(map_banheiros_quartos).astype(int)
   ```
   - Aplica a conversão e transforma as colunas `Bedrooms` e `Bathrooms` em valores numéricos (`int`).

### **Corrigindo Area**

In [None]:
# Substituindo valores (Explicação detalhada a abaixo)
df['Area'] = df['Area'].str.split(' ').str[0].str.replace(',', '')

print(df['Area'].head())
print('Tipo: ', df['Area'].dtype, '\n')

df['Area'] = df['Area'].astype(float)

print(df['Area'].head())
print('Tipo: ', df['Area'].dtype)

> <span style='color:red'>**Explicação do código**</span>

Este código realiza a conversão de uma coluna chamada **"Area"** de um DataFrame Pandas de um formato de string para um tipo numérico (**int**).  

### **Passo a Passo:**
1. **`df['Area'].str.split(' ').str[0]`**  
   - Divide os valores da coluna **"Area"** por espaços e mantém apenas a primeira parte (antes do espaço). Isso é útil nesse caso pois a área está acompanhada de uma unidade de medida: **"100 sqft"** → **"100"**.  

2. **`.str.replace(',', '')`**  
   - Remove qualquer **vírgula**: **"1,000"** → **"1000"**.  

3. **`print(df['Area'].head())`**  
   - Exibe os primeiros valores da coluna modificada.  

4. **`print('Tipo: ', df['Area'].dtype, '\n')`**  
   - Mostra o tipo de dado atual da coluna, que ainda será **string (object)**.  

5. **`df['Area'] = df['Area'].astype(int)`**  
   - Converte os valores para **inteiros (int)** para facilitar cálculos e análises.  

6. **Novamente, `print(df['Area'].head())` e `print('Tipo: ', df['Area'].dtype)`**  
   - Exibe os valores convertidos e confirma que o tipo de dado agora é **int**.  

### **Corrigindo Price**

Mesma técnica

In [None]:
print(df['Price'].head())
print('Tipo: ', df['Price'].dtype, '\n')

# Obtendo o valor numérico sem a moeda, substituindo ',' por '', e convertendo para float
df['Price'] = df['Price'].str.split(' ').str[0].str.replace(',', '').astype(float)

print(df['Price'].head())
print('Tipo: ', df['Price'].dtype)

### **Corrigindo Listing Time**

Como essa parte é um pouco mais complexa, pois precisamos converter todas para um tempo comum: Mês -> Dia, Ano -> Dia.

Irei criar uma nova coluna para tal.

Existem diferentes maneiras de criar novas colunas em um DataFrame.

* ``df['nova_coluna'] = algo``
* ``df.assign(nova_coluna = algo)``

Para isso, utilizarei o assign, e o método ``.map()``

O método `.map()` é usado para **substituir valores de uma coluna** com base em um **dicionário**, função ou outra estrutura de dados.  

In [None]:
# Identificando linhas contendo 'more' com Força Bruta.
indices_more = []
for index, line in df.iterrows():
    if 'more' in line['Listing_Time']:
        indices_more.append(index)

print(f'\nValores com "more": ')
display(df.iloc[indices_more][['Resume','Location','Price','Listing_Time']].head())

In [None]:
# Substituindo'more' e 'than' por ''. 
df['Listing_Time'] = df['Listing_Time'].str.replace('more ', '')
df['Listing_Time'] = df['Listing_Time'].str.replace('than ', '')

In [None]:
# Identificando linhas contendo 'more'  após transformação com Força Bruta.
indices_more_transformado = []
for index, line in df.iterrows():
    if 'more' in line['Listing_Time']:
        indices_more_transformado.append(index)

print(f'\nValores com "more": ')
display(df.iloc[indices_more_transformado][['Resume','Location','Price','Listing_Time']].head())

#### **Extraindo os dias**

In [None]:
conversao = {
    'minute': 1/1440, 'hour': 1/24, 'day': 1, 'week': 7,
    'month': 30, 'year': 365
}

df = (
    df.assign(
        tipo_tempo = df['Listing_Time'].str.split(' ').str[2].str.replace('s', ''),
        quant_tempo = df['Listing_Time'].str.split(' ').str[1].astype(int),
        tempo_dias = lambda x: x['quant_tempo'] * x['tipo_tempo'].map(conversao)
    )
)

display(df[['Listing_Time', 'tipo_tempo', 'quant_tempo', 'tempo_dias']].head(10))

> <span style='color:red'>**Explicação do Código**</span>

Este código converte a coluna **"Listing_Time"**, que contém valores de tempo em diferentes unidades (minutos, horas, dias, semanas, meses, anos), para uma representação padronizada em **dias**.  

#### **Passo a Passo**
1. **Dicionário de Conversão**  
   ```python
   conversao = {
       'minute': 1/1440, 'hour': 1/24, 'day': 1, 'week': 7,
       'month': 30, 'year': 365
   }
   ```
   - Cria um dicionário que define o fator de conversão de diferentes unidades de tempo para **dias**.  
   - Por exemplo, **1 hora** equivale a **1/24 dias**, **1 semana** equivale a **7 dias**, etc.  

2. **Extração e Transformação das Colunas**
   ```python
   df = (
       df.assign(
           tipo_tempo = df['Listing_Time'].str.split(' ').str[2].str.replace('s', ''),
           quant_tempo = df['Listing_Time'].str.split(' ').str[1].astype(int),
           tempo_dias = lambda x: x['quant_tempo'] * x['tipo_tempo'].map(conversao)
       )
   )
   ```
   - **`df.assign(...)`**: Cria novas colunas no DataFrame sem modificar o original diretamente.  
   - **`tipo_tempo`**:  
     - Divide os valores da coluna **"Listing_Time"** em partes separadas pelos espaços.  
     - Pega o terceiro elemento (**str[2]**), que representa a unidade de tempo (exemplo: "days").  
     - Remove o **"s"** final (exemplo: "days" → "day").  
   - **`quant_tempo`**:  
     - Obtém a quantidade numérica de tempo (**str[1]**) e converte para inteiro.  
   - **`tempo_dias`**:  
     - Converte a quantidade de tempo para **dias**, multiplicando pelo fator de conversão do dicionário.  

In [None]:
# Dropar colunas antigas
df.drop(columns=['Listing_Time', 'tipo_tempo', 'quant_tempo'], inplace=True)

In [None]:
df.info()

<span style='color:green'><b>Sucesso!</b></span>

Os dados foram limpos, tratados e agora estão todos no formato correto!

### **Criando novas Colunas**

Vamos criar as seguintes novas colunas:

- ``Preco_Mes``: Valor do aluguel mensal, que se encontra como anual. (Price / 30)
- ``Area_m2``: Área em $\text{m}^2$, que se encontra em $\text{pés}^2$. (Taxa de conversão: 10.764)
- ``Preco_m2``: Valor do $\text{m}^2$. (Price / Area_m2)

#### **Função `lambda`**  

`lambda` é uma forma rápida de criar funções anônimas, úteis para operações simples.  

🔹 **Sintaxe:**  
```python
lambda argumentos: expressão
```

🔹 **Exemplo:**  
```python
soma = lambda x, y: x + y
print(soma(3, 5))  # Saída: 8
```

🔹 **Quando usar?**  
- Com `map()`, `filter()`, `sorted()` e `pandas.assign()`.  
- Para funções curtas e descartáveis.  

🔹 **Quando evitar?**  
- Para lógica complexa (use `def`).  
- Se deixar o código difícil de entender.  

🔹 **Sintaxe básica:**  
```python
df = df.assign(Nova_Coluna=lambda x: x['Coluna_Existente'] * 2)
```
O `lambda` recebe `x` (o próprio DataFrame) e acessa suas colunas para criar novas transformações.  

In [None]:
# Criando novas Colunas
df = df.assign(
        Preco_Mes = lambda x: x['Price'] / x['tempo_dias'] * 30,
        Area_m2 = lambda x: x['Area'] / 10.764,
        Preco_m2 = lambda x: x['Price'] / x['Area_m2']
    )

df.filter(items=['Resume', 'Location', 'Price', 'tempo_dias', 'Preco_Mes', 'Area', 'Area_m2', 'Preco_m2'])

Agora temos novas colunas que permitem criar novas análises!

---

## **Filtragem de Dados**

A filtragem de dados em pandas consiste em selecionar subconjuntos de um DataFrame com base em condições específicas.

#### **Filtrando com Máscara Booleana**
  
Uma máscara booleana é um filtro que seleciona apenas as linhas de um DataFrame que atendem a uma determinada condição.  

🔹 **Passo a passo:**  
1. **Criação da máscara:**  
   ```python
   mask = df['tempo_dias'] > 30
   ```
   - Retorna `True` para linhas onde `tempo_dias` é maior que 30 e `False` caso contrário.  

2. **Aplicação da máscara:**  
   ```python
   df[mask].head()
   ```
   - Filtra o DataFrame, mantendo apenas as linhas onde `mask` é `True`.  

In [None]:
# Boolean mask
df = df.copy()

# Condição: tempo_dias > 30, ou seja, anunciado há mais de 30 dias.
mask = df['tempo_dias'] > 30
print("Máscara Booleana:", mask.tail(7))

# Podemos passar a máscara para filtrar o DataFrame
print("\nAmostra do DataFrame com tempo_dias > 30 dias:")
df[mask].head()

**Podemos também passar criar a máscara direto na filtragem!**

In [None]:
# Opção 1

# Filtrando imóveis com mais de 2 banheiros
df_more_2_bathrooms = df[df['Bathrooms'] > 2]
display(df_more_2_bathrooms.head())
print('Mínimo de Banheiros após filtragem: ', df_more_2_bathrooms['Bathrooms'].min())

In [None]:
# Filtrando imóveis com 2 banheiros
df_more_2 = df[df['Bathrooms'] == 2]
display(df_more_2.head())
print('Números de Banheiros na Amostra: ', df_more_2['Bathrooms'].unique())

---

#### **Filtrando com `.query()`**

O método **`.query()`** no Pandas permite **filtrar dados de um DataFrame** usando expressões similares a SQL de forma mais legível.  

### 🔹 Exemplo de uso:  
```python
df_filtrado = df.query("Bedrooms >= 3 and Bathrooms >= 2")
```
🔸 Retorna apenas as linhas onde `Bedrooms` é **maior ou igual a 3** e `Bathrooms` é **maior ou igual a 2**.  

In [None]:
# Usando o .query()
df_2_bath_query = df.query("Bedrooms >= 3 and Bathrooms >= 2")

display(df_2_bath_query.head())
print('Números de Banheiros na Amostra: ', df_2_bath_query['Bathrooms'].unique())
print('Números de Quartos na Amostra: ', df_2_bath_query['Bedrooms'].unique())

---

## **Operações Matemáticas**

Principais Operações:
* Média
* Soma
* Máximo
* Mínimo
* Desvio Padrão
* Mediana
* Moda
* Contagens

Vamos aplicá-las no preço.

In [None]:
df['Price'].head()

In [None]:
# Mean, Sum, Median, Max, Min, Std, Moda
media =         df['Price'].mean()
soma =          df['Price'].sum()
mediana =       df['Price'].median()
maximo =        df['Price'].max()
minimo =        df['Price'].min()
desvio_padrao = df['Price'].std()
moda =          df['Price'].mode()

print(f'Média: {media}')
print(f'Soma: {soma}')
print(f'Mediana: {mediana}')
print(f'Máximo: {maximo}')
print(f'Mínimo: {minimo}')
print(f'Desvio Padrão: {desvio_padrao}')
print(f'Moda: {moda}')

---

## **Agrupamento**

O método **`.groupby()`** no Pandas permite **agrupar dados** com base em uma ou mais colunas e aplicar funções estatísticas sobre esses grupos.  

### 🔹 Exemplo de uso:  
```python
df.groupby('Bedrooms')['Price'].mean()
```
🔸 Agrupa os dados pela coluna `Bedrooms` e calcula a **média dos preços** para cada quantidade de quartos.  

### 🔹 Aplicando várias funções:  
```python
df.groupby('Bedrooms').agg({'Price': ['mean', 'max', 'min']})
```
🔸 Calcula **média, máximo e mínimo** dos preços para cada grupo.  

### 🔹 Agrupando por múltiplas colunas:  
```python
df.groupby(['Bedrooms', 'Bathrooms'])['Price'].sum()
```
🔸 Agrupa por `Bedrooms` e `Bathrooms`, somando os preços em cada combinação.  

In [None]:
# Preço médio por quantidade de quartos
mean_price_bedrooms = (
    df.groupby('Bedrooms')['Price'].mean()
                                   .sort_values(ascending=False)
                                   .to_frame()
                                   .reset_index() # Ordenar valores (ascending=False -> Decrescente)
)

mean_price_bedrooms

In [None]:
# Aplicando várias funções ao mesmo tempo

# Quantidade de quartos por média, mediana, máximo e mínimo da área
bed_area_stats = (
    df.groupby('Bedrooms')['Area'].agg(['mean', 'median', 'max', 'min']).sort_values(by='mean', ascending=False).reset_index()
)

bed_area_stats

#### **Analisando Anunciantes Únicos**

Quantos Anunciantes únicos nós temos?

Posso supor que anúncios com o mesmo contato são do mesmo anunciante.

In [None]:
# Quantidade de anunciantes Únicos
anunciantes_unicos = df['Contact'].nunique()

print(f'Quantidade de Anunciantes Únicos: {anunciantes_unicos}')

In [None]:
# 10 Anunciantes que mais anunciam
df['Contact'].value_counts().head(10).to_frame().reset_index()

Para facilitar a leitura, vamos criar um identificador único para cada anunciante.

In [None]:
# Criar código único para cada anunciante
df['ID_Vendedor'] = df['Contact'].astype('category').cat.codes

In [None]:
df[['ID_Vendedor', 'Contact']].head()

> <span style='color:red'>**Explicação do Código**</span>

```python
df['Contact'].astype('category').cat.codes
```
Esse código **converte a coluna `Contact` em uma categoria** e gera um **código numérico único** para cada anunciante.  

### **🔹 Etapas do processo:**  
1. **`astype('category')`**  
   - Converte a coluna `Contact` (nomes ou identificadores de anunciantes) para o tipo `category`.  
2. **`.cat.codes`**  
   - Substitui cada valor único da categoria por um número inteiro, criando **códigos numéricos únicos**.  

### **🔹 Exemplo Prático:**  
#### **Antes da conversão (`Contact` como string)**  
| Contact        | Price  |
|---------------|--------|
| João Imóveis  | 500000 |
| Maria Realty  | 600000 |
| João Imóveis  | 550000 |
| Pedro Vendas  | 450000 |

#### **Depois da conversão (`cat.codes`)**  
| Contact        | Contact_Code | Price  |
|---------------|--------------|--------|
| João Imóveis  | 0            | 500000 |
| Maria Realty  | 1            | 600000 |
| João Imóveis  | 0            | 550000 |
| Pedro Vendas  | 2            | 450000 |

In [None]:
# Anunciantes que mais anunciam
top_10_anunciantes = df['ID_Vendedor'].value_counts().head(10).to_frame().reset_index()

top_10_anunciantes

In [None]:
# Anunciantes mais caros em média
anunciantes_caros = df.groupby('ID_Vendedor')['Price'].mean().sort_values(ascending=False).head(5).to_frame().reset_index()

anunciantes_caros

---

## **Visualização de Dados**

Nessa seção, vamos visualizar os dados vistos acima.

### **Matplotlib e Seaborn**  

#### 🔹 **Matplotlib**  
Matplotlib é uma biblioteca do Python usada para **criação de gráficos estáticos, interativos e animados**. É altamente personalizável e permite construir gráficos como **linhas, barras, histogramas e dispersão**.  

**Exemplo:**  
```python
import matplotlib.pyplot as plt

plt.plot([1, 2, 3, 4], [10, 20, 25, 30])
plt.title('Gráfico Simples')
plt.show()
```

#### 🔹 **Seaborn**  
Seaborn é uma biblioteca baseada no Matplotlib, focada em **visualização estatística**. Oferece gráficos mais bonitos e fáceis de criar, como **heatmaps, boxplots e violin plots**.  

**Exemplo:**  
```python
import seaborn as sns

sns.histplot(df['Price'], bins=30, kde=True)
```

**Quando usar?**  
- **Matplotlib** → Personalização total de gráficos.  
- **Seaborn** → Visualizações estatísticas prontas e esteticamente melhores.  

In [None]:
import matplotlib.pyplot as plt

mean_price_bedrooms
bed_area_stats
top_10_anunciantes
anunciantes_caros

#### **1 - Média de preço por quantidade de Quartos**

In [None]:
# **1 - Média de preço por quantidade de Quartos**
media_geral = df['Price'].mean()

plt.figure(figsize=(10, 5)) # Tamanho do Gráfico

plt.bar(x=mean_price_bedrooms['Bedrooms'], height=mean_price_bedrooms['Price'], color='skyblue') # Gráfico de Barras
plt.axhline(y=media_geral, color='r', linestyle='--', label='Média Geral') # Linha na média geral

plt.xlabel('Quartos') # Título do Eixo X
plt.ylabel('Preço Médio') # Título do Eixo Y
plt.title('Média de Preço por Quantidade de Quartos') # Título do Gráfico
plt.legend() # Mostrar legenda
plt.show() # Mostrar Gráfico

#### **2 - Média de Área por quantidade de quartos**

In [None]:
# **2 - Quantidade de Quartos por Média, Mediana, Máximo e Mínimo da Área**
plt.figure(figsize=(10, 5))

plt.plot(bed_area_stats['Bedrooms'], bed_area_stats['mean'], label='Média', marker='o') # Gráfico de Linha
plt.plot(bed_area_stats['Bedrooms'], bed_area_stats['median'], label='Mediana', marker='o') # Gráfico de Linha

plt.fill_between(bed_area_stats['Bedrooms'], bed_area_stats['max'], bed_area_stats['min'], alpha=0.2, label='Máximo/Mínimo') # Preencher entre as linhas

plt.xlabel('Quartos')
plt.ylabel('Área')
plt.title('Quantidade de Quartos por Média, Mediana, Máximo e Mínimo da Área')
plt.legend()
plt.show()

#### **3 - Top 10 Anunciantes**

In [None]:
# **3 - Anunciantes que mais anunciam**
plt.figure(figsize=(10, 5))

# Ordenando do maior para o menor
top_10_anunciantes = top_10_anunciantes.sort_values(by='count', ascending=True)

plt.barh(y=top_10_anunciantes['ID_Vendedor'].astype(str), 
         width=top_10_anunciantes['count'], 
         color='skyblue')

plt.xlabel('Quantidade de Anúncios')
plt.ylabel('ID do Anunciante')
plt.title('Top 10 Anunciantes que mais Anunciam')
plt.show()

#### **4 - Vendedores Mais Caros em Média**

In [None]:
# **4 - Anunciantes mais caros em média**
plt.figure(figsize=(10, 5))

anunciantes_caros = anunciantes_caros.sort_values(by='Price', ascending=True)

plt.barh(y=anunciantes_caros['ID_Vendedor'].astype(str),
            width=anunciantes_caros['Price'],
            color='skyblue')

plt.xlabel('Preço Médio')
plt.ylabel('ID do Anunciante')
plt.title('Top 5 Anunciantes mais Caros em Média')
plt.show()

---

# **Exercícios Práticos**

Nessa seção, encontra-se um novo conjunto de dados preparado para Introdução a Análise de Dados.

Vamos explicar o dataset, e definir exercícios práticos, com base em perguntas acerca dos dados.

## **Contextualização dos Dados**

Os dados utilizados nessa seção foram originados do repositório de dados para Machine Learning da UC Irvine University, considerada uma das 10 melhores universidades dos EUA, e a melhor criada nos últimos 50 anos.

O conjunto de dados contém informações detalhadas sobre diversos modelos de automóveis, incluindo características técnicas, desempenho e preços.

O objetivo dessa base de dados é permitir a análise exploratória e o desenvolvimento de modelos preditivos, como a estimativa de preços de carros com base em suas características, mas no nosso caso, o maior foco será a análise exploratória, e uma breve passagem por modelagem.7

Os dados originais foram traduzidos para Português.

O arquivo `.csv` se encontra `data/cars_translated.csv`

## **Resumo**

O conjunto de dados contém **26 colunas** e **205 registros**, representando diferentes modelos de automóveis. Algumas colunas possuem valores ausentes e precisam ser tratadas antes da análise.

Os dados incluem variáveis categóricas (como tipo de combustível e fabricante) e variáveis numéricas (como tamanho do motor e preço).

## **Descrição das Colunas**

Aqui está a explicação de cada coluna presente no dataset:

| **Coluna**               | **Tipo**      | **Descrição** |
|--------------------------|--------------|--------------|
| `classificacao_risco`    | Numérica      | Índice de risco do seguro (-2 a 3). |
| `perdas_normalizadas`    | Numérica      | Média das perdas normalizadas para veículos similares. |
| `fabricante`             | Categórica    | Marca do carro (exemplo: Audi, BMW, Toyota). |
| `tipo_combustivel`       | Categórica    | Tipo de combustível (`gasolina` ou `diesel`). |
| `aspiracao`              | Categórica    | Tipo de aspiração do motor (`padrao` ou `turbo`). |
| `num_portas`            | Categórica    | Número de portas do carro (`duas` ou `quatro`). |
| `tipo_carroceria`        | Categórica    | Tipo de carroceria (sedan, hatchback, conversível, etc.). |
| `tracao`                | Categórica    | Tipo de tração (`dianteira`, `traseira`, `quatro_rodas`). |
| `localizacao_motor`      | Categórica    | Localização do motor (`frontal` ou `traseira`). |
| `distancia_eixos`        | Numérica      | Distância entre os eixos do carro (polegadas). |
| `comprimento`            | Numérica      | Comprimento total do carro (polegadas). |
| `largura`               | Numérica      | Largura do carro (polegadas). |
| `altura`                | Numérica      | Altura do carro (polegadas). |
| `peso`                  | Numérica      | Peso do carro sem passageiros e carga (libras). |
| `tipo_motor`            | Categórica    | Tipo do motor (`dohc`, `ohcv`, `rotor`, etc.). |
| `num_cilindros`         | Categórica    | Número de cilindros do motor (`quatro`, `seis`, `oito`, etc.). |
| `tamanho_motor`         | Numérica      | Tamanho do motor em centímetros cúbicos (cc). |
| `sistema_combustivel`   | Categórica    | Tipo de sistema de combustível (`mpfi`, `spdi`, `carb`, etc.). |
| `diametro_cilindro`     | Numérica      | Diâmetro do cilindro do motor. |
| `curso_pistao`         | Numérica      | Comprimento do curso do pistão. |
| `taxa_compressao`       | Numérica      | Taxa de compressão do motor. |
| `potencia`              | Numérica      | Potência do motor (cavalos de potência - HP). |
| `rpm_maximo`            | Numérica      | Rotação máxima do motor (RPM). |
| `consumo_cidade`        | Numérica      | Consumo de combustível na cidade (milhas por galão). |
| `consumo_estrada`       | Numérica      | Consumo de combustível na estrada (milhas por galão). |
| `preco`                | Numérica      | Preço do carro (dólares). |

Agora, sigamos para a prática.

---

Nessa seção você encontrará códigos para mostrar exemplos de respostas em cada questão.

Elas foram armazenadas em um arquivo `.json`, e são gerenciadas pela classe `Respostas()`.

Ambos se encontram no diretório:

```
└───respostas_exemplo  # Arquivos de resposta para exercícios
    │   respostas.json
    │   respostas.py
```

In [None]:
from respostas_exemplo.respostas import Respostas
respostas = Respostas()

---

#### **1 - Leitura dos Dados**
- Importar as dependências **necessárias**.
- Tente ler os dados, use os parâmetros corretos para a leitura, e leia apenas as primeiras 5 linhas para conferir os dados.
- Após confirmar a leitura, leia todos os dados.
- Verificar o número de linhas e colunas.

> <span style='color:red'>**Observação:**</span>

Instancie a variável do DataFrame lido com ``df_cars``.

Exemplo:
```python
df_cars = funcao_de_leitura(arquivo)
```

In [None]:
# Escreva aqui o seu código

Exemplo de Resposta

In [None]:
respostas.mostrar_resposta_formatada('leitura_dados')

---

#### **2 - Descrição dos Dados**
- Exibir informações gerais do dataframe (`info()`).
- Verificar os tipos de dados de cada coluna.
- Analisar estatísticas gerais dos dados numéricos (`describe()`).

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

Exemplos Respostas

In [None]:
respostas.mostrar_resposta_formatada('descricao_dados')

---

#### **3 - Colunas e como acessá-las**
- Listar todas as colunas disponíveis.
- Selecione a coluna `fabricante` e depois as colunas `fabricantes`, `tipo_combustivel`, `num_portas`, `tipo_carroceria`.

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

Exemplo respostas

In [None]:
respostas.mostrar_resposta_formatada('colunas')

---

#### **4 - Identificação de Problemas nos Dados**
- Procurar valores faltantes (`isnull().sum()`).
- Identificar valores inconsistentes (exemplo: "?" em `normalized-losses`).
- Verificar presença de valores duplicados.

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

Exemplos Respostas

In [None]:
respostas.mostrar_resposta_formatada('problema')

---

#### **5 - Limpeza e Tratamento de Dados**
- Substituir valores "?" por `NaN`.
- Converter colunas para tipos apropriados (exemplo: `horsepower` e `price` para `int` ou `float`).

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

Exemplo Respostas

In [None]:
respostas.mostrar_resposta_formatada('limpeza_dados')

---

#### **6 - Operações Matemáticas e Contagem**
- Criar colunas derivadas (exemplo: converter `consumo_cidade` e `consumo_estrada `para `km/l`, pois estão em mpg (milhas por galão)).
  - Constante de conversão: ``0.425144``
- Calcular estatísticas básicas (média, mediana, desvio padrão).
- Contar a frequência de valores únicos (exemplo: `make.value_counts()`).

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

Exemplos Respostas

In [None]:
respostas.mostrar_resposta_formatada('operacoes')

---

#### **7 - Filtragem de Dados**
- Filtrar carros com determinado critério (exemplo: carros a gasolina com mais de 100 HP).
- Aplicar múltiplos filtros (exemplo: carros `diesel` e tração `quatro_rodas`).

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

Exemplo Respostas

In [None]:
respostas.mostrar_resposta_formatada('filtragem')

---

#### **8 - Agrupamento**
- Mostre os 5 tipos de carros em média mais caros por tipo de de combustível. 
- Mostre os 5 fabricantes com modelos mais caros
- Mostre os 5 fabricantes com modelos mais caros em média.
- Mostre os tipos de combustível que menos consomem em média na cidade.
- Mostre quantos modelos por fabricante existem na base.

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

Exemplo Respostas

In [None]:
respostas.mostrar_resposta_formatada('agrupamento')

---

#### **9 - Questões de Análise Exploratória**  

1. Qual a marca com a maior média de potência dos carros?  
2. Existe relação entre o peso do carro e seu preço? (Dica: Gráfico de Dispersão)
3. Qual o tipo de combustível mais utilizado entre os carros?  
4. Qual a distribuição de carros por número de cilindros?  (Dica: Histograma)
5. Os carros com tração nas quatro rodas possuem, em média, maior potência do que os com tração dianteira?  
6. Qual o impacto do tamanho do motor no consumo de combustível?  

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

In [None]:
# Escreva aqui o seu código

Exemplos Resposta

In [None]:
respostas.mostrar_resposta_formatada('exploratoria')

---

### **10 - Análise Exploratória Livre**
- Agora, decida a seu critério insight's a serem encontrados, perguntas a serem respondidas, hipóteses a serem testadas...

> ``Dica:`` Procure relações entre os dados, variváveis que influenciam outras, etc. Formule uma hipótese e visualize-a.

**Como achar relações?**

É possível encontrar relações entre variáveis calculando e analisando a correlação entre elas, e visualizando-a.

**Gráfico de Dispersão:** Mostra a relação entre duas variáveis com pontos no gráfico. Se os pontos formam um padrão, há uma relação; se estão espalhados, não há.

Correlação mede a relação entre duas variáveis. Se for positiva, quando uma sobe, a outra também sobe. Se for negativa, quando uma sobe, a outra desce. Se for zero, não há relação. Quanto mais perto de 1, mais forte a relação positiva. Quanto mais perto de -1, mais forte a relação negativa. Se for 0, não há relação.

In [None]:
df_modelagem = read_csv('data/cars-modelagem.csv')

In [None]:
# Como calcular correlações?

correlacao_tamanho_motor_consumo = df_modelagem['tamanho_motor'].corr(df_modelagem['consumo_cidade'])
print('Correlação entre tamanho do motor e consumo na cidade: ', correlacao_tamanho_motor_consumo)

A correlação -0.65 indica uma correlação negativa moderada a forte entre o tamanho do motor e o consumo na cidade.

🔹 Interpretação:
À medida que o tamanho do motor aumenta, o consumo na cidade diminui (ou seja, o carro faz menos km/L). Isso faz sentido, pois motores maiores tendem a consumir mais combustível.

**Achando correlações entre todas as variáveis**

Método: `DataFrame.corr()`

O método DataFrame.corr() do pandas calcula a correlação entre as colunas numéricas de um DataFrame.

Por padrão, usa o coeficiente de Pearson (mede relação linear entre variáveis).

Retorna uma matriz de correlação onde valores próximos de 1 indicam correlação positiva forte, próximos de -1 indicam correlação negativa forte e próximos de 0 indicam pouca ou nenhuma correlação.

In [None]:
# Escreva aqui o seu código
df_modelagem.select_dtypes(include='number').corr()

Perceba que, dessa maneira fica ruim de identificar boas relações, e para isso, há boas maneiras de visualizar essa matriz.

**Como?**

Com um mapa de calor.

Um **mapa de calor** é uma visualização gráfica que representa valores em uma matriz usando cores.  

🔹 **Uso em correlação:**  
- Facilita a identificação de padrões e relações entre variáveis numéricas.  
- Cores mais intensas indicam correlações mais fortes (positivas ou negativas).  

In [None]:
from seaborn import heatmap

plt.figure(figsize=(16,6))
heatmap(df_modelagem.select_dtypes(include='number').corr(), annot=True, cmap='coolwarm')
plt.show()

> Veja que há uma correlação forte e positiva entre **tamanho_motor** e **preco**.

Vamos analisar mais detalhadamente essa relação.

In [None]:
corr_tamanho_motor_preco = df_modelagem['tamanho_motor'].corr(df_modelagem['preco'])
plt.scatter(df_modelagem['tamanho_motor'], df_modelagem['preco'])
plt.xlabel('Tamanho do Motor')
plt.ylabel('Preço')
plt.title('Tamanho do Motor x Preço')
plt.legend(['Correlação: ' + str(corr_tamanho_motor_preco)])
plt.show()

**Como a relação é bem forte, podemos pensar na implementação de algum modelo de regressão linear para analisar melhor essa relação.**

---

## **Regressão Linear**  
A análise de correlação mostra que há uma **forte relação positiva** entre o tamanho do motor e o preço do carro ($r = 0.87$). Isso significa que, **à medida que o tamanho do motor aumenta, o preço tende a subir**.  

#### **Breve Explicação** 
A regressão linear estima a relação entre uma variável independente ($X$, **tamanho do motor**) e uma variável dependente ($y$, **preço**), ajustando um modelo na forma:  

$
y = \beta_0 + \beta_1X + \varepsilon
$

onde:  
- $ y $ é o **preço do carro**,  
- $ X $ é o **tamanho do motor**,  
- $ \beta_0 $ é o **intercepto** (valor de $ y $ quando $ X = 0 $),  
- $ \beta_1 $ é o **coeficiente angular** (quanto o preço varia a cada unidade do tamanho do motor),  
- $ \varepsilon $ é o **erro residual**.  

#### **Interpretação dos Resultados**  

1. **Coeficiente Angular ($\beta_1$)**  
   - Indica quanto o preço do carro **aumenta** para cada unidade adicional no tamanho do motor.  
   - Se $\beta_1 = 5000$, significa que um aumento de 1 unidade no tamanho do motor eleva o preço em **5000 unidades monetárias**.  

2. **Intercepto ($\beta_0$)**  
   - Representa o preço do carro quando o tamanho do motor é **zero**.  
   - Esse valor geralmente não tem interpretação prática nesse contexto.  

3. **$ R^2 $ (Coeficiente de Determinação)**  
   - Mede **quanto da variação do preço é explicada pelo tamanho do motor**.  
   - Se $ R^2 = 0.76 $, significa que **76% da variação nos preços é explicada pelo tamanho do motor**.  

4. **Valor-p ($ p $-value)**  
   - Testa se a relação entre as variáveis é estatisticamente significativa.  
   - Se $ p < 0.05 $, rejeitamos a hipótese nula e concluímos que **o tamanho do motor influencia significativamente o preço**.  

In [None]:
# Dropando valores nulos
df_modelagem.dropna(inplace=True)

In [None]:
# Implementando o modelo
import statsmodels.api as sm

# Definir variável independente (X) e dependente (y)
X = df_modelagem['tamanho_motor']
y = df_modelagem['preco']

# Adicionar constante (termo de intercepto)
X = sm.add_constant(X)

# Criar e ajustar o modelo
modelo = sm.OLS(y, X).fit()

# Exibir os resultados
print(modelo.summary())

### **O que os resultados nos dizem?**  

1️ - **O modelo é bom?**  

Sim! O **R² = 0.708** nos diz que **70,8% da variação do preço dos carros pode ser explicada pelo tamanho do motor**. Isso significa que o modelo consegue explicar boa parte da variação dos preços, mas ainda há outros fatores influenciando.  

2️ - **O tamanho do motor afeta o preço?**  

Sim! O coeficiente de **162.38** significa que **a cada aumento de 1 unidade no tamanho do motor, o preço do carro sobe em média R$ 162,38**.  

3️ - **Os resultados são confiáveis?**  
Sim! O **p-valor** do coeficiente do tamanho do motor é **menor que 0.05**, indicando que essa relação **não ocorre por acaso**.  

4️ - **O intercepto (-7914.13) faz sentido?**  
Não! Ele indica que, se o tamanho do motor fosse **zero**, o carro teria um preço de **-R$ 7.914,13**, o que não é realista. Esse valor surge porque a regressão linear força uma relação linear entre as variáveis.  

---

### **Conclusão**  
O modelo confirma que **carros com motores maiores tendem a ser mais caros**.  
Ele é **estatisticamente significativo**, mas poderia ser melhorado incluindo outras variáveis como consumo, potência e marca.

### **Visualizando a Reta**

In [None]:
# Regplot
import seaborn as sns

plt.figure(figsize=(10, 6))

sns.regplot(x='tamanho_motor', y='preco', data=df_modelagem, line_kws={'color': 'red'})

plt.xlabel('Tamanho do Motor')
plt.ylabel('Preço')
plt.title('Regressão Linear Simples')
plt.show()

---

## **Ministrantes**

<table>
  <tr>
    <td align="center">
      <a href="https://github.com/gabrielbpontes">
        <img style="border-radius: 50%;" src="https://avatars.githubusercontent.com/u/127130171?s=48&v=4" width="100px;" alt=""/>
        <br />
        <sub><b>Gabriel Pontes</b></sub>
      </a>
      <br/>
      <a href="https://github.com/gabrielbpontes" target="_blank">
        <img src="https://img.shields.io/badge/github-%23121011.svg?style=for-the-badge&logo=github&logoColor=white" alt="GitHub" style="padding-top: 10px;">
      </a>
      <br/>
      <a href="https://www.linkedin.com/in/gabriel-pontes-2152a9276/" target="_blank">
        <img src="https://img.shields.io/badge/LinkedIn-%230077B5.svg?style=for-the-badge&logo=linkedin&logoColor=white" alt="LinkedIn" style="padding-top: 10px;">
      </a>
    </td>
    <td align="center">
      <a href="https://github.com/NercinoN21">
        <img style="border-radius: 50%;" src="https://avatars.githubusercontent.com/u/86074258?v=4" width="100px;" alt=""/>
        <br />
        <sub><b>Nercino Neto</b></sub>
      </a>
      <br />
      <a href="https://github.com/NercinoN21" target="_blank">
        <img src="https://img.shields.io/badge/github-%23121011.svg?style=for-the-badge&logo=github&logoColor=white" alt="GitHub" style="padding-top: 10px;">
      </a>
      <br/>
      <a href="https://www.linkedin.com/in/nercino-neto/" target="_blank">
        <img src="https://img.shields.io/badge/LinkedIn-%230077B5.svg?style=for-the-badge&logo=linkedin&logoColor=white" alt="LinkedIn" style="padding-top: 10px;">
      </a>
    </td>
    <td align="center">
      <a href="https://github.com/pedrohmvv">
        <img style="border-radius: 50%;" src="https://avatars.githubusercontent.com/u/139015105?v=4" width="100px;" alt=""/>
        <br />
        <sub><b>Pedro Henrique</b></sub>
      </a>
      <br />
      <a href="https://github.com/pedrohmvv" target="_blank">
        <img src="https://img.shields.io/badge/github-%23121011.svg?style=for-the-badge&logo=github&logoColor=white" alt="GitHub" style="padding-top: 10px;">
      </a>
      <br/>
      <a href="https://www.linkedin.com/in/pedrohmv/" target="_blank">
        <img src="https://img.shields.io/badge/LinkedIn-%230077B5.svg?style=for-the-badge&logo=linkedin&logoColor=white" alt="LinkedIn" style="padding-top: 10px;">
      </a>
    </td>
  </tr>
</table>
<br>

### **Realização:**

[<img align="left" height="94px" width="94px" alt="LEMA" src="https://www.ccsa.ufpb.br/lema/wp-content/uploads/sites/179/sites/180/2024/05/cropped-logo-lema.png"/>](https://lema.ufpb.br/)

**PPGA - UFPB** \
[**LEMA**](https://www.instagram.com/lemaufpb/) \
Projects: [SAEGO](https://lema.ufpb.br/saego/), [Preço da Hora](https://precodahora.tcepb.tc.br/)
<br/>