<a href="https://lema.ufpb.br/"><img src="https://i.ibb.co/frrLnny/9-removebg-preview.png" alt="9-removebg-preview" border="0" width="400" title="Logo-LEMA"></a>

MIT License

Copyright (c) 2025 Laborat√≥rio de Estudos em Modelagem Aplicada - UFPB 

Permission is hereby granted, free of charge, to any person obtaining a copy
of this software and associated documentation files (the "Software"), to deal
in the Software without restriction, including without limitation the rights
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
copies of the Software, and to permit persons to whom the Software is
furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all
copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
SOFTWARE.

Autor: Pedro Henrique Medeiros Vieira

> <span style='color:red'>**ANTES DE TUDO!!**</span>

**!! Para garantir que todas as depend√™ncias est√£o instaladas corretamente, rode a c√©lula notebook abaixo. !!**

Ele criar√° um ambiente virtual no seu projeto, para poder instalar as depend√™ncias sem conflito algum.

Vai demorar mesmo, n√£o cancele.

In [None]:
import os
import subprocess
import sys

# Diret√≥rio do projeto
path = os.getcwd()

# Nome do ambiente virtual
venv_dir = os.path.join(path, "venv")

# Cria√ß√£o do ambiente virtual
subprocess.run([sys.executable, "-m", "venv", venv_dir])

# Ativa√ß√£o do ambiente virtual conforme o sistema operacional
if os.name == "nt":  # Windows
    activate_script = os.path.join(venv_dir, "Scripts", "activate")
else:  # Linux/Mac
    activate_script = os.path.join(venv_dir, "bin", "activate")

# Determina qual comando pip usar dentro do ambiente virtual
pip_cmd = os.path.join(venv_dir, "Scripts" if os.name == "nt" else "bin", "pip")

# Instala os pacotes do requirements.txt
cmd = f"{pip_cmd} install -r requirements.txt"
subprocess.run(cmd, shell=True)

print("Ambiente virtual criado e pacotes instalados com sucesso!")

---

## **Introdu√ß√£o a T√©cnicas de An√°lise de Dados**

Nesse notebook, ser√£o apresentadas as principais atividades de An√°lise de Dados, utilizando a biblioteca `pandas`, a principal para An√°lise de Dados.

**Pandas** √© uma biblioteca de c√≥digo aberto para manipula√ß√£o e an√°lise de dados em Python. Ele fornece estruturas de dados e ferramentas eficientes para trabalhar com grandes volumes de informa√ß√£o.

O pandas trabalha com dois tipos de objetos principais:
* ``Series (pd.Series)`` ‚Üí Coluna √∫nica com r√≥tulo de √≠ndice.
* ``DataFrame (pd.DataFrame)`` ‚Üí Tabela bidimensional (como uma planilha do Excel).

Principais funcionalidades do Pandas:
1. Leitura e Escrita de Arquivos
2. Estruturas de Dados Principais
3. Explora√ß√£o de Dados
4. Sele√ß√£o e Filtragem
5. Filtragem condicional
6. Limpeza e Transforma√ß√£o
7. Lidar com valores nulos
8. Remover duplicatas
9. Renomear colunas
10. Criar novas colunas
11. An√°lise Estat√≠stica
12. Visualiza√ß√£o de Dados (Pandas + Matplotlib/Seaborn)

Al√©m disso, vamos trabalhar brevemente uma biblioteca de visualiza√ß√£o para an√°lise explorat√≥ria, para entender melhor os dados os dados.

Ela √©: ``matplotlib``.


---

## **Prepara√ß√£o de ambiente**

Vamos importar todas as bibliotecas ou fun√ß√µes espec√≠ficas necess√°rias, por equanto

In [None]:
from pandas import read_csv # Leitura de arquivos CSV
import matplotlib.pyplot as plt # Plotagem de gr√°ficos
from warnings import filterwarnings # Ignorar warnings

filterwarnings("ignore")

---

## **Os Dados**



### **Im√≥veis para Aluguel em Dubai**

O arquivo `.csv` dos dados se encontra na pasta `data` -> `data/data.csv`

#### **Resumo**  
Este conjunto de dados cont√©m informa√ß√µes sobre im√≥veis listados para aluguel em Dubai, incluindo caracter√≠sticas do im√≥vel, localiza√ß√£o, pre√ßo, contato do anunciante e data de listagem, obtidos por Web-Scrapping do site: https://www.propertyfinder.ae/en/rent/properties-for-rent.html

#### **Dicion√°rio**  
| **Coluna**       | **Descri√ß√£o**                                                                 |
|-----------------|-----------------------------------------------------------------------------|
| **Resume**      | Resumo do an√∫ncio, geralmente destacando caracter√≠sticas principais do im√≥vel. |
| **Price**       | Pre√ßo do aluguel do im√≥vel (AED por ano).                                      |
| **Location**    | Endere√ßo detalhado do im√≥vel, incluindo bairro e cidade.                      |
| **Bedrooms**    | N√∫mero de quartos no im√≥vel.                                                 |
| **Bathrooms**   | N√∫mero de banheiros no im√≥vel.                                               |
| **Area**        | √Årea total do im√≥vel (em p√©s quadrados).                                      |
| **Link**        | URL do an√∫ncio original na plataforma Property Finder.                        |
| **Contact**     | N√∫mero de telefone do anunciante.                                            |
| **Listing Time** | Tempo desde que o im√≥vel foi listado para aluguel (exemplo: "Listed 8 days ago"). |

---

## **Leitura de Dados**

A leitura de dados √© a primeira etapa no processamento de um dataset e consiste em importar informa√ß√µes de diferentes formatos para an√°lise. No Pandas, usamos fun√ß√µes espec√≠ficas para carregar arquivos comuns, como:

* **CSV**: ``pd.read_csv("arquivo.csv")``
* **Excel**: ``pd.read_excel("arquivo.xlsx")``
* **JSON**: ``pd.read_json("arquivo.json")``
* **SQL**: ``pd.read_sql(query, conex√£o)``

Aqui, vamos ler os dados obtidos a partir do webscrapping, com o pr√≥prio ``pandas``,

A fun√ß√£o que vamos utilizar nesse caso, ser√° a `read_csv`. Ela √© usada para ler arquivos em texto em que os dados s√£o separados por alguma pontua√ß√£o.
Geralmente, a pontua√ß√£o utilizada √© a $,$ . 

Arquivos **CSV** _(Comma Separated Values / Valores Separados por V√≠rgula)_ s√£o os principais arquivos utilizados para armazenar dados.

Nele, as colunas e os dados s√£o separados por algum delimitador, que geralmente √© a v√≠rgula ','. Mas tamb√©m podemos encontrar arquivos separados por
'|' ou ';'.

Exemplo: 

ID,Nome,Idade<br>
1,Ana,25<br>
2,Breno,30<br>
3,Carla,28<br>
4,Daniel,22<br>
5,Elisa,27<br>


### `pd.read_csv()`

```python
pd.read_csv(
    filepath_or_buffer:str = 'ARQUIVO.csv', # Caminho do arquivo ou LINK NA WEB
    sep:str, # Separador de colunas
    header:int, # Linha de cabe√ßalho
    skiprows:int, # Linhas a serem puladas
    skipfooter:int, # Linhas a serem puladas no final
    nrows:int, # N√∫mero de linhas a serem lidas 
    usecols:list, # Colunas a serem lidas
    decimal:str, # Caractere decimal
    encoding:str
)
```

In [None]:
from pandas import read_csv

caminho_arquivo = 'data/data.csv'
df = read_csv(caminho_arquivo)

# Mostra as primeiras
df.head(n=5)

---

## **Descri√ß√£o dos dados**

A descri√ß√£o dos dados ajuda a entender suas caracter√≠sticas estat√≠sticas e distribui√ß√£o. No Pandas, utilizamos:

* ``df.info()`` ‚Üí Exibe tipos de dados, contagem de valores n√£o nulos e colunas.
* ``df.describe()`` ‚Üí Retorna estat√≠sticas descritivas como:
    * **M√©dia (mean)**: Valor m√©dio dos dados.
    * **Desvio padr√£o (std)**: Mede a dispers√£o dos valores.
    * **M√≠nimo e M√°ximo (min, max)**: Valores extremos.
    * **Quartis (25%, 50%, 75%)**: Posi√ß√µes na distribui√ß√£o dos dados.

Essas informa√ß√µes ajudam a identificar padr√µes, outliers e a necessidade de transforma√ß√µes antes da an√°lise mais aprofundada.

### **Informa√ß√µes gerais**

In [None]:
# Info
df.info()

### **Explica√ß√£o dos Dados**

O dataset cont√©m **20 entradas** e **9 colunas**, descritas a seguir:

1. **Resume (object)** ‚Üí Resumo da propriedade (texto).
2. **Price (object)** ‚Üí Pre√ßo do im√≥vel, inicialmente uma string com s√≠mbolos e separadores.
3. **Location (object)** ‚Üí Localiza√ß√£o da propriedade (endere√ßo ou bairro).
4. **Bedrooms (object)** ‚Üí N√∫mero de quartos, mas armazenado como texto.
5. **Bathrooms (int64)** ‚Üí N√∫mero de banheiros (formato num√©rico correto).
6. **Area (object)** ‚Üí √Årea do im√≥vel, originalmente uma string com separadores num√©ricos.
7. **Link (object)** ‚Üí URL do an√∫ncio da propriedade.
8. **Contact (object)** ‚Üí Informa√ß√µes de contato do anunciante.
9. **Listing Time (object)** ‚Üí Tempo desde a publica√ß√£o do an√∫ncio, inicialmente um texto.

A partir disso, j√° conseguem notar algo de errado nesses dados?

In [None]:
# Describe
df.describe()

---

## **Acessando Colunas**

Lembre, tudo em python √© um objeto, portanto, o objeto `DataFrame` possui seus atributos e fun√ß√µes.

E o `DataFrame` √© composto por objetos `Series()`, que correspondem as colunas do DataFrame, ou seja, cada coluna √© um objeto `Series()`.

N√≥s podemos acess√°-los por meio de duas maneiras:
*   ```python
    dataframe['coluna']
    ```
*   ```python
    dataframe.coluna
    ```



In [None]:
# Acessando a coluna Area por CHAVE
print(df['Area'].head(), '\n')
print('Objeto: ', type(df['Area']))

In [None]:
# Acessando a coluna Area por ATRIBUTO
print(df.Area.head(), '\n')
print('Objeto: ', type(df.Area))

#### **Podemos tamb√©m acessar v√°rias colunas**

Para isso, passamos uma lista de colunas.

In [None]:
# Acessando v√°rias colunas
colunas = ['Resume', 'Area', 'Bathrooms', 'Bedrooms']
display(df[colunas].head())
print('\nObjeto: ', type(df[colunas]))

#### **Selecionando colunas com base em seu tipo**

Isso pode ser √∫til para verificar se alguma coluna est√° em um formato que n√£o deveria estar.

In [None]:
# Selecioando colunas objeto (string)
df.select_dtypes(include='object').head(2)

In [None]:
# Selecioando colunas numero
df.select_dtypes(include='number').head(2)

#### **Todas as colunas**

In [None]:
df.columns

Perceba que, n√£o h√° colunas num√©ricas, mesmo havendo colunas de 'pre√ßo', '√°rea', 'quantidade de quartos' e 'quantidade de banheiros'.

Por isso precisamos limpar esses dados e corrig√≠-los.

---

## **Limpeza e Tratamento de Dados**

A **limpeza e tratamento de dados** s√£o etapas essenciais no processo de an√°lise e modelagem de dados, garantindo que as informa√ß√µes sejam confi√°veis e utiliz√°veis. Esse processo envolve a identifica√ß√£o e corre√ß√£o de inconsist√™ncias, remo√ß√£o de dados duplicados, tratamento de valores ausentes e outliers, al√©m da padroniza√ß√£o e transforma√ß√£o de vari√°veis para adequa√ß√£o ao modelo.  

#### **Principais Etapas:**  
1. **Identifica√ß√£o de Problemas** ‚Äì Detec√ß√£o de valores ausentes, duplicados e inconsistentes.  
2. **Remo√ß√£o ou Imputa√ß√£o de Valores Ausentes** ‚Äì Substitui√ß√£o por m√©dias, medianas ou valores espec√≠ficos.  
3. **Tratamento de Duplicatas** ‚Äì Exclus√£o de registros repetidos para evitar distor√ß√µes.  
4. **Corre√ß√£o de Erros e Inconsist√™ncias** ‚Äì Padroniza√ß√£o de formatos e ajustes de dados incorretos.  
5. **Tratamento de Outliers** ‚Äì Identifica√ß√£o e remo√ß√£o ou transforma√ß√£o de valores extremos.  
6. **Convers√£o e Normaliza√ß√£o de Dados** ‚Äì Ajuste de escalas e tipos de dados conforme necess√°rio.  

Uma boa limpeza e tratamento de dados impacta diretamente a qualidade das an√°lises e modelos preditivos, tornando os resultados mais confi√°veis e interpret√°veis.

#### **1 - Identica√ß√£o de Problemas**

**Coluna espa√ßada**

Como mudar o nome de uma coluna?

```python
# Mudando colunas espec√≠ficas
DataFrame.rename(
    columns={'ANTIGA COLUNA':'NOVA_COLUNA', 'ANTIGA COLUNA2':'NOVA_COLUNA2'},
    inplace=True
) # Inplace executa a fun√ß√£o no pr√≥prio df em mem√≥ria

"""OU"""

# Nesse m√©todo voc√™ troca todas as colunas
colunas_rename = ['COLUNA1', 'COLUNA2', 'COLUNA3', 'COLUNA4'] # Precisa ser do exato n√∫mero de colunas originais
DataFrame.columns = colunas_rename
```

In [None]:
print(f'Colunas antes: {df.columns}\n')
df.rename(columns={'Listing Time': 'Listing_Time'}, inplace=True)
print(f'Colunas depois: {df.columns}')

#### **Verificando valores nulos**

In [None]:
df.info()

In [None]:
# Removendo colunas
df.isna().sum()

A coluna ``Bathrooms`` possui 3 valores nulos, e ``Bedrooms`` possui 1 valor nulo.

#### **Analisando valores fora do formato correto**

In [None]:
df.select_dtypes(include='object').head(2)

Essas colunas deveriam ser num√©ricas mas est√£o como objeto.

* Price 
* Bedrooms	
* Bathrooms
* Area	
* Listing Time

Perceba que, n√£o consigo fazer opera√ß√µes matem√°ticas com nenhuma delas.

In [None]:
print('Tentando somar coluna "Area": ', df.select_dtypes(include='object')['Area'].sum())

Al√©m disso, j√° encontramos outro problema. H√° um valor 'studio' na coluna de quartos. 
Isso provavelmente acontece quando um im√≥vel se classifica como  'kitnet', que tamb√©m √© uma denota√ß√£o para 'studio', pois n√£o h√° quartos.

J√° podemos criar uma hip√≥tese e verific√°-la quando os dados forem tratados.

$\textbf{Hip√≥tese}: \text{Quando a √°rea for menor que algum valor X, podemos classificar como 'studio'}$

#### **2 - Remo√ß√£o ou Imputa√ß√£o de Valores Ausentes**

#### **Como tratar valores nulos?**

* Podemos substituir por uma constante.

ou

* Podemos drop√°-los.

Depender√° do contexto.

**Substituindo**

> **!**: N√£o √© boa pr√°tica substituir por 0, pois pode enviesar os dados!

Pode-se substituir pela m√©dia, mas ainda assim, o valor nulo pode ser um outlier, e assim estar√≠amos normalizando-o.

Isso serve apenas de exemplo, tudo depende do contexto.

In [None]:
# Criando uma c√≥pia para n√£o alterar o DataFrame original
df_sub = df.copy()

# Quartos
indice_nulo_quartos = df[df['Bedrooms'].isna()].index # Explicarei filtragem mais para frente

print('Linhas com valor do banheiro Nulo: ')
display(df.iloc[indice_nulo_quartos])

indice_nulo_banheiros = df[df['Bathrooms'].isna()].index # Explicarei filtragem mais para frente

print('Linhas com valor do banheiro Nulo: ')
display(df.iloc[indice_nulo_banheiros])


In [None]:
# Substituir por algo, por exemplo 0
df_sub['Bedrooms'].fillna(0, inplace=True)
df_sub['Bathrooms'].fillna(0, inplace=True)

# Verificando se ainda existem valores nulos
print("Ap√≥s dropar valores nulos\n")
print('Banheiros')
display(df_sub.iloc[indice_nulo_banheiros])

print('\nQuartos')
display(df_sub.iloc[indice_nulo_quartos])

**Dropando**

Como s√£o poucos dados nuloes e no caso seria o mais adequado a se fazer, vou excluir as linhas com valores nulos no DataFrame original, en√£o em uma c√≥pia, como anteriormente.

In [None]:
print('Antes: Tamanho do DataFrame: ', len(df))
print(df.isna().sum())

# Dropando
df.dropna(inplace=True)

print('\nDepois Tamanho do DataFrame: ', len(df))
print(df.isna().sum())

#### **3 - Corre√ß√£o de Dados**

Alguns dados veem em formatos errados apenas por possu√≠rem um valor incorreto, como um caracter em uma coluna que deveria ser num√©rica, por exemplo.

Para isso, podemos corrigir esses dados e torn√°-los utiliz√°veis.

Como definimos antes, essas s√£o as colunas erradas.

* Price 
* Bedrooms	
* Bathrooms
* Area	
* Listing Time

In [None]:
fix_columns = ['Area', 'Price', 'Listing_Time','Bedrooms']
df[fix_columns].head()

Erros:
* Area: caracteres informando '$\text{p√©s}^2$' (sqft -> square feet). Decimal ','.
* Price: caracteres informando aluguel anual. Decimal ','.
* Listing Time: caracteres informando os dias em que o im√≥vel foi anunciado.

Para identificar os erros melhor nos quartos e banheiros, vou verificar os valores `√önicos` da coluna com o m√©todo:

```python
DataFrame['COLUNA'].unique() # Retorna uma lista com os valores √∫nicos da COLUNA
```

In [None]:
unicos_banheiros = df['Bathrooms'].unique()
unicos_quartos = df['Bedrooms'].unique()

print(f'√önicos banheiros: {unicos_banheiros}')
print(f'√önicos quartos: {unicos_quartos}')

Perceba que, temos os valores 'studio' e '7+' que tornam a coluna `Bedrooms` em texto.

Para `studio` vou transformar em 0, visto que o pr√≥prio im√≥vel √© o quarto.

Para `7+` Vou transformar em 8, visto que se √© mais que 7, temos a garantia de que √© pelo menos 8.

In [None]:
# Criando um mapa de convers√£o
map_banheiros_quartos = {'studio':0, '7+':8}

# Substituindi os valores e convertendo para 'inteiro'.
df['Bedrooms'] = df['Bedrooms'].replace(map_banheiros_quartos).astype(int)
df['Bathrooms'] = df['Bathrooms'].replace(map_banheiros_quartos).astype(int)

# Obtendo os valores √∫nicos
unicos_banheiros = df['Bathrooms'].unique()
unicos_quartos = df['Bedrooms'].unique()

print(f'√önicos banheiros ap√≥s transforma√ß√£o: {unicos_banheiros}')
print(f'√önicos quartos ap√≥s transforma√ß√£o: {unicos_quartos}')

print(f'\nTipo da coluna Banheiro: {df["Bathrooms"].dtype}')
print(f'Tipo da coluna Quarto: {df["Bedrooms"].dtype}')

> <span style='color:red'>**Explica√ß√£o do c√≥digo**</span>

Este c√≥digo faz a **padroniza√ß√£o de dados quantitativos** em um DataFrame.  

üîπ **Passo a passo:**  
1. **Criando um dicion√°rio de convers√£o:**  
   ```python
   map_banheiros_quartos = {'studio': 0, '7+': 8}
   ```
   - Converte `"studio"` para `0` e `"7+"` para `8`.  

2. **Substituindo os valores e convertendo para inteiro:**  
   ```python
   df['Bedrooms'] = df['Bedrooms'].replace(map_banheiros_quartos).astype(int)
   df['Bathrooms'] = df['Bathrooms'].replace(map_banheiros_quartos).astype(int)
   ```
   - Aplica a convers√£o e transforma as colunas `Bedrooms` e `Bathrooms` em valores num√©ricos (`int`).

### **Corrigindo Area**

In [None]:
# Substituindo valores (Explica√ß√£o detalhada a abaixo)
df['Area'] = df['Area'].str.split(' ').str[0].str.replace(',', '')

print(df['Area'].head())
print('Tipo: ', df['Area'].dtype, '\n')

df['Area'] = df['Area'].astype(float)

print(df['Area'].head())
print('Tipo: ', df['Area'].dtype)

> <span style='color:red'>**Explica√ß√£o do c√≥digo**</span>

Este c√≥digo realiza a convers√£o de uma coluna chamada **"Area"** de um DataFrame Pandas de um formato de string para um tipo num√©rico (**int**).  

### **Passo a Passo:**
1. **`df['Area'].str.split(' ').str[0]`**  
   - Divide os valores da coluna **"Area"** por espa√ßos e mant√©m apenas a primeira parte (antes do espa√ßo). Isso √© √∫til nesse caso pois a √°rea est√° acompanhada de uma unidade de medida: **"100 sqft"** ‚Üí **"100"**.  

2. **`.str.replace(',', '')`**  
   - Remove qualquer **v√≠rgula**: **"1,000"** ‚Üí **"1000"**.  

3. **`print(df['Area'].head())`**  
   - Exibe os primeiros valores da coluna modificada.  

4. **`print('Tipo: ', df['Area'].dtype, '\n')`**  
   - Mostra o tipo de dado atual da coluna, que ainda ser√° **string (object)**.  

5. **`df['Area'] = df['Area'].astype(int)`**  
   - Converte os valores para **inteiros (int)** para facilitar c√°lculos e an√°lises.  

6. **Novamente, `print(df['Area'].head())` e `print('Tipo: ', df['Area'].dtype)`**  
   - Exibe os valores convertidos e confirma que o tipo de dado agora √© **int**.  

### **Corrigindo Price**

Mesma t√©cnica

In [None]:
print(df['Price'].head())
print('Tipo: ', df['Price'].dtype, '\n')

# Obtendo o valor num√©rico sem a moeda, substituindo ',' por '', e convertendo para float
df['Price'] = df['Price'].str.split(' ').str[0].str.replace(',', '').astype(float)

print(df['Price'].head())
print('Tipo: ', df['Price'].dtype)

### **Corrigindo Listing Time**

Como essa parte √© um pouco mais complexa, pois precisamos converter todas para um tempo comum: M√™s -> Dia, Ano -> Dia.

Irei criar uma nova coluna para tal.

Existem diferentes maneiras de criar novas colunas em um DataFrame.

* ``df['nova_coluna'] = algo``
* ``df.assign(nova_coluna = algo)``

Para isso, utilizarei o assign, e o m√©todo ``.map()``

O m√©todo `.map()` √© usado para **substituir valores de uma coluna** com base em um **dicion√°rio**, fun√ß√£o ou outra estrutura de dados.  

In [None]:
# Identificando linhas contendo 'more' com For√ßa Bruta.
indices_more = []
for index, line in df.iterrows():
    if 'more' in line['Listing_Time']:
        indices_more.append(index)

print(f'\nValores com "more": ')
display(df.iloc[indices_more][['Resume','Location','Price','Listing_Time']].head())

In [None]:
# Substituindo'more' e 'than' por ''. 
df['Listing_Time'] = df['Listing_Time'].str.replace('more ', '')
df['Listing_Time'] = df['Listing_Time'].str.replace('than ', '')

In [None]:
# Identificando linhas contendo 'more'  ap√≥s transforma√ß√£o com For√ßa Bruta.
indices_more_transformado = []
for index, line in df.iterrows():
    if 'more' in line['Listing_Time']:
        indices_more_transformado.append(index)

print(f'\nValores com "more": ')
display(df.iloc[indices_more_transformado][['Resume','Location','Price','Listing_Time']].head())

#### **Extraindo os dias**

In [None]:
conversao = {
    'minute': 1/1440, 'hour': 1/24, 'day': 1, 'week': 7,
    'month': 30, 'year': 365
}

df = (
    df.assign(
        tipo_tempo = df['Listing_Time'].str.split(' ').str[2].str.replace('s', ''),
        quant_tempo = df['Listing_Time'].str.split(' ').str[1].astype(int),
        tempo_dias = lambda x: x['quant_tempo'] * x['tipo_tempo'].map(conversao)
    )
)

display(df[['Listing_Time', 'tipo_tempo', 'quant_tempo', 'tempo_dias']].head(10))

> <span style='color:red'>**Explica√ß√£o do C√≥digo**</span>

Este c√≥digo converte a coluna **"Listing_Time"**, que cont√©m valores de tempo em diferentes unidades (minutos, horas, dias, semanas, meses, anos), para uma representa√ß√£o padronizada em **dias**.  

#### **Passo a Passo**
1. **Dicion√°rio de Convers√£o**  
   ```python
   conversao = {
       'minute': 1/1440, 'hour': 1/24, 'day': 1, 'week': 7,
       'month': 30, 'year': 365
   }
   ```
   - Cria um dicion√°rio que define o fator de convers√£o de diferentes unidades de tempo para **dias**.  
   - Por exemplo, **1 hora** equivale a **1/24 dias**, **1 semana** equivale a **7 dias**, etc.  

2. **Extra√ß√£o e Transforma√ß√£o das Colunas**
   ```python
   df = (
       df.assign(
           tipo_tempo = df['Listing_Time'].str.split(' ').str[2].str.replace('s', ''),
           quant_tempo = df['Listing_Time'].str.split(' ').str[1].astype(int),
           tempo_dias = lambda x: x['quant_tempo'] * x['tipo_tempo'].map(conversao)
       )
   )
   ```
   - **`df.assign(...)`**: Cria novas colunas no DataFrame sem modificar o original diretamente.  
   - **`tipo_tempo`**:  
     - Divide os valores da coluna **"Listing_Time"** em partes separadas pelos espa√ßos.  
     - Pega o terceiro elemento (**str[2]**), que representa a unidade de tempo (exemplo: "days").  
     - Remove o **"s"** final (exemplo: "days" ‚Üí "day").  
   - **`quant_tempo`**:  
     - Obt√©m a quantidade num√©rica de tempo (**str[1]**) e converte para inteiro.  
   - **`tempo_dias`**:  
     - Converte a quantidade de tempo para **dias**, multiplicando pelo fator de convers√£o do dicion√°rio.  

In [None]:
# Dropar colunas antigas
df.drop(columns=['Listing_Time', 'tipo_tempo', 'quant_tempo'], inplace=True)

In [None]:
df.info()

<span style='color:green'><b>Sucesso!</b></span>

Os dados foram limpos, tratados e agora est√£o todos no formato correto!

### **Criando novas Colunas**

Vamos criar as seguintes novas colunas:

- ``Preco_Mes``: Valor do aluguel mensal, que se encontra como anual. (Price / 30)
- ``Area_m2``: √Årea em $\text{m}^2$, que se encontra em $\text{p√©s}^2$. (Taxa de convers√£o: 10.764)
- ``Preco_m2``: Valor do $\text{m}^2$. (Price / Area_m2)

#### **Fun√ß√£o `lambda`**  

`lambda` √© uma forma r√°pida de criar fun√ß√µes an√¥nimas, √∫teis para opera√ß√µes simples.  

üîπ **Sintaxe:**  
```python
lambda argumentos: express√£o
```

üîπ **Exemplo:**  
```python
soma = lambda x, y: x + y
print(soma(3, 5))  # Sa√≠da: 8
```

üîπ **Quando usar?**  
- Com `map()`, `filter()`, `sorted()` e `pandas.assign()`.  
- Para fun√ß√µes curtas e descart√°veis.  

üîπ **Quando evitar?**  
- Para l√≥gica complexa (use `def`).  
- Se deixar o c√≥digo dif√≠cil de entender.  

üîπ **Sintaxe b√°sica:**  
```python
df = df.assign(Nova_Coluna=lambda x: x['Coluna_Existente'] * 2)
```
O `lambda` recebe `x` (o pr√≥prio DataFrame) e acessa suas colunas para criar novas transforma√ß√µes.  

In [None]:
# Criando novas Colunas
df = df.assign(
        Preco_Mes = lambda x: x['Price'] / x['tempo_dias'] * 30,
        Area_m2 = lambda x: x['Area'] / 10.764,
        Preco_m2 = lambda x: x['Price'] / x['Area_m2']
    )

df.filter(items=['Resume', 'Location', 'Price', 'tempo_dias', 'Preco_Mes', 'Area', 'Area_m2', 'Preco_m2'])

Agora temos novas colunas que permitem criar novas an√°lises!

---

## **Filtragem de Dados**

A filtragem de dados em pandas consiste em selecionar subconjuntos de um DataFrame com base em condi√ß√µes espec√≠ficas.

#### **Filtrando com M√°scara Booleana**
  
Uma m√°scara booleana √© um filtro que seleciona apenas as linhas de um DataFrame que atendem a uma determinada condi√ß√£o.  

üîπ **Passo a passo:**  
1. **Cria√ß√£o da m√°scara:**  
   ```python
   mask = df['tempo_dias'] > 30
   ```
   - Retorna `True` para linhas onde `tempo_dias` √© maior que 30 e `False` caso contr√°rio.  

2. **Aplica√ß√£o da m√°scara:**  
   ```python
   df[mask].head()
   ```
   - Filtra o DataFrame, mantendo apenas as linhas onde `mask` √© `True`.  

In [None]:
# Boolean mask
df = df.copy()

# Condi√ß√£o: tempo_dias > 30, ou seja, anunciado h√° mais de 30 dias.
mask = df['tempo_dias'] > 30
print("M√°scara Booleana:", mask.tail(7))

# Podemos passar a m√°scara para filtrar o DataFrame
print("\nAmostra do DataFrame com tempo_dias > 30 dias:")
df[mask].head()

**Podemos tamb√©m passar criar a m√°scara direto na filtragem!**

In [None]:
# Op√ß√£o 1

# Filtrando im√≥veis com mais de 2 banheiros
df_more_2_bathrooms = df[df['Bathrooms'] > 2]
display(df_more_2_bathrooms.head())
print('M√≠nimo de Banheiros ap√≥s filtragem: ', df_more_2_bathrooms['Bathrooms'].min())

In [None]:
# Filtrando im√≥veis com 2 banheiros
df_more_2 = df[df['Bathrooms'] == 2]
display(df_more_2.head())
print('N√∫meros de Banheiros na Amostra: ', df_more_2['Bathrooms'].unique())

---

#### **Filtrando com `.query()`**

O m√©todo **`.query()`** no Pandas permite **filtrar dados de um DataFrame** usando express√µes similares a SQL de forma mais leg√≠vel.  

### üîπ Exemplo de uso:  
```python
df_filtrado = df.query("Bedrooms >= 3 and Bathrooms >= 2")
```
üî∏ Retorna apenas as linhas onde `Bedrooms` √© **maior ou igual a 3** e `Bathrooms` √© **maior ou igual a 2**.  

In [None]:
# Usando o .query()
df_2_bath_query = df.query("Bedrooms >= 3 and Bathrooms >= 2")

display(df_2_bath_query.head())
print('N√∫meros de Banheiros na Amostra: ', df_2_bath_query['Bathrooms'].unique())
print('N√∫meros de Quartos na Amostra: ', df_2_bath_query['Bedrooms'].unique())

---

## **Opera√ß√µes Matem√°ticas**

Principais Opera√ß√µes:
* M√©dia
* Soma
* M√°ximo
* M√≠nimo
* Desvio Padr√£o
* Mediana
* Moda
* Contagens

Vamos aplic√°-las no pre√ßo.

In [None]:
df['Price'].head()

In [None]:
# Mean, Sum, Median, Max, Min, Std, Moda
media =         df['Price'].mean()
soma =          df['Price'].sum()
mediana =       df['Price'].median()
maximo =        df['Price'].max()
minimo =        df['Price'].min()
desvio_padrao = df['Price'].std()
moda =          df['Price'].mode()

print(f'M√©dia: {media}')
print(f'Soma: {soma}')
print(f'Mediana: {mediana}')
print(f'M√°ximo: {maximo}')
print(f'M√≠nimo: {minimo}')
print(f'Desvio Padr√£o: {desvio_padrao}')
print(f'Moda: {moda}')

---

## **Agrupamento**

O m√©todo **`.groupby()`** no Pandas permite **agrupar dados** com base em uma ou mais colunas e aplicar fun√ß√µes estat√≠sticas sobre esses grupos.  

### üîπ Exemplo de uso:  
```python
df.groupby('Bedrooms')['Price'].mean()
```
üî∏ Agrupa os dados pela coluna `Bedrooms` e calcula a **m√©dia dos pre√ßos** para cada quantidade de quartos.  

### üîπ Aplicando v√°rias fun√ß√µes:  
```python
df.groupby('Bedrooms').agg({'Price': ['mean', 'max', 'min']})
```
üî∏ Calcula **m√©dia, m√°ximo e m√≠nimo** dos pre√ßos para cada grupo.  

### üîπ Agrupando por m√∫ltiplas colunas:  
```python
df.groupby(['Bedrooms', 'Bathrooms'])['Price'].sum()
```
üî∏ Agrupa por `Bedrooms` e `Bathrooms`, somando os pre√ßos em cada combina√ß√£o.  

In [None]:
# Pre√ßo m√©dio por quantidade de quartos
mean_price_bedrooms = (
    df.groupby('Bedrooms')['Price'].mean()
                                   .sort_values(ascending=False)
                                   .to_frame()
                                   .reset_index() # Ordenar valores (ascending=False -> Decrescente)
)

mean_price_bedrooms

In [None]:
# Aplicando v√°rias fun√ß√µes ao mesmo tempo

# Quantidade de quartos por m√©dia, mediana, m√°ximo e m√≠nimo da √°rea
bed_area_stats = (
    df.groupby('Bedrooms')['Area'].agg(['mean', 'median', 'max', 'min']).sort_values(by='mean', ascending=False).reset_index()
)

bed_area_stats

#### **Analisando Anunciantes √önicos**

Quantos Anunciantes √∫nicos n√≥s temos?

Posso supor que an√∫ncios com o mesmo contato s√£o do mesmo anunciante.

In [None]:
# Quantidade de anunciantes √önicos
anunciantes_unicos = df['Contact'].nunique()

print(f'Quantidade de Anunciantes √önicos: {anunciantes_unicos}')

In [None]:
# 10 Anunciantes que mais anunciam
df['Contact'].value_counts().head(10).to_frame().reset_index()

Para facilitar a leitura, vamos criar um identificador √∫nico para cada anunciante.

In [None]:
# Criar c√≥digo √∫nico para cada anunciante
df['ID_Vendedor'] = df['Contact'].astype('category').cat.codes

In [None]:
df[['ID_Vendedor', 'Contact']].head()

> <span style='color:red'>**Explica√ß√£o do C√≥digo**</span>

```python
df['Contact'].astype('category').cat.codes
```
Esse c√≥digo **converte a coluna `Contact` em uma categoria** e gera um **c√≥digo num√©rico √∫nico** para cada anunciante.  

### **üîπ Etapas do processo:**  
1. **`astype('category')`**  
   - Converte a coluna `Contact` (nomes ou identificadores de anunciantes) para o tipo `category`.  
2. **`.cat.codes`**  
   - Substitui cada valor √∫nico da categoria por um n√∫mero inteiro, criando **c√≥digos num√©ricos √∫nicos**.  

### **üîπ Exemplo Pr√°tico:**  
#### **Antes da convers√£o (`Contact` como string)**  
| Contact        | Price  |
|---------------|--------|
| Jo√£o Im√≥veis  | 500000 |
| Maria Realty  | 600000 |
| Jo√£o Im√≥veis  | 550000 |
| Pedro Vendas  | 450000 |

#### **Depois da convers√£o (`cat.codes`)**  
| Contact        | Contact_Code | Price  |
|---------------|--------------|--------|
| Jo√£o Im√≥veis  | 0            | 500000 |
| Maria Realty  | 1            | 600000 |
| Jo√£o Im√≥veis  | 0            | 550000 |
| Pedro Vendas  | 2            | 450000 |

In [None]:
# Anunciantes que mais anunciam
top_10_anunciantes = df['ID_Vendedor'].value_counts().head(10).to_frame().reset_index()

top_10_anunciantes

In [None]:
# Anunciantes mais caros em m√©dia
anunciantes_caros = df.groupby('ID_Vendedor')['Price'].mean().sort_values(ascending=False).head(5).to_frame().reset_index()

anunciantes_caros

---

## **Visualiza√ß√£o de Dados**

Nessa se√ß√£o, vamos visualizar os dados vistos acima.

### **Matplotlib e Seaborn**  

#### üîπ **Matplotlib**  
Matplotlib √© uma biblioteca do Python usada para **cria√ß√£o de gr√°ficos est√°ticos, interativos e animados**. √â altamente personaliz√°vel e permite construir gr√°ficos como **linhas, barras, histogramas e dispers√£o**.  

**Exemplo:**  
```python
import matplotlib.pyplot as plt

plt.plot([1, 2, 3, 4], [10, 20, 25, 30])
plt.title('Gr√°fico Simples')
plt.show()
```

#### üîπ **Seaborn**  
Seaborn √© uma biblioteca baseada no Matplotlib, focada em **visualiza√ß√£o estat√≠stica**. Oferece gr√°ficos mais bonitos e f√°ceis de criar, como **heatmaps, boxplots e violin plots**.  

**Exemplo:**  
```python
import seaborn as sns

sns.histplot(df['Price'], bins=30, kde=True)
```

**Quando usar?**  
- **Matplotlib** ‚Üí Personaliza√ß√£o total de gr√°ficos.  
- **Seaborn** ‚Üí Visualiza√ß√µes estat√≠sticas prontas e esteticamente melhores.  

In [None]:
import matplotlib.pyplot as plt

mean_price_bedrooms
bed_area_stats
top_10_anunciantes
anunciantes_caros

#### **1 - M√©dia de pre√ßo por quantidade de Quartos**

In [None]:
# **1 - M√©dia de pre√ßo por quantidade de Quartos**
media_geral = df['Price'].mean()

plt.figure(figsize=(10, 5)) # Tamanho do Gr√°fico

plt.bar(x=mean_price_bedrooms['Bedrooms'], height=mean_price_bedrooms['Price'], color='skyblue') # Gr√°fico de Barras
plt.axhline(y=media_geral, color='r', linestyle='--', label='M√©dia Geral') # Linha na m√©dia geral

plt.xlabel('Quartos') # T√≠tulo do Eixo X
plt.ylabel('Pre√ßo M√©dio') # T√≠tulo do Eixo Y
plt.title('M√©dia de Pre√ßo por Quantidade de Quartos') # T√≠tulo do Gr√°fico
plt.legend() # Mostrar legenda
plt.show() # Mostrar Gr√°fico

#### **2 - M√©dia de √Årea por quantidade de quartos**

In [None]:
# **2 - Quantidade de Quartos por M√©dia, Mediana, M√°ximo e M√≠nimo da √Årea**
plt.figure(figsize=(10, 5))

plt.plot(bed_area_stats['Bedrooms'], bed_area_stats['mean'], label='M√©dia', marker='o') # Gr√°fico de Linha
plt.plot(bed_area_stats['Bedrooms'], bed_area_stats['median'], label='Mediana', marker='o') # Gr√°fico de Linha

plt.fill_between(bed_area_stats['Bedrooms'], bed_area_stats['max'], bed_area_stats['min'], alpha=0.2, label='M√°ximo/M√≠nimo') # Preencher entre as linhas

plt.xlabel('Quartos')
plt.ylabel('√Årea')
plt.title('Quantidade de Quartos por M√©dia, Mediana, M√°ximo e M√≠nimo da √Årea')
plt.legend()
plt.show()

#### **3 - Top 10 Anunciantes**

In [None]:
# **3 - Anunciantes que mais anunciam**
plt.figure(figsize=(10, 5))

# Ordenando do maior para o menor
top_10_anunciantes = top_10_anunciantes.sort_values(by='count', ascending=True)

plt.barh(y=top_10_anunciantes['ID_Vendedor'].astype(str), 
         width=top_10_anunciantes['count'], 
         color='skyblue')

plt.xlabel('Quantidade de An√∫ncios')
plt.ylabel('ID do Anunciante')
plt.title('Top 10 Anunciantes que mais Anunciam')
plt.show()

#### **4 - Vendedores Mais Caros em M√©dia**

In [None]:
# **4 - Anunciantes mais caros em m√©dia**
plt.figure(figsize=(10, 5))

anunciantes_caros = anunciantes_caros.sort_values(by='Price', ascending=True)

plt.barh(y=anunciantes_caros['ID_Vendedor'].astype(str),
            width=anunciantes_caros['Price'],
            color='skyblue')

plt.xlabel('Pre√ßo M√©dio')
plt.ylabel('ID do Anunciante')
plt.title('Top 5 Anunciantes mais Caros em M√©dia')
plt.show()

---

# **Exerc√≠cios Pr√°ticos**

Nessa se√ß√£o, encontra-se um novo conjunto de dados preparado para Introdu√ß√£o a An√°lise de Dados.

Vamos explicar o dataset, e definir exerc√≠cios pr√°ticos, com base em perguntas acerca dos dados.

## **Contextualiza√ß√£o dos Dados**

Os dados utilizados nessa se√ß√£o foram originados do reposit√≥rio de dados para Machine Learning da UC Irvine University, considerada uma das 10 melhores universidades dos EUA, e a melhor criada nos √∫ltimos 50 anos.

O conjunto de dados cont√©m informa√ß√µes detalhadas sobre diversos modelos de autom√≥veis, incluindo caracter√≠sticas t√©cnicas, desempenho e pre√ßos.

O objetivo dessa base de dados √© permitir a an√°lise explorat√≥ria e o desenvolvimento de modelos preditivos, como a estimativa de pre√ßos de carros com base em suas caracter√≠sticas, mas no nosso caso, o maior foco ser√° a an√°lise explorat√≥ria, e uma breve passagem por modelagem.7

Os dados originais foram traduzidos para Portugu√™s.

O arquivo `.csv` se encontra `data/cars_translated.csv`

## **Resumo**

O conjunto de dados cont√©m **26 colunas** e **205 registros**, representando diferentes modelos de autom√≥veis. Algumas colunas possuem valores ausentes e precisam ser tratadas antes da an√°lise.

Os dados incluem vari√°veis categ√≥ricas (como tipo de combust√≠vel e fabricante) e vari√°veis num√©ricas (como tamanho do motor e pre√ßo).

## **Descri√ß√£o das Colunas**

Aqui est√° a explica√ß√£o de cada coluna presente no dataset:

| **Coluna**               | **Tipo**      | **Descri√ß√£o** |
|--------------------------|--------------|--------------|
| `classificacao_risco`    | Num√©rica      | √çndice de risco do seguro (-2 a 3). |
| `perdas_normalizadas`    | Num√©rica      | M√©dia das perdas normalizadas para ve√≠culos similares. |
| `fabricante`             | Categ√≥rica    | Marca do carro (exemplo: Audi, BMW, Toyota). |
| `tipo_combustivel`       | Categ√≥rica    | Tipo de combust√≠vel (`gasolina` ou `diesel`). |
| `aspiracao`              | Categ√≥rica    | Tipo de aspira√ß√£o do motor (`padrao` ou `turbo`). |
| `num_portas`            | Categ√≥rica    | N√∫mero de portas do carro (`duas` ou `quatro`). |
| `tipo_carroceria`        | Categ√≥rica    | Tipo de carroceria (sedan, hatchback, convers√≠vel, etc.). |
| `tracao`                | Categ√≥rica    | Tipo de tra√ß√£o (`dianteira`, `traseira`, `quatro_rodas`). |
| `localizacao_motor`      | Categ√≥rica    | Localiza√ß√£o do motor (`frontal` ou `traseira`). |
| `distancia_eixos`        | Num√©rica      | Dist√¢ncia entre os eixos do carro (polegadas). |
| `comprimento`            | Num√©rica      | Comprimento total do carro (polegadas). |
| `largura`               | Num√©rica      | Largura do carro (polegadas). |
| `altura`                | Num√©rica      | Altura do carro (polegadas). |
| `peso`                  | Num√©rica      | Peso do carro sem passageiros e carga (libras). |
| `tipo_motor`            | Categ√≥rica    | Tipo do motor (`dohc`, `ohcv`, `rotor`, etc.). |
| `num_cilindros`         | Categ√≥rica    | N√∫mero de cilindros do motor (`quatro`, `seis`, `oito`, etc.). |
| `tamanho_motor`         | Num√©rica      | Tamanho do motor em cent√≠metros c√∫bicos (cc). |
| `sistema_combustivel`   | Categ√≥rica    | Tipo de sistema de combust√≠vel (`mpfi`, `spdi`, `carb`, etc.). |
| `diametro_cilindro`     | Num√©rica      | Di√¢metro do cilindro do motor. |
| `curso_pistao`         | Num√©rica      | Comprimento do curso do pist√£o. |
| `taxa_compressao`       | Num√©rica      | Taxa de compress√£o do motor. |
| `potencia`              | Num√©rica      | Pot√™ncia do motor (cavalos de pot√™ncia - HP). |
| `rpm_maximo`            | Num√©rica      | Rota√ß√£o m√°xima do motor (RPM). |
| `consumo_cidade`        | Num√©rica      | Consumo de combust√≠vel na cidade (milhas por gal√£o). |
| `consumo_estrada`       | Num√©rica      | Consumo de combust√≠vel na estrada (milhas por gal√£o). |
| `preco`                | Num√©rica      | Pre√ßo do carro (d√≥lares). |

Agora, sigamos para a pr√°tica.

---

Nessa se√ß√£o voc√™ encontrar√° c√≥digos para mostrar exemplos de respostas em cada quest√£o.

Elas foram armazenadas em um arquivo `.json`, e s√£o gerenciadas pela classe `Respostas()`.

Ambos se encontram no diret√≥rio:

```
‚îî‚îÄ‚îÄ‚îÄrespostas_exemplo  # Arquivos de resposta para exerc√≠cios
    ‚îÇ   respostas.json
    ‚îÇ   respostas.py
```

In [None]:
from respostas_exemplo.respostas import Respostas
respostas = Respostas()

---

#### **1 - Leitura dos Dados**
- Importar as depend√™ncias **necess√°rias**.
- Tente ler os dados, use os par√¢metros corretos para a leitura, e leia apenas as primeiras 5 linhas para conferir os dados.
- Ap√≥s confirmar a leitura, leia todos os dados.
- Verificar o n√∫mero de linhas e colunas.

> <span style='color:red'>**Observa√ß√£o:**</span>

Instancie a vari√°vel do DataFrame lido com ``df_cars``.

Exemplo:
```python
df_cars = funcao_de_leitura(arquivo)
```

In [None]:
# Escreva aqui o seu c√≥digo

Exemplo de Resposta

In [None]:
respostas.mostrar_resposta_formatada('leitura_dados')

---

#### **2 - Descri√ß√£o dos Dados**
- Exibir informa√ß√µes gerais do dataframe (`info()`).
- Verificar os tipos de dados de cada coluna.
- Analisar estat√≠sticas gerais dos dados num√©ricos (`describe()`).

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

Exemplos Respostas

In [None]:
respostas.mostrar_resposta_formatada('descricao_dados')

---

#### **3 - Colunas e como acess√°-las**
- Listar todas as colunas dispon√≠veis.
- Selecione a coluna `fabricante` e depois as colunas `fabricantes`, `tipo_combustivel`, `num_portas`, `tipo_carroceria`.

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

Exemplo respostas

In [None]:
respostas.mostrar_resposta_formatada('colunas')

---

#### **4 - Identifica√ß√£o de Problemas nos Dados**
- Procurar valores faltantes (`isnull().sum()`).
- Identificar valores inconsistentes (exemplo: "?" em `normalized-losses`).
- Verificar presen√ßa de valores duplicados.

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

Exemplos Respostas

In [None]:
respostas.mostrar_resposta_formatada('problema')

---

#### **5 - Limpeza e Tratamento de Dados**
- Substituir valores "?" por `NaN`.
- Converter colunas para tipos apropriados (exemplo: `horsepower` e `price` para `int` ou `float`).

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

Exemplo Respostas

In [None]:
respostas.mostrar_resposta_formatada('limpeza_dados')

---

#### **6 - Opera√ß√µes Matem√°ticas e Contagem**
- Criar colunas derivadas (exemplo: converter `consumo_cidade` e `consumo_estrada `para `km/l`, pois est√£o em mpg (milhas por gal√£o)).
  - Constante de convers√£o: ``0.425144``
- Calcular estat√≠sticas b√°sicas (m√©dia, mediana, desvio padr√£o).
- Contar a frequ√™ncia de valores √∫nicos (exemplo: `make.value_counts()`).

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

Exemplos Respostas

In [None]:
respostas.mostrar_resposta_formatada('operacoes')

---

#### **7 - Filtragem de Dados**
- Filtrar carros com determinado crit√©rio (exemplo: carros a gasolina com mais de 100 HP).
- Aplicar m√∫ltiplos filtros (exemplo: carros `diesel` e tra√ß√£o `quatro_rodas`).

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

Exemplo Respostas

In [None]:
respostas.mostrar_resposta_formatada('filtragem')

---

#### **8 - Agrupamento**
- Mostre os 5 tipos de carros em m√©dia mais caros por tipo de de combust√≠vel. 
- Mostre os 5 fabricantes com modelos mais caros
- Mostre os 5 fabricantes com modelos mais caros em m√©dia.
- Mostre os tipos de combust√≠vel que menos consomem em m√©dia na cidade.
- Mostre quantos modelos por fabricante existem na base.

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

Exemplo Respostas

In [None]:
respostas.mostrar_resposta_formatada('agrupamento')

---

#### **9 - Quest√µes de An√°lise Explorat√≥ria**  

1. Qual a marca com a maior m√©dia de pot√™ncia dos carros?  
2. Existe rela√ß√£o entre o peso do carro e seu pre√ßo? (Dica: Gr√°fico de Dispers√£o)
3. Qual o tipo de combust√≠vel mais utilizado entre os carros?  
4. Qual a distribui√ß√£o de carros por n√∫mero de cilindros?  (Dica: Histograma)
5. Os carros com tra√ß√£o nas quatro rodas possuem, em m√©dia, maior pot√™ncia do que os com tra√ß√£o dianteira?  
6. Qual o impacto do tamanho do motor no consumo de combust√≠vel?  

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

In [None]:
# Escreva aqui o seu c√≥digo

Exemplos Resposta

In [None]:
respostas.mostrar_resposta_formatada('exploratoria')

---

### **10 - An√°lise Explorat√≥ria Livre**
- Agora, decida a seu crit√©rio insight's a serem encontrados, perguntas a serem respondidas, hip√≥teses a serem testadas...

> ``Dica:`` Procure rela√ß√µes entre os dados, variv√°veis que influenciam outras, etc. Formule uma hip√≥tese e visualize-a.

**Como achar rela√ß√µes?**

√â poss√≠vel encontrar rela√ß√µes entre vari√°veis calculando e analisando a correla√ß√£o entre elas, e visualizando-a.

**Gr√°fico de Dispers√£o:** Mostra a rela√ß√£o entre duas vari√°veis com pontos no gr√°fico. Se os pontos formam um padr√£o, h√° uma rela√ß√£o; se est√£o espalhados, n√£o h√°.

Correla√ß√£o mede a rela√ß√£o entre duas vari√°veis. Se for positiva, quando uma sobe, a outra tamb√©m sobe. Se for negativa, quando uma sobe, a outra desce. Se for zero, n√£o h√° rela√ß√£o. Quanto mais perto de 1, mais forte a rela√ß√£o positiva. Quanto mais perto de -1, mais forte a rela√ß√£o negativa. Se for 0, n√£o h√° rela√ß√£o.

In [None]:
df_modelagem = read_csv('data/cars-modelagem.csv')

In [None]:
# Como calcular correla√ß√µes?

correlacao_tamanho_motor_consumo = df_modelagem['tamanho_motor'].corr(df_modelagem['consumo_cidade'])
print('Correla√ß√£o entre tamanho do motor e consumo na cidade: ', correlacao_tamanho_motor_consumo)

A correla√ß√£o -0.65 indica uma correla√ß√£o negativa moderada a forte entre o tamanho do motor e o consumo na cidade.

üîπ Interpreta√ß√£o:
√Ä medida que o tamanho do motor aumenta, o consumo na cidade diminui (ou seja, o carro faz menos km/L). Isso faz sentido, pois motores maiores tendem a consumir mais combust√≠vel.

**Achando correla√ß√µes entre todas as vari√°veis**

M√©todo: `DataFrame.corr()`

O m√©todo DataFrame.corr() do pandas calcula a correla√ß√£o entre as colunas num√©ricas de um DataFrame.

Por padr√£o, usa o coeficiente de Pearson (mede rela√ß√£o linear entre vari√°veis).

Retorna uma matriz de correla√ß√£o onde valores pr√≥ximos de 1 indicam correla√ß√£o positiva forte, pr√≥ximos de -1 indicam correla√ß√£o negativa forte e pr√≥ximos de 0 indicam pouca ou nenhuma correla√ß√£o.

In [None]:
# Escreva aqui o seu c√≥digo
df_modelagem.select_dtypes(include='number').corr()

Perceba que, dessa maneira fica ruim de identificar boas rela√ß√µes, e para isso, h√° boas maneiras de visualizar essa matriz.

**Como?**

Com um mapa de calor.

Um **mapa de calor** √© uma visualiza√ß√£o gr√°fica que representa valores em uma matriz usando cores.  

üîπ **Uso em correla√ß√£o:**  
- Facilita a identifica√ß√£o de padr√µes e rela√ß√µes entre vari√°veis num√©ricas.  
- Cores mais intensas indicam correla√ß√µes mais fortes (positivas ou negativas).  

In [None]:
from seaborn import heatmap

plt.figure(figsize=(16,6))
heatmap(df_modelagem.select_dtypes(include='number').corr(), annot=True, cmap='coolwarm')
plt.show()

> Veja que h√° uma correla√ß√£o forte e positiva entre **tamanho_motor** e **preco**.

Vamos analisar mais detalhadamente essa rela√ß√£o.

In [None]:
corr_tamanho_motor_preco = df_modelagem['tamanho_motor'].corr(df_modelagem['preco'])
plt.scatter(df_modelagem['tamanho_motor'], df_modelagem['preco'])
plt.xlabel('Tamanho do Motor')
plt.ylabel('Pre√ßo')
plt.title('Tamanho do Motor x Pre√ßo')
plt.legend(['Correla√ß√£o: ' + str(corr_tamanho_motor_preco)])
plt.show()

**Como a rela√ß√£o √© bem forte, podemos pensar na implementa√ß√£o de algum modelo de regress√£o linear para analisar melhor essa rela√ß√£o.**

---

## **Regress√£o Linear**  
A an√°lise de correla√ß√£o mostra que h√° uma **forte rela√ß√£o positiva** entre o tamanho do motor e o pre√ßo do carro ($r = 0.87$). Isso significa que, **√† medida que o tamanho do motor aumenta, o pre√ßo tende a subir**.  

#### **Breve Explica√ß√£o** 
A regress√£o linear estima a rela√ß√£o entre uma vari√°vel independente ($X$, **tamanho do motor**) e uma vari√°vel dependente ($y$, **pre√ßo**), ajustando um modelo na forma:  

$
y = \beta_0 + \beta_1X + \varepsilon
$

onde:  
- $ y $ √© o **pre√ßo do carro**,  
- $ X $ √© o **tamanho do motor**,  
- $ \beta_0 $ √© o **intercepto** (valor de $ y $ quando $ X = 0 $),  
- $ \beta_1 $ √© o **coeficiente angular** (quanto o pre√ßo varia a cada unidade do tamanho do motor),  
- $ \varepsilon $ √© o **erro residual**.  

#### **Interpreta√ß√£o dos Resultados**  

1. **Coeficiente Angular ($\beta_1$)**  
   - Indica quanto o pre√ßo do carro **aumenta** para cada unidade adicional no tamanho do motor.  
   - Se $\beta_1 = 5000$, significa que um aumento de 1 unidade no tamanho do motor eleva o pre√ßo em **5000 unidades monet√°rias**.  

2. **Intercepto ($\beta_0$)**  
   - Representa o pre√ßo do carro quando o tamanho do motor √© **zero**.  
   - Esse valor geralmente n√£o tem interpreta√ß√£o pr√°tica nesse contexto.  

3. **$ R^2 $ (Coeficiente de Determina√ß√£o)**  
   - Mede **quanto da varia√ß√£o do pre√ßo √© explicada pelo tamanho do motor**.  
   - Se $ R^2 = 0.76 $, significa que **76% da varia√ß√£o nos pre√ßos √© explicada pelo tamanho do motor**.  

4. **Valor-p ($ p $-value)**  
   - Testa se a rela√ß√£o entre as vari√°veis √© estatisticamente significativa.  
   - Se $ p < 0.05 $, rejeitamos a hip√≥tese nula e conclu√≠mos que **o tamanho do motor influencia significativamente o pre√ßo**.  

In [None]:
# Dropando valores nulos
df_modelagem.dropna(inplace=True)

In [None]:
# Implementando o modelo
import statsmodels.api as sm

# Definir vari√°vel independente (X) e dependente (y)
X = df_modelagem['tamanho_motor']
y = df_modelagem['preco']

# Adicionar constante (termo de intercepto)
X = sm.add_constant(X)

# Criar e ajustar o modelo
modelo = sm.OLS(y, X).fit()

# Exibir os resultados
print(modelo.summary())

### **O que os resultados nos dizem?**  

1Ô∏è - **O modelo √© bom?**  

Sim! O **R¬≤ = 0.708** nos diz que **70,8% da varia√ß√£o do pre√ßo dos carros pode ser explicada pelo tamanho do motor**. Isso significa que o modelo consegue explicar boa parte da varia√ß√£o dos pre√ßos, mas ainda h√° outros fatores influenciando.  

2Ô∏è - **O tamanho do motor afeta o pre√ßo?**  

Sim! O coeficiente de **162.38** significa que **a cada aumento de 1 unidade no tamanho do motor, o pre√ßo do carro sobe em m√©dia R$ 162,38**.  

3Ô∏è - **Os resultados s√£o confi√°veis?**  
Sim! O **p-valor** do coeficiente do tamanho do motor √© **menor que 0.05**, indicando que essa rela√ß√£o **n√£o ocorre por acaso**.  

4Ô∏è - **O intercepto (-7914.13) faz sentido?**  
N√£o! Ele indica que, se o tamanho do motor fosse **zero**, o carro teria um pre√ßo de **-R$ 7.914,13**, o que n√£o √© realista. Esse valor surge porque a regress√£o linear for√ßa uma rela√ß√£o linear entre as vari√°veis.  

---

### **Conclus√£o**  
O modelo confirma que **carros com motores maiores tendem a ser mais caros**.  
Ele √© **estatisticamente significativo**, mas poderia ser melhorado incluindo outras vari√°veis como consumo, pot√™ncia e marca.

### **Visualizando a Reta**

In [None]:
# Regplot
import seaborn as sns

plt.figure(figsize=(10, 6))

sns.regplot(x='tamanho_motor', y='preco', data=df_modelagem, line_kws={'color': 'red'})

plt.xlabel('Tamanho do Motor')
plt.ylabel('Pre√ßo')
plt.title('Regress√£o Linear Simples')
plt.show()

---

## **Ministrantes**

<table>
  <tr>
    <td align="center">
      <a href="https://github.com/gabrielbpontes">
        <img style="border-radius: 50%;" src="https://avatars.githubusercontent.com/u/127130171?s=48&v=4" width="100px;" alt=""/>
        <br />
        <sub><b>Gabriel Pontes</b></sub>
      </a>
      <br/>
      <a href="https://github.com/gabrielbpontes" target="_blank">
        <img src="https://img.shields.io/badge/github-%23121011.svg?style=for-the-badge&logo=github&logoColor=white" alt="GitHub" style="padding-top: 10px;">
      </a>
      <br/>
      <a href="https://www.linkedin.com/in/gabriel-pontes-2152a9276/" target="_blank">
        <img src="https://img.shields.io/badge/LinkedIn-%230077B5.svg?style=for-the-badge&logo=linkedin&logoColor=white" alt="LinkedIn" style="padding-top: 10px;">
      </a>
    </td>
    <td align="center">
      <a href="https://github.com/NercinoN21">
        <img style="border-radius: 50%;" src="https://avatars.githubusercontent.com/u/86074258?v=4" width="100px;" alt=""/>
        <br />
        <sub><b>Nercino Neto</b></sub>
      </a>
      <br />
      <a href="https://github.com/NercinoN21" target="_blank">
        <img src="https://img.shields.io/badge/github-%23121011.svg?style=for-the-badge&logo=github&logoColor=white" alt="GitHub" style="padding-top: 10px;">
      </a>
      <br/>
      <a href="https://www.linkedin.com/in/nercino-neto/" target="_blank">
        <img src="https://img.shields.io/badge/LinkedIn-%230077B5.svg?style=for-the-badge&logo=linkedin&logoColor=white" alt="LinkedIn" style="padding-top: 10px;">
      </a>
    </td>
    <td align="center">
      <a href="https://github.com/pedrohmvv">
        <img style="border-radius: 50%;" src="https://avatars.githubusercontent.com/u/139015105?v=4" width="100px;" alt=""/>
        <br />
        <sub><b>Pedro Henrique</b></sub>
      </a>
      <br />
      <a href="https://github.com/pedrohmvv" target="_blank">
        <img src="https://img.shields.io/badge/github-%23121011.svg?style=for-the-badge&logo=github&logoColor=white" alt="GitHub" style="padding-top: 10px;">
      </a>
      <br/>
      <a href="https://www.linkedin.com/in/pedrohmv/" target="_blank">
        <img src="https://img.shields.io/badge/LinkedIn-%230077B5.svg?style=for-the-badge&logo=linkedin&logoColor=white" alt="LinkedIn" style="padding-top: 10px;">
      </a>
    </td>
  </tr>
</table>
<br>

### **Realiza√ß√£o:**

[<img align="left" height="94px" width="94px" alt="LEMA" src="https://www.ccsa.ufpb.br/lema/wp-content/uploads/sites/179/sites/180/2024/05/cropped-logo-lema.png"/>](https://lema.ufpb.br/)

**PPGA - UFPB** \
[**LEMA**](https://www.instagram.com/lemaufpb/) \
Projects: [SAEGO](https://lema.ufpb.br/saego/), [Pre√ßo da Hora](https://precodahora.tcepb.tc.br/)
<br/>