# üìò Aula 01: Pr√©-processamento de Dados com Python

## üéØ Objetivo:
Demonstrar t√©cnicas essenciais de **pr√©-processamento de dados** usando bibliotecas do Python (Pandas, NumPy e Scikit-learn), passo a passo.

## 1. Carregando as bibliotecas

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

## 2. Carregando o dataset

In [2]:
df = pd.read_csv("exemplo_dataset2.csv")

## 3. Conhecendo o dataset

#### Passo 01
- Listando os campos do dataset

In [3]:
df.columns.tolist()

['id', 'idade', 'renda', 'cidade', 'categoria', 'nota', 'feedback']

#### Passo 02
- Listando as informa√ß√µes gerais do dataset

In [4]:
print("### Informa√ß√µes gerais do Dataset ###\n")
df.info()

### Informa√ß√µes gerais do Dataset ###

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         50 non-null     int64  
 1   idade      48 non-null     float64
 2   renda      49 non-null     float64
 3   cidade     45 non-null     object 
 4   categoria  50 non-null     object 
 5   nota       47 non-null     float64
 6   feedback   50 non-null     object 
dtypes: float64(3), int64(1), object(3)
memory usage: 2.9+ KB


#### Passo 03
- Listando as primeiras linhas

In [5]:
print("### Exibindo as primeiras linhas ###\n")
df.head(10)

### Exibindo as primeiras linhas ###



Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
0,1,30.0,1200.0,Sao Paulo,A,8.5,Bom
1,2,45.0,2500.0,Rio de Janeiro,B,7.0,Regular
2,3,29.0,1200.0,Belo Horizonte,A,5.5,Bom
3,4,55.0,3000.0,Salvador,B,,Ruim
4,5,40.0,2100.0,Sao Paulo,A,9.0,Bom
5,6,23.0,900.0,,B,7.5,Ruim
6,7,35.0,1800.0,Rio de Janeiro,B,6.8,Regular
7,8,38.0,2500.0,Belo Horizonte,A,8.2,Bom
8,9,29.0,1500.0,Salvador,B,7.1,Regular
9,10,50.0,2800.0,Sao Paulo,A,8.7,Bom


#### Passo 04
- Exibindo as informa√ß√µes estatisticas

In [6]:
print("\n### Descri√ß√£o estat√≠stica ###")
print(df.describe())


### Descri√ß√£o estat√≠stica ###
             id      idade        renda       nota
count  50.00000  48.000000    49.000000  47.000000
mean   25.50000  38.208333  2253.265306   7.348936
std    14.57738  10.671015  1108.351606   1.308479
min     1.00000  20.000000   900.000000   4.300000
25%    13.25000  28.750000  1500.000000   6.500000
50%    25.50000  38.000000  2100.000000   7.500000
75%    37.75000  45.250000  2800.000000   8.250000
max    50.00000  60.000000  6000.000000   9.500000


In [7]:
print(df.describe(include='all'))

              id      idade        renda     cidade categoria       nota  \
count   50.00000  48.000000    49.000000         45        50  47.000000   
unique       NaN        NaN          NaN          4         2        NaN   
top          NaN        NaN          NaN  Sao Paulo         A        NaN   
freq         NaN        NaN          NaN         14        25        NaN   
mean    25.50000  38.208333  2253.265306        NaN       NaN   7.348936   
std     14.57738  10.671015  1108.351606        NaN       NaN   1.308479   
min      1.00000  20.000000   900.000000        NaN       NaN   4.300000   
25%     13.25000  28.750000  1500.000000        NaN       NaN   6.500000   
50%     25.50000  38.000000  2100.000000        NaN       NaN   7.500000   
75%     37.75000  45.250000  2800.000000        NaN       NaN   8.250000   
max     50.00000  60.000000  6000.000000        NaN       NaN   9.500000   

       feedback  
count        50  
unique        3  
top         Bom  
freq         23

#### Passo 05
- **Verificando valores ausentes**

In [8]:
print("\n### Contagem de valores ausentes ###")
print(df.isnull().sum())


### Contagem de valores ausentes ###
id           0
idade        2
renda        1
cidade       5
categoria    0
nota         3
feedback     0
dtype: int64


## 4. Tratamento de valores faltantes
- Preencher idade e nota (num√©ricos) com a mediana (ou m√©dia) para simplificar
- Preencher renda (num√©rico) com a m√©dia
- Preencher cidade, feedback (categ√≥ricas) com 'Desconhecido'

### Media, Mediana e Moda

#### Apoio conceitual

**Mediana, m√©dia e moda s√£o medidas de tend√™ncia central usadas para resumir conjuntos de dados:**  

- **M√©dia** √© a soma de todos os valores dividida pelo n√∫mero de observa√ß√µes, sens√≠vel a valores extremos.  
- **Mediana** √© o valor central quando os dados est√£o ordenados, robusta a outliers.  
- **Moda** √© o valor mais frequente no conjunto, √∫til para dados categ√≥ricos.  

**Diferen√ßa principal**: A m√©dia considera todos os valores, a mediana resiste a distor√ß√µes por outliers,
 e a moda identifica a ocorr√™ncia mais comum. Por exemplo, em uma s√©rie [1, 2, 2, 100], 
 a m√©dia √© **26,25**, a mediana **2**, e a moda **2**.


#### Passo 1: Calculando a m√©dia e a mediana dos dados

In [9]:
median_idade = df['idade'].median()
median_nota = df['nota'].median()
mean_renda = df['renda'].mean()

In [10]:
print(f"Mediada das Idades {median_idade}")

Mediada das Idades 38.0


In [11]:
print(f"Mediada das Notas {median_nota}")

Mediada das Notas 7.5


In [12]:
print(f"Valor m√©dio das Rendas {mean_renda} - {mean_renda:.2f}")

Valor m√©dio das Rendas 2253.265306122449 - 2253.27


#### Passo 2: Atualizando o dataset com os valores calculados

In [13]:
df['idade'].fillna(median_idade, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['idade'].fillna(median_idade, inplace=True)


##### üöß inplace=True

Se  for gerado o aviso de  **FutureWarning** ao usar `fillna(inplace=True)` em um DataFrame, isso ocorre porque o pandas est√° **desencorajando o uso de inplace** em opera√ß√µes encadeadas ou em certos contextos.

üí° **Solu√ß√£o Recomendada**: Substitua os fillna(inplace=True) por atribui√ß√µes diretas, que s√£o mais seguras e evitam o aviso:

In [14]:
df['idade'] = df['idade'].fillna(median_idade)
df['nota'] = df['nota'].fillna(median_nota)
df['renda'] = df['renda'].fillna(mean_renda)

üîñ **Por que isso √© melhor?**
- Evita FutureWarning ‚Äì O pandas recomenda evitar inplace=True em vers√µes futuras.
- Mais leg√≠vel ‚Äì Atribui√ß√µes expl√≠citas deixam claro que a coluna est√° sendo modificada.
- Compatibilidade ‚Äì Funciona em todas as vers√µes do pandas, incluindo a 3.0+.

#### Passo 3 - Preenchendo os campos n√£o numericos vaziosback
 Em nosso dataset h√° tres campos n√£o numericos, s√£o eles:
 - Cidade
 - Categoria
 - Feed

In [15]:
df.head(10)

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
0,1,30.0,1200.0,Sao Paulo,A,8.5,Bom
1,2,45.0,2500.0,Rio de Janeiro,B,7.0,Regular
2,3,29.0,1200.0,Belo Horizonte,A,5.5,Bom
3,4,55.0,3000.0,Salvador,B,7.5,Ruim
4,5,40.0,2100.0,Sao Paulo,A,9.0,Bom
5,6,23.0,900.0,,B,7.5,Ruim
6,7,35.0,1800.0,Rio de Janeiro,B,6.8,Regular
7,8,38.0,2500.0,Belo Horizonte,A,8.2,Bom
8,9,29.0,1500.0,Salvador,B,7.1,Regular
9,10,50.0,2800.0,Sao Paulo,A,8.7,Bom


Para os campos `Cidade` e `Feedback` utilizaremos o valor **Desconhecido**

In [16]:
df['cidade'] = df['cidade'].fillna("Desconhecido")
df['feedback'] = df['feedback'].fillna("Desconhecido")

**Dica:** Vers√£o Compacta (para muitas colunas)
- Se estiver preenchendo muitas colunas com o mesmo valor:

```python
cols_preencher = ['cidade', 'feedback']
df[cols_preencher] = df[cols_preencher].fillna("Desconhecido")
```

In [17]:
df[['cidade', 'feedback']].head(10)

Unnamed: 0,cidade,feedback
0,Sao Paulo,Bom
1,Rio de Janeiro,Regular
2,Belo Horizonte,Bom
3,Salvador,Ruim
4,Sao Paulo,Bom
5,Desconhecido,Ruim
6,Rio de Janeiro,Regular
7,Belo Horizonte,Bom
8,Salvador,Regular
9,Sao Paulo,Bom


## Avaliando o tratamento dos dados

### Verificando valores ausentes

In [18]:
print(df.isnull().sum())

id           0
idade        0
renda        0
cidade       0
categoria    0
nota         0
feedback     0
dtype: int64


### Detec√ß√£o simples de outliers (opcional)

#### IQR (Intervalo Interquartil)

- A t√©cnica IQR (Intervalo Interquartil) √© um m√©todo estat√≠stico robusto para identificar 
e tratar outliers (valores extremos) em um conjunto de dados. Ela calcula a diferen√ßa entre o terceiro 
quartil (Q3, 75¬∫ percentil) e o primeiro quartil (Q1, 25¬∫ percentil), definindo limites inferior e superior. 

- Valores fora desses limites s√£o considerados outliers, pois fogem da distribui√ß√£o central dos dados. 
O IQR √© preferido em rela√ß√£o a m√©todos baseados em m√©dia e desvio padr√£o quando a distribui√ß√£o √© 
assim√©trica ou cont√©m muitos outliers, j√° que √© menos sens√≠vel a valores extremos.

- Essa t√©cnica √© amplamente usada em pr√©-processamento de dados para remover ou ajustar anomalias que 
podem distorcer an√°lises ou modelos preditivos.

**OBS**:
- Uma distribui√ß√£o **sim√©trica** ocorre quando os dados est√£o igualmente distribu√≠dos em torno da m√©dia, formando uma curva balanceada (como na distribui√ß√£o normal), onde a m√©dia, mediana e moda coincidem.
- J√° uma distribui√ß√£o **assim√©trica** apresenta um desequil√≠brio, com uma cauda mais alongada para a direita (assimetria positiva, onde a m√©dia > mediana) ou para a esquerda (assimetria negativa, onde a m√©dia < mediana), indicando concentra√ß√£o de valores em um dos lados. Enquanto a simetria sugere uniformidade, a assimetria revela tend√™ncias ou outliers que podem afetar an√°lises estat√≠sticas, exigindo t√©cnicas espec√≠ficas como transforma√ß√µes (log, Box-Cox) ou o uso de m√©tricas robustas (como a mediana).



**Exemplo**: ver outliers na coluna 'renda' usando IQR

#### Calculando o IQR e identificando os limites para o campo **Renda**

In [19]:
Q1 = df['renda'].quantile(0.25)
Q3 = df['renda'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

In [20]:
print (f"\n\n\t IQR - Campo Renda\n\n")
print(f"Quartis -> Q1: {Q1:-8.2f}  ->  Q3: {Q3:-8.2f}")
print(f"IQR ----- {IQR}")
print(f"Limites - Inf: {limite_inferior:-8.2f}  -> Sup: {limite_superior:-8.2f}")
print(f"\n\n")



	 IQR - Campo Renda


Quartis -> Q1:  1500.00  ->  Q3:  2775.00
IQR ----- 1275.0
Limites - Inf:  -412.50  -> Sup:  4687.50





#### Identificando poss√≠veis Outliers
- O c√≥digo `outliers = df[(df['renda'] < limite_inferior) | (df['renda'] > limite_superior)]`filtra um DataFrame (df) para identificar registros onde os valores da coluna 'renda' est√£o fora de um intervalo considerado "normal", definido por um limite inferior e um limite superior.

In [21]:
outliers = df[(df['renda'] < limite_inferior) | (df['renda'] > limite_superior)]
print(f"\n### Poss√≠veis outliers em 'renda' ###\n\n{outliers}\n")


### Poss√≠veis outliers em 'renda' ###

    id  idade   renda     cidade categoria  nota feedback
23  24   60.0  5800.0  Sao Paulo         A   9.1      Bom
27  28   58.0  6000.0   Salvador         A   8.3      Bom



### Removendos Outliers

#### Para que Serve?

1. Limpeza de dados: Remove anomalias que podem distorcer an√°lises estat√≠sticas ou modelos de machine learning.
1. Normalizar distribui√ß√µes: √ötil quando a presen√ßa de outliers afeta a m√©dia ou o desvio padr√£o.
1. Foco em dados relevantes: Mant√©m apenas observa√ß√µes dentro de um intervalo "aceit√°vel".


#### Cuidados

- **Para remover os outlier** do dataset utilize:

```python
df = df[(df['renda'] >= limite_inferior) & (df['renda'] <= limite_superior)]
```

- **Sobrescrita do DataFrame**:  O c√≥digo altera o DataFrame original. Se precisar preservar os dados brutos, crie uma c√≥pia antes:
```python
df_clean = df[(df['renda'] >= limite_inferior) & (df['renda'] <= limite_superior)].copy()
```

- **Impacto em an√°lises**: Remover outliers pode mascarar informa√ß√µes importantes em alguns contextos (ex.: fraudes em dados financeiros).

In [22]:
df_clean = df[(df['renda'] >= limite_inferior) & (df['renda'] <= limite_superior)].copy()

#### Obtendo informa√ß√µes sobre o novo dataset'

In [23]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 48 entries, 0 to 49
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         48 non-null     int64  
 1   idade      48 non-null     float64
 2   renda      48 non-null     float64
 3   cidade     48 non-null     object 
 4   categoria  48 non-null     object 
 5   nota       48 non-null     float64
 6   feedback   48 non-null     object 
dtypes: float64(3), int64(1), object(3)
memory usage: 3.0+ KB


#### Verificando os outliers

In [24]:
outliers_v2 = df_clean[(df_clean['renda'] < limite_inferior) | (df_clean['renda'] > limite_superior)]
print(f"\n### Poss√≠veis outliers em 'renda' ###\n\n{outliers_v2}\n")


### Poss√≠veis outliers em 'renda' ###

Empty DataFrame
Columns: [id, idade, renda, cidade, categoria, nota, feedback]
Index: []



## Codifica√ß√£o de vari√°veis categ√≥ricas

### Fun√ß√£o - pd.get_dummie

- A fun√ß√£o pd.get_dummies do pandas √© utilizada para converter vari√°veis categ√≥ricas (texto ou categorias) em um formato num√©rico bin√°rio (0 ou 1) atrav√©s da t√©cnica conhecida como "One-Hot Encoding".

- Ela cria colunas adicionais para cada categoria √∫nica presente na vari√°vel original, onde cada linha recebe o valor 1 se a categoria estiver presente naquela observa√ß√£o e 0 caso contr√°rio.

- Por exemplo, uma coluna "Cor" com valores ["Vermelho", "Azul", "Verde"] se transformaria em tr√™s colunas ("Cor_Vermelho", "Cor_Azul", "Cor_Verde"), permitindo que algoritmos de machine learning ou an√°lises estat√≠sticas processem esses dados categ√≥ricos de forma eficiente.

- Essa abordagem evita problemas de hierarquia num√©rica inexistente em categorias (como assumir que "Vermelho" > "Azul").

- O par√¢metro `rop_first=False` na fun√ß√£o pd.get_dummies() do pandas controla se a primeira categoria de cada vari√°vel  categ√≥rica ser√° removida ou n√£o durante o One-Hot Encoding.

- O par√¢metro `drop_first=True` remove a primeira categoria (evita multicolinearidade em modelos estat√≠sticos). 

In [25]:
df_encoded = pd.get_dummies(df, columns=['cidade','categoria','feedback'], drop_first=False)

**DICA:** Para ajustar o c√≥digo e garantir que os campos resultantes do `pd.get_dummies()` sejam preenchidos com 0 ou 1 (em vez de True ou False), voc√™ pode adicionar o par√¢metro `dtype=int` √† fun√ß√£o.

In [26]:
df_encoded_v2 = pd.get_dummies(
    df, 
    columns=['cidade', 'categoria', 'feedback'], 
    drop_first=False,
    dtype=int  # Garante que os valores ser√£o 0 ou 1 (int) em vez de True/False (bool)
)

### Obtendo as informa√ß√µes do novo Dataset

In [27]:
df_encoded.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     50 non-null     int64  
 1   idade                  50 non-null     float64
 2   renda                  50 non-null     float64
 3   nota                   50 non-null     float64
 4   cidade_Belo Horizonte  50 non-null     bool   
 5   cidade_Desconhecido    50 non-null     bool   
 6   cidade_Rio de Janeiro  50 non-null     bool   
 7   cidade_Salvador        50 non-null     bool   
 8   cidade_Sao Paulo       50 non-null     bool   
 9   categoria_A            50 non-null     bool   
 10  categoria_B            50 non-null     bool   
 11  feedback_Bom           50 non-null     bool   
 12  feedback_Regular       50 non-null     bool   
 13  feedback_Ruim          50 non-null     bool   
dtypes: bool(10), float64(3), int64(1)
memory usage: 2.2 KB


In [36]:
df_encoded_v2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     50 non-null     int64  
 1   idade                  50 non-null     float64
 2   renda                  50 non-null     float64
 3   nota                   50 non-null     float64
 4   cidade_Belo Horizonte  50 non-null     int64  
 5   cidade_Desconhecido    50 non-null     int64  
 6   cidade_Rio de Janeiro  50 non-null     int64  
 7   cidade_Salvador        50 non-null     int64  
 8   cidade_Sao Paulo       50 non-null     int64  
 9   categoria_A            50 non-null     int64  
 10  categoria_B            50 non-null     int64  
 11  feedback_Bom           50 non-null     int64  
 12  feedback_Regular       50 non-null     int64  
 13  feedback_Ruim          50 non-null     int64  
dtypes: float64(3), int64(11)
memory usage: 5.6 KB


### Visualizando as primeiras linhas do novo Dataset

In [28]:
df_encoded.head(15)

Unnamed: 0,id,idade,renda,nota,cidade_Belo Horizonte,cidade_Desconhecido,cidade_Rio de Janeiro,cidade_Salvador,cidade_Sao Paulo,categoria_A,categoria_B,feedback_Bom,feedback_Regular,feedback_Ruim
0,1,30.0,1200.0,8.5,False,False,False,False,True,True,False,True,False,False
1,2,45.0,2500.0,7.0,False,False,True,False,False,False,True,False,True,False
2,3,29.0,1200.0,5.5,True,False,False,False,False,True,False,True,False,False
3,4,55.0,3000.0,7.5,False,False,False,True,False,False,True,False,False,True
4,5,40.0,2100.0,9.0,False,False,False,False,True,True,False,True,False,False
5,6,23.0,900.0,7.5,False,True,False,False,False,False,True,False,False,True
6,7,35.0,1800.0,6.8,False,False,True,False,False,False,True,False,True,False
7,8,38.0,2500.0,8.2,True,False,False,False,False,True,False,True,False,False
8,9,29.0,1500.0,7.1,False,False,False,True,False,False,True,False,True,False
9,10,50.0,2800.0,8.7,False,False,False,False,True,True,False,True,False,False


In [37]:
df_encoded_v2.head(10)

Unnamed: 0,id,idade,renda,nota,cidade_Belo Horizonte,cidade_Desconhecido,cidade_Rio de Janeiro,cidade_Salvador,cidade_Sao Paulo,categoria_A,categoria_B,feedback_Bom,feedback_Regular,feedback_Ruim
0,1,30.0,1200.0,8.5,0,0,0,0,1,1,0,1,0,0
1,2,45.0,2500.0,7.0,0,0,1,0,0,0,1,0,1,0
2,3,29.0,1200.0,5.5,1,0,0,0,0,1,0,1,0,0
3,4,55.0,3000.0,7.5,0,0,0,1,0,0,1,0,0,1
4,5,40.0,2100.0,9.0,0,0,0,0,1,1,0,1,0,0
5,6,23.0,900.0,7.5,0,1,0,0,0,0,1,0,0,1
6,7,35.0,1800.0,6.8,0,0,1,0,0,0,1,0,1,0
7,8,38.0,2500.0,8.2,1,0,0,0,0,1,0,1,0,0
8,9,29.0,1500.0,7.1,0,0,0,1,0,0,1,0,1,0
9,10,50.0,2800.0,8.7,0,0,0,0,1,1,0,1,0,0


## Escalonamento de colunas num√©ricas

### Defini√ß√£o
O escalonamento (ou normaliza√ß√£o) √© uma t√©cnica de pr√©-processamento de dados que ajusta os valores das colunas num√©ricas para uma escala comum, garantindo que todas as vari√°veis tenham a mesma import√¢ncia em algoritmos de machine learning ou an√°lises estat√≠sticas.

### Por que usar?
Muitos algoritmos s√£o sens√≠veis √† diferen√ßa de magnitudes entre colunas. 

**Por exemplo:**

- Uma coluna "Idade" (valores entre 0 e 100) e outra "Renda" (valores entre 1000 e 100000) podem enviesar o modelo, pois a "Renda" dominar√° os c√°lculos.

**Objetivo**: 
- Garantir que colunas num√©ricas estejam em escalas compar√°veis.

### Padroniza√ß√£o utilizando o m√©todo StandardScaler 

- O **StandardScaler (fit_transform)** √© um m√©todo de padroniza√ß√£o que transforma os dados num√©ricos para ter m√©dia zero (Œº = 0) e desvio padr√£o unit√°rio (œÉ = 1).

- Essa t√©cnica √© especialmente √∫til quando os dados t√™m distribui√ß√£o normal ou quando algoritmos de machine learning  dependem de dist√¢ncias ou gradientes, pois elimina a influ√™ncia da escala das features, garantindo que todas contribuam igualmente para o modelo. 

- Por exemplo:
    - uma coluna "Renda" com valores entre 1.000 e 100.000 e outra "Idade" entre 0 e 100 s√£o levadas para uma mesma escala evitando que a magnitude distorra os resultados. 
    - A padroniza√ß√£o √© sens√≠vel a outliers, mas mant√©m a forma original da distribui√ß√£o dos dados.

### Realizando o escalonamento das colunas num√©ticas

O c√≥digo abaixo realiza a padroniza√ß√£o (escalonamento) das colunas num√©ricas de um DataFrame (df_encoded) utilizando o m√©todo StandardScaler da biblioteca scikit-learn. 

Segue uma explica√ß√£o detalhada:

1. Sele√ß√£o das Colunas (numeric_cols)
    - Define quais colunas ser√£o padronizadas (ex: 'idade', 'renda', 'nota').

2. Inicializa√ß√£o do StandardScaler
    - Cria um objeto scaler que calcular√°:
    - M√©dia (Œº) e Desvio Padr√£o (œÉ) de cada coluna.

3. Aplica√ß√£o do Escalonamento (fit_transform)

    - fit_transform():
        - Calcula Œº e œÉ das colunas (fit).
        - Transforma os dados originais em vers√µes padronizadas (transform).

    - Substitui as colunas originais do DataFrame (df_encoded) pelos valores escalonados.    

In [29]:
numeric_cols = ['idade', 'renda', 'nota']
scaler = StandardScaler()
df_encoded[numeric_cols] = scaler.fit_transform(df_encoded[numeric_cols])

#### Exibindo os dados do dataset

In [30]:
df_encoded.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     50 non-null     int64  
 1   idade                  50 non-null     float64
 2   renda                  50 non-null     float64
 3   nota                   50 non-null     float64
 4   cidade_Belo Horizonte  50 non-null     bool   
 5   cidade_Desconhecido    50 non-null     bool   
 6   cidade_Rio de Janeiro  50 non-null     bool   
 7   cidade_Salvador        50 non-null     bool   
 8   cidade_Sao Paulo       50 non-null     bool   
 9   categoria_A            50 non-null     bool   
 10  categoria_B            50 non-null     bool   
 11  feedback_Bom           50 non-null     bool   
 12  feedback_Regular       50 non-null     bool   
 13  feedback_Ruim          50 non-null     bool   
dtypes: bool(10), float64(3), int64(1)
memory usage: 2.2 KB


#### Visualizando as primeiras linhas do dataset

In [31]:
df_encoded.head(10)

Unnamed: 0,id,idade,renda,nota,cidade_Belo Horizonte,cidade_Desconhecido,cidade_Rio de Janeiro,cidade_Salvador,cidade_Sao Paulo,categoria_A,categoria_B,feedback_Bom,feedback_Regular,feedback_Ruim
0,1,-0.792576,-0.969895,0.909553,False,False,False,False,True,True,False,True,False,False
1,2,0.657258,0.227205,-0.285131,False,False,True,False,False,False,True,False,True,False
2,3,-0.889231,-0.969895,-1.479815,True,False,False,False,False,True,False,True,False,False
3,4,1.623814,0.687627,0.113097,False,False,False,True,False,False,True,False,False,True
4,5,0.17398,-0.141134,1.307781,False,False,False,False,True,True,False,True,False,False
5,6,-1.469165,-1.246148,0.113097,False,True,False,False,False,False,True,False,False,True
6,7,-0.309298,-0.417387,-0.444422,False,False,True,False,False,False,True,False,True,False
7,8,-0.019331,0.227205,0.670616,True,False,False,False,False,True,False,True,False,False
8,9,-0.889231,-0.693641,-0.205486,False,False,False,True,False,False,True,False,True,False
9,10,1.140536,0.503458,1.068844,False,False,False,False,True,True,False,True,False,False


## Salvando o Dataset

### Salvando no formato compactado

In [38]:
df_encoded.to_csv('exemplo_dataset2_limpo.csv.gz', compression='gzip', index=False)

### Salvando em texto plano

In [33]:
df_encoded.to_csv('exemplo_dataset2_limpo.csv', index=False)

### Salvando os dados em um formato compat√≠vel com o MongoDB

#### C√≥digo

In [34]:
# Importando as bibliotecas
import json

# Converter para lista de dicion√°rios (documentos MongoDB)
dados_mongo = df_encoded.to_dict(orient='records')

# Salvar como JSON
with open('dados_mongo.json', 'w', encoding='utf-8') as f:
    json.dump(dados_mongo, f, ensure_ascii=False, indent=2)

print("Arquivo salvo com sucesso para importa√ß√£o no MongoDB Atlas!")

Arquivo salvo com sucesso para importa√ß√£o no MongoDB Atlas!


#### Explicando c√≥digo

1. **Objetivo**: Converter um DataFrame (`df_encoded`) em um arquivo JSON formatado para importa√ß√£o no **MongoDB Atlas**.  

2. **Passo a Passo**:  
   - **`import json`**: Carrega a biblioteca para manipular JSON.  
   - **`df_encoded.to_dict(orient='records')`**:  
     - Converte o DataFrame em uma **lista de dicion√°rios**, onde cada linha vira um documento (ex: `[{'nome': 'Ana', 'idade': 25}, ...]`).  
     - Formato ideal para o MongoDB.  
   - **`json.dump()`**:  
     - Salva a lista em um arquivo (`dados_mongo.json`).  
     - **Par√¢metros**:  
       - `ensure_ascii=False`: Preserva caracteres especiais (ex: `√ß`, `√£`).  
       - `indent=2`: Formata√ß√£o leg√≠vel (opcional).  

3. **Resultado**:  
   - Arquivo JSON pronto para ser importado no MongoDB via:  
     - **MongoDB Compass** (interface gr√°fica).  
     - **`mongoimport`** (comando CLI).  

4. **Observa√ß√µes**:  
   - Se houver um campo `_id` indesejado, remova-o antes com:  
     ```python
     dados_mongo = [{k: v for k, v in doc.items() if k != '_id'} for doc in dados_mongo]
     ```  
   - Para DataFrames grandes, use `orient='lines'` para salvar como **JSON Lines** (um documento por linha). 

### Salvando os dados em um formato compat√≠vel com o MongoDB

#### c√≥digo

In [35]:
import json

# Converter para lista de dicion√°rios (documentos MongoDB) e remover o campo '_id' se existir
dados_mongo = [
    {chave: valor for chave, valor in documento.items() if chave != 'id'} 
    for documento in df_encoded.to_dict(orient='records')
]

# Salvar como JSON
with open('dados_mongo_sem_id.json', 'w', encoding='utf-8') as f:
    json.dump(dados_mongo, f, ensure_ascii=False, indent=2)

print("Arquivo salvo com sucesso para importa√ß√£o no MongoDB Atlas!")

Arquivo salvo com sucesso para importa√ß√£o no MongoDB Atlas!


#### Explicando c√≥digo

1. **Objetivo**:  
   Converter um DataFrame (`df_encoded`) em um arquivo JSON **sem o campo `'id'`**, pronto para importa√ß√£o no MongoDB Atlas.

2. **Passo a Passo**:  
   - **Convers√£o para dicion√°rios**:  
     `df_encoded.to_dict(orient='records')` transforma o DataFrame em uma lista de dicion√°rios, onde cada linha vira um documento (ex: `[{'nome': 'Ana', 'id': 1}, ...]`).  
   - **Remo√ß√£o do campo `'id'`**:  
     Usa uma **compreens√£o de lista** para filtrar cada dicion√°rio, excluindo a chave `'id'` (ex: `{'nome': 'Ana'}`).  
   - **Salvamento como JSON**:  
     Grava a lista modificada no arquivo `dados_mongo_sem_id.json`, com:  
     - `ensure_ascii=False`: preserva acentos e caracteres especiais.  
     - `indent=2`: formata√ß√£o leg√≠vel.  

### Salvando no fornato do Excel

Para salvar os DataFrames **`df`** e **`df_encoded`** em um mesmo arquivo Excel, cada um em uma planilha separada, voc√™ pode usar a biblioteca `pandas` com o `ExcelWriter`. 

#### **C√≥digo**

In [40]:
with pd.ExcelWriter('dados_completos.xlsx') as writer:
    df.to_excel(writer, sheet_name='Dados_Originais', index=False)          
    df_encoded.to_excel(writer, sheet_name='Dados_Codificados', index=False) 

#### **Explica√ß√£o - Passo a Passo**

1. **`pd.ExcelWriter`**:  
   - Cria um arquivo Excel (`dados_completos.xlsx`) para escrita.  
   - O `with` garante que o arquivo seja fechado automaticamente ap√≥s a execu√ß√£o.

2. **`to_excel()`**:  
   - Salva cada DataFrame em uma planilha diferente:  
     - `df` ‚Üí Planilha **"Dados_Originais"**.  
     - `df_encoded` ‚Üí Planilha **"Dados_Codificados"**.  
   - `index=False`: Evita que o √≠ndice do DataFrame seja salvo como coluna.

**Resultado**
O arquivo `dados_completos.xlsx` ter√° duas planilhas:  
- **Dados_Originais**: Cont√©m os dados brutos (`df`).  
- **Dados_Codificados**: Cont√©m os dados ap√≥s o `get_dummies` (`df_encoded`).  

**Observa√ß√µes**

1. **Extens√µes Suportadas**:  
   - O m√©todo funciona para `.xlsx` (Excel moderno) e `.xls` (Excel 97-2003).  
   - Para outros formatos (como CSV), ser√° necess√°rio salvar arquivos separados.

2. **Personaliza√ß√£o**:  
   - Adicione par√¢metros como `startrow` ou `startcol` em `to_excel()` para ajustar a posi√ß√£o dos dados na planilha.  
   - Use `engine='openpyxl'` ou `engine='xlsxwriter'` para mais controle (instale essas bibliotecas com `pip` se necess√°rio).

3. **Sobrescrita**:  
   - Se o arquivo j√° existir, `ExcelWriter` o sobrescrever√° por padr√£o. Para evitar isso, use `mode='a'` (apenas se o arquivo j√° tiver m√∫ltiplas planilhas).
