#### 1. Importação das Bibliotecas:

In [1]:
import pandas as pd
import numpy as np

#### 2. Carregando seus dados:

Carregue seus dados em um DataFrame do pandas usando `pd.read_excel()` ou apropriado para o seu formato de dados.

In [2]:
df = pd.read_excel('dados/dados.xlsx')

#### 3. Verificação dos Dados:

Comece verificando seu DataFrame para entender sua estrutura:

In [3]:
# Visualize as primeiras linhas do DataFrame
print(df.head())

# Obtenha informações gerais sobre as colunas
print(df.info())

# Resumo estatístico das variáveis numéricas
print(df.describe())

# Verifique valores únicos em colunas categóricas
print(df['gender'].unique())

     fname     lname  gender  age  exercise  hours  grade  \
0   Marcia      Pugh  female   17         3     10   82.4   
1   Kadeem  Morrison    male   18         4      4   78.2   
2     Nash    Powell    male   18         5      9   79.3   
3  Noelani    Wagner  female   14         2      7   83.2   
4  Noelani    Cherry  female   18         4     15   87.4   

                                      address  
0        7379 Highland Rd. , Dublin, GA 31021  
1          8 Bayport St. , Honolulu, HI 96815  
2           Encino, CA 91316, 3 Lilac Street   
3  Riverview, FL 33569, 9998 North Smith Dr.   
4   97 SE. Ocean Street , Bethlehem, PA 18015  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   fname     2000 non-null   object 
 1   lname     2000 non-null   object 
 2   gender    2000 non-null   object 
 3   age       2000 non-null   int64  
 4   

#### 4. Tratando Valores Ausentes:

Lide com valores ausentes usando `fillna()` ou `dropna()` conforme necessário:

In [4]:
# Preencha valores ausentes em colunas numéricas
df['grade'].fillna(df['grade'].mean(), inplace=True)

# Preencha valores ausentes em colunas categóricas
df['gender'].fillna('s/n', inplace=True)

# Remova linhas com valores ausentes
df.dropna(subset=['age'], inplace=True)

#### 5. Lidando com Duplicatas:

Identifique e remova duplicatas, se aplicável:

In [5]:
# Identifique duplicatas
df.duplicated().sum()

# Remova duplicatas
df.drop_duplicates(inplace=True)


#### 6. Normalização de Dados:
 
Normalização pode ser necessária para variáveis numéricas:

In [6]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df['hours_normalizada'] = scaler.fit_transform(df[['hours']])

#### 7. Codificação de Variáveis Categóricas:

Codifique variáveis categóricas em números usando técnicas como one-hot encoding:

In [7]:
df = pd.get_dummies(df, columns=['gender'], drop_first=True)

#### 8. Detecção de Outliers:

Identifique e trate outliers se eles afetarem sua análise:

In [8]:
from scipy import stats

z_scores = np.abs(stats.zscore(df['age']))
df_no_outliers = df[(z_scores < 3)]  # Remove valores com z-score acima de 3

#### 9. Reindexação e Redefinição de Índices:

Reindexe seu DataFrame, se necessário:

In [9]:
df.reset_index(drop=True, inplace=True)  # Redefina os índices

10. Salve seus Dados Limpos:
Salve seu DataFrame limpo de volta em um arquivo se desejar:

In [10]:
df.to_csv('dados/dados_limpos.csv', index=False)
