<a href="https://colab.research.google.com/github/vsr87/Projeto-Analise-de-Dados/blob/main/Desafio_Dados_PTC_vsr.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **DESAFIO**

## **Entendimento da base de dados**

### **Variáveis categóricas utilizadas**

- *Nome*
- *Serie*
- *Sexo*
---

### **Variáveis numéricas utilizadas**

- *Id_aluno*
- *Idade*
- *Nota_matematica*
- *Nota_portugues*
- *Frequencia*
---

## **Objetivos do desafio**

### **PASSOS BASE**

In [None]:
# Importa o pandas
import pandas as pd

In [None]:
# Importa a base armezanando na variável base
base = pd.read_csv('/content/Base_despadronizada.csv')

In [None]:
# Visualização das informações das colunas da base
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_aluno         100 non-null    int64  
 1   nome             100 non-null    object 
 2   idade            100 non-null    int64  
 3   serie            100 non-null    object 
 4   sexo             100 non-null    object 
 5   nota_matematica  100 non-null    object 
 6   nota_portugues   100 non-null    object 
 7   frequencia       100 non-null    float64
dtypes: float64(1), int64(2), object(5)
memory usage: 6.4+ KB


In [None]:
# Verificando dados nulos
base.isnull().sum()

Unnamed: 0,0
id_aluno,0
nome,0
idade,0
serie,0
sexo,0
nota_matematica,0
nota_portugues,0
frequencia,0


- **Observa-se que não há dados faltantes**

---

### **ETAPA DE PADRONIZAÇÃO**

#### **Objetivo 1: Padronização da coluna "sexo"**

In [None]:
# Função para padronizar o sexo
def padronizar_sexo(valor):
    if isinstance(valor, str):
        valor = valor.strip().lower()
        if valor.startswith('m'):
            return 'Masculino'
        elif valor.startswith('f'):
            return 'Feminino'
    return valor  # retorna o valor original caso não se encaixe nos critérios

# Aplica a função na coluna "sexo"
base['sexo'] = base['sexo'].apply(padronizar_sexo)

In [None]:
# Verificação do resultados das modificações
print(base['sexo'].head())

0    Masculino
1     Feminino
2    Masculino
3     Feminino
4     Feminino
Name: sexo, dtype: object


---
#### **Objetivo 2: Padronização das colunas de notas**

In [None]:
# Substituir o ponto por vírgula nas colunas especificadas
base['nota_matematica'] = base['nota_matematica'].astype(str).str.replace('.', ',', regex=False)
base['nota_portugues'] = base['nota_portugues'].astype(str).str.replace('.', ',', regex=False)

In [None]:
# Verificação dos resultados das modificações
colunas = ['nota_matematica', 'nota_portugues']
print(base[colunas].head())

  nota_matematica nota_portugues
0             4,1            3,8
1             8,4            7,8
2             8,1            6,5
3             3,7            3,4
4             2,7            8,7


---

### **ETAPA DE ENRIQUECIMENTO**

#### **Objetivo 3: criar a coluna "média"**

In [None]:
# Criação de variável temporária para testar as modificações sem prejudicar a base
base_tmp = base.copy()

# Substituir vírgula por ponto para conversão correta (número)
base_tmp['nota_matematica'] = base_tmp['nota_matematica'].astype(str).str.replace(',', '.').astype(float)
base_tmp['nota_portugues'] = base_tmp['nota_portugues'].astype(str).str.replace(',', '.').astype(float)

# Transforma a frequencia em numérica
base_tmp['frequencia'] = base_tmp['frequencia'].astype(float)

# Calcula a média
base_tmp['media'] = (base_tmp['nota_matematica'] + base_tmp['nota_portugues'] + (base_tmp['frequencia'] / 10)) / 3

# Arredondar a média para 2 casas decimais (opcional)
base_tmp['media'] = base_tmp['media'].round(2)

In [None]:
# Verificação dos resultados das modificações
colunas = ['nota_matematica', 'nota_portugues', 'frequencia', 'media']
print(base_tmp[colunas].head())

   nota_matematica  nota_portugues  frequencia  media
0              4.1             3.8        63.7   4.76
1              8.4             7.8        64.6   7.55
2              8.1             6.5        68.4   7.15
3              3.7             3.4        65.4   4.55
4              2.7             8.7        89.8   6.79


In [None]:
# Transfere a coluna "media" para a base original
base['media'] = base_tmp['media']


---
#### **Objtevo 4: criar coluna "aprovado"**

In [None]:
# Criar a coluna 'aprovado' com base na média
base['aprovado'] = base['media'].apply(lambda x: 'Sim' if x >= 7 else 'Não')

In [None]:
# Verificação dos resultados das modificações
colunas = ['media', 'aprovado']
print(base[colunas].head())

   media aprovado
0   4.76      Não
1   7.55      Sim
2   7.15      Sim
3   4.55      Não
4   6.79      Não


### **BASE ATUALIZADA**

In [None]:
base['frequencia'] = base['frequencia'].astype(str).str.replace('.', ',', regex=False)
base['media'] = base['media'].astype(str).str.replace('.', ',', regex=False)

In [None]:
# Verificação dos resultados das modificações
colunas = ['frequencia', 'media']
print(base[colunas].head())

  frequencia media
0       63,7  4,76
1       64,6  7,55
2       68,4  7,15
3       65,4  4,55
4       89,8  6,79


In [None]:
# Salvar o arquivo atualizado
base.to_csv('Base_atualizada.csv', index=False)