# Criação de Dados Sintéticos com Numpy e Análise de Dados com o Pandas

## Objetivo

O objetivo desta atividade é aprender a criar dados sintéticos e exercitar as habilidades de manipulação de dados com o Pandas.

## Contextualização

Vocês começar criando um conjunto de dados sintéticos utilizando o numpy, dentro do contexto escolar. A ideia é visualizar o desempenho dos estudantes em diferentes escolas e disciplinas, permitindo uma compreensão mais clara das tendências de desempenho e áreas que podem necessitar de melhorias.

Para isso, criem um dataset (o mais realista que conseguirem dentro do tempo permitido), com os seguintes atributos:


```csv
Nome da Escola
Série/Ano
Disciplina (por exemplo, Matemática, Ciências, História)
Nota do Aluno
Gênero do Aluno
Status (Aprovado/Reprovado)
```

Exemplos de perguntas a serem respondidas com os dados.

1. Qual é a média das notas em diferentes disciplinas em cada escola?

2. Como o desempenho dos alunos varia entre as séries/anos?

3. Existem diferenças notáveis no desempenho entre os gêneros dos alunos?

4. Quais são as disciplinas com as maiores taxas de reprovação em cada escola?

## Possível Solução

In [5]:
# Criação dos Dados sintéticos

import pandas as pd
import numpy as np

# Definindo as listas de valores possíveis
escolas = ['Escola A', 'Escola B', 'Escola C', 'Escola D']
series_anos = ['1º Ano', '2º Ano', '3º Ano', '4º Ano', '5º Ano']
disciplinas = ['Matemática', 'Ciências', 'História']
generos = ['Masculino', 'Feminino']

# Criando um DataFrame vazio
df = pd.DataFrame(columns=['Nome da Escola', 'Série/Ano', 'Disciplina', 'Nota do Aluno', 'Gênero do Aluno', 'Status'])

np.random.seed(0) # para resultados reprodutíveis
for _ in range(1000): # Número de registros que você deseja criar
    escola = np.random.choice(escolas)
    serie_ano = np.random.choice(series_anos)
    disciplina = np.random.choice(disciplinas)
    
    # Se a série/ano for '1º Ano', vamos aumentar a probabilidade de selecionar o gênero masculino
    if serie_ano == '1º Ano':
        genero = np.random.choice(generos, p=[0.7, 0.3]) # 70% de chance de ser masculino, 30% de chance de ser feminino
    else:
        genero = np.random.choice(generos, p=[0.5, 0.5]) # 50% de chance para cada gênero
    
    if disciplina == 'Matemática':
        nota = np.random.normal(loc=4, scale=2) # Média de 4 com desvio padrão de 2
    else:
        nota = np.random.normal(loc=6, scale=2) # Média de 6 com desvio padrão de 2
    
    nota = max(0, min(nota, 10)) # Certificando que a nota está no intervalo de 0 a 10
    status = 'Aprovado' if nota >= 5 else 'Reprovado' # Aqui você pode definir a regra de aprovação/reprovação
    
    # Adicionando a linha ao DataFrame
    df.loc[len(df)] = [escola, serie_ano, disciplina, nota, genero, status]

# Visualizando o DataFrame
print(df.head())

# Se desejar, pode salvar o DataFrame em um arquivo CSV
# df.to_csv('dados_escolares.csv', index=False)

  Nome da Escola Série/Ano  Disciplina  Nota do Aluno Gênero do Aluno  \
0       Escola A    1º Ano    Ciências       2.966035       Masculino   
1       Escola A    1º Ano  Matemática       2.267448       Masculino   
2       Escola C    1º Ano    Ciências       6.887726        Feminino   
3       Escola C    4º Ano  Matemática       4.667349        Feminino   
4       Escola B    4º Ano    História       8.170974        Feminino   

      Status  
0  Reprovado  
1  Reprovado  
2   Aprovado  
3  Reprovado  
4   Aprovado  
