# Fase 1 do projeto da disciplina: Ciência de Dados e Inteligência Artificial - PUCRS

O objetivo deste trabalho é selecionar um conjunto de dados interessante, desenvolver um projeto inicial sobre ele com a ferramenta Orange Data Mining e identificar oportunidades em ciência de dados com ele. Para tanto, procurem algum conjunto de dados que vocês se sintam motivados a explorar. O conjunto selecionado deve ter pelo menos 1.000 linhas e pelo menos 10 colunas totalmente preenchidas (sem valores faltantes) e, principalmente, deve ter um atributo alvo, categórico ou numérico.

#### Enunciado:
1. Procurem um conjunto de dados com, pelo menos, 1.000 linhas e 10 colunas, e que tenha um atributo alvo categórico ou numérico.
2. Façam a carga no Orange Data Mining para ajudar na exploração.
3. Transcrevam a síntese do conjunto de dados como apresentado em sua origem.
4. Em até 3 parágrafos, expliquem o interesse em explorá-lo.
5. Sobre o conjunto de dados escolhido:
- Qual a finalidade do conjunto de dados?
- Quantas linhas e quantas colunas o conjunto de dados tem?
- Qual o formato que ele é disponibilizado? (CSV, JSON, XLSX, etc)

6. Escolham pelo menos 10 colunas totalmente preenchidas (as mais importantes) e, para cada coluna (inclusive para a coluna alvo):
- Qual o nome e o que representa?
- Qual o tipo de dados? Nominal/Ordinal/Numérico/Data e/ou hora?
- Quais são os valores considerados válidos?
- Quantos valores distintos aparecem na coluna?
- Qual o menor e o maior valor, e qual a moda?
- Os valores da coluna são numéricos? Qual a média e qual o desvio-padrão? Qual a mediana?

7. Qual a oportunidade para um projeto de ciência de dados foi identificada? Justificar a resposta!



8. O que você deve entregar nesta fase:  Documento em PDF/DOCX (desenvolvido a partir do modelo de template disponibilizado)  com a documentação de todas as atividades feitas e o link para o conjunto de dados escolhido. No caso de ter sido feito um recorte/amostragem do conjunto original, documentar quais foram os passos feitos para produzir o recorte.

### Dataset: Students Performance Dataset:

**Link:** https://www.kaggle.com/datasets/rabieelkharoua/students-performance-dataset

**Autor:** Rabie El Kharoua

**DOI:** 10.34740/kaggle/ds/5195702


### Índice
Os dados sobre os estudantes foram coletados considerando as categorias abaixo:

- Informações dos Estudantes
 - ID do Estudante
 - Detalhes Demográficos (idade, gênero, etnia, educação dos pais)
 - Hábitos de Estudo (tempo de estudo semanal, faltas e aulas de reforço)
- Envolvimento dos Pais (apoio dos pais)
- Atividades Extracurriculares (atividades extracurriculares, esportes, música e voluntariado)
- Desempenho Acadêmico (GPA)
- Variável Alvo: Classificação de Notas

### Dicionário do Conjunto de Dados (Por Coluna)

- **ID do Estudante:** Um identificador único atribuído a cada estudante.
- **Idade:** A idade dos estudantes varia de 15 a 18 anos.
- **Gênero:** Gênero dos estudantes, onde 0 representa Masculino e 1 representa Feminino.
- **Etnia:** A etnia dos estudantes, codificada da seguinte forma:
 - 0: Caucasiano;
 - 1: Afro-Americano;
 - 2: Asiático;
 - 3: Outro.
- **Educação dos Pais:** O nível de educação dos pais, codificado da seguinte forma:
 - 0: Nenhuma;
 - 1: Ensino Médio;
 - 2: Algum Ensino Superior;
 - 3: Bacharelado;
 - 4: Superior.
- **Tempo de Estudo Semanal:** Tempo de estudo semanal em horas, variando de 0 a 20.
- **Faltas:** Número de faltas durante o ano letivo, variando de 0 a 30.
- **Aulas de Reforço:** Status de aulas de reforço, onde 0 indica Não e 1 indica Sim.
- **Apoio dos Pais:** O nível de apoio dos pais, codificado da seguinte forma:
 - 0: Nenhum;
 - 1: Baixo;
 - 2: Moderado;
 - 3: Alto;
 - 4: Muito Alto.
- **Atividades Extracurriculares:** Participação em atividades extracurriculares, onde 0 indica Não e 1 indica Sim.
- **Esportes:** Participação em esportes, onde 0 indica Não e 1 indica Sim.
- **Música:** Participação em atividades musicais, onde 0 indica Não e 1 indica Sim.
- **Voluntariado:** Participação em voluntariado, onde 0 indica Não e 1 indica Sim.
- **GPA:** Média de Notas (Grade Point Average) em uma escala de 2,0 a 4,0, influenciada por hábitos de estudo, envolvimento dos pais e atividades extracurriculares.
- **Variável Alvo: Classificação de Notas**
- **Classificação de Notas:** Classificação das notas dos estudantes com base no GPA:
 - 0: 'A' (GPA >= 3,5);
 - 1: 'B' (3,0 <= GPA < 3,5);
 - 2: 'C' (2,5 <= GPA < 3,0);
 - 3: 'D' (2,0 <= GPA < 2,5);
 - 4: 'F' (GPA < 2,0).


In [None]:
#Importação de bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
from scipy.stats import chi2_contingency
import seaborn as sns
from scipy.stats import mannwhitneyu

In [None]:
# Montando o Google Drive no ambiente do Colab.
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Caminho do arquivo
caminho_csv = '/content/drive/MyDrive/PUCRS/CienciaDeDados/Student_performance_data _.csv'

In [None]:
# Carregando o arquivo CSV usando Pandas
df_student_performance = pd.read_csv(caminho_csv)

In [None]:
display(df_student_performance)

Unnamed: 0,StudentID,Age,Gender,Ethnicity,ParentalEducation,StudyTimeWeekly,Absences,Tutoring,ParentalSupport,Extracurricular,Sports,Music,Volunteering,GPA,GradeClass
0,1001,17,1,0,2,19.833723,7,1,2,0,0,1,0,2.929196,2.0
1,1002,18,0,0,1,15.408756,0,0,1,0,0,0,0,3.042915,1.0
2,1003,15,0,2,3,4.210570,26,0,2,0,0,0,0,0.112602,4.0
3,1004,17,1,0,3,10.028829,14,0,3,1,0,0,0,2.054218,3.0
4,1005,17,1,0,2,4.672495,17,1,3,0,0,0,0,1.288061,4.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2387,3388,18,1,0,3,10.680555,2,0,4,1,0,0,0,3.455509,0.0
2388,3389,17,0,0,1,7.583217,4,1,4,0,1,0,0,3.279150,4.0
2389,3390,16,1,0,2,6.805500,20,0,2,0,0,0,1,1.142333,2.0
2390,3391,16,1,1,0,12.416653,17,0,2,0,1,1,0,1.803297,1.0


In [None]:
#Resumo geral das variáveis
df_student_performance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2392 entries, 0 to 2391
Data columns (total 15 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   StudentID          2392 non-null   int64  
 1   Age                2392 non-null   int64  
 2   Gender             2392 non-null   int64  
 3   Ethnicity          2392 non-null   int64  
 4   ParentalEducation  2392 non-null   int64  
 5   StudyTimeWeekly    2392 non-null   float64
 6   Absences           2392 non-null   int64  
 7   Tutoring           2392 non-null   int64  
 8   ParentalSupport    2392 non-null   int64  
 9   Extracurricular    2392 non-null   int64  
 10  Sports             2392 non-null   int64  
 11  Music              2392 non-null   int64  
 12  Volunteering       2392 non-null   int64  
 13  GPA                2392 non-null   float64
 14  GradeClass         2392 non-null   float64
dtypes: float64(3), int64(12)
memory usage: 280.4 KB


In [None]:
#Verificando valores nulos
df_student_performance.isnull().sum()

Unnamed: 0,0
StudentID,0
Age,0
Gender,0
Ethnicity,0
ParentalEducation,0
StudyTimeWeekly,0
Absences,0
Tutoring,0
ParentalSupport,0
Extracurricular,0


In [None]:
#Verificando linhas duplicadas pela coluna identificadora
df_student_performance['StudentID'].duplicated().sum()

0

In [None]:
# Análise das colunas

lista_Nome_Colunas = df_student_performance.columns.tolist()

def analise_colunas(lista, df):
    for i in lista:
        print(f"Análise da Coluna: {i}")
        print("-" * 50)

        # Valores únicos
        unique_values = df[i].unique()
        print("Valores Únicos:")
        print(unique_values)
        print('\n')

        # Contar número de valores únicos
        num_unique_values = df[i].nunique()
        print("Número de Valores Únicos:")
        print(num_unique_values)
        print('\n')

        # Estatísticas descritivas
        stat_describe = pd.DataFrame(df[i].describe())
        print("Estatísticas Descritivas:")
        print(stat_describe)
        print('\n')

        # Moda
        mode_value = df[i].mode()
        print('Moda:')
        print(mode_value)
        print('\n')

        # Mediana
        median_value = df[i].median()
        print('Mediana:')
        print(median_value)
        print('\n')

        print("=" * 50)

# Executa a função
analise_colunas(lista_Nome_Colunas, df_student_performance)

Análise da Coluna: StudentID
--------------------------------------------------
Valores Únicos:
[1001 1002 1003 ... 3390 3391 3392]


Número de Valores Únicos:
2392


Estatísticas Descritivas:
         StudentID
count  2392.000000
mean   2196.500000
std     690.655244
min    1001.000000
25%    1598.750000
50%    2196.500000
75%    2794.250000
max    3392.000000


Moda:
0       1001
1       1002
2       1003
3       1004
4       1005
        ... 
2387    3388
2388    3389
2389    3390
2390    3391
2391    3392
Name: StudentID, Length: 2392, dtype: int64


Mediana:
2196.5


Análise da Coluna: Age
--------------------------------------------------
Valores Únicos:
[17 18 15 16]


Número de Valores Únicos:
4


Estatísticas Descritivas:
               Age
count  2392.000000
mean     16.468645
std       1.123798
min      15.000000
25%      15.000000
50%      16.000000
75%      17.000000
max      18.000000


Moda:
0    15
Name: Age, dtype: int64


Mediana:
16.0


Análise da Coluna: Gender
----

### Aproximando valores da coluna "StudyTimeWeekly"

In [None]:
df_student_performance['StudyTimeWeeklyRounded'] = df_student_performance['StudyTimeWeekly'].round(0)

print(f"Análise da Coluna: 'StudyTimeWeeklyRounded'")
print("-" * 50)

# Valores únicos
unique_values = df_student_performance['StudyTimeWeeklyRounded'].unique()
print("Valores Únicos:")
print(unique_values)
print('\n')

# Contar número de valores únicos
num_unique_values = df_student_performance['StudyTimeWeeklyRounded'].nunique()
print("Número de Valores Únicos:")
print(num_unique_values)
print('\n')

# Estatísticas descritivas
stat_describe = pd.DataFrame(df_student_performance['StudyTimeWeeklyRounded'].describe())
print("Estatísticas Descritivas:")
print(stat_describe)
print('\n')

# Moda
mode_value = df_student_performance['StudyTimeWeeklyRounded'].mode()
print('Moda:')
print(mode_value)
print('\n')

# Mediana
median_value = df_student_performance['StudyTimeWeeklyRounded'].median()
print('Mediana:')
print(median_value)
print('\n')

print("=" * 50)

Análise da Coluna: 'StudyTimeWeeklyRounded'
--------------------------------------------------
Valores Únicos:
[20. 15.  4. 10.  5.  8. 16. 18. 12. 11.  3. 19.  7.  2.  9. 14.  6. 17.
  0.  1. 13.]


Número de Valores Únicos:
21


Estatísticas Descritivas:
       StudyTimeWeeklyRounded
count             2392.000000
mean                 9.767977
std                  5.669491
min                  0.000000
25%                  5.000000
50%                 10.000000
75%                 14.000000
max                 20.000000


Moda:
0    10.0
Name: StudyTimeWeeklyRounded, dtype: float64


Mediana:
10.0


