# Squad Mae C. Jemison

Bootcamp Data Analytics 2024

Projeto Final - Bullying

Autoras:
- Ana Carolina Szczepanski Oliveira
- Claisa  Lubke
- Elis Regina Weiss
- Hanna Câmara da Justa
- Iris Brandao Pires Linhares
- Isabella Stersa de Oliveira
- Larissa das Chagas Brum
- Lidiane Vicente

# Configuração

### Instalação de Bibliotecas

In [None]:
# Pacote Python para modelagem estatística e econometria (https://www.statsmodels.org/stable/index.html)
!pip install statsmodels



### Importação de Bibliotecas

In [None]:
# Módulo para interação no ambiente Google Colab
from google.colab import files, drive

# Pré-processamento ou limpeza de dados
import pandas as pd
import numpy as np


# Visualização de dados
import plotly.express as px
import plotly.graph_objects as go

# Módulo para o teste de qui-quadrado
from scipy.stats import chi2_contingency

# Módulo para construir tabelas
from tabulate import tabulate

# Avisos
import warnings

# Verificação de memória
import psutil

## Verificação de memória

In [None]:
print(f"Memória utilizada: {psutil.virtual_memory().percent}%")

Memória utilizada: 14.2%


## Configuração de avisos

In [None]:
warnings.filterwarnings('ignore')

## Configuracão de Plotagem

In [None]:
# Configurações gerais para a plotagem com Plotly
layout = go.Layout(
    # Tamanho padrão das figuras
    width=1200,
    height=800,

    # Resolução da figura
    # Nota: Não há um parâmetro direto para DPI em Plotly; isso é ajustado na exportação da imagem.

    # Configuração da largura e cor das linhas
    template="plotly_white",  # Define uma base com temas claros

    # Tamanho do título dos eixos
    title_font=dict(size=16),

    # Tamanho dos rótulos dos eixos
    xaxis=dict(
        title_font=dict(size=14),
        tickfont=dict(size=12)
    ),
    yaxis=dict(
        title_font=dict(size=14),
        tickfont=dict(size=12)
    ),

    # Tamanho da fonte da legenda
    legend=dict(font=dict(size=12)),

    # Transparência da grade
    xaxis_gridcolor="rgba(0, 0, 0, 0.5)",  # Cor e transparência
    yaxis_gridcolor="rgba(0, 0, 0, 0.5)"
)


## Funções Customizadas

In [None]:
# (1) Função para listar e numerar colunas de um DataFrame verticalmente

def exibir_colunas_verticalmente(df):
    print("Colunas do DataFrame:\n")
    for i, col in enumerate(df.columns):
        print(f"{i + 1}. {col}")


# (2) Função para calcular a correlação de Cramér
def cramers_v(x, y):
    confusion_matrix = pd.crosstab(x, y)
    chi2 = chi2_contingency(confusion_matrix)[0]
    n = confusion_matrix.sum().sum()
    phi2 = chi2 / n
    r, k = confusion_matrix.shape
    phi2corr = max(0, phi2 - ((k-1)*(r-1))/(n-1))
    rcorr = r - ((r-1)**2)/(n-1)
    kcorr = k - ((k-1)**2)/(n-1)
    return np.sqrt(phi2corr / min((kcorr-1), (rcorr-1)))

## Importação dataset

In [None]:
# Montar drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Leitura e criação de dataframe

In [None]:
# Criação e leitura do dataframe original
df_original = pd.read_csv('/content/drive/MyDrive/Projeto Final - Bullying/Bullying_2018.csv', sep=';')
df_original.head()

Unnamed: 0,record,Bullied_on_school_property_in_past_12_months,Bullied_not_on_school_property_in_past_12_months,Cyber_bullied_in_past_12_months,Custom_Age,Sex,Physically_attacked,Physical_fighting,Felt_lonely,Close_friends,Miss_school_no_permission,Other_students_kind_and_helpful,Parents_understand_problems,Most_of_the_time_or_always_felt_lonely,Missed_classes_or_school_without_permission,Were_underweight,Were_overweight,Were_obese
0,1,Yes,Yes,,13 years old,Female,0 times,0 times,Always,2,10 or more days,Never,Always,Yes,Yes,,,
1,2,No,No,No,13 years old,Female,0 times,0 times,Never,3 or more,0 days,Sometimes,Always,No,No,,,
2,3,No,No,No,14 years old,Male,0 times,0 times,Never,3 or more,0 days,Sometimes,Always,No,No,No,No,No
3,4,No,No,No,16 years old,Male,0 times,2 or 3 times,Never,3 or more,0 days,Sometimes,,No,No,No,No,No
4,5,No,No,No,13 years old,Female,0 times,0 times,Rarely,3 or more,0 days,Most of the time,Most of the time,No,No,,,


# ***1. Estágio Um – Business Understanding***


## ***1.1 Determine os objetivos de negócios***

### **1.1.1 Objetivo de negócios**

#### *Descreva o problema*
A fase escolar é uma etapa do desenvolvimento muito importante para o indivíduo. Entender quem se é e a posição que ocupa em um contexto de convivência com muitos outros jovens passando pelo mesmo traz muitos conflitos e, em muitos casos, é possível verificar a violência permeando diversas relações. Com a internet, esse processo se intensificou devido ao anonimato prometido pelas redes.

Em 2018, o Global School-Based Student Health Survey (GSHS) foi realizado na Argentina. O questionário autoaplicável foi entregue aos estudantes e levou em consideração diversos aspectos como peso, situação socioemocional e familiar, amizades próximas, entre outros. Através desse dataset, a squad Mae C. Jemison tem por objetivo entender o perfil dos jovens e entender os padrões que levam alguém a sofrer ou cometer violência nesses contextos.

#### *Impacto do problema*
No artigo “Os impactos do bullying na infância e na adolescência”, escrito pela jornalista Maiara Ribeiro para o portal Dráuzio Varella, afirma-se que 38% das escolas brasileiras enfrentam problemas com o Bullying. Para além da violência e do trauma, quem sofre bullying  pode desenvolver diversos transtornos e dificuldades na socialização, hábitos destrutivos e da autoimagem como um todo. No entanto, entender o perfil do agressor também é importante, pois ele pode denunciar outros tipos de negligência,  como a parental ou emocional, por exemplo. Por isso, entender os fatores que levam a uma situação em que o bullying ocorre e agir de forma preventiva garante que a segurança e o bem-estar de uma comunidade como um todo.

#### *Questões de negócios*
As principais questões de negócios que estamos tentando responder com a análise de dados são:
1. Qual o perfil dos jovens em que o questionário foi aplicado? (Gênero, peso ou se já sofreram algum tipo de violência, por exemplo)
2. Dentre os jovens que afirmam ter sofrido violência, de que formas eles se relacionam? (Se foi violência física ou cyberbullying, com que frequência enfrentavam sentimentos de solidão e assiduidade nas aulas, por exemplo)
3. Como é a sua relação com pessoas próximas? (Se eles têm amigos próximos ou a compreensão dos pais, por exemplo)



#### *Benefícios em termos de negócios*
Ao agrupar e entender a correlação entre fatores socioemocionais, físicos e interpessoais, é possível identificar padrões que podem levar alguém a ser vítima e atuar de forma preventiva em questões de saúde mental e bem-estar.


### **1.1.2 Background do projeto**

#### *Unidades de negócios afetadas*
Para verificar a acurácia do modelo desenvolvido para projeto, é necessário envolver a comunidade escolar como um todo: alunos, pais e responsáveis, professores, psicopedagogos e a administração escolar como um todo.

#### *Problema em termos gerais*
A qualidade e disponibilidade dos dados diz respeito à comunidade escolar na Argentina - no entanto, o contexto social e costumes de uma população também são fatores determinantes para a forma com que os alunos se relacionam entre si.
Além disso, há outros fatores não óbvios que surgem em análises mais detalhadas. Por isso, a interpretação dos dados também irá variar de acordo com quem analisa os dados.
Por fim, a ética ao lidar com dados de menores de idade pode dificultar análises mais precisas.

#### *Pré-requisitos do projeto*
- Motivações:
A tomada de decisão baseada em dados e estatísticas para a prevenção de comportamentos danosos trará benefícios para a comunidade acadêmica e o bem-estar dos alunos. Além disso, medidas como o suporte e a validação emocional adequadas para cada fator de risco trará uma personalização dos métodos de prevenção.

- Mineração de dados:
Para a realização do estudo, é necessário que haja a coleta, preparação dos dados, aplicação de técnicas de mineração e a avaliação e validação dos modelos e interpretação e ação.

#### *Solução usada atualmente*
Atualmente, não há um plano de combate ao bullying previamente estabelecido. A administração escolar e equipes psicopedagógicas fazem campanhas, promovem rodas de conversa entre a comunidade sobre saúde mental e buscam incentivar os alunos a se abrirem mais.

#### *Vantagens e desvantagens da solução atual*
- Vantagens: Buscam engajar mais a comunidade nas pautas de saúde mental e bem-estar. Outra tentativa é de aproximar os pais ou responsáveis do ambiente para buscar uma solução mais adequada.


- Desvantagens: Por conta dos diversos fatores que podem levar alguém a uma situação de vulnerabilidade, uma abordagem mais ampla não é capaz de mitigar as ocorrências de forma efetiva.


#### *Objetivos*
Classificar individuos que sofrerão ou não bullying a partir das variáveis presentes


## ***1.2 Avalie a situação atual***

### **1.2.1. Inventário de recursos**



#### *Recursos disponíveis para o projeto*
- Pessoal:
    - Ana Carolina Szczepanski Oliveira
    - Claisa  Lubke
    - Elis Regina Weiss
    - Hanna Câmara da Justa
    - Iris Brandao Pires Linhares
    - Isabella Stersa de Oliveira
    - Larissa das Chagas Brum
    - Lidiane Vicente

- Dados:
  - 'Bullying_2018.csv'


- Recursos de computação:
  - Python


- Software:
  - Google Colab
  - Google Meet
  - Discord
  - Trello

#### *Fontes de dados*
Os dados analisados foram disponibilizados no formato CSV podem ser minerados. Os dados foram anonimizados e não foram utilizados dados de outras fontes.
- Os dados qualitativos informam sobre:
  - A ocorrência (ou não) do bullying
  - Em caso de bullying, se foi dentro ou fora da escola
  - Sexo
  - Se enfrentavam sentimento de solidão
  - Se percebem gentileza por parte dos outros estudantes
  - Se há compreensão parental sobre a situação
  - Se já saíram da esocla sem autorização prévia
  - Classificação de peso
- Os dados quantitativos informam sobre:
  - Quantas faltas possuem sem autorização
  - Número de amigos próximos
  - Quantas vezes já se envolveram em conflitos com violência física
  - Idade
  - Tome nota dos tipos e formatos de dados.




### **1.2.2. Requisitos, suposições e restrições**

#### *Requisitos*
   - Conclusão do projeto: 20/12/2024
   - Dados dísponivel: Dados em arquivo csv, disponibilizado para Womakers Code, nomeado como Bullying_2018.csv.
   - Dados sensíveis: Não há dados sensíveis de pessoas
   - Criar dashboard interativo com idicadores
   - Criar e identificar a previsão de classificação

#### *Suposições*
  - Expectativa de ver os resultados em
  - Dados distribuídos como sendo

#### *Restrições*
  - Dados ausentes: células vazias em várias linhas, abrangendo todas as colunas, exceto a coluna "Record"
  


### **1.2.3. Riscos e contingências**

#### *Riscos*
  - Incompletude dos dados: A falta de dados essenciais pode comprometer a precisão da previsão e a qualidade da classificação.
  - Ambiguidade no produto final: A falta de uma definição clara sobre o produto final pode dificultar a execução de atividades com objetivos bem estabelecidos.


#### *Contingências*
  - Contingências:Análise de dados disponíveis: Criar gráficos e realizar análises detalhadas com os dados existentes, buscando extrair o máximo de insights possíveis, mesmo diante da limitação de informações.
  - Revisão contínua do produto final: Garantir uma definição progressiva e clara do produto final ao longo do processo, alinhando com as partes interessadas para minimizar ambiguidades.

 ## ***1.3 Objetivos para mineração de dados***

### **1.3.1 Metas de mineração de dados**

####  *Tipo de problema da mineração de dados*
- Tipo de Problema de Mineração de Dados:

Problema de Classificação: O objetivo do modelo é classificar os estudantes em duas categorias: aqueles que probabilisticamente sofrerão bullying na escola (classe "Yes") e os que não sofrerão bullying (classe "No").

- Modelo a Ser Utilizado:

Modelo de Regressão Logística (ou outro modelo de classificação adequado, como Árvore de Decisão ou Random Forest), para prever a probabilidade de um aluno sofrer bullying, com base em variáveis explicativas como características demográficas, comportamentais e sociais.

#### *Números reais para os resultados desejados*
- Recall para a Classe "Yes": O modelo deve atingir um recall mínimo de 70% para a classe "Yes", ou seja, o modelo deve ser capaz de identificar corretamente 70% dos alunos que realmente sofrerão bullying. Isso é importante para garantir que o modelo não perca muitos casos de alunos que poderiam ser vítimas de bullying, permitindo que intervenções possam ser tomadas a tempo.
- Acuracidade Balanceada (Precision e Recall): Além de focar no recall, deve-se monitorar o equilíbrio entre precisão (precision) e recall, para evitar que o modelo tenha um viés para uma classe em detrimento da outra. O foco será garantir que o modelo tenha uma boa eficiência em identificar vítimas de bullying, sem gerar muitos falsos positivos ou negativos.
- Probabilidade de Acerto (Accuracy): O modelo deve alcançar uma probabilidade de acerto pelo menos de 70%, ou seja, a proporção de previsões corretas em relação ao total de previsões realizadas deve ser superior a 70%.

### **1.3.2 Critérios de sucesso da mineração de dados**

#### *Métodos para avaliação do modelo*
- A avaliação do modelo será baseada em uma combinação de métricas quantitativas e métodos subjetivos, garantindo uma análise abrangente do desempenho do modelo.

  - Acuracidade (Accuracy):

    - Medida global da performance do modelo, representando a proporção de previsões corretas (tanto para a classe "Yes" quanto "No") em relação ao total de previsões realizadas.

    - Meta: Acima de 70% de acerto.

  - Recall (Sensibilidade) para a Classe "Yes":

    - Mede a capacidade do modelo de identificar corretamente os casos de bullying (classe "Yes"), essencial para garantir que os alunos que realmente enfrentam bullying não sejam negligenciados.
    - Meta: Recall de 70% ou superior para a classe "Yes".

  - Precisão (Precision):

    - Avalia a proporção de predições positivas corretas em relação ao total de predições positivas feitas. Isso ajuda a medir a confiabilidade do modelo na previsão da classe "Yes".
    - Meta: A precisão deve ser alta o suficiente para garantir que as intervenções não sejam desnecessárias, mas também deve evitar falsos negativos.

  - F1-Score:

    - Uma métrica que combina precisão e recall, oferecendo uma avaliação balanceada entre os dois. Ideal para casos em que é importante minimizar tanto os falsos positivos quanto os falsos negativos.
    - Meta: F1-Score equilibrado que reflete boa performance geral do modelo.

  - AUC-ROC (Área sob a Curva ROC):

    - Mede a habilidade do modelo em discriminar entre as classes (bullying x não bullying). A curva ROC ajuda a avaliar a sensibilidade (recall) versus a especificidade do modelo.
  - Meta: AUC superior a 0.80, indicando uma boa discriminação entre as classes.


#### *Medidas subjetivas*
- Avaliar o quão facilmente o modelo pode ser interpretado e compreendido pelos stakeholders, como professores, psicólogos escolares e administradores. A clareza das decisões do modelo e a capacidade de explicar as previsões (como, por exemplo, quais variáveis influenciam a previsão) será crucial para a implementação prática.
Utilização Prática:

- Verificar se o modelo é aplicável e útil em situações reais. Isso inclui avaliar a facilidade de integração com os sistemas escolares e a aceitação dos resultados por parte dos profissionais que irão usar as previsões (professores, orientadores, etc.).
Impacto Social e Educacional:

- Avaliar o impacto do modelo na prevenção de bullying nas escolas. Isso pode incluir feedback qualitativo dos alunos, pais e educadores sobre a percepção de segurança na escola, além da eficácia das intervenções realizadas com base nas previsões do modelo.
Capacidade de Escalabilidade:

- Avaliar se o modelo pode ser escalado para diferentes escolas ou sistemas educacionais, levando em consideração a variabilidade de dados entre diferentes regiões ou tipos de escolas, mantendo um bom desempenho.
Feedback e Adoção:

- Coletar feedback contínuo das partes interessadas (professores, alunos, psicólogos) sobre a eficácia do modelo e sua aceitação. O modelo será considerado bem-sucedido se for amplamente adotado e se resultar em melhorias tangíveis na segurança escolar.

 ## ***1.4 Produzir Plano de Projeto***

### **1.4.1 Plano do Projeto**
| Fase                     | Data         | Responsáveis                                 |
|--------------------------|--------------|----------------------------------------------|
| **Business Understanding**  | 03/12/2024   | Ana                                          |
| **Data Understanding**      | 03/12/2024   | Iris, Camila                                 |
| **Data Preparation**        | 05/12/2024   | Elis                                         |
| **Análise dos Dados**       | 08/12/2024   | Claísa, Hanna, Lidiane                      |
| 4.1. Calcular a matriz de correlação para todas as variáveis numéricas e identificar as correlações mais fortes e mais fracas |  | Claísa |
| 4.2. Realizar análise exploratória dos dados categóricos, calcular a moda e as variáveis, utilizar recursos visuais e o teste qui-quadrado para avaliar a análise de correspondência | | Lidiane |
| 4.3. Plotar histogramas e boxplots para cada tipo de bullying, separados por gênero e idade | | Hanna |
| **Modeling**               | 11/12/2024   | Hanna, Isa                                   |
| 5.1. Construir um modelo de regressão logística para prever a probabilidade de um indivíduo sofrer bullying na escola, considerando como target: `Bullied_on_school_property_in_past_12_months` | | Elis |
| 5.2. Análise das variáveis mais relevantes no modelo | | Hanna |
| 5.3. Avaliar a performance do modelo utilizando métricas como Acurácia, Precisão, Recall, e plotar a matriz de confusão | |Isa |
| **Evaluation**             | 12/12/2024   | Isa                                          |
| **Subir no GitHub - Projeto Final** | 20/12/2024   | Elis Weiss                                  |
| **Criar roteiro do pitch para apresentações** | 15/12/2024   | Larissa                                     |
| **Criar Slide para gravação (20 minutos)** | 18/12/2024   | Larissa                                     |
| **Gravação do Projeto Final** | 19/12/2024   | Hanna, Lidiane, Larissa, Claísa, Elis, Isabella, Ana, Iris |
| **Entrega do Projeto Final** | 20/12/2024   | Elis    

### **1.4.2 Avaliação Inicial de Ferramentas e Técnicas**

- Para o diagnóstico do risco de bullying nas escolas, a técnica de **classificação** é a mais adequada, pois permite categorizar os alunos nas classes "sim" (sofreu bullying) e "não" (não sofreu bullying). Para este projeto, será utilizado o **Logistic Regression Classifier**, que é uma técnica amplamente utilizada para problemas de classificação binária.

 - O **Logistic Regression** é uma abordagem simples e eficaz para prever a probabilidade de ocorrência de um evento (no caso, o risco de sofrer bullying). Ele modela a relação entre as variáveis independentes e a probabilidade de uma resposta binária (1 ou 0) usando a função logística. Além disso, a regressão logística tem a vantagem de ser interpretável, o que facilita a análise dos coeficientes para entender a influência de cada variável.

- Vantagens da Regressão Logística:
  - **Interpretação Simples**: Facilita a compreensão de como as variáveis explicativas influenciam a probabilidade de sofrer bullying.
  - **Modelo Probabilístico**: Ao invés de simplesmente classificar, a regressão logística fornece a probabilidade de um aluno sofrer bullying.
  - **Desempenho em Modelos Lineares**: Funciona bem quando as relações entre as variáveis independentes e a variável dependente são aproximadamente lineares.

- O modelo será avaliado com base em métricas como **Acurácia**, **Precisão**, **Recall** e **F1-Score**, que ajudarão a verificar a eficácia do modelo em classificar corretamente os alunos que podem sofrer bullying.


# ***2. Estágio Dois – Compreensão dos Dados***



## 2.1 Relatório de dados inicial

Resultados:
- **Armazenamento dos Dados**: Os dados estão armazenados em uma pasta na nuvem, utilizando o Google Drive.
- **Importação dos Dados:** Os dados foram importados do Google Drive para o ambiente de trabalho no Google Colab.
- **Método Utilizado:** Foi utilizada a biblioteca google.colab para integração com o Google Drive e manipulação dos arquivos.
- **Criação do DataFrame:** Um DataFrame foi criado a partir de um arquivo do tipo CSV, método pd.read_csv('')
- **Nome do Arquivo:** O arquivo contendo os dados possui o nome Bullying_2018.csv.
- **Nome do dataframe original**: df_original

## 2.2 Descrever dados

### 2.2.1. Criação de Cópia do Dataframe Original


In [None]:
# Criar cópia do dataframe original
df = df_original.copy()

Resultados:
- **Criação de Cópia do DataFrame:** uma cópia do DataFrame original foi criada para realizar análises iniciais e desenvolver o processo de Data Understanding, garantindo a integridade dos dados originais.
- **Nome da cópia do dataframe:** df

### 2.2.2. Análises Iniciais

In [None]:
# Visualizar o dataframe
df

Unnamed: 0,record,Bullied_on_school_property_in_past_12_months,Bullied_not_on_school_property_in_past_12_months,Cyber_bullied_in_past_12_months,Custom_Age,Sex,Physically_attacked,Physical_fighting,Felt_lonely,Close_friends,Miss_school_no_permission,Other_students_kind_and_helpful,Parents_understand_problems,Most_of_the_time_or_always_felt_lonely,Missed_classes_or_school_without_permission,Were_underweight,Were_overweight,Were_obese
0,1,Yes,Yes,,13 years old,Female,0 times,0 times,Always,2,10 or more days,Never,Always,Yes,Yes,,,
1,2,No,No,No,13 years old,Female,0 times,0 times,Never,3 or more,0 days,Sometimes,Always,No,No,,,
2,3,No,No,No,14 years old,Male,0 times,0 times,Never,3 or more,0 days,Sometimes,Always,No,No,No,No,No
3,4,No,No,No,16 years old,Male,0 times,2 or 3 times,Never,3 or more,0 days,Sometimes,,No,No,No,No,No
4,5,No,No,No,13 years old,Female,0 times,0 times,Rarely,3 or more,0 days,Most of the time,Most of the time,No,No,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
56976,57091,No,Yes,No,16 years old,Male,0 times,4 or 5 times,Sometimes,3 or more,0 days,Sometimes,Sometimes,No,No,No,Yes,No
56977,57092,No,No,No,16 years old,Male,0 times,0 times,Rarely,1,0 days,Sometimes,Never,No,No,,,
56978,57093,No,No,No,16 years old,Male,0 times,0 times,Sometimes,3 or more,0 days,Rarely,Sometimes,No,No,,,
56979,57094,No,Yes,No,16 years old,Female,0 times,0 times,Sometimes,2,0 days,Most of the time,Rarely,No,No,,,


In [None]:
# Exibir das Informações do DataFrame
print("\nInformações sobre o DataFrame:\n")
df.info()


Informações sobre o DataFrame:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56981 entries, 0 to 56980
Data columns (total 18 columns):
 #   Column                                            Non-Null Count  Dtype 
---  ------                                            --------------  ----- 
 0   record                                            56981 non-null  int64 
 1   Bullied_on_school_property_in_past_12_months      56981 non-null  object
 2   Bullied_not_on_school_property_in_past_12_months  56981 non-null  object
 3   Cyber_bullied_in_past_12_months                   56981 non-null  object
 4   Custom_Age                                        56981 non-null  object
 5   Sex                                               56981 non-null  object
 6   Physically_attacked                               56981 non-null  object
 7   Physical_fighting                                 56981 non-null  object
 8   Felt_lonely                                       56981 non-null  object


Resultados:
- Utilizando o comando df.info(), as seguintes informações foram extraídas:

  - Número de Registros: O DataFrame contém 56.981 registros.
  - Número de Colunas: O DataFrame possui 18 colunas.
  - Tipos de Dados:
    - 1 variável do tipo numérico (int64): A coluna record contém valores inteiros.
    - 17 variáveis do tipo objeto (string): As demais colunas são de tipo texto, indicando que as variáveis possuem dados categóricos.
  - Ausência de Valores Nulos: Não há valores nulos nas colunas, garantindo que os dados estão completos para análise.

In [None]:
# Verificar a dimensões do DataFrame: Quantidade de Registros e Colunas
print("\nQuantidade de registros e colunas:")
df.shape


Quantidade de registros e colunas:


(56981, 18)

Resultados:
- Formato do Conjunto de Dados: O conjunto de dados foi fornecido como um arquivo CSV, contendo 18 colunas e 56.981 registros.
- Estrutura do DataFrame: O DataFrame gerado a partir do arquivo CSV possui 18 colunas, sendo 17 variáveis explicativas e 1 variável target.

In [None]:
# Exibir as colunas, chamar a (1) Função para listar e numerar colunas de um DataFrame verticalmente
exibir_colunas_verticalmente(df)

Colunas do DataFrame:

1. record
2. Bullied_on_school_property_in_past_12_months
3. Bullied_not_on_school_property_in_past_12_months
4. Cyber_bullied_in_past_12_months
5. Custom_Age
6. Sex
7. Physically_attacked
8. Physical_fighting
9. Felt_lonely
10. Close_friends
11. Miss_school_no_permission
12. Other_students_kind_and_helpful
13. Parents_understand_problems
14. Most_of_the_time_or_always_felt_lonely
15. Missed_classes_or_school_without_permission
16. Were_underweight
17. Were_overweight
18. Were_obese


Resultados:
- A renomeação das colunas é recomendada para garantir uma nomenclatura mais concisa e padronizada, facilitando a interpretação e análise dos dados. As colunas do DataFrame foram listadas e verificadas, com sugestões de renomeação para maior clareza. A tabela abaixo apresenta os nomes originais das colunas, suas versões renomeadas e uma breve descrição de cada uma:



| Nome Original                                           | Nome Renomeado                       |Descrição                                           |
|---------------------------------------------------------|------------------------------------|------------------------------------|
| record                                                  | record_id                          |código identificador
| Bullied_on_school_property_in_past_12_months            | bullied_at_school   |Sofreu bullying na propriedade da escola nos últimos 12 meses
| Bullied_not_on_school_property_in_past_12_months        | bullied_off_school  |sofreu bullying fora da propriedade da escola nos últimos 12_meses
| Cyber_bullied_in_past_12_months                         | cyberbullied        |Cyberbullying nos últimos 12 meses
| Custom_Age                                              | age                                |Idade
| Sex                                                     | sex                                |sexo
| Physically_attacked                                     | physically_attacked                |Ataque físico
| Physical_fighting                                       | physical_fighting                  |Briga Física
| Felt_lonely                                             | felt_lonely                        |Sentiu-se sozinho
| Close_friends                                           | close_friends                      |Amigos próximos
| Miss_school_no_permission                               | missed_school_no_permission        |Faltam à escola sem permissão
| Other_students_kind_and_helpful                         | students_kind_and_helpful             |Outros alunos gentis e prestativos
| Parents_understand_problems                             | parents_understand_problems        |Os pais entendem os problemas
| Most_of_the_time_or_always_felt_lonely                  | often_felt_lonely                  |Na maioria das vezes ou sempre se sentiu sozinho
| Missed_classes_or_school_without_permission             | missed_classes_no_permission       |Perdeu aulas ou escola sem permissão
| Were_underweight                                        | underweight                        |Estava abaixo do peso
| Were_overweight                                         | overweight                         |Estava acima do peso
| Were_obese                                              | obese                              |Estava obeso


#### 2.2.2.1. Conclusões e Avaliação dos Dados
Resultados:
- Adequação dos Dados aos Requisitos: O conjunto de dados contém variáveis relevantes para a análise de bullying, saúde e fatores sociais. Inicialmente, os registros parecem completos, atendendo aos requisitos estabelecidos. No entanto, será necessário aplicar análises mais detalhadas para avaliar a qualidade dos dados e garantir que atendam a todas as expectativas para as etapas subsequentes da análise.

## 2.3 Verifique a qualidade dos dados



### 2.3.1 Dados Duplicados

In [None]:
# Verificação de Duplicatas
linhas_duplicadas = df[df.duplicated()]
if len(linhas_duplicadas) > 0:
    print(f"Existem {len(linhas_duplicadas)} linhas duplicadas.")
else:
    print("Não foram encontradas linhas duplicadas.")

Não foram encontradas linhas duplicadas.


Resultados:
- **Verificação de Duplicatas**: Foi realizada a verificação de linhas duplicadas no DataFrame, com a análise de registros repetidos. O processo de verificação revelou que não há registros duplicados no conjunto de dados, confirmando a presença de um identificador único para cada linha (campo record).

### 2.3.2 Dados ausentes

In [None]:
# Criar tabela com os valores únicos e suas frequências

## Remover do DataFrame a coluna 'record'
df.drop('record', axis=1, inplace=True)

## Criar um dicionário de tabelas de frequências por coluna
valores_frequencias_por_coluna = {
    coluna: pd.DataFrame({
        'Valor': df[coluna].value_counts(dropna=False).index,
        'Frequência': df[coluna].value_counts(dropna=False).values
    }).reset_index(drop=True)
    for coluna in df.columns
}

## Exibir as tabelas com tabulate
for coluna, tabela in valores_frequencias_por_coluna.items():
    print(f"\nTabela de Frequência para a coluna:\n '{coluna}':")
    print(tabulate(tabela, headers='keys', tablefmt='pretty', showindex=False))



Tabela de Frequência para a coluna:
 'Bullied_on_school_property_in_past_12_months':
+-------+------------+
| Valor | Frequência |
+-------+------------+
|  No   |   43839    |
|  Yes  |   11903    |
|       |    1239    |
+-------+------------+

Tabela de Frequência para a coluna:
 'Bullied_not_on_school_property_in_past_12_months':
+-------+------------+
| Valor | Frequência |
+-------+------------+
|  No   |   44263    |
|  Yes  |   12229    |
|       |    489     |
+-------+------------+

Tabela de Frequência para a coluna:
 'Cyber_bullied_in_past_12_months':
+-------+------------+
| Valor | Frequência |
+-------+------------+
|  No   |   44213    |
|  Yes  |   12197    |
|       |    571     |
+-------+------------+

Tabela de Frequência para a coluna:
 'Custom_Age':
+-------------------------+------------+
|          Valor          | Frequência |
+-------------------------+------------+
|      14 years old       |   12946    |
|      15 years old       |   12812    |
|      16 y

Resultados:
- Ao observar as tabelas de frequência de todas as variáveis, foi possível identificar que algumas colunas apresentam uma quantidade significativa de células vazias. Esses valores ausentes podem ser de diferentes tipos, como NaN, espaços em branco ou até mesmo strings como "?" ou "N/A".
- Realizar um tratamento adequado para identificar e substituir os valores faltantes, espaços em branco, NaN, e valores como "?" ou "N/A" por NaN. Isso garantirá uma análise mais precisa e limpa, além de facilitar a aplicação de modelos de machine learning ou outras análises posteriores

In [None]:
# Identificar valores faltantes, espaços em branco, NaNs e strings como "?" ou "N/A"

## Substituir valores por valores nulos os dados que podem ser usados para representar dados ausentes (faltantes)
df.replace(['?', 'N/A', 'NA', 'n/a', ' '], np.NaN, inplace=True)

## Contar valores nulos
contar_nulos = df.isnull().sum().sort_values()

## Verificar percentual de valores nulos
percentual_nulos = ((contar_nulos / len(df)) * 100).round(2)

## Criar tabela com os valores nulos e suas porcentagens
resumo_colunas_nulos = pd.DataFrame({'Valores Faltantes': contar_nulos, 'Porcentagem (%)': percentual_nulos})

## Exibir resumo final
resumo_colunas_nulos

Unnamed: 0,Valores Faltantes,Porcentagem (%)
Custom_Age,108,0.19
Physically_attacked,240,0.42
Physical_fighting,268,0.47
Felt_lonely,366,0.64
Most_of_the_time_or_always_felt_lonely,366,0.64
Bullied_not_on_school_property_in_past_12_months,489,0.86
Sex,536,0.94
Cyber_bullied_in_past_12_months,571,1.0
Close_friends,1076,1.89
Bullied_on_school_property_in_past_12_months,1239,2.17


Resultados:
- Após a análise dos valores faltantes no conjunto de dados, verificou-se a seguinte distribuição de valores ausentes:
    - A variável 'Bullied_on_school_property_in_past_12_months' apresenta 2.17% de valores ausentes. Considerando que esta é a variável target (dependente), recomenda-se remover as células vazias para evitar qualquer viés no modelo de análise.
    - As variáveis explicativas, como 'Miss_school_no_permission', 'Other_students_kind_and_helpful', entre outras, possuem valores faltantes, com destaque para as variáveis relacionadas ao peso ('Were_underweight', 'Were_overweight', 'Were_obese') que possuem uma alta porcentagem de dados ausentes (36.73%). Para essas variáveis explicativas, sugere-se a substituição dos valores faltantes por 'No_answer', a fim de manter a consistência e a integridade dos dados para análise.
    


### 2.3.3 Outliers


Resultados:
- Como o conjunto de dados contém principalmente variáveis categóricas, a análise de outliers não se aplica. Outliers são típicos em variáveis numéricas, onde se busca identificar valores que estão significativamente distantes da maioria dos dados. Sendo assim, neste caso, não realizamos a análise de outliers

### 2.3.4. Relatório parcial de qualidades dos dados

In [None]:
# Resumo Final

# Verificar se há valores nulos(ausentes) nas colunas
dados_nulos = df.isnull().sum().reset_index()
dados_nulos.columns = ['Coluna', 'Valores ausentes']

# Exibir resumo
print("\nResumo Geral da Qualidade dos Dados\n")
print(f"Número total de registros: {df.shape[0]}")
print(f"Número total de colunas: {df.shape[1]}")
print(f"Número de colunas com valores ausentes: {dados_nulos[dados_nulos['Valores ausentes'] > 0].shape[0]}")
print(f"Linhas duplicadas: {len(linhas_duplicadas)}")



Resumo Geral da Qualidade dos Dados

Número total de registros: 56981
Número total de colunas: 17
Número de colunas com valores ausentes: 17
Linhas duplicadas: 0


Resultados:
- Número total de registros: 56.981
- Número total de colunas: 18
- Número de colunas com valores ausentes: 17
- Linhas duplicadas: 0

- Esses resultados indicam que, até o momento, os dados não apresentam problemas de duplicação e a quantidade de registros e colunas está dentro do esperado. A análise de valores ausentes será aprofundada nas etapas seguintes para garantir a consistência dos dados.

## 2.4 Exploração inicial de dados
Durante este estágio, você abordará questões de mineração de dados usando técnicas de consulta, visualização de dados e relatórios. Isso pode incluir:

- **Distribuição** de atributos-chave (por exemplo, o atributo de destino de uma tarefa de previsão)
- **Relacionamentos** entre pares ou pequenos números de atributos
- Resultados de **agregações simples**
- **Propriedades** de subpopulações significativas
- **Simples** análises estatísticas

Essas análises podem abordar diretamente seus objetivos de mineração de dados. Podem também contribuir ou aperfeiçoar a descrição dos dados e os relatórios de qualidade, e contribuir para a transformação e outras etapas de preparação dos dados necessárias para uma análise mais aprofundada.

- **Relatório de exploração de dados** - Descreva os resultados da sua exploração de dados, incluindo as primeiras descobertas ou hipóteses iniciais e seu impacto no restante do projeto. Se apropriado, você pode incluir gráficos aqui para indicar características dos dados que sugerem um exame mais aprofundado de subconjuntos de dados interessantes.

### 2.4.1 Distribuições  <a class="anchor" id="Distributions"></a>

In [None]:
# Distribuição de frequência da variável target sem substituir NaN
df['Bullied_on_school_property_in_past_12_months'].value_counts(normalize=True, dropna=False)

Unnamed: 0_level_0,proportion
Bullied_on_school_property_in_past_12_months,Unnamed: 1_level_1
No,0.769362
Yes,0.208894
,0.021744


Padrões e Insights:
- Alta prevalência de não bullying: A grande maioria dos alunos (77%) relatou não ter sofrido bullying na propriedade escolar, o que pode indicar um cenário positivo em relação ao ambiente escolar.

- Proporção significativa de vítimas: Cerca de 21% dos alunos relataram ter sido vítimas de bullying, o que é um número significativo e sugere a necessidade de ações para prevenir e combater o bullying nas escolas.

- Resposta ausente (2%): A taxa de respostas ausentes é baixa, mas ainda assim é importante considerar que alguns alunos podem não ter se sentido confortáveis para responder, o que pode refletir um viés na amostra. Isso também pode ser explorado em análises subsequentes.

- O conjunto de dados apresenta um desbalanceamento considerável entre as classes "No" e "Yes". Com 77% dos registros indicando "No" e 21% indicando "Yes", isso pode causar problemas em modelos de aprendizado de máquina (como modelos de classificação), uma vez que eles podem tender a prever a classe majoritária (No) em detrimento da classe minoritária (Yes).

- Estratégias como sobreamostragem (oversampling) ou subamostragem (undersampling) das classes, ou ainda o uso de técnicas como pesos de classe em modelos de aprendizado de máquina, podem ser aplicadas para lidar com esse desbalanceamento.

In [None]:
# Visualizar as distribuições de contagem utilizando Histograma para variáveis numéricas e gráfico de Barras para variáveis categóricas

## Definir valores para substituir valores ausentes
valor_NaN_numerico = 0  # Substitua com um valor numérico apropriado nas colunas com tipo de dados float ou int
valor_NaN_categorico  = 'No_answer'  # Para colunas categóricas

## Substituir valores nulos e plotar histogramas
for column in df.columns:
    # Se a coluna for numérica
    if df[column].dtype in ['int64', 'float64']:

        # Substituindo valores ausentes por valor_NaN_numerico
        df[column] = df[column].fillna(valor_NaN_numerico)

        # Plotar o histograma para colunas numéricas
        fig = px.histogram(
            df,
            x=column,
            title=f'Histograma de {column}',
            text_auto=True
            )
        fig.update_layout(bargap=0.2)  # Ajustar espaçamento entre barras
        fig.update_traces(texttemplate='%{text}', textposition='inside')  # Adicionar rótulos dentro das barras

    else:
        # Substituir valores nulos por valor_NaN_categorico para colunas não numéricas
        df[column] = df[column].fillna(valor_NaN_categorico)

        # Plotar gráfico de barras para colunas categóricas
        fig = px.bar(
            df[column].value_counts(),
            x=df[column].value_counts().index,
            y=df[column].value_counts().values,
            title=f'Contagem de valores para {column}',
            labels={'x': column, 'y': 'Contagem'},
            text=df[column].value_counts().values
            )

        fig.update_traces(texttemplate='%{text}', textposition='outside')  # Adicionar rótulos fora das barras

    fig.show()


Padrões e Insights:
- **Frequência de bullying:** A maioria dos alunos não relata ter sofrido bullying (seja na escola, fora da escola ou online), mas uma quantidade significativa ainda relatou algum tipo de bullying. Isso indica que o bullying é um problema presente, mas não universal entre os alunos.
- **Idade e sexo:** A maioria dos alunos está entre 13 e 16 anos, com uma ligeira predominância de meninas (feminino) na amostra.
- **Comportamentos de violência:** A maioria dos alunos não foi envolvida em ataques físicos ou brigas físicas. Isso sugere que, embora a violência física seja um problema, a maioria dos alunos não está diretamente envolvida.
- **Solidão e relações sociais:** A maioria dos alunos relatou nunca se sentir solitária, mas uma porção significativa relatou se sentir solitária em algum momento.
- **Saúde e peso:** A maioria dos alunos não estava abaixo do peso ou obesa, mas uma quantidade expressiva foi classificada como acima do peso.

In [None]:
# Visualizar as distribuições de contagem utilizando Histograma para variáveis numéricas e gráfico de Barras para variáveis categóricas

## Filtrar apenas os registros de quem sofreu bullying na escola (Yes)
df_bullied_yes = df[df['Bullied_on_school_property_in_past_12_months'] == 'Yes']

## Iterar sobre todas as colunas do DataFrame
for column in df_bullied_yes.columns:
    # Ignorar a coluna de bullying (já está sendo usada como filtro)
    if column == 'Bullied_on_school_property_in_past_12_months':
        continue

    # Substituir valores ausentes nas outras colunas
    if df_bullied_yes[column].dtype in ['int64', 'float64']:
        df_bullied_yes[column] = df_bullied_yes[column].fillna(0)  # Para colunas numéricas
    else:
        df_bullied_yes[column] = df_bullied_yes[column].fillna('No_answer')  # Para colunas categóricas

    # Criar gráfico de barras para variáveis categóricas
    if df_bullied_yes[column].dtype not in ['int64', 'float64']:
        fig = px.bar(
            df_bullied_yes[column].value_counts(),
            x=df_bullied_yes[column].value_counts().index,
            y=df_bullied_yes[column].value_counts().values,
            title=f'Contagem de valores para {column} para quem sofreu bullying na escola',
            labels={'x': column, 'y': 'Contagem'},
            text=df_bullied_yes[column].value_counts().values
        )
        fig.update_traces(texttemplate='%{text}', textposition='outside')  # Adicionar rótulos fora das barras
        fig.show()

Padrões e Insights:
- **Bullying não ocorre frequentemente em outras situações:** A maioria dos alunos que sofreram bullying na escola também não indicam ter sido vítimas de bullying fora da escola. No entanto, uma proporção considerável ainda reporta ter sofrido bullying em outros contextos, como o ciberbullying (aproximadamente 45% dos alunos).
- **Idade e Sexo:**
  - **Idade:** A maioria dos alunos que sofreram bullying está entre 13 e 15 anos, com a idade de 14 anos sendo a mais comum. Isso sugere que adolescentes em faixas etárias mais jovens são mais vulneráveis ao bullying, o que pode ser importante para direcionar intervenções específicas.
 - **Sexo:** A maior parte dos alunos que sofreram bullying são femininas. Esse dado pode refletir diferenças nos padrões de bullying entre sexos ou até mesmo um viés na forma como o bullying é percebido ou relatado pelos alunos de diferentes gêneros.

- **Ataques Físicos e Brigas:** Um número significativo de alunos relatou ter sido fisicamente atacado uma vez (cerca de 14%) e muitos também indicaram ter participado de brigas físicas (cerca de 16%).
As distribuições de "Ataques Físicos" e "Brigas Físicas" mostram que a maioria dos alunos relatou nenhum ataque ou briga, mas uma parte considerável (aproximadamente 10-20%) sofreu ou se envolveu em mais de uma situação.

- **Sentimentos de Solidão:** O sentimento de solidão também está presente em uma proporção considerável de estudantes que sofreram bullying, com destaque para os que indicaram sentir-se "algumas vezes" solitários (aproximadamente 30%). As classes "Sempre" e "Na maior parte do tempo" somam cerca de 15%, sugerindo que esses alunos podem estar enfrentando desafios emocionais significativos.

- **Amigos Próximos e Suporte Social:** A maioria dos estudantes relatou ter 3 ou mais amigos próximos (aproximadamente 60%). No entanto, há uma proporção significativa (cerca de 25%) que tem apenas 1 ou 2 amigos próximos, o que pode indicar uma rede de apoio limitada para esses alunos.

- **Falta de Permissão para Faltar à Escola:** A maioria dos alunos que sofreram bullying não faltou à escola sem permissão. No entanto, uma proporção significativa faltou de 1 a 2 dias (cerca de 18%). Esse dado sugere que a experiência de bullying pode afetar a presença escolar, embora a maioria continue frequentando a escola normalmente.

- **Ajuda de Outros Estudantes:** A maior parte dos estudantes relatou que outros alunos eram "às vezes" gentis e prestativos, com cerca de 25% também indicando que eram gentis "raramente" ou "na maior parte do tempo". Esse dado pode indicar que a cultura de apoio entre os colegas ainda não é plenamente desenvolvida nas escolas, o que pode ser um fator de risco para o bullying.

- **Problemas com os Pais:** A maioria dos alunos indicou que seus pais "nunca" entendem completamente seus problemas (aproximadamente 25%). Esse dado sugere uma lacuna significativa no apoio familiar, o que pode estar relacionado ao comportamento de bullying ou até mesmo a uma falta de recursos ou estratégias para lidar com problemas de bullying.

- **Questões de Peso e Saúde:** A grande maioria dos alunos que sofreram bullying não eram obesos ou com sobrepeso (aproximadamente 70-80%). No entanto, há uma proporção significativa de alunos que indicaram não ter respondido à pergunta sobre seu peso (aproximadamente 30-40%), o que pode ser um reflexo de insegurança ou desconforto com o tema.

In [None]:
# Gráfico de pizza para distribuição de gênero

fig = px.pie(df, names='Sex', title='Distribuição de Gênero',
             labels={'Sex': 'Gênero'},
             category_orders={'Sex': ['Female', 'Male', 'No_answer']})


fig.show()


Padrões e Insights:
- A distribuição de gênero entre feminino (51,5%) e masculino (47,5%) está muito próxima, indicando um equilíbrio nas representações de gênero na amostra. A diferença é de apenas 4%, o que sugere que os dados são razoavelmente representativos de ambos os gêneros.
- Apenas 0,941% das respostas estão marcadas como "No_answer", o que é um valor bastante baixo. Isso indica que a grande maioria dos participantes forneceu uma resposta para a variável de gênero, sugerindo que a pergunta foi clara e que a amostra tem uma boa cobertura de dados válidos.

In [None]:
# Visualizar grãfico de barras relacinando a coluna 'Bullied_on_school_property_in_past_12_months' e coluna 'sex'

## Definir a ordem desejada
ordem = ['No', 'Yes', 'No_answer']

## Transformar a coluna em tipo categórico com a ordem definida
df['Bullied_on_school_property_in_past_12_months'] = pd.Categorical(
    df['Bullied_on_school_property_in_past_12_months'],
    categories=ordem,
    ordered=True
)

## Calcular as contagens agrupadas por 'Bullied_on_school_property_in_past_12_months' e 'Sex'
contagens = df.groupby(['Bullied_on_school_property_in_past_12_months', 'Sex']).size().reset_index(name='count')

## Plotar gráfico de barras ordenado
fig = px.bar(
    contagens,
    x='Bullied_on_school_property_in_past_12_months',
    y='count',
    color='Sex',
    title='Distribuição de Bullying na Escola por Gênero',
    labels={
        'Bullied_on_school_property_in_past_12_months': 'Sofreu Bullying na Escola',
        'count': 'Contagem',
        'Sex': 'Gênero'
    },
    text='count'
)

fig.update_yaxes(type='log', title='Frequência (log)')

fig.update_layout(bargap=0.2)
fig.show()


Padrões e Insights:
- Prevalência de Respostas sobre Bullying:
  - 78,9% (43.839 indivíduos) não sofreram bullying.
  - 21,4% (11.903 indivíduos) relataram bullying, com destaque para mulheres (56,8% dos casos "Yes").
  - 2,2% (1.239 indivíduos) não responderam.
- Diferenças por Gênero:
  - Mulheres têm maior probabilidade de relatar bullying (23,5% contra 18,5% dos homens).
  - Homens apresentam maior proporção de respostas "No" (81,5% contra 76,5% das mulheres).
  - Grupo "No_answer": Menor proporção de respostas "Yes" (10,2%), sugerindo possível sub-representação ou desconforto em relatar experiências.

### 2.4.2 Correlações

In [None]:
# Exibir o gráfico de heatmap e (2) Chamar a Função para calcular a correlação de Cramér


## Selecionar colunas categóricas
categorical_columns = df.select_dtypes(include=['object', 'category']).columns

## Calcular a matriz de correlação de Cramér
corr_matrix = pd.DataFrame(
    np.zeros((len(categorical_columns), len(categorical_columns))),
    index=categorical_columns,
    columns=categorical_columns
)

for col1 in categorical_columns:
    for col2 in categorical_columns:
        if col1 == col2:
            corr_matrix.loc[col1, col2] = 1.0  # Auto-correlação como 1
        else:
            corr_matrix.loc[col1, col2] = cramers_v(df[col1], df[col2])


# Criar o heatmap
fig = px.imshow(
    corr_matrix,
    text_auto='.2f',  # Exibe os valores formatados
    color_continuous_scale='RdBu',  # Paleta de cores aceita pelo Plotly
    zmin=0, zmax=1,  # Intervalo do mapa de cores
    labels=dict(x="Variáveis", y="Variáveis", color="Correlação")  # Rótulos
)

fig.update_layout(
    title="Matriz de Correlação de Cramér entre Variáveis Categóricas",
    xaxis=dict(tickangle=45),  # Rotação dos rótulos do eixo x
    yaxis=dict(tickangle=0),  # Rotação dos rótulos do eixo y
    height=800,
    width=1000
)


fig.show()

Padrões e Insights:
- Correlação entre Tipos de Bullying:
  - Bullied_on_school_property_in_past_12_months e
  Bullied_not_on_school_property_in_past_12_months (0.33).
  - Bullied_on_school_property_in_past_12_months e Cyber_bullied_in_past_12_months (0.28).
  - Bullied_not_on_school_property_in_past_12_months e Cyber_bullied_in_past_12_months (0.39).
    - Isso sugere que estudantes vítimas de um tipo de bullying têm maior probabilidade de vivenciar outros tipos.

- Bullying e Sentimentos de Solidão:
  - Bullied_on_school_property_in_past_12_months e Felt_lonely (0.17).
  - Bullied_not_on_school_property_in_past_12_months e Felt_lonely (0.18).
  - Cyber_bullied_in_past_12_months e Felt_lonely (0.20).
    - Esses dados destacam a conexão entre bullying e sentimentos de isolamento social.
- Características Relacionadas a Gênero:
  - Cyber_bullied_in_past_12_months apresenta correlação com Sex (0.11), sugerindo que gênero pode influenciar a exposição ao cyberbullying.
- Comportamentos Agressivos:
  - Bullied_on_school_property_in_past_12_months e Physically_attacked (0.18).
  - Bullied_not_on_school_property_in_past_12_months e Physically_attacked (0.21).
    - Isso reflete uma conexão entre bullying e comportamentos físicos agressivos, destacando a necessidade de intervenções preventivas.
- Suporte Social e Escolar:
  - Other_students_kind_and_helpful correlaciona-se com:
  - Miss_school_no_permission (0.29): percepção de menor suporte social pode estar associada a faltas escolares.
  - Parents_understand_problems (0.31): percepção de suporte parental é importante na mitigação dos efeitos do bullying.
- Parâmetros Físicos (peso):
  - Correlações moderadas entre Were_underweight, Were_overweight e Were_obese (entre 0.71 e 0.77) sugerem uma relação entre os índices de peso corporal, mas sua associação com o bullying apresenta valores baixos, indicando impacto indireto ou menos significativo.

### 2.4.3. Análise básicas dos dados brutos

In [None]:
# Agrupando os dados para somar respostas de 'Yes' e 'No' por idade
df_agrupado = df.groupby(['Custom_Age', 'Bullied_on_school_property_in_past_12_months']).size().reset_index(name='count')

fig = px.bar(
    df_agrupado,
    x='Custom_Age',  # Idade no eixo X
    y='count',  # Contagem agregada no eixo Y
    color='Bullied_on_school_property_in_past_12_months',  # Respostas 'Yes', 'No'
    title="Distribuição de Idades por Experiência de Bullying na Escola",
    labels={
        'Custom_Age': 'Idade',
        'count': 'Quantidade',
        'Bullied_on_school_property_in_past_12_months': 'Experiência de Bullying'
    },
    barmode='group',  # Agrupando barras por categoria
    opacity=1.0  # Sem transparência
)

fig.update_layout(
    bargap=0.2,  # Ajusta espaço entre as barras
    xaxis=dict(title='Idade'),
    yaxis=dict(title='Número de Respostas')
)

fig.show()


Padrões e Insights:
- Em todas as faixas etárias, a maioria dos indivíduos indicam "No" (não sofreram bullying), com exceção de uma pequena parte dos casos em que a resposta foi "Yes" (sofreram bullying).
- Em várias faixas etárias, a categoria "No_answer" aparece com números consideráveis, especialmente em faixas etárias mais altas, como 13, 14, 15 e 16 anos.
- A maior parte dos casos de bullying ocorre nas faixas etárias de 13, 14 e 15 anos, com a quantidade de casos "Yes" sendo bastante alta em comparação com as outras opções.
- À medida que a idade aumenta, a quantidade de pessoas que sofreram bullying diminui. Isso é visível ao compararmos as faixas etárias de 13 anos, 14 anos e 15 anos com 17 anos e acima.


In [None]:
# Definir as colunas de bullying
colunas_bullying = [
    'Bullied_on_school_property_in_past_12_months',
    'Bullied_not_on_school_property_in_past_12_months',
    'Cyber_bullied_in_past_12_months'
]

# Criar um novo DataFrame com as colunas de bullying convertidas para binário
df_bullying_binario = df[colunas_bullying].apply(lambda x: x.map({'Yes': 1, 'No': 0, 'No_answer': -1})).astype(int)

# Quantificar os casos de bullying para cada tipo
bullying_data = df_bullying_binario[df_bullying_binario >= 0].sum()

# Calcular as proporções de "Yes", "No" e "No_answer" para cada tipo de bullying
proporcoes_bullying = df[colunas_bullying].apply(lambda x: x.value_counts(normalize=True).reindex(['Yes', 'No', 'No_answer'], fill_value=0))

# Contar quantas pessoas sofreram bullying em pelo menos um tipo
pessoas_com_bullying = (df_bullying_binario[df_bullying_binario >= 0].sum(axis=1) > 0)

# Quantidade de pessoas que sofreram bullying em pelo menos um tipo
quantidade_pessoas_com_bullying = pessoas_com_bullying.sum()

# Calcular a porcentagem
porcentagem_pessoas_com_bullying = (quantidade_pessoas_com_bullying / len(df)) * 100

# Exibir o resultado
print(f"\nQuantidade de pessoas que sofreram bullying em pelo menos um tipo: {quantidade_pessoas_com_bullying}")
print(f"Porcentagem de pessoas que sofreram bullying em pelo menos um tipo: {porcentagem_pessoas_com_bullying:.2f}%\n")

# Contar as pessoas que sofreram bullying em qualquer tipo
quantidade_pessoas_no_answer = df_bullying_binario.sum(axis=1).gt(0).sum()

# Contar as pessoas nas categorias de bullying (se alguma das colunas for 'Yes')
quantidade_pessoas_com_bullying = (df[colunas_bullying].apply(lambda x: 'Yes' in x.values, axis=1)).sum()

# Calcular os tamanhos para cada categoria
labels = ['Sofreram Bullying', 'Não Sofreram Bullying', 'No Answer']
sizes = [
    quantidade_pessoas_com_bullying,
    len(df) - quantidade_pessoas_com_bullying - quantidade_pessoas_no_answer,
    quantidade_pessoas_no_answer
]

# Criar gráfico de pizza
fig_pie_total = go.Figure(
    data=[go.Pie(labels=labels, values=sizes, hole=0.4, marker_colors=['green', 'red', 'gray'])]
)
fig_pie_total.update_layout(title_text='Porcentagem de Pessoas que Sofreram Bullying')
fig_pie_total.show()


Quantidade de pessoas que sofreram bullying em pelo menos um tipo: 22812
Porcentagem de pessoas que sofreram bullying em pelo menos um tipo: 40.03%



In [None]:

# Criar um gráfico de barras para os tipos de bullying
fig_bar = px.bar(
    x=bullying_data.index,
    y=bullying_data.values,
    labels={'x': 'Tipo de Bullying', 'y': 'Quantidade de Casos'},
    title='Quantidade de Casos por Tipo de Bullying'
)
fig_bar.update_traces(marker_color=['red','blue', 'green'], text=bullying_data.values, textposition='outside')
fig_bar.show()


In [None]:

# Criar gráficos de pizza para as proporções de "Yes", "No" e "No_answer" para cada tipo de bullying
for coluna in colunas_bullying:
    proporcoes = df[coluna].value_counts(normalize=True)
    fig_pie = go.Figure(
        data=[
            go.Pie(
                labels=proporcoes.index,
                values=proporcoes.values,
                hole=0.4,
                marker_colors=['green', 'red', 'gray']
            )
        ]
    )
    fig_pie.update_layout(title_text=f'Proporção de Respostas para {coluna.replace("_", " ")}')
    fig_pie.show()



In [None]:
# Contar as pessoas nas categorias
quantidade_pessoas_com_bullying = df[df['Bullied_on_school_property_in_past_12_months'] == 'Yes'].shape[0]
quantidade_pessoas_sem_bullying = df[df['Bullied_on_school_property_in_past_12_months'] == 'No'].shape[0]
quantidade_pessoas_no_answer = df[df['Bullied_on_school_property_in_past_12_months'] == 'No_answer'].shape[0]

# Calcular os tamanhos para cada categoria
labels = ['Sofreram Bullying', 'Não Sofreram Bullying', 'No Answer']
sizes = [quantidade_pessoas_com_bullying, quantidade_pessoas_sem_bullying, quantidade_pessoas_no_answer]

# Criar gráfico de pizza
fig_pie_total = go.Figure(
    data=[go.Pie(labels=labels, values=sizes, hole=0.4, marker_colors=['green', 'red', 'gray'])]
)
fig_pie_total.update_layout(title_text='Porcentagem de Pessoas que Sofreram Bullying')
fig_pie_total.show()

Resultados:

In [None]:
# Definir as colunas de bullying
colunas_bullying = [
    'Bullied_on_school_property_in_past_12_months',
    'Bullied_not_on_school_property_in_past_12_months',
    'Cyber_bullied_in_past_12_months'
]


# Verificar quantos tipos de bullying cada pessoa sofreu
bullying_contagem = df_bullying_binario.sum(axis=1)

# Contar quantos IDs têm 1, 2 ou 3 tipos de bullying
bullying_1 = (bullying_contagem == 1).sum()
bullying_2 = (bullying_contagem == 2).sum()
bullying_3 = (bullying_contagem == 3).sum()


In [None]:
porcentagem_bullying_1 = (bullying_1 / len(df)) * 100
porcentagem_bullying_2 = (bullying_2 / len(df)) * 100
porcentagem_bullying_3 = (bullying_3 / len(df)) * 100

In [None]:
# Gráfico de barras para número de pessoas que sofreram 1, 2 ou 3 tipos de bullying
fig_barras_bullying = go.Figure(data=[
    go.Bar(
        x=['1 tipo de bullying', '2 tipos de bullying', '3 tipos de bullying'],
        y=[bullying_1, bullying_2, bullying_3],
        marker_color=['green', 'orange', 'red']
    )
])
fig_barras_bullying.update_layout(
    title="Número de Pessoas que Sofreram 1, 2 ou 3 Tipos de Bullying",
    xaxis_title="Número de Tipos de Bullying",
    yaxis_title="Quantidade de Pessoas"
)
fig_barras_bullying.update_traces(texttemplate='%{y}', textposition='outside')
fig_barras_bullying.show()

# Gráfico de pizza para a porcentagem de pessoas que sofreram 1, 2 ou 3 tipos de bullying
labels_bullying = ['1 tipo de bullying', '2 tipos de bullying', '3 tipos de bullying']
sizes_bullying = [porcentagem_bullying_1, porcentagem_bullying_2, porcentagem_bullying_3]

fig_pizza_bullying = go.Figure(data=[go.Pie(labels=labels_bullying, values=sizes_bullying, hole=0.4, marker_colors=['green', 'orange', 'red'])])
fig_pizza_bullying.update_layout(title_text="Porcentagem de Pessoas que Sofreram 1, 2 ou 3 Tipos de Bullying")
fig_pizza_bullying.show()


Resultados:
- As quantidades de casos para os três tipos de bullying são muito próximas entre si, as quantidades de casos para os três tipos de bullying:
  - Bullying na propriedade escolar: 11.903 casos
  - Bullying fora da propriedade escolar: 12.229 casos
  - Cyberbullying: 12.197 casos

- A análise dos dados mostra que o bullying não se limita a um único contexto, mas se manifesta de formas diversas: em ambientes físicos, como a escola, e no espaço virtual (cyberbullying)


In [None]:
# Total de pessoas no DataFrame
total_pessoas = df.shape[0]

# Contar o total de pessoas que sofreram bullying (somente se a coluna for binária)
total_bullying = df_bullying_binario['Bullied_on_school_property_in_past_12_months'].sum()

# Contar o número de mulheres que sofreram bullying
mulheres_bullying = df_bullying_binario[
    (df_bullying_binario['Bullied_on_school_property_in_past_12_months'] == 1) &
    (df['Sex'] == 'Female')
].shape[0]

# Contar o número de homens que sofreram bullying
homens_bullying = df_bullying_binario[
    (df_bullying_binario['Bullied_on_school_property_in_past_12_months'] == 1) &
    (df['Sex'] == 'Male')
].shape[0]

# Calcular as porcentagens
percentual_bullying = (total_bullying / total_pessoas) * 100
percentual_mulheres_bullying = (mulheres_bullying / total_pessoas) * 100
percentual_homens_bullying = (homens_bullying / total_pessoas) * 100

In [None]:
# Dados para o gráfico
labels = ['Total de Bullying', 'Mulheres', 'Homens']
values = [total_bullying, mulheres_bullying, homens_bullying]
percentages = [percentual_bullying, percentual_mulheres_bullying, percentual_homens_bullying]

# Criar o gráfico de barras
fig_bullying_gender_bar = go.Figure(
    data=[go.Bar(
        x=labels,
        y=values,
        text=[f'{p:.2f}%' for p in percentages],
        textposition='auto',
        marker=dict(color=['red', 'pink', 'blue'])
    )]
)

# Atualizar layout
fig_bullying_gender_bar.update_layout(
    title_text='Total de Pessoas que Sofreram Bullying por Gênero na Escola',
    xaxis_title='Categoria',
    yaxis_title='Número de Pessoas',
    showlegend=False
)

# Exibir o gráfico
fig_bullying_gender_bar.show()


Resultados:
- Total de pessoas que sofreram bullying: 11.903, o que corresponde a 20,89% do total de pessoas no dataset.
- Total de mulheres que sofreram bullying: 6.761, o que corresponde a 11,87% do total de pessoas.
- Total de homens que sofreram bullying: 5.007, o que corresponde a 8,79% do total de pessoas.

## 2.5 Relatório de qualidade de dados

1. Integridade e Qualidade dos Dados:

  - Erros de digitação e entradas inválidas: Não foram detectados erros evidentes, como entradas inválidas ou inconsistências de digitação nas variáveis categóricas. O conjunto de dados parece estar livre de problemas óbvios de qualidade relacionados a esses aspectos.

2. Detecção de Outliers:

  - Variáveis Categóricas: Devido à natureza do conjunto de dados, composto principalmente por variáveis categóricas, não foi possível identificar outliers evidentes. As variáveis categóricas, por sua própria natureza, não apresentam a mesma possibilidade de detectar outliers de forma convencional como variáveis numéricas.
  - Variáveis Numéricas: No entanto, para variáveis numéricas como "Custom_Age" e "Close_friends", pode haver a presença de outliers, uma vez que essas variáveis possuem uma distribuição contínua. A análise de outliers para essas variáveis requereria uma avaliação mais detalhada, incluindo a utilização de métodos estatísticos como o Z-score ou o IQR (Intervalo Interquartílico).

3. Dados Ausentes:

  - Foi observada a presença de valores ausentes em diversas colunas, principalmente nas variáveis relacionadas ao peso ("Were_underweight", "Were_overweight", "Were_obese") e em informações sobre os pais ("Parents_understand_problems"). A ausência de dados pode comprometer a integridade da análise e a precisão de modelos preditivos.
  - Soluções para Dados Ausentes: Uma abordagem possível é a remoção de registros com valores ausentes, embora essa estratégia possa resultar em perda de informações significativas. Alternativamente, pode-se investigar padrões nos dados faltantes para entender se a ausência de dados segue alguma estrutura ou se é aleatória. Caso necessário, a criação de uma categoria específica como "Desconhecido" pode ser uma solução eficaz para lidar com esses valores ausentes sem perder dados críticos.

4. Correlação entre Variáveis:

  - A análise da matriz de correlação de Cramér revelou que algumas variáveis apresentam correlação forte entre si, indicando possíveis relações estruturais ou redundâncias no conjunto de dados.

  - Correlação entre "Were_underweight", "Were_overweight" e "Were_obese": Observou-se uma forte correlação entre as variáveis de peso, com estudantes classificados como "overweight" (acima do peso) frequentemente também sendo classificados como "obese" (obesos). Esse padrão sugere que as categorias "Were_overweight" e "Were_obese" podem estar sobrepondo-se, e, portanto, uma possível simplificação ou agregação dessas variáveis poderia melhorar a interpretação dos dados.

  - Correlação entre "Missed_classes_or_school_without_permission" e "Miss_school_no_permission": As variáveis mencionadas apresentam alta correlação, o que sugere que ambas podem estar capturando aspectos similares relacionados à ausência não autorizada nas aulas. Esta redundância indica a necessidade de uma revisão detalhada da definição de cada variável. Caso sejam redundantes, consolidá-las em uma única variável pode simplificar a análise e evitar a multiplicação desnecessária de variáveis.

  - Correlação entre "Felt_lonely" e outras variáveis emocionais/socialmente relacionadas: A correlação entre "Felt_lonely" e outras variáveis relacionadas ao estado emocional ou social do estudante também merece atenção. Pode ser necessário verificar a documentação do conjunto de dados para garantir que não haja duplicação ou erro de coleta, pois variáveis correlacionadas de forma significativa podem resultar em redundância e impactar negativamente a modelagem e a análise preditiva.

6. Ações Recomendadas:

  - A revisão da documentação do conjunto de dados é fundamental para garantir a precisão das variáveis e suas definições, especialmente em casos de correlação forte entre variáveis.
  - Variáveis redundantes devem ser consolidadas para evitar a duplicação de informações e melhorar a eficiência da análise.
  - Uma estratégia robusta para lidar com dados ausentes deve ser implementada, levando em consideração as características dos dados e os impactos da remoção ou imputação de valores.