<pre>
<img align="center" width="1000" src="https://raw.githubusercontent.com/andrelmfsantos/FIAP_2TDCPR_IA_MACHINE_LEARNING/main/images/fiap_header_google_colab.png">
</pre>

> * __Disciplina: Artificial Intelligence & Machine Learning__
* Prof. Ph.D. André Luis M.F. dos Santos:
  * [Linkedin](https://www.linkedin.com/in/andrelmfsantos/)
  * [Currículo Lattes](http://lattes.cnpq.br/1030756025619809)
  * [Google Citation](https://scholar.google.com/citations?user=2cj-0AUAAAAJ)
  * [ResearchGate](https://www.researchgate.net/profile/Andre-Luis-Marques-Ferreira-Dos-Santos)

# Introdução

**Sobre o dataset:**

Esse notebook foi desenvolvido para analisar um conjunto de dados disponível no Kaggle, criado por Shashwat Work, focado em detecção de phishing utilizando aprendizado de máquina. O dataset inclui diversas características de URLs que podem ser utilizadas para treinar modelos de machine learning a fim de identificar sites de phishing.

**Resumo do Script:**

Este script, originalmente gerado e executado no Google Colab, faz parte da disciplina "Artificial Intelligence & Machine Learning" ministrada pelo Professor André Santos na FIAP. O objetivo principal do script é realizar uma análise estatística descritiva de um conjunto de dados relacionado a URLs de phishing e legítimas.

* Pontos Principais:
  1. **Carregamento e Preparação dos Dados**: O script começa carregando um conjunto de dados, armazenado no Github, em formato CSV, e preparando os dados para análise.
  2. **Estatísticas Descritivas**: O foco principal do script é calcular estatísticas descritivas chave, incluindo média, mediana e moda, para diversas características dentro do conjunto de dados. Essas estatísticas ajudam a entender a distribuição e as tendências centrais dos dados.
  3. **Uso de Pandas**: O script depende da biblioteca Pandas para manipulação de dados e análise estatística.
  4. **Contexto Educacional**: O script tem um propósito educacional, demonstrando aos alunos como conduzir uma análise estatística descritiva no contexto de aprendizado de máquina e cibersegurança.

# Dicionário de variáveis

## Dicionário com descrições das variáveis:

1. **id**: Identificador único para cada registro.
2. **NumDots**: Número de pontos (.) na URL.
3. **SubdomainLevel**: Nível do subdomínio (quantidade de subdomínios).
4. **PathLevel**: Nível do caminho na URL (quantidade de segmentos).
5. **UrlLength**: Comprimento total da URL.
6. **NumDash**: Número de hífens (-) na URL.
7. **NumDashInHostname**: Número de hífens no nome do host.
8. **AtSymbol**: Presença do símbolo "@" na URL.
9. **TildeSymbol**: Presença do símbolo "~" na URL.
10. **NumUnderscore**: Número de sublinhados (_) na URL.
11. **NumPercent**: Número de símbolos de porcentagem (%) na URL.
12. **NumQueryComponents**: Número de componentes de consulta na URL.
13. **NumAmpersand**: Número de símbolos "&" na URL.
14. **NumHash**: Número de símbolos "#" na URL.
15. **NumNumericChars**: Número de caracteres numéricos na URL.
16. **NoHttps**: Indica se a URL não usa HTTPS (0: HTTPS presente, 1: HTTPS ausente).
17. **RandomString**: Indica a presença de strings aleatórias na URL.
18. **IpAddress**: Indica se a URL contém um endereço IP em vez de um nome de domínio.
19. **DomainInSubdomains**: Indica se o domínio principal aparece nos subdomínios.
20. **DomainInPaths**: Indica se o domínio principal aparece nos caminhos da URL.
21. **HttpsInHostname**: Indica se "https" está presente no nome do host.
22. **HostnameLength**: Comprimento do nome do host.
23. **PathLength**: Comprimento do caminho na URL.
24. **QueryLength**: Comprimento da consulta na URL.
25. **DoubleSlashInPath**: Indica a presença de "//" no caminho da URL.
26. **NumSensitiveWords**: Número de palavras sensíveis (como "login", "secure", etc.) na URL.
27. **EmbeddedBrandName**: Indica se o nome da marca está embutido na URL.
28. **PctExtHyperlinks**: Porcentagem de hiperlinks externos na página.
29. **PctExtResourceUrls**: Porcentagem de URLs de recursos externos na página.
30. **ExtFavicon**: Indica se o favicon (ícone) é externo.
31. **InsecureForms**: Indica se os formulários na página são inseguros.
32. **RelativeFormAction**: Indica se o "action" dos formulários é relativo (0: não, 1: sim).
33. **ExtFormAction**: Indica se o "action" dos formulários aponta para um URL externo.
34. **AbnormalFormAction**: Indica se o "action" dos formulários é anormal.
35. **PctNullSelfRedirectHyperlinks**: Porcentagem de hiperlinks que redirecionam para URLs nulas ou a si mesmos.
36. **FrequentDomainNameMismatch**: Indica se há uma discordância frequente no nome do domínio.
37. **FakeLinkInStatusBar**: Indica se há links falsos na barra de status.
38. **RightClickDisabled**: Indica se o clique com o botão direito do mouse está desabilitado.
39. **PopUpWindow**: Indica se janelas pop-up são usadas.
40. **SubmitInfoToEmail**: Indica se as informações do formulário são enviadas por e-mail.
41. **IframeOrFrame**: Indica a presença de iframes ou frames na página.
42. **MissingTitle**: Indica se a página não tem título.
43. **ImagesOnlyInForm**: Indica se o formulário contém apenas imagens.
44. **SubdomainLevelRT**: Nível do subdomínio após redirecionamento.
45. **UrlLengthRT**: Comprimento da URL após redirecionamento.
46. **PctExtResourceUrlsRT**: Porcentagem de URLs de recursos externos após redirecionamento.
47. **AbnormalExtFormActionR**: Indica se o "action" dos formulários externos é anormal após redirecionamento.
48. **ExtMetaScriptLinkRT**: Indica a presença de scripts ou links externos após redirecionamento.
49. **PctExtNullSelfRedirectHyperlinksRT**: Porcentagem de hiperlinks que redirecionam para URLs nulas ou a si mesmos após redirecionamento.
50. **CLASS_LABEL**: Rótulo da classe, onde 0 indica uma URL legítima e 1 indica uma URL de phishing.

# Variáveis para calcular a Média, Mediana e Moda

## Média, Mediana e Moda
Para calcular a média, mediana, moda e gerar histogramas, você deve focar nas variáveis numéricas contínuas ou discretas que fazem sentido para esse tipo de análise. Essas variáveis são numéricas e suas distribuições podem fornecer insights úteis sobre padrões em URLs de phishing.

As variáveis indicadas são:

1. **NumDots**: Número de pontos (.) na URL.
2. **SubdomainLevel**: Nível do subdomínio (quantidade de subdomínios).
3. **PathLevel**: Nível do caminho na URL (quantidade de segmentos).
4. **UrlLength**: Comprimento total da URL.
5. **NumDash**: Número de hífens (-) na URL.
6. **NumDashInHostname**: Número de hífens no nome do host.
7. **NumUnderscore**: Número de sublinhados (_) na URL.
8. **NumPercent**: Número de símbolos de porcentagem (%) na URL.
9. **NumQueryComponents**: Número de componentes de consulta na URL.
10. **NumAmpersand**: Número de símbolos "&" na URL.
11. **NumHash**: Número de símbolos "#" na URL.
12. **NumNumericChars**: Número de caracteres numéricos na URL.
13. **HostnameLength**: Comprimento do nome do host.
14. **PathLength**: Nível do caminho na URL (quantidade de segmentos).
15. **QueryLength**: Comprimento da consulta na URL.
16. **PctExtHyperlinks**: Porcentagem de hiperlinks externos na página.
17. **PctExtResourceUrls**: Porcentagem de URLs de recursos externos na página.
18. **PctNullSelfRedirectHyperlinks**: Porcentagem de hiperlinks que redirecionam para URLs nulas ou a si mesmos.
19. **PctExtNullSelfRedirectHyperlinksRT**: Porcentagem de hiperlinks que redirecionam para URLs nulas ou a si mesmos após redirecionamento.

## Moda

Para calcular a moda, é ideal utilizar variáveis que são categóricas ou que têm um número limitado de valores distintos. Nesse caso, as variáveis indicadas para calcular a moda seriam aquelas que tendem a ter repetições frequentes de valores específicos. Essas variáveis binárias ou categóricas são ideais para a moda, pois a moda representa o valor mais frequente em uma distribuição.

Algumas variáveis do dataset são:

1. **AtSymbol**: Indica a presença ou ausência do símbolo "@" na URL (valores possíveis: 0 ou 1).
2. **TildeSymbol**: Indica a presença ou ausência do símbolo "~" na URL (valores possíveis: 0 ou 1).
3. **NoHttps**: Indica se a URL não usa HTTPS (valores possíveis: 0 ou 1).
4. **RandomString**: Indica a presença de strings aleatórias na URL (valores possíveis: 0 ou 1).
5. **IpAddress**: Indica se a URL contém um endereço IP em vez de um nome de domínio (valores possíveis: 0 ou 1).
6. **DomainInSubdomains**: Indica se o domínio principal aparece nos subdomínios (valores possíveis: 0 ou 1).
7. **DomainInPaths**: Indica se o domínio principal aparece nos caminhos da URL (valores possíveis: 0 ou 1).
8. **HttpsInHostname**: Indica se "https" está presente no nome do host (valores possíveis: 0 ou 1).
9. **DoubleSlashInPath**: Indica a presença de "//" no caminho da URL (valores possíveis: 0 ou 1).
10. **EmbeddedBrandName**: Indica se o nome da marca está embutido na URL (valores possíveis: 0 ou 1).
11. **ExtFavicon**: Indica se o favicon (ícone) é externo (valores possíveis: 0 ou 1).
12. **InsecureForms**: Indica se os formulários na página são inseguros (valores possíveis: 0 ou 1).
13. **RelativeFormAction**: Indica se o "action" dos formulários é relativo (valores possíveis: 0 ou 1).
14. **ExtFormAction**: Indica se o "action" dos formulários aponta para um URL externo (valores possíveis: 0 ou 1).
15. **AbnormalFormAction**: Indica se o "action" dos formulários é anormal (valores possíveis: 0 ou 1).
16. **FrequentDomainNameMismatch**: Indica se há uma discordância frequente no nome do domínio (valores possíveis: 0 ou 1).
17. **FakeLinkInStatusBar**: Indica se há links falsos na barra de status (valores possíveis: 0 ou 1).
18. **RightClickDisabled**: Indica se o clique com o botão direito do mouse está desabilitado (valores possíveis: 0 ou 1).
19. **PopUpWindow**: Indica se janelas pop-up são usadas (valores possíveis: 0 ou 1).
20. **SubmitInfoToEmail**: Indica se as informações do formulário são enviadas por e-mail (valores possíveis: 0 ou 1).
21. **IframeOrFrame**: Indica a presença de iframes ou frames na página (valores possíveis: 0 ou 1).
22. **MissingTitle**: Indica se a página não tem título (valores possíveis: 0 ou 1).
23. **ImagesOnlyInForm**: Indica se o formulário contém apenas imagens (valores possíveis: 0 ou 1).
24. **CLASS_LABEL**: Rótulo da classe, onde 0 indica uma URL legítima e 1 indica uma URL de phishing (valores possíveis: 0 ou 1).

## Cálculo da média

In [None]:
# Média
#import pandas as pd

# Suponha que 'UrlLength' seja a coluna para a qual você deseja calcular a média:
#mean_value = df['UrlLength'].mean()
#print(f"A média da coluna 'UrlLength' é: {mean_value}")


### Comentários passo a passo:
- **`df['UrlLength']`**: Seleciona a coluna `'UrlLength'` do DataFrame `df`.
- **`.mean()`**: Calcula a média dos valores dessa coluna.
- **`mean_value`**: Armazena o valor da média calculada.

**Resumo:**
Este código calcula a média de todos os valores na coluna `'UrlLength'` do DataFrame `df` e armazena o resultado na variável `mean_value`. Em seguida, o valor da média é impresso.

## Cálculo da Mediana

In [None]:
# Mediana
#import pandas as pd

# Suponha que 'UrlLength' seja a coluna para a qual você deseja calcular a mediana
#median_value = df['UrlLength'].median()
#print(f"A mediana da coluna 'UrlLength' é: {median_value}")

### Comentários passo a passo:
- **`df['UrlLength']`**: Seleciona a coluna `'UrlLength'` do DataFrame `df`.
- **`.median()`**: Calcula a mediana dos valores dessa coluna.
- **`median_value`**: Armazena o valor da mediana calculada.

**Resumo:**
Este código calcula a mediana de todos os valores na coluna `'UrlLength'` do DataFrame `df` e armazena o resultado na variável `median_value`. Em seguida, o valor da mediana é impresso.

## Cálculo da Moda

In [None]:
# Moda
#import pandas as pd

# Suponha que 'AtSymbol' seja a coluna para a qual você deseja calcular a moda:
# mode_value = df['AtSymbol'].mode()[0]
# print(f"A moda da coluna 'AtSymbol' é: {mode_value}")

### Comentários passo a passo:

1. **`df['AtSymbol']`**:
   - Esta parte do código acessa a coluna chamada `'AtSymbol'` dentro do DataFrame `df`.
   - `df` é um DataFrame Pandas que contém os dados, e `'AtSymbol'` é o nome da coluna cujos valores você deseja analisar.

2. **`.mode()`**:
   - A função `.mode()` é chamada na série que foi selecionada (a coluna `'AtSymbol'`).
   - Esta função calcula a moda da coluna, que é o valor mais frequente dentro da coluna.
   - A função `.mode()` retorna uma série contendo todas as modas encontradas (se houver mais de uma).

3. **`[0]`**:
   - Como a função `.mode()` pode retornar múltiplas modas (caso mais de um valor tenha a mesma frequência), `[0]` é utilizado para selecionar o primeiro valor da série retornada.
   - Esse índice `[0]` garante que, mesmo que haja múltiplas modas, você está apenas pegando a primeira delas.

4. **`mode_value`**:
   - O resultado final, que é a moda (ou o valor mais frequente) da coluna `'AtSymbol'`, é armazenado na variável `mode_value`.

**Resumo:**
Este código calcula a moda da coluna `'AtSymbol'` no DataFrame `df` e armazena esse valor na variável `mode_value`. Se houver mais de uma moda, apenas a primeira será considerada.

# Dados

In [None]:
# Carregar bibliotecas
import numpy as np # biblioteca para manipular matrizes
import pandas as pd # biblioteca para manipular e tratar os dados

In [None]:
#import pandas as pd

# URL of the CSV file
url = "https://raw.githubusercontent.com/andrelmfsantos/FIAP_2TDCPR_IA_MACHINE_LEARNING/main/datasets/Phishing_Legitimate_full.csv"

# Load the CSV file into a DataFrame
df = pd.read_csv(url)

# Display the first few rows of the DataFrame to verify
df.head(10)


Unnamed: 0,id,NumDots,SubdomainLevel,PathLevel,UrlLength,NumDash,NumDashInHostname,AtSymbol,TildeSymbol,NumUnderscore,...,IframeOrFrame,MissingTitle,ImagesOnlyInForm,SubdomainLevelRT,UrlLengthRT,PctExtResourceUrlsRT,AbnormalExtFormActionR,ExtMetaScriptLinkRT,PctExtNullSelfRedirectHyperlinksRT,CLASS_LABEL
0,1,3,1,5,72,0,0,0,0,0,...,0,0,1,1,0,1,1,-1,1,1
1,2,3,1,3,144,0,0,0,0,2,...,0,0,0,1,-1,1,1,1,1,1
2,3,3,1,2,58,0,0,0,0,0,...,0,0,0,1,0,-1,1,-1,0,1
3,4,3,1,6,79,1,0,0,0,0,...,0,0,0,1,-1,1,1,1,-1,1
4,5,3,0,4,46,0,0,0,0,0,...,1,0,0,1,1,-1,0,-1,-1,1
5,6,3,1,1,42,1,0,0,0,0,...,1,1,0,1,1,1,1,-1,1,1
6,7,2,0,5,60,0,0,0,0,0,...,0,0,0,1,0,1,1,-1,-1,1
7,8,1,0,3,30,0,0,0,0,0,...,0,0,0,1,1,1,1,1,1,1
8,9,8,7,2,76,1,1,0,0,0,...,0,0,0,-1,-1,1,1,1,-1,1
9,10,2,0,2,46,0,0,0,0,0,...,0,0,0,1,1,1,1,-1,-1,1


In [None]:
# Característica da base
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 50 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   id                                  10000 non-null  int64  
 1   NumDots                             10000 non-null  int64  
 2   SubdomainLevel                      10000 non-null  int64  
 3   PathLevel                           10000 non-null  int64  
 4   UrlLength                           10000 non-null  int64  
 5   NumDash                             10000 non-null  int64  
 6   NumDashInHostname                   10000 non-null  int64  
 7   AtSymbol                            10000 non-null  int64  
 8   TildeSymbol                         10000 non-null  int64  
 9   NumUnderscore                       10000 non-null  int64  
 10  NumPercent                          10000 non-null  int64  
 11  NumQueryComponents                  10000 

# Análise Exploratória

In [None]:
# @title Subset

# CLASS_LABEL: Rótulo da classe, onde
#              0 indica uma URL legítima e
#              1 indica uma URL de phishing.

# Dividir o DataFrame em dois subconjuntos
df1 = df[df['CLASS_LABEL'] == 1] # phishing
df0 = df[df['CLASS_LABEL'] == 0] # legítima
df1.sample(5, random_state = 43)

Unnamed: 0,id,NumDots,SubdomainLevel,PathLevel,UrlLength,NumDash,NumDashInHostname,AtSymbol,TildeSymbol,NumUnderscore,...,IframeOrFrame,MissingTitle,ImagesOnlyInForm,SubdomainLevelRT,UrlLengthRT,PctExtResourceUrlsRT,AbnormalExtFormActionR,ExtMetaScriptLinkRT,PctExtNullSelfRedirectHyperlinksRT,CLASS_LABEL
4851,4852,2,0,4,62,1,0,0,0,0,...,0,0,0,1,0,1,1,-1,-1,1
3471,3472,3,2,5,110,5,4,0,0,0,...,1,0,0,0,-1,1,1,1,-1,1
4276,4277,3,0,1,39,0,0,0,0,0,...,0,1,0,1,1,1,1,1,1,1
3529,3530,2,1,4,36,0,0,0,0,0,...,1,0,0,1,1,-1,1,1,-1,1
1307,1308,2,0,3,45,0,0,0,0,0,...,0,0,0,1,1,1,-1,1,-1,1


In [None]:
# @title Média
#5. UrlLength: Comprimento total da URL.

# Média de todas as observações da base
mean_value = df['UrlLength'].mean()
print(f"A média da coluna 'UrlLength' é: {mean_value} (Todas URLs)")

# Média das URLs - Phishing
mean_value1 = df1['UrlLength'].mean()
print(f"A média da coluna 'UrlLength' é: {mean_value1} (URLs Phishing)")

# Média das URLs - Legítima
mean_value0 = df0['UrlLength'].mean()
print(f"A média da coluna 'UrlLength' é: {mean_value0} (URLs Legítima)")

A média da coluna 'UrlLength' é: 70.2641 (Todas URLs)
A média da coluna 'UrlLength' é: 67.7784 (URLs Phishing)
A média da coluna 'UrlLength' é: 72.7498 (URLs Legítima)


In [None]:
# @title Mediana
#5. UrlLength: Comprimento total da URL.

# Mediana de todas as observações da base
median_value = df['UrlLength'].median()
print(f"A mediana da coluna 'UrlLength' é: {median_value} (Todas URLs)")

# Mediana das URLs - Phishing
median_value1 = df1['UrlLength'].median()
print(f"A mediana da coluna 'UrlLength' é: {median_value1} (URLs Phishing)")

# Mediana das URLs - Legítima
median_value0 = df0['UrlLength'].median()
print(f"A mediana da coluna 'UrlLength' é: {median_value0} (URLs Legítima)")

A mediana da coluna 'UrlLength' é: 62.0 (Todas URLs)
A mediana da coluna 'UrlLength' é: 58.0 (URLs Phishing)
A mediana da coluna 'UrlLength' é: 68.0 (URLs Legítima)


In [None]:
# @title Moda
# 8. AtSymbol: Presença do símbolo "@" na URL.

# Moda de todas as observações da base
mode_value = df['AtSymbol'].mode()[0]
print(f"A moda da coluna 'AtSymbol' é: {mode_value} (Todas URLs)")

# Moda das URLs - Phishing
mode_value1 = df1['AtSymbol'].mode()[0]
print(f"A moda da coluna 'AtSymbol' é: {mode_value1} (URLs Phishing)")

# Moda das URLs - Legítima
mode_value0 = df0['AtSymbol'].mode()[0]
print(f"A moda da coluna 'AtSymbol' é: {mode_value0} (URLs Legítima)")

A moda da coluna 'AtSymbol' é: 0 (Todas URLs)
A moda da coluna 'AtSymbol' é: 0 (URLs Phishing)
A moda da coluna 'AtSymbol' é: 0 (URLs Legítima)


## Variância e Desvio Padrão
Para calcular a variância e o desvio padrão deve-se utilizar variáveis numéricas que possam fornecer insights sobre a dispersão dos dados em relação a URLs de phishing.

As variáveis recomendadas são aquelas que são contínuas ou discretas, o que permitirá uma análise significativa da dispersão.

Segue as variáveis mais adequadas para esse tipo de análise:

1. **UrlLength**: Comprimento total da URL.
2. **NumDots**: Número de pontos (.) na URL.
3. **SubdomainLevel**: Nível do subdomínio (quantidade de subdomínios).
4. **PathLevel**: Nível do caminho na URL (quantidade de segmentos).
5. **NumDash**: Número de hífens (-) na URL.
6. **NumDashInHostname**: Número de hífens no nome do host.
7. **NumUnderscore**: Número de sublinhados (_) na URL.
8. **NumPercent**: Número de símbolos de porcentagem (%) na URL.
9. **NumQueryComponents**: Número de componentes de consulta na URL.
10. **NumAmpersand**: Número de símbolos "&" na URL.
11. **NumHash**: Número de símbolos "#" na URL.
12. **NumNumericChars**: Número de caracteres numéricos na URL.
13. **HostnameLength**: Comprimento do nome do host.
14. **PathLength**: Comprimento do caminho na URL.
15. **QueryLength**: Comprimento da consulta na URL.
16. **PctExtHyperlinks**: Porcentagem de hiperlinks externos na página.
17. **PctExtResourceUrls**: Porcentagem de URLs de recursos externos na página.
18. **PctNullSelfRedirectHyperlinks**: Porcentagem de hiperlinks que redirecionam para URLs nulas ou a si mesmos.
19. **PctExtNullSelfRedirectHyperlinksRT**: Porcentagem de hiperlinks que redirecionam para URLs nulas ou a si mesmos após redirecionamento.

### Como calcular a variância e o desvio padrão

Exemplo para calcular a variância e o desvio padrão usando Pandas:

```python
import pandas as pd

# Calcular a variância de 'UrlLength'
variance_value = df['UrlLength'].var()
print(f"A variância da coluna 'UrlLength' é: {variance_value}")

# Calcular o desvio padrão de 'UrlLength'
std_dev_value = df['UrlLength'].std()
print(f"O desvio padrão da coluna 'UrlLength' é: {std_dev_value}")
```

### Observações:
- **Variância (`.var()`)**: Mede a dispersão dos dados em relação à média. Uma alta variância indica que os dados estão espalhados sobre uma ampla faixa de valores.
- **Desvio padrão (`.std()`)**: Representa a raiz quadrada da variância e fornece uma medida da quantidade de variação ou dispersão dos valores.

In [None]:
# @title Variância
#5. UrlLength: Comprimento total da URL.

# Variância de todas as observações da base
variance_value = df['UrlLength'].var()
print(f"A variância da coluna 'UrlLength' é: {variance_value.round(2)} (Todas URLs)")

# Variância das URLs - Phishing
variance_value1 = df1['UrlLength'].var()
print(f"A variância da coluna 'UrlLength' é: {variance_value1.round(2)} (URLs Phishing)")

# Variância das URLs - Legítima
variance_value0 = df0['UrlLength'].var()
print(f"A variância da coluna 'UrlLength' é: {variance_value0.round(2)} (URLs Legítima)")

A variância da coluna 'UrlLength' é: 1113.55 (Todas URLs)
A variância da coluna 'UrlLength' é: 1263.99 (URLs Phishing)
A variância da coluna 'UrlLength' é: 950.97 (URLs Legítima)


In [None]:
# @title Desvio Padrão
#5. UrlLength: Comprimento total da URL.

# Desvio Padrão de todas as observações da base
std_dev_value = df['UrlLength'].std()
print(f"O desvio padrão da coluna 'UrlLength' é: {std_dev_value.round(2)} (Todas URLs)")

# Desvio Padrão das URLs - Phishing
std_dev_value1 = df1['UrlLength'].std()
print(f"O desvio padrão da coluna 'UrlLength' é: {std_dev_value1.round(2)} (URLs Phishing)")

# Desvio Padrão das URLs - Legítima
std_dev_value0 = df0['UrlLength'].std()
print(f"O desvio padrão da coluna 'UrlLength' é: {std_dev_value0.round(2)} (URLs Legítima)")

O desvio padrão da coluna 'UrlLength' é: 33.37 (Todas URLs)
O desvio padrão da coluna 'UrlLength' é: 35.55 (URLs Phishing)
O desvio padrão da coluna 'UrlLength' é: 30.84 (URLs Legítima)


In [None]:
# Criando um DataFrame com os resultados
data = {
    'Statistics': ['Mediana', 'Mean', 'Variance','Standard Deviation'],
    'Phishing': [median_value1.round(2), mean_value1.round(2), variance_value1.round(2), std_dev_value1.round(2)],
    'Legítimo': [median_value0.round(2), mean_value0.round(2), variance_value0.round(2), std_dev_value0.round(2)]
}

result_df = pd.DataFrame(data)
result_df

Unnamed: 0,Statistics,Phishing,Legítimo
0,Mediana,58.0,68.0
1,Mean,67.78,72.75
2,Variance,1263.99,950.97
3,Standard Deviation,35.55,30.84


O coeficiente de variação (CV) é uma medida de dispersão relativa que indica a variabilidade de um conjunto de dados em relação à média. Ele é calculado como a razão entre o desvio padrão e a média, multiplicada por 100 para expressá-lo em porcentagem.

### Fórmula do Coeficiente de Variação (CV):

$
CV = \left(\frac{\text{Desvio Padrão}}{\text{Média}}\right) \times 100
$

### Como calcular o coeficiente de variação em Python:

Aqui está um exemplo de como calcular o CV para as colunas de phishing e legítimas:

```python
import pandas as pd

# Suponha que você já tenha calculado a média e o desvio padrão para Phishing e Legítimo

# Calculando o coeficiente de variação para Phishing
cv_phishing = (std_dev_value1 / mean_value1) * 100

# Calculando o coeficiente de variação para Legítimo
cv_legitimo = (std_dev_value0 / mean_value0) * 100

print(f"Coeficiente de Variação para Phishing: {cv_phishing}%")
print(f"Coeficiente de Variação para Legítimo: {cv_legitimo}%")
```

### Explicação:
- **`std_dev_value1`**: O desvio padrão para os dados de phishing.
- **`mean_value1`**: A média para os dados de phishing.
- **`cv_phishing`**: O coeficiente de variação para os dados de phishing, expresso em porcentagem.
- **`std_dev_value0`**: O desvio padrão para os dados legítimos.
- **`mean_value0`**: A média para os dados legítimos.
- **`cv_legitimo`**: O coeficiente de variação para os dados legítimos, expresso em porcentagem.

### Resumo:
- O CV é útil para comparar a variabilidade de diferentes conjuntos de dados com médias diferentes. Um CV mais alto indica maior variabilidade relativa em relação à média.
- Este cálculo é particularmente útil quando se compara a dispersão de URLs de phishing versus URLs legítimas para entender a estabilidade das características em cada grupo.

In [None]:
# @title Calculando o coeficiente de variação para Phishing
cv_phishing = (std_dev_value1 / mean_value1) * 100

# Calculando o coeficiente de variação para Legítimo
cv_legitimo = (std_dev_value0 / mean_value0) * 100

# Criando um DataFrame com os resultados
data = {
    'Statistics': ['Mediana', 'Mean', 'Variance', 'Standard Deviation', 'Coeficiente de Variação'],
    'Phishing': [median_value1.round(2), mean_value1.round(2), variance_value1.round(2), std_dev_value1.round(2), cv_phishing.round(2)],
    'Legítimo': [median_value0.round(2), mean_value0.round(2), variance_value0.round(2), std_dev_value0.round(2), cv_legitimo.round(2)]
}

result_df = pd.DataFrame(data)

# Exibindo o DataFrame final
result_df

Unnamed: 0,Statistics,Phishing,Legítimo
0,Mediana,58.0,68.0
1,Mean,67.78,72.75
2,Variance,1263.99,950.97
3,Standard Deviation,35.55,30.84
4,Coeficiente de Variação,52.45,42.39


# Homeworks

## Homework 1
* Instalar o Jupyter Notebook via Anaconda.
* Reproduzir esse Google Colab em um Jupyter Notebook.
* Selecionar 3 variáveis que você acredita ser promissora para análise de phishing:
  * Comente o motivo da escolha.
  * Determine a média e a mediana.
  * Dê suas considerações finais. Você acredita que fez uma boa escolha, ou seja, pelos resultados há evidências para identificar "phishing"?
* Dar um print do Jupyter Notebook na máquina local.
* Colar o print no notebook.
* Salvar o print em pdf.
* __Responda__: Quais as principais diferenças que você percebeu entre o Google Colab e o Jupyter Notebook? (Um parágrafo).

<font color="#FF0000">__Observações importantes__:</font>

* Enviar o pdf pelo Teams (até) antes do início da próxima aula **(21/08/2024)**.
* Na próxima aula você será convidado a **apresentar seus resultados para discussão**.

## Homework 2

* Reproduzir esse Notebook.
* Selecionar as mesmas 3 variáveis do exercício anterior e:
  * Determine a variância e o desvio padrão.
  * Dê suas considerações finais. A análise da variância e do desvio padrão reforçam suas conclusões do homework 1? (Deixe seus comentários direto no Notebook).
* Com base no que você já estou até agora na disciplina, qual o tipo de algoritmo você indica para a análise desses dados de phishing (justifique)?:
  * Supervisionado
  * Não supervisionado
  * Por reforço
  * Redes Neurais
* Criar um repositório aberto no Github e colocar o caminho na seção **Referências** no Notebook.
* Salvar o Notebook em pdf.

<font color="#FF0000">__Observações importantes__:</font>

* Enviar o pdf pelo Teams (até) antes do início da próxima aula **(28/08/2024)**.
* Na próxima aula você será convidado a **apresentar seus resultados para discussão**.

# Referências

* Santos, A. L. (2024). *FIAP 2TDCPR IA MACHINE LEARNING*. [Repositório GitHub](https://github.com/andrelmfsantos/FIAP_2TDCPR_IA_MACHINE_LEARNING).

* Pandas Development Team. (n.d.). *Pandas: Python Data Analysis Library*. Retrieved from [Pandas.org](https://pandas.pydata.org/).

* Tiwari S. 2021. [Phishing Dataset for Machine Learning](https://www.kaggle.com/datasets/shashwatwork/phishing-dataset-for-machine-learning?resource=download). Publish: Kaggle.

* Anaconda, Inc. (n.d.). Anaconda: The World's Most Popular Data Science Platform. Retrieved from [Anaconda.com](https://www.anaconda.com/
)

# Apêndice

In [None]:
# @title Instalar arquivos se necessário
#!pip install pandas
#!pip install numpy
#!pip install os

In [None]:
# @title Carregar bibliotecas (pacotes)

#import numpy as np # biblioteca para manipular matrizes
#import pandas as pd # biblioteca para manipular e tratar os dados
#import os # Biblioteca para interagir com o sistema operacional

In [None]:
# @title Apontar para pasta do arquivo

# Carregar arquivos localmente
#os.chdir('C:/Users/User/OneDrive/FAPESP_PATENTES/datasets') # Windowns
#os.chdir("/home/brow/Documents/FAPESP_PATENTES/datasets")   # Linux

In [None]:
# @title Ler arquivo localmente

#df = pd.read_csv("Phishing_Legitimate_full.csv")
#df.head()