# Proyecto

Objetivo: Analizar la seguridad de contraseñas con base en la lista de contraseñas y su frecuencia de uso

- Los problemas de clasificación predicen una lista ordenada o una clasificación de objetos, la manera en el que se realizó la consulta. Esto podría ser bastante práctico si lo que queremos es regresar la lista de contraseñas que alguien podría colocar al momento de ingresar su contraseña. 
- La clasificación predice una etiqueta y los problemas incluyen problemas binarios de "sí o no" como "si esta imagen es un corgi o un muffin de arándanos", así como problemas de clasificación múltiple como "si esto es bueno, malo o promedio". Con la clasificación, las respuestas correctas deben etiquetarse para que su algoritmo pueda aprender de ellas.
- Exactamente, que es lo que deseamos encontrar?
- Que tipo de visualizaciones se elige?

Fuente de la información:
1. Bruteforce Database Github
2. https://github.com/duyet/bruteforce-database
3. https://haveibeenpwned.com/Passwords **Pwned Passwords 20 GB.**
4. https://www.kaggle.com/search?q=passwords
5. https://github.com/robinske/password-data

Primero haremos una exploración de los datos:

In [56]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [57]:
data =pd.read_csv('passwords/pass (1).csv')
for i in range(2,100):
    filename = pd.read_csv('passwords/pass ('+str(i)+').csv')
    data = pd.concat([data,filename],axis=0)
data

Unnamed: 0,password,hash,count
0,1980290,083040BB6B1D95F2B8AC447B50D21DAB38DAFF16,13
1,tornadof,0A7709AD9837766F20156FF016ABF66F8036ABC1,13
2,vova87654,66221A7691CDC27D9D31071A0CFA0712C100C7D7,13
3,XpKvShrO,4CB7086C94AE4D82E519FF8F98D0DA1DA38DBE53,13
4,tvjgtl,9E1FD26A17D2EBE7C9FD4181EF49424C7091D484,13
...,...,...,...
6840,491144,4511C39CDA1EFE76964C79783B52053BA7CD09DD,69
6841,xeyfhm3477362341,E2EC663D721E9F22F5CF39D5AA27A89CE00172D0,69
6842,irontree4,350AA827594B47AF3BCB9256E2388EFB958C4529,69
6843,wh2t3v3r,221C76F1C2AD5883003AF5EB7A495A41580B87C5,69


## Perfilado de Datos

Para esto, vamos a ver algunas características de los datos, como sus valores nulos y duplicados.

In [58]:
data.isnull().sum()

password    2
hash        0
count       0
dtype: int64

In [59]:
data = data.dropna(axis=0)
data.isnull().sum()

password    0
hash        0
count       0
dtype: int64

Ahora, existen valores duplicados en cada documento, que son el conteo de contraseñas segmentado, por lo cual será adecuado sumar las cuentas de todos los duplicados
para obtener el número de veces que cada contraseña fue usada.

Adicionalmente, en este momento no haremos usos de las firmas hash, puesto que no son relevantes para nuestro caso de estudio

In [60]:
data = data.groupby(data['password']).agg({'count':sum}).reset_index()
print(data.shape)
data.head()

(677566, 2)


Unnamed: 0,password,count
0,!!!!!,401
1,!!!!!!,2304
2,!!!!!!!,386
3,!12345,312
4,!23456,347


## Exploración de los datos:

Veamos algunas de las contraseñas más utilizadas

In [61]:
data = data.sort_values(by='count',ascending=False)
data.head()

Unnamed: 0,password,count
43879,123456789,7016669
506981,qwerty,3599486
35227,111111,2900049
43856,12345678,2680521
223879,abc123,2670319


La cuenta de aquellas contraseñas que tienen únicamente valores numéricos:

In [62]:
# Variable que guardará el total de contraseñas con esta característica y las veces que fueron utilizadas
data_patrones = []

numeric = data[data['password'].str.isnumeric() == True].count()[0]
numeric_count_sum = data[data['password'].str.isnumeric() == True]['count'].sum()

print('Contraseñas formadas por números:')
print(numeric)
print('Suma del uso de contraseñas formadas por números')
print(numeric_count_sum)

data_patrones += 'Numeric only', numeric, numeric_count_sum

Contraseñas formadas por números:
142340
Suma del uso de contraseñas formadas por números
171260703


In [63]:
alpha = data[data['password'].str.isalpha() == True].count()[0]
alpha_count_sum = data[data['password'].str.isalpha() == True]['count'].sum()

print('Contraseñas formadas por letras:')
print(alpha)
print('Suma del uso de contraseñas formadas por letras')
print(alpha_count_sum)

data_patrones += 'Alpha only', alpha, alpha_count_sum

Contraseñas formadas por letras:
278189
Suma del uso de contraseñas formadas por letras
335503274


---
A continuación consideraremos que una contraseña corta es aquella con menos de 8 carácteres:

In [64]:
short_pass = data[data['password'].str.len() < 8].count()[0]
short_pass_count_sum = data[data['password'].str.len() < 8]['count'].sum()

print('Contraseñas cortas:')
print(short_pass)
print('Suma del uso de contraseñas cortas')
print(short_pass_count_sum)

data_patrones += 'Short Passwords', short_pass, short_pass_count_sum

Contraseñas cortas:
382452
Suma del uso de contraseñas cortas
477964360


---
Y analizamos aquellas que tienen carácteres poco comunes o poco usados, como guiones, signos de exclamación, etc.

In [65]:
special_chars = ['!','"','#','<','>','%','&','/','=',
                '(\?)','(\()','(\))',"'",'¡','¿','(\+)','~',']','}',
                '(\[)','{',',',';',':','(\.)','_','-','(\*)','(\^)']

special_chars = '|'.join(special_chars)
special_pass = data[data['password'].str.contains(special_chars) == True].count()[0]
special_pass_count_sum = data[data['password'].str.contains(special_chars) == True]['count'].sum()

print('Contraseñas cortas:')
print(special_pass)
print('Suma del uso de contraseñas cortas')
print(special_pass_count_sum)

data_patrones += 'Special Characters', special_pass, special_pass_count_sum

  return func(self, *args, **kwargs)


Contraseñas cortas:
2147
Suma del uso de contraseñas cortas
1977061


Siguientes pasos:
- Análisis de las frecuencias
- Generar métrica para el score para las contraseñas de acuerdo a su frecuencia
- Red neuronal Recurrente (?) para evaluar seguridad de una contraseña entrenada con las scores del punto anterior
- Hacer análisis mediante k-neighbors o kohonen para comparar
- Proponer contraseñas seguras (por definir método)

Ahora vamos a establecer una métrica para pasar de la cuenta de las contraseñas a una métrica de su seguridad, para esto se decide hacer un escalamiento estándar al inverso de la cuenta de contraseñas. Esto para darle una mayor scoring a aquellos que tienen menos apariciones.

In [71]:
from copy import copy

pass_count = data.iloc[:,1].values
pass_count = 1/pass_count
passes = copy(data.iloc[:,0].values.tolist())
#print(passes)

max_len_pass = 0 # Vamos guardando la longitud de contraseña más grande
min_string = 1000 # Guardamos el ASCII más pequeño que nos encontramos

for i in range(len(passes)):
    passes[i] = list(map(ord,list(passes[i])))
    if len(passes[i]) > max_len_pass:
        max_len_pass = len(passes[i])
    
    for letter_ascii in passes[i]:
        if letter_ascii < min_string:
            min_string = letter_ascii

min_string -= 1 # min_string será el valor para el espacio vacío

for i in range(len(passes)):
    n = len(passes[i])
    passes[i] = passes[i] + [min_string]*(max_len_pass-len(passes[i]))
    
    
passes = np.array(passes)
passes.shape

(677566, 27)

In [104]:
from sklearn.preprocessing import MinMaxScaler

ms = MinMaxScaler()
passes_std = ms.fit_transform(passes.reshape(-1,27))

def password_to_encode(password):
    '''
    Función que dada una contraseña, devuelve el encoding acomodado al tratamiento
    que tuvieron los datos de este documento.
    --------------------------------------------------------------
    :param password str: Cadena de texto que contiene la contraseña a convertir
    
    :returns array: Vector 27-dimensional codificado. 
    '''
    pass_vector = list(map(ord,list(password)))
    pass_vector += [min_string]*(max_len_pass-len(pass_vector))
    pass_vector = np.array(pass_vector)
    pass_vector = ms.transform(pass_vector.reshape(-1,27))
    
    return pass_vector
    
    

array([[ True,  True,  True,  True,  True,  True,  True,  True,  True,
         True,  True,  True,  True,  True,  True,  True,  True,  True,
         True,  True,  True,  True,  True,  True,  True,  True,  True]])

In [76]:
from sklearn.preprocessing import StandardScaler    
    

sc = StandardScaler()
pass_count_std = sc.fit_transform(pass_count.reshape(-1,1))
pass_count_std = pass_count_std.reshape(-1)

Ahora procederemos a hacer el intervalo que abarca el escalamiento, dividiendo en 50 bloques

In [77]:
minimo = min(pass_count_std)
maximo = max(pass_count_std)
intervalo = np.linspace(minimo,maximo)

Enseguida, se asigna una puntuación a las contraseñas en función a su posicionamiento en el escalamiento, siendo aquellos que se encuentran en la cola inferior, los que tienen peor seguridad, mientras los que estén en la cola superior, tendrán un score de 49, la máxima seguridad.

In [78]:
pass_security = np.zeros(len(pass_count_std))
intervalo_idx = 0
for i in range(len(pass_count_std)):
    while( intervalo[intervalo_idx] < pass_count_std[i]):
        intervalo_idx += 1
    pass_security[i] = intervalo_idx
pass_security = pass_security.astype(int)

In [79]:
print(passes.shape)

(677566, 27)


In [81]:
passwords = pd.DataFrame({'Password':data.iloc[:,0],'Security':pass_security})
passwords

Unnamed: 0,Password,Security
43879,123456789,0
506981,qwerty,1
35227,111111,1
43856,12345678,1
223879,abc123,1
...,...,...
657154,yzx2095,49
164115,80931194654,49
607352,wallygoo,49
387486,jackpudes1,49


Dividimos en set de entrenamiento y validación

In [91]:

from sklearn.preprocessing import OneHotEncoder

pass_security = pass_security.reshape(-1,1)
ohe = OneHotEncoder()
pass_security = ohe.fit_transform(pass_security).toarray()

In [97]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(passes_std, pass_security, test_size=0.2)

In [98]:
X_train.

(542052, 27)

In [99]:
y_train

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.]])

In [100]:
#passes_std.shape
#pass_security.reshape(-1,1)