
# S05_T01: Transformació Registre Log amb Regular expressions
## Descripció:
L'anàlisi de registres és una funció important per al control i l'alerta, el compliment de les polítiques de seguretat, l'auditoria i el compliment normatiu, la resposta a incidents de seguretat i fins i tot les investigacions forenses. En analitzar les dades de registre, les empreses poden identificar més fàcilment les possibles amenaces i altres problemes, trobar la causa arrel i iniciar una resposta ràpida per mitigar els riscos.

## Nivell 1:
L'analista ha d'assegurar-se que els registres consisteixen en una gamma completa de missatges i s'interpreten segons el context. Els elements de registre han d'estandaritzar-se, utilitzant els mateixos termes o terminologia, per evitar confusions i proporcionar cohesió.

Com Científic de Dades se t'ha proporcionat accés als registres-Logs on queda registrada l'activitat de totes les visites a realitzades a la pàgina web de l'agència de viatges "akumenius.com".




### Exercici 1:
Estandaritza, identifica i enumera cada un dels atributs / variables de l'estructura de l'arxiu "Web_access_log-akumenius.com" que trobaràs al repositori de GitHub "Data-sources".

In [1]:
# Importamos las librerias:
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

In [2]:
# Abrimos los registros-logs proporcionados
dflog = pd.read_table(r'..\..\Data-Science\Data-sources\Web_access_log-akumenius.com.txt', names=['Registros'])
# Añadimos la siguiente configuración para poder visualizar todos los datos de las tablas:
pd.set_option('display.max_columns', None)
dflog

Unnamed: 0,Registros
0,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...
1,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...
2,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...
3,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...
4,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...
...,...
261868,www.akumenius.com 5.255.253.53 - - [02/Mar/201...
261869,www.akumenius.com 74.86.158.107 - - [02/Mar/20...
261870,localhost 127.0.0.1 - - [02/Mar/2014:03:10:18 ...
261871,localhost 127.0.0.1 - - [02/Mar/2014:03:10:18 ...


In [3]:
# Separaremos la información en diferentes columnas. Empezamos por lo que parece el punto de entrada del registro. Añadimos una columna "Origen" y otra "IP", con el n = 2 del split
dflogs = dflog['Registros'].str.split(' ', n=2, expand=True) #Usamos un df de soporte. "logs" 

dflog['Origen'] = dflogs[0]
dflog['IP'] = dflogs[1]
dflog

Unnamed: 0,Registros,Origen,IP
0,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1
1,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1
2,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1
3,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1
4,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1
...,...,...,...
261868,www.akumenius.com 5.255.253.53 - - [02/Mar/201...,www.akumenius.com,5.255.253.53
261869,www.akumenius.com 74.86.158.107 - - [02/Mar/20...,www.akumenius.com,74.86.158.107
261870,localhost 127.0.0.1 - - [02/Mar/2014:03:10:18 ...,localhost,127.0.0.1
261871,localhost 127.0.0.1 - - [02/Mar/2014:03:10:18 ...,localhost,127.0.0.1


In [4]:
# Eliminamos este primer split de la tabla de soporte:
dflogs.drop(dflogs.columns[[0,1]], axis=1, inplace=True)
dflogs

Unnamed: 0,2
0,"- - [23/Feb/2014:03:10:31 +0100] ""OPTIONS * HT..."
1,"- - [23/Feb/2014:03:10:31 +0100] ""OPTIONS * HT..."
2,"- - [23/Feb/2014:03:10:31 +0100] ""OPTIONS * HT..."
3,"- - [23/Feb/2014:03:10:31 +0100] ""OPTIONS * HT..."
4,"- - [23/Feb/2014:03:10:31 +0100] ""OPTIONS * HT..."
...,...
261868,"- - [02/Mar/2014:03:05:39 +0100] ""GET / HTTP/1..."
261869,"- - [02/Mar/2014:03:09:52 +0100] ""HEAD / HTTP/..."
261870,"- - [02/Mar/2014:03:10:18 +0100] ""OPTIONS * HT..."
261871,"- - [02/Mar/2014:03:10:18 +0100] ""OPTIONS * HT..."


In [5]:
# Vamos con la fecha. Con la expresión '\[(.*?)\]', extraeremos lo que haya dentro de los corchetes en una nueva columna "Fecha" en dflog
dflog['Fecha'] = dflogs[2].str.extract(r'\[(.*?)\]', expand = True)
dflog

Unnamed: 0,Registros,Origen,IP,Fecha
0,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1,23/Feb/2014:03:10:31 +0100
1,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1,23/Feb/2014:03:10:31 +0100
2,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1,23/Feb/2014:03:10:31 +0100
3,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1,23/Feb/2014:03:10:31 +0100
4,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1,23/Feb/2014:03:10:31 +0100
...,...,...,...,...
261868,www.akumenius.com 5.255.253.53 - - [02/Mar/201...,www.akumenius.com,5.255.253.53,02/Mar/2014:03:05:39 +0100
261869,www.akumenius.com 74.86.158.107 - - [02/Mar/20...,www.akumenius.com,74.86.158.107,02/Mar/2014:03:09:52 +0100
261870,localhost 127.0.0.1 - - [02/Mar/2014:03:10:18 ...,localhost,127.0.0.1,02/Mar/2014:03:10:18 +0100
261871,localhost 127.0.0.1 - - [02/Mar/2014:03:10:18 ...,localhost,127.0.0.1,02/Mar/2014:03:10:18 +0100


In [6]:
# Ahora extraeremos la última "columna" de los registros con rsplit
a = dflogs[2].str.rsplit(n = 1, expand = False)
dflog['Last'] = a[0][1] # seguramente haya alguna otra forma más eficiente de realizar este paso
del a
dflogs

Unnamed: 0,2
0,"- - [23/Feb/2014:03:10:31 +0100] ""OPTIONS * HT..."
1,"- - [23/Feb/2014:03:10:31 +0100] ""OPTIONS * HT..."
2,"- - [23/Feb/2014:03:10:31 +0100] ""OPTIONS * HT..."
3,"- - [23/Feb/2014:03:10:31 +0100] ""OPTIONS * HT..."
4,"- - [23/Feb/2014:03:10:31 +0100] ""OPTIONS * HT..."
...,...
261868,"- - [02/Mar/2014:03:05:39 +0100] ""GET / HTTP/1..."
261869,"- - [02/Mar/2014:03:09:52 +0100] ""HEAD / HTTP/..."
261870,"- - [02/Mar/2014:03:10:18 +0100] ""OPTIONS * HT..."
261871,"- - [02/Mar/2014:03:10:18 +0100] ""OPTIONS * HT..."


In [7]:
# Nos falta extraer la información que aparece entrecomillada. Parece que puede haber diferente número de "grupos"
# para extraer lo de dentro de las comillas: r'([\"\'])(.*?)\1' 
dflog[["Texto 1", "Texto 2", "Texto 3", "Texto 4"]] = pd.DataFrame(dflogs[2].str.findall(r'([\"\'])(.*?)\1').tolist())
dflog["Puerto"] = pd.DataFrame(dflogs[2].str.findall(r' \d+')) # con este extraemos los "puertos" que aparecen fuera de los encomillados
print(dflog.info())
dflog.loc[50:70]

#Haciendolo de esta manera, nos ha generado listas en las columnas del dataframe. Esto lo corregiremos después


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 261873 entries, 0 to 261872
Data columns (total 10 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   Registros  261873 non-null  object
 1   Origen     261873 non-null  object
 2   IP         261873 non-null  object
 3   Fecha      261873 non-null  object
 4   Last       261873 non-null  object
 5   Texto 1    261873 non-null  object
 6   Texto 2    261873 non-null  object
 7   Texto 3    261873 non-null  object
 8   Texto 4    2 non-null       object
 9   Puerto     261873 non-null  object
dtypes: object(10)
memory usage: 20.0+ MB
None


Unnamed: 0,Registros,Origen,IP,Fecha,Last,Texto 1,Texto 2,Texto 3,Texto 4,Puerto
50,www.akumenius.com 66.249.76.216 - - [23/Feb/20...,www.akumenius.com,66.249.76.216,23/Feb/2014:03:11:15 +0100,VLOG=-,"("", GET /hoteles-baratos/ofertas-hotel-Hilton-...","("", -)","("", Mozilla/5.0 (compatible; Googlebot/2.1; +h...",,"[ 404, 3100]"
51,www.akumenius.com 66.249.76.216 - - [23/Feb/20...,www.akumenius.com,66.249.76.216,23/Feb/2014:03:11:16 +0100,VLOG=-,"("", GET /destinos-baratos/destinosEstrelles/ho...","("", -)","("", Mozilla/5.0 (compatible; Googlebot/2.1; +h...",,"[ 200, 8817]"
52,www.akumenius.com 66.249.76.216 - - [23/Feb/20...,www.akumenius.com,66.249.76.216,23/Feb/2014:03:11:17 +0100,VLOG=-,"("", GET /hoteles-baratos/ofertas-hotel-Luna-Al...","("", -)","("", Mozilla/5.0 (compatible; Googlebot/2.1; +h...",,"[ 200, 6118]"
53,www.akumenius.com 66.249.76.216 - - [23/Feb/20...,www.akumenius.com,66.249.76.216,23/Feb/2014:03:11:20 +0100,VLOG=-,"("", GET /hoteles-baratos/ofertas-hotel-Cisnero...","("", -)","("", Mozilla/5.0 (compatible; Googlebot/2.1; +h...",,"[ 404, 3100]"
54,www.akumenius.com 66.249.76.216 - - [23/Feb/20...,www.akumenius.com,66.249.76.216,23/Feb/2014:03:11:22 +0100,VLOG=-,"("", GET /hoteles-baratos/ofertas-hoteles-todo-...","("", -)","("", Mozilla/5.0 (compatible; Googlebot/2.1; +h...",,"[ 200, 6708]"
55,www.akumenius.com 66.249.76.216 - - [23/Feb/20...,www.akumenius.com,66.249.76.216,23/Feb/2014:03:11:23 +0100,VLOG=-,"("", GET /destinos-baratos/destinosEstrelles/ho...","("", -)","("", Mozilla/5.0 (compatible; Googlebot/2.1; +h...",,"[ 200, 8812]"
56,www.akumenius.com 66.249.76.216 - - [23/Feb/20...,www.akumenius.com,66.249.76.216,23/Feb/2014:03:11:25 +0100,VLOG=-,"("", GET /hoteles-baratos/ofertas-hoteles-todo-...","("", -)","("", Mozilla/5.0 (compatible; Googlebot/2.1; +h...",,"[ 200, 5645]"
57,www.akumenius.com 66.249.76.216 - - [23/Feb/20...,www.akumenius.com,66.249.76.216,23/Feb/2014:03:11:27 +0100,VLOG=-,"("", GET /hoteles-baratos/ofertas-hoteles-todo-...","("", -)","("", Mozilla/5.0 (compatible; Googlebot/2.1; +h...",,"[ 200, 6144]"
58,www.akumenius.com 66.249.76.216 - - [23/Feb/20...,www.akumenius.com,66.249.76.216,23/Feb/2014:03:11:27 +0100,VLOG=-,"("", GET /destinosEstrelles/hoteles-en-Muchamie...","("", -)","("", Mozilla/5.0 (compatible; Googlebot/2.1; +h...",,"[ 200, 8806]"
59,www.akumenius.com 66.249.76.216 - - [23/Feb/20...,www.akumenius.com,66.249.76.216,23/Feb/2014:03:11:29 +0100,VLOG=-,"("", GET /hoteles-baratos/ofertas-hoteles-todo-...","("", -)","("", Mozilla/5.0 (compatible; Googlebot/2.1; +h...",,"[ 200, 4261]"


## Nivell 2:



### - Exercici 2
Neteja, preprocesa, estructura i transforma (dataframe) les dades del registre d'Accés a la web.

In [8]:
# Vamos a cambiar el tipo de la información de la columna "Fecha". Ahora mismo es un str, para poder trabajar a posteriori lo cambiaremos a date
type(dflog["Fecha"][0])

str

In [9]:
# El formato actual es: 23/Feb/2014:03:11:15 +0100, para transformarlo utilizaremos el formato siguiente: '%d/%b/%Y:%H:%M:%S %z'
dflog["Fecha"] = pd.to_datetime(dflog["Fecha"], format = r'%d/%b/%Y:%H:%M:%S %z')
dflog

Unnamed: 0,Registros,Origen,IP,Fecha,Last,Texto 1,Texto 2,Texto 3,Texto 4,Puerto
0,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
1,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
2,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
3,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
4,localhost 127.0.0.1 - - [23/Feb/2014:03:10:31 ...,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
...,...,...,...,...,...,...,...,...,...,...
261868,www.akumenius.com 5.255.253.53 - - [02/Mar/201...,www.akumenius.com,5.255.253.53,2014-03-02 03:05:39+01:00,VLOG=-,"("", GET / HTTP/1.1)","("", -)","("", Mozilla/5.0 (compatible; YandexBot/3.0; +h...",,"[ 200, 7528]"
261869,www.akumenius.com 74.86.158.107 - - [02/Mar/20...,www.akumenius.com,74.86.158.107,2014-03-02 03:09:52+01:00,VLOG=-,"("", HEAD / HTTP/1.1)","("", -)","("", Mozilla/5.0+(compatible; UptimeRobot/2.0; ...",,[ 200]
261870,localhost 127.0.0.1 - - [02/Mar/2014:03:10:18 ...,localhost,127.0.0.1,2014-03-02 03:10:18+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
261871,localhost 127.0.0.1 - - [02/Mar/2014:03:10:18 ...,localhost,127.0.0.1,2014-03-02 03:10:18+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]


In [10]:
# Eliminaremos la columna "Registros"
dflog = dflog.drop("Registros", axis = 1)
dflog

Unnamed: 0,Origen,IP,Fecha,Last,Texto 1,Texto 2,Texto 3,Texto 4,Puerto
0,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
1,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
2,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
3,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
4,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
...,...,...,...,...,...,...,...,...,...
261868,www.akumenius.com,5.255.253.53,2014-03-02 03:05:39+01:00,VLOG=-,"("", GET / HTTP/1.1)","("", -)","("", Mozilla/5.0 (compatible; YandexBot/3.0; +h...",,"[ 200, 7528]"
261869,www.akumenius.com,74.86.158.107,2014-03-02 03:09:52+01:00,VLOG=-,"("", HEAD / HTTP/1.1)","("", -)","("", Mozilla/5.0+(compatible; UptimeRobot/2.0; ...",,[ 200]
261870,localhost,127.0.0.1,2014-03-02 03:10:18+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]
261871,localhost,127.0.0.1,2014-03-02 03:10:18+01:00,VLOG=-,"("", OPTIONS * HTTP/1.0)","("", -)","("", Apache (internal dummy connection))",,[ 200]


In [11]:
# Como hemos comentado antes, tal y cómo hemos hecho la extracción de datos nos ha generado listas en algunas columnas. Vamos a corregirlo (habrá maneras más eficientes de hacerlo)
a = dflog['Texto 1'].apply(pd.Series) 
a.describe() # comprobamos que el primer valor de la lista era siempre una comilla, por lo que descartamos la primera columna de "a"

Unnamed: 0,0,1
count,261873,261873
unique,1,66764
top,"""",OPTIONS * HTTP/1.0
freq,261873,13892


In [12]:
# y sustituimos en el df original
dflog['Texto 1'] = a[1]
dflog

Unnamed: 0,Origen,IP,Fecha,Last,Texto 1,Texto 2,Texto 3,Texto 4,Puerto
0,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,OPTIONS * HTTP/1.0,"("", -)","("", Apache (internal dummy connection))",,[ 200]
1,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,OPTIONS * HTTP/1.0,"("", -)","("", Apache (internal dummy connection))",,[ 200]
2,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,OPTIONS * HTTP/1.0,"("", -)","("", Apache (internal dummy connection))",,[ 200]
3,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,OPTIONS * HTTP/1.0,"("", -)","("", Apache (internal dummy connection))",,[ 200]
4,localhost,127.0.0.1,2014-02-23 03:10:31+01:00,VLOG=-,OPTIONS * HTTP/1.0,"("", -)","("", Apache (internal dummy connection))",,[ 200]
...,...,...,...,...,...,...,...,...,...
261868,www.akumenius.com,5.255.253.53,2014-03-02 03:05:39+01:00,VLOG=-,GET / HTTP/1.1,"("", -)","("", Mozilla/5.0 (compatible; YandexBot/3.0; +h...",,"[ 200, 7528]"
261869,www.akumenius.com,74.86.158.107,2014-03-02 03:09:52+01:00,VLOG=-,HEAD / HTTP/1.1,"("", -)","("", Mozilla/5.0+(compatible; UptimeRobot/2.0; ...",,[ 200]
261870,localhost,127.0.0.1,2014-03-02 03:10:18+01:00,VLOG=-,OPTIONS * HTTP/1.0,"("", -)","("", Apache (internal dummy connection))",,[ 200]
261871,localhost,127.0.0.1,2014-03-02 03:10:18+01:00,VLOG=-,OPTIONS * HTTP/1.0,"("", -)","("", Apache (internal dummy connection))",,[ 200]


In [None]:
# Hacemos lo mismo con las otras columnas (esta operación tarda un poquito!):
a = dflog['Texto 2'].apply(pd.Series) 
b = dflog['Texto 3'].apply(pd.Series) 
c = dflog['Texto 4'].apply(pd.Series) 
d = dflog['Puerto'].apply(pd.Series)

In [None]:
print(f'Resumen texto 2: \n {a.describe()}')
print(f'Resumen texto 3: \n  {b.describe()}')
print(f'Resumen texto 4: \n  {c.describe()}')
print(f'Resumen Puerto: \n {d.describe()}')

In [None]:
# Vemos que en los textos 2, 3 y 4, la primera columna son las comillas por lo que podemos hacer lo mismo que con el texto 1
dflog['Texto 2'] = a[1]
dflog['Texto 3'] = b[1]
dflog['Texto 4'] = c[1]
dflog

In [None]:
# Separaremos la información de "Texto 1"
text1 = dflog["Texto 1"].str.split(" ", expand=True)
text1.columns = ["Petición", "Caracter", "HTTP"] # Separamos las columnas en un nuevo dataframe "Text1" y les ponemos nombre
text1

In [None]:
# Añadimos las columnas separadas al df original
dflog.insert(4, "Petición", text1["Petición"])
dflog.insert(5, "Caracter", text1["Caracter"])
dflog.insert(6, "HTTP", text1["HTTP"]) # Insertamos las columnas de text1 al dflog
dflog = dflog.drop("Texto 1", axis = 1) # Eliminamos la columna Texto 1 para no tener información redundante
dflog

In [None]:
d.columns = ["Puerto0", "Puerto1", "Puerto2", "Puerto3", "Puerto4", "Puerto5", "Puerto6", "Puerto7", "Puerto8", "Puerto9", "Puerto10", "Puerto11"]
d

In [None]:
# Añadimos las columnas obtenidas en "d" al separar la columna "Puerto" al dflog
dflog = pd.concat([dflog, d], axis = 1)
dflog = dflog.drop("Puerto", axis = 1)
dflog.head()

In [None]:
# Utilizamos el método drop_duplicates(inplace=True) per eliminar las posibles filas duplicadas
shape_antes = dflog.shape
dflog.drop_duplicates(inplace=True)
shape_despues = dflog.shape
print(f'Se han eliminado {shape_antes[0] - shape_despues[0]} duplicados')

In [None]:
# Imprimimos la cantidad de veces que se ha accedido desde cada origen y desde cada IP
origen = dflog["Origen"].value_counts()
ip = dflog["IP"].value_counts()
print("Origen:\n")
print(origen)
print('\n-------------- \nIP: \n')
print(ip)

In [None]:
# Podemos eliminar los df de soporte (a, b, c, d, dflogs y text1)
del a
del b
del c
del d
del dflogs
del text1

### - Exercici 3
Geolocalitza les IP's.

In [None]:
# Trabajaremos con la tabla ip, que relaciona las IP con el número de veces que aparecen en los registros
ip = ip.to_frame()
ip.reset_index(inplace = True)
ip = ip.rename(columns = {'index':'IP', 'IP':'Counts'})
ip

In [None]:
# Importamos ip2geotools
from ip2geotools.databases.noncommercial import DbIpCity

#Basic usage #sacado de pypi.org
#from ip2geotools.databases.noncommercial import DbIpCity
#response = DbIpCity.get('147.229.2.90', api_key='free')
#response.ip_address
#'147.229.2.90'
#response.city
#'Brno (Brno střed)'
#response.region
#'South Moravian'
#response.country
#'CZ'
#response.latitude
#49.1926824
#response.longitude
#16.6182105


In [None]:
# Realizaremos una prueba con la primera IP de la tabla: 66.249.76.216
response = DbIpCity.get('66.249.76.216', api_key='free')
print(f'La dirección IP es: {response.ip_address}\nLa ciudad es: {response.city}\nLa región es: {response.region}\nEl país es: {response.country}\nLatitud y longitud son: {response.latitude,response.longitude}')

In [None]:
# Añadimos las columnas necesarias y creamos una copia del df ip para probar el código. Probablemente haya alguna manera más eficiente de realizar los siguientes pasos.
ip.insert(1, 'Ciudad', 0)
ip.insert(1, 'Región', 0)
ip.insert(1, 'País', 0)
ip.insert(1, 'Latitud', 0)
ip.insert(1, 'Longitud', 0)
ip2 = ip.head(10)
ip2

In [None]:
# Añadiremos la información de cada IP a la tabla ip2. Para ello, creamos una función que nos devuelva la información

def ip_data(IP):
    try:
        response = DbIpCity.get(IP, api_key='free')
        return response
    except:
        return np.nan

c = 0
while c < len(ip2):
    num_ip = ip2['IP'][c]
    try:
        ip2['Ciudad'][c] = ip_data(num_ip).city
        ip2['Región'][c]  = ip_data(num_ip).region
        ip2['País'][c]  = ip_data(num_ip).country
        ip2['Latitud'][c]  = ip_data(num_ip).latitude
        ip2['Longitud'][c]  = ip_data(num_ip).longitude
    except:
        ip2['Ciudad'][c] = np.nan
        ip2['Región'][c]  = np.nan
        ip2['País'][c]  = np.nan
        ip2['Latitud'][c]  = np.nan
        ip2['Longitud'][c]  = np.nan
    c = c + 1
ip2

In [None]:
# Probamos con el df ip. Como ha tardado bastante en realizar todas las peticiones (1 hora aprox), más adelante he exportado el df ip a un csv, para poder importarlo de nuevo.
# Comentaré este trozo de código para poder correr el resto del Notebook con normalidad.
'''
c = 0
while c < len(ip):
    num_ip = ip['IP'][c]
    try:
        ip['Ciudad'][c] = ip_data(num_ip).city
        ip['Región'][c]  = ip_data(num_ip).region
        ip['País'][c]  = ip_data(num_ip).country
        ip['Latitud'][c]  = ip_data(num_ip).latitude
        ip['Longitud'][c]  = ip_data(num_ip).longitude
    except:
        ip['Ciudad'][c] = np.nan
        ip['Región'][c]  = np.nan
        ip['País'][c]  = np.nan
        ip['Latitud'][c]  = np.nan
        ip['Longitud'][c]  = np.nan
    c = c + 1
ip
'''

In [None]:
# Exportaré este archivo para no tener que repetir la operación
ip2.to_csv('Tabla2_Geolocalización_IPs.csv')
#ip.to_csv('Tabla_Geolocalización_IPs.csv', index=False) #

In [None]:
# Importamos la tabla con las IPs, Longitudes, Latitudes, Paises, Regiones, Ciudades y Counts
df_ip =  pd.read_csv('Tabla_Geolocalización_IPs.csv')
df_ip

## Nivell 3:
### - Exercici 4
Mostra'm la teva creativitat, Sorprèn-me fes un pas més enllà amb l'anàlisi anterior.


In [None]:
import matplotlib.pyplot as plt
plt.style.use('dark_background')
plt.rcParams.update({'font.size': 16, 'figure.figsize': (14, 8)}) # set font and plot size to be larger


In [None]:
# Añadimos una columna con el porcentaje de accesos por IP y creamos un nuevo df con aquellas IPs con más de 1000 accesos
df_ip['%'] = round((df_ip['Counts'] / df_ip['Counts'].sum())*100, 2)
df_ip_mayor_1000 = df_ip[df_ip['Counts'] >= 1000]
df_ip_mayor_1000

In [None]:
# Crearemos un Pie Chart, con las IPs con más de 1000 accesos
explode = (df_ip_mayor_1000['Counts'] == df_ip_mayor_1000['Counts'].max()) * 0.1 # Utilizamos un df de booleans para darle valor al valor máximo y separarlo en el gráfico 

fig1, ax1 = plt.subplots()
wedges, texts, autotexts = ax1.pie(df_ip_mayor_1000['Counts'], explode = explode, labels = df_ip_mayor_1000.IP, autopct='%1.1f%%', shadow=True, startangle=0)
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

ax1.legend(wedges, df_ip_mayor_1000.Counts,
          title="Direcciones IP con más de 1000 accesos",
          loc="center left",
          bbox_to_anchor=(1, 0, 0.5, 1))

plt.setp(autotexts, size=6, weight="bold")

ax1.set_title("Accesos por IP", loc='right')
plt.show()
fig1.savefig(r'Plots\01_Accesos_por_IP_PiePlot.png')


Visualmente queda curioso, pero no aporta mucho valor al análisis. Agruparemos los accesos por País y Ciudad, para ver desde dónde se accede más.

In [None]:
# Agrupamos por Ciudad y seleccionamos aquellas ciudades con más de 500 accesos
df_ip_por_ciudad = df_ip.groupby('Ciudad')['Counts'].sum()
df_ip_por_ciudad = df_ip_por_ciudad.sort_values(ascending=False)
df_ip_por_ciudad_mayor_500 = df_ip_por_ciudad[df_ip_por_ciudad >= 500]
df_ip_por_ciudad_mayor_500


In [None]:
df_ip_por_ciudad_mayor_500.plot(kind = 'bar', title = 'Accesos por Ciudad', rot = 80).figure.savefig(r'Plots\02_Accesos_por_Ciudad_barplot.png')

In [None]:
# Agrupamos por País
df_ip_por_pais = df_ip.groupby('País')['Counts'].sum()
df_ip_por_pais = df_ip_por_pais.sort_values(ascending=False)
df_ip_por_pais

In [None]:
df_ip_por_pais.plot(kind = 'bar', title = 'Accesos por País', rot = 80).figure.savefig(r'Plots\03_Accesos_por_País_barplot.png')

#### Vamos a probar de crear un mapa con los accesos por Ciudad/País/dirección
Ya tenemos la Ciudad, la Región, el País y la latidud y longitud desde la cual se ha accedido a la web en el df_ip

In [None]:
import plotly

In [None]:
import plotly.graph_objects as go

df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/2014_us_cities.csv')
df.head()

df['text'] = df['name'] + '<br>Population ' + (df['pop']/1e6).astype(str)+' million'
limits = [(0,2),(3,10),(11,20),(21,50),(50,3000)]
colors = ["royalblue","crimson","lightseagreen","orange","lightgrey"]
cities = []
scale = 5000

fig = go.Figure()

for i in range(len(limits)):
    lim = limits[i]
    df_sub = df[lim[0]:lim[1]]
    fig.add_trace(go.Scattergeo(
        locationmode = 'USA-states',
        lon = df_sub['lon'],
        lat = df_sub['lat'],
        text = df_sub['text'],
        marker = dict(
            size = df_sub['pop']/scale,
            color = colors[i],
            line_color='rgb(40,40,40)',
            line_width=0.5,
            sizemode = 'area'
        ),
        name = '{0} - {1}'.format(lim[0],lim[1])))

fig.update_layout(
        title_text = '2014 US city populations<br>(Click legend to toggle traces)',
        showlegend = True,
        geo = dict(
            scope = 'usa',
            landcolor = 'rgb(217, 217, 217)',
        )
    )

fig.show()