# Introducción a la ciencia de datos en Python
Capítulo 1 del libro *The Data Science Workshop.* Second Edition. Packt Publishing, 2020.

Este capítulo proporciona una visión general de la ciencia de datos.
- Enlistan diferentes tipos de algoritmos de aprendizaje automático.
- Hacen una breve introducción a Python y a cómo manipular las principales estructuras de datos (listas y diccionarios) que se utilizan en el libro.
- Explican qué es un DataFrame y cómo crear uno cargando datos de diferentes formatos de archivo con el paquete pandas.
- Enseñan a usar el paquete sklearn para entrenar un modelo de aprendizaje automático y realizar predicciones con él.

## Descripción general de Python

### Ejercicio 1.1: Creación de un diccionario que contendrá algoritmos de aprendizaje automático

En este ejercicio se crea un diccionario, usando Python, que contiene una colección de diferentes algoritmos de aprendizaje automático.

In [None]:
# Lista de algoritmos
algoritmo = ['Regresión Lineal', 'Regresión Logística', 'Bosques Aleatorios', 'a3c']

# Lista con tipos de aprendizaje
aprendizaje = ['Supervisado', 'Supervisado', 'Supervisado', 'Reforzamiento']

# Lista con tipos de algoritmo
tipo_algoritmo = ['Regresión', 'Clasificación', 'Regresión o Clasificación', 'Juego IA']

# Añadiendo elemento a la lista "algoritmo"
algoritmo.append('k-medias')

# Imprimiendo el contenido de la lista "algoritmo"
print(algoritmo)

# Añadiendo elemento a la lista "aprendizaje"
aprendizaje.append('No supervisado')

# Imprimiendo la lista "aprendizaje"
print(aprendizaje)

# Añadiendo elemento a la lista "tipo_algoritmo"
tipo_algoritmo.append('Agrupamiento')

# Imprimiendo la lista "tipo_algoritmo"
print(tipo_algoritmo)

# Creando un diccionario vacio
aprendizaje_automatico = {}

# Añadiendo un nuevo elemento en "aprendizaje_automatico" usando la clave "algoritmo" y tomando como valores los elementos de la lista "algoritmo"
aprendizaje_automatico['algoritmo'] = algoritmo

# Mostrando el contenido de "aprendizaje_automatico"
print(aprendizaje_automatico)

# Nuevo elemento en "aprendizaje_automatico" con la clave "aprendizaje" y con valores todos los elementos de la lista "aprendizaje"
aprendizaje_automatico['aprendizaje'] = aprendizaje

# Nuevo elemento en "aprendizaje_automatico" con la clave "tipo_algoritmo" y con valores todos los elementos de la lista "tipo_algoritmo"
aprendizaje_automatico['tipo_algoritmo'] = tipo_algoritmo

# Mostrando el contenido de "aprendizaje_automatico"
print(aprendizaje_automatico)

# Eliminando el elemento 'a3c' de la clave "algoritmo"
aprendizaje_automatico['algoritmo'].remove('a3c')

# Mostrando el contenido del elemento "algoritmo" del diccionario
print(aprendizaje_automatico['algoritmo'])

# Eliminando el elemento 'Reforzamiento' de la clave "aprendizaje"
aprendizaje_automatico['aprendizaje'].remove('Reforzamiento')

# Eliminando el elemento 'Juego IA' de la clave "tipo_algoritmo"
aprendizaje_automatico['tipo_algoritmo'].remove('Juego IA')

# Mostrando el contenido del diccionario
print(aprendizaje_automatico)

['Regresión Lineal', 'Regresión Logística', 'Bosques Aleatorios', 'a3c', 'k-medias']
['Supervisado', 'Supervisado', 'Supervisado', 'Reforzamiento', 'No supervisado']
['Regresión', 'Clasificación', 'Regresión o Clasificación', 'Juego IA', 'Agrupamiento']
{'algoritmo': ['Regresión Lineal', 'Regresión Logística', 'Bosques Aleatorios', 'a3c', 'k-medias']}
{'algoritmo': ['Regresión Lineal', 'Regresión Logística', 'Bosques Aleatorios', 'a3c', 'k-medias'], 'aprendizaje': ['Supervisado', 'Supervisado', 'Supervisado', 'Reforzamiento', 'No supervisado'], 'tipo_algoritmo': ['Regresión', 'Clasificación', 'Regresión o Clasificación', 'Juego IA', 'Agrupamiento']}
['Regresión Lineal', 'Regresión Logística', 'Bosques Aleatorios', 'k-medias']
{'algoritmo': ['Regresión Lineal', 'Regresión Logística', 'Bosques Aleatorios', 'k-medias'], 'aprendizaje': ['Supervisado', 'Supervisado', 'Supervisado', 'No supervisado'], 'tipo_algoritmo': ['Regresión', 'Clasificación', 'Regresión o Clasificación', 'Agrupamiento

## Python para Ciencia de Datos

### Ejercicio 1.2: Carga de datos de diferentes formatos en un DataFrame de pandas

En este ejercicio se cargan archivos en formatos CSV y XLSX, en DataFrames de Pandas. El conjunto de datos utilizado es el conjunto de datos de los 10 códigos postales principales para las subvenciones para la primera vivienda (una subvención otorgada por el gobierno australiano para ayudar a quienes compran una vivienda por primera vez). Este conjunto de datos enumera los 10 códigos postales con el mayor número de subvenciones para la primera vivienda.

In [None]:
import pandas as pd

# Variable que contiene la url de los datos en un archivo csv
csv_url = 'https://raw.githubusercontent.com/PacktWorkshops'\
'/The-Data-Science-Workshop/master/Chapter01'\
'/Dataset/overall_topten_2012-2013.csv'

# Cargando los archivos en un dataframe
csv_df = pd.read_csv(csv_url, skiprows = 1, encoding_errors = 'ignore') # Se salta la primera fila ya que esta contiene el nombre del archivo
csv_df

Unnamed: 0,Number,Postcode,Suburbs,Number of Applications
0,1,3029,"Hoppers Crossing, Tarneit",1069
1,2,3977,"Cranbourne, Devon Meadows, Skye",1037
2,3,3064,"Craigieburn, Donnybrook, Roxburgh Park, Mickleham",821
3,4,3030,"Point Cook, Werribee, Derrimut",816
4,5,3754,"Doreen, Mernda",530
5,6,3810,"Pakenham, Rythdale",479
6,7,3350,"Alfredton, Ballarat, Canadian, Invermay Park, ...",383
7,8,3216,"Belmont, Grovedale, Highton, Marshall, Waurn P...",351
8,9,3136,"Croydon, Croydon Hills, Croydon North, Croydon...",344
9,10,3805,"Fountain Gate, Narre Warren, Narre Warren South",335


In [None]:
# Variable que contiene la url de un archivo xlsx con los datos
xlsx_url = 'https://github.com/PacktWorkshops'\
'/The-Data-Science-Workshop/blob/master/Chapter01'\
'/Dataset/overall_topten_2012-2013.xlsx?raw=true'

# Cargando los datos del archivo xlxs en un dataframe
xlsx_df = pd.read_excel(xlsx_url, skiprows = 1, sheet_name = 1) # Los datos se encuentran en la segunda hoja
                                                                # por ello se coloca el parametro "sheet_name = 1"
xlsx_df

Unnamed: 0,Number,Postcode,Suburbs,Number of Applications
0,1,3029,"Hoppers Crossing, Tarneit",1069
1,2,3977,"Cranbourne, Devon Meadows, Skye",1037
2,3,3064,"Craigieburn, Donnybrook, Roxburgh Park, Mickleham",821
3,4,3030,"Point Cook, Werribee, Derrimut",816
4,5,3754,"Doreen, Mernda",530
5,6,3810,"Pakenham, Rythdale",479
6,7,3350,"Alfredton, Ballarat, Canadian, Invermay Park, ...",383
7,8,3216,"Belmont, Grovedale, Highton, Marshall, Waurn P...",351
8,9,3136,"Croydon, Croydon Hills, Croydon North, Croydon...",344
9,10,3805,"Fountain Gate, Narre Warren, Narre Warren South",335


## Scikit-Learn

### Ejercicio 1.03: Predicción del cáncer de mama a partir de un conjunto de datos con sklearn
En este ejercicio se crea un clasificador de aprendizaje automático con RandomForest de sklearn para predecir si el cáncer de mama de una paciente es maligno (dañino) o benigno (no dañino).

In [None]:
# Importando la funcion load_breast_cancer
from sklearn.datasets import load_breast_cancer

# Cargando el conjunto de datos desde la función load_breast_cancer
# El parámetro return_X_y=True devuelve únicamente las características y la variable de respuesta
caracteristicas, objetivo = load_breast_cancer(return_X_y=True)

# Mostrando los valores de "caracteristicas"
print(caracteristicas)

# Mostrando los valores de "objetivo"
print(objetivo)

[[1.799e+01 1.038e+01 1.228e+02 ... 2.654e-01 4.601e-01 1.189e-01]
 [2.057e+01 1.777e+01 1.329e+02 ... 1.860e-01 2.750e-01 8.902e-02]
 [1.969e+01 2.125e+01 1.300e+02 ... 2.430e-01 3.613e-01 8.758e-02]
 ...
 [1.660e+01 2.808e+01 1.083e+02 ... 1.418e-01 2.218e-01 7.820e-02]
 [2.060e+01 2.933e+01 1.401e+02 ... 2.650e-01 4.087e-01 1.240e-01]
 [7.760e+00 2.454e+01 4.792e+01 ... 0.000e+00 2.871e-01 7.039e-02]]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 

In [None]:
# Importando la clase RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier

# Eligiendo un valor de semilla
seed = 24

# Creando una instancia de RandomForestClassifier con el parámetro "random_state = seed"
modelo_rf = RandomForestClassifier(random_state = seed)

# Entrenando el modelo con "caracteristicas" y "objetivo" como parametros
modelo_rf.fit(caracteristicas, objetivo)

# Realizando predicciones con el modelo entrenado utilizando "características" como parámetro.
predicciones = modelo_rf.predict(caracteristicas)

# Mostrando las predicciones
print(predicciones)

# Importando el método accuracy_score
from sklearn.metrics import accuracy_score

# Calculando la precisión del modelo
accuracy_score(objetivo, predicciones)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1
 1 1 1 1 1 1 0 1 0 1 1 0 

1.0

## Actividad 1.01: Entrenamiento de un algoritmo detector de spam
Trabajas para un proveedor de servicios de correo electrónico y te han encomendado entrenar un algoritmo que reconoce si un correo electrónico es spam o no a partir de un conjunto de datos determinado y verifica su rendimiento.

En este conjunto de datos, los autores ya han creado 57 funciones diferentes basadas en estadísticas de palabras clave relevantes para clasificar si un correo electrónico es spam o no.

In [None]:
# Importando librerias
import pandas as pd

# Variable que contiene la url del archivo con los datos
url = 'https://raw.githubusercontent.com/PacktWorkshops/'\
'The-Data-Science-Workshop/refs/heads/master/Chapter01/Dataset/'\
'dataset_44_spambase.csv'

# Cargando los datos en un dataframe
datos = pd.read_csv(url)

# Mostrando los datos
datos

Unnamed: 0,word_freq_make,word_freq_address,word_freq_all,word_freq_3d,word_freq_our,word_freq_over,word_freq_remove,word_freq_internet,word_freq_order,word_freq_mail,...,char_freq_%3B,char_freq_%28,char_freq_%5B,char_freq_%21,char_freq_%24,char_freq_%23,capital_run_length_average,capital_run_length_longest,capital_run_length_total,class
0,0.00,0.64,0.64,0.0,0.32,0.00,0.00,0.00,0.00,0.00,...,0.000,0.000,0.0,0.778,0.000,0.000,3.756,61,278,1
1,0.21,0.28,0.50,0.0,0.14,0.28,0.21,0.07,0.00,0.94,...,0.000,0.132,0.0,0.372,0.180,0.048,5.114,101,1028,1
2,0.06,0.00,0.71,0.0,1.23,0.19,0.19,0.12,0.64,0.25,...,0.010,0.143,0.0,0.276,0.184,0.010,9.821,485,2259,1
3,0.00,0.00,0.00,0.0,0.63,0.00,0.31,0.63,0.31,0.63,...,0.000,0.137,0.0,0.137,0.000,0.000,3.537,40,191,1
4,0.00,0.00,0.00,0.0,0.63,0.00,0.31,0.63,0.31,0.63,...,0.000,0.135,0.0,0.135,0.000,0.000,3.537,40,191,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4596,0.31,0.00,0.62,0.0,0.00,0.31,0.00,0.00,0.00,0.00,...,0.000,0.232,0.0,0.000,0.000,0.000,1.142,3,88,0
4597,0.00,0.00,0.00,0.0,0.00,0.00,0.00,0.00,0.00,0.00,...,0.000,0.000,0.0,0.353,0.000,0.000,1.555,4,14,0
4598,0.30,0.00,0.30,0.0,0.00,0.00,0.00,0.00,0.00,0.00,...,0.102,0.718,0.0,0.000,0.000,0.000,1.404,6,118,0
4599,0.96,0.00,0.00,0.0,0.32,0.00,0.00,0.00,0.00,0.00,...,0.000,0.057,0.0,0.000,0.000,0.000,1.147,5,78,0


In [None]:
# Extrayendo la variable de respuesta
objetivo = datos.pop('class')

# Mostrando los datos de la variable objetivo
objetivo

Unnamed: 0,class
0,1
1,1
2,1
3,1
4,1
...,...
4596,0
4597,0
4598,0
4599,0


In [None]:
# Importando la clase RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier

# Eligiendo un valor de semilla
seed = 100

# Creando una instancia de RandomForestClassifier
modelo_rf = RandomForestClassifier(random_state = seed)

# Entrenando un modelo de bosque aleatorio para predecir el resultado
modelo_rf.fit(datos, objetivo)

# Prediciendo los resultados a partir de los datos de entrada
predicciones = modelo_rf.predict(datos)

# Mostrando los resultados
print(predicciones)

[1 1 1 ... 0 0 0]


In [None]:
# Importando el método accuracy_score
from sklearn.metrics import accuracy_score

# Calculando la precisión del modelo
accuracy_score(objetivo, predicciones)

0.9993479678330798