Ejercicio: Conjuntos de datos en Python<br>
En el ejercicio anterior, cargamos algunos datos y ajustamos un modelo a ellos. Varios aspectos de esto fueron simplificados, en particular que los datos fueron codificados en nuestro script de Python, y no pasamos ningún tiempo realmente mirando los datos en sí.

Aquí, cargaremos los datos de un archivo, los filtraremos y los graficaremos. Hacer esto es un primer paso muy importante para construir modelos adecuados, o para entender sus limitaciones.

Como antes, no hay necesidad de editar ningún código en los ejemplos de esta unidad. Intenta leerlo, entenderlo y luego pulsa el botón Ejecutar para ejecutarlo. Como siempre, es de vital importancia que estos bloques de código se ejecuten en el orden correcto, y no se pierda nada.

Cargar datos con Pandas<br>
Hay una gran variedad de librerías que te ayudan a trabajar con datos. En Python, una de las más comunes es Pandas. Usamos pandas brevemente en el ejercicio anterior. Pandas puede abrir datos guardados como archivos de texto y almacenarlos en una tabla organizada llamada DataFrame.

Abramos algunos datos de texto que están almacenados en disco. Nuestros datos están guardados en un archivo llamado doggy-boot-harness.csv.

In [None]:
import pandas
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/doggy-boot-harness.csv

# Read the text file containing data using pandas
dataset = pandas.read_csv('doggy-boot-harness.csv')

# Print the data
# Because there are a lot of data, use head() to only print the first few rows
dataset.head()

Como puede ver, este conjunto de datos contiene información sobre los perros, incluyendo su talla de bota, talla de arnés, sexo y edad en años.

Los datos se almacenan como columnas y filas, de forma similar a una tabla que pueda ver en Excel.

Filtrar datos por columnas
Es fácil filtrar los datos por columnas. Podemos escribirlo directamente, como conjunto_datos.mi_nombre_columna, o como: conjunto_datos["mi_nombre_columna"].

Podemos utilizarlo para extraer o eliminar datos.

Echemos un vistazo a los tamaños del arnés y borremos las columnas sexo y edad_años.

In [None]:

# Look at the harness sizes
print("Harness sizes")
print(dataset.harness_size)

# Remove the sex and age-in-years columns.
del dataset["sex"]
del dataset["age_years"]

# Print the column names
print("\nAvailable columns after deleting sex and age information:")
print(dataset.columns.values)

Filtrar datos por filas<br>
Podemos obtener datos de la parte superior de la tabla utilizando la función head(), o de la parte inferior de la tabla utilizando la función tail().

Ambas funciones hacen una copia superficial de una sección de nuestro marco de datos. Aquí, estamos enviando estas copias a la función print(). Las vistas head y tail también pueden utilizarse para otros fines, como para su uso en análisis o gráficos.

In [None]:
# Print the data at the top of the table
print("TOP OF TABLE")
print(dataset.head())

# print the data at the bottom of the table
print("\nBOTTOM OF TABLE")
print(dataset.tail())

También podemos filtrar lógicamente. Por ejemplo, podemos ver los datos de los perros que tienen un arnés inferior a la talla 55. Esto funciona calculando un valor Verdadero o Falso para cada fila y manteniendo sólo las filas en las que el valor es Verdadero.

Esto funciona calculando un valor Verdadero o Falso para cada fila y manteniendo sólo las filas en las que el valor es Verdadero.

In [None]:
# Print how many rows of data we have
print(f"We have {len(dataset)} rows of data")

# Determine whether each avalanche dog's harness size is < 55
# This creates a True or False value for each row where True means 
# they are smaller than 55
is_small = dataset.harness_size < 55
print("\nWhether the dog's harness was smaller than size 55:")
print(is_small)

# Now apply this 'mask' to our data to keep the smaller dogs
data_from_small_dogs = dataset[is_small]
print("\nData for dogs with harness smaller than size 55:")
print(data_from_small_dogs)

# Print the number of small dogs
print(f"\nNumber of dogs with harness size less than 55: {len(data_from_small_dogs)}")

Esto parece mucho código, pero podemos comprimir las partes importantes en una sola línea.

Hagamos algo parecido: restrinjamos nuestros datos a solo aquellos con tallas de bota inferiores a 40.

In [None]:
# Make a copy of the dataset that only contains dogs with 
# a boot size below size 40
# The call to copy() is optional but can help avoid unexpected
# behaviour in more complex scenarios
data_smaller_paws = dataset[dataset.boot_size < 40].copy()


# Print information about this
print(f"We now have {len(data_smaller_paws)} rows in our dataset. The last few rows are:")
data_smaller_paws.tail()

Graficar datos <br> 
Graficar datos es a menudo la forma más fácil de entenderlos.

En estos ejercicios, normalmente hacemos nuestras gráficas usando código en un archivo personalizado que hemos creado, llamado graphing.py, que puedes ver en nuestra página de github.

Aquí, sin embargo, vamos a practicar haciendo un gráfico sin este código personalizado.

Vamos a hacer un simple gráfico del tamaño del arnés frente al tamaño de la bota para nuestros perros de avalancha con pies más pequeños.

In [None]:
# Load and prepare plotly to create our graphs
import plotly.express
import graphing # this is a custom file you can find in our code on github

# Show a graph of harness size by boot size:
plotly.express.scatter(data_smaller_paws, x="harness_size", y="boot_size")

Crear nuevas columnas<br>
El gráfico anterior muestra la relación que queremos investigar para nuestra tienda, pero algunos clientes podrían querer listas de tallas de arneses en pulgadas, no en centímetros. ¿Cómo podemos ver estas tallas de arnés en unidades imperiales?

Para ello, tendremos que crear una nueva columna llamada tallas_arneses_imperiales y colocarla en el eje X.

La creación de nuevas columnas utiliza una sintaxis muy similar a la que hemos visto antes.

In [None]:
# Convert harness sizes from metric to imperial units 
# and save the result to a new column
data_smaller_paws['harness_size_imperial'] = data_smaller_paws.harness_size / 2.54

# Show a graph of harness size in imperial units
plotly.express.scatter(data_smaller_paws, x="harness_size_imperial", y="boot_size")

Ahora hemos graficado nuestra nueva columna de datos (harness_size_imperial) contra el tamaño de la bota para perros con patas pequeñas.

Resumen
Hemos introducido el trabajo con datos en Python, incluyendo:

Abrir datos desde un archivo a un DataFrame (tabla)
Inspeccionar la parte superior e inferior del dataframe
Añadir y eliminar columnas de datos
Eliminar filas de datos basándose en criterios
Graficar datos para entender tendencias
Aprender a trabajar con marcos de datos puede parecer tedioso o árido, pero sigue adelante, porque estas habilidades básicas son fundamentales para desbloquear emocionantes técnicas de aprendizaje automático que cubriremos en módulos posteriores.