# Ejercicio: Conjuntos de datos en Python

En el ejercicio anterior, cargamos algunos datos y ajustamos un modelo a ellos. Se simplificaron varios aspectos de esto, particularmente que los datos estaban codificados en nuestro script de python, y no pasamos ningún tiempo realmente mirando los datos en sí.

Aquí, cargaremos datos de un archivo, los filtraremos y los graficaremos. Hacerlo es un primer paso muy importante para construir modelos adecuados o para comprender sus limitaciones.

## Cargar datos con Pandas
Hay una gran variedad de bibliotecas que le ayudan a trabajar con datos. En Python, uno de los más comunes es Pandas. Usamos pandas brevemente en el ejercicio anterior. Los pandas pueden abrir datos guardados como archivos de texto y almacenarlos en una tabla organizada llamada .DataFrame

Vamos a abrir algunos datos de texto que están almacenados en el disco. Nuestros datos se guardan en un archivo llamado .doggy-boot-harness.csv

In [1]:
import pandas
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/doggy-boot-harness.csv

# Read the text file containing data using pandas
dataset = pandas.read_csv('doggy-boot-harness.csv')

# Print the data
# Because there are a lot of data, use head() to only print the first few rows
dataset.head()

--2023-03-30 00:49:13--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 21511 (21K) [text/plain]
Saving to: ‘graphing.py.1’


2023-03-30 00:49:13 (23.4 MB/s) - ‘graphing.py.1’ saved [21511/21511]

--2023-03-30 00:49:14--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/doggy-boot-harness.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.110.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 838 [text/plain]
Saving to: ‘doggy-bo

Unnamed: 0,boot_size,harness_size,sex,age_years
0,39,58,male,12.0
1,38,58,male,9.6
2,37,52,female,8.6
3,39,58,male,10.2
4,38,57,male,7.8


Como puede ver, este conjunto de datos contiene información sobre los perros, incluido el tamaño de su bota para perros, el tamaño del arnés, el sexo y la edad en años.

Los datos se almacenan como columnas y filas, de forma similar a una tabla que puede ver en Excel.

## Filtrar datos por columnas

Los datos son fáciles de filtrar por columnas. Podemos escribir esto directamente, como , o así: .dataset.my_column_namedataset["my_column_name"]

Podemos usar esto para extraer datos o para eliminar datos.

Echemos un vistazo a los tamaños del arnés y eliminemos las columnas y. sexage_years

In [2]:

# Look at the harness sizes
print("Harness sizes")
print(dataset.harness_size)

# Remove the sex and age-in-years columns.
del dataset["sex"]
del dataset["age_years"]

# Print the column names
print("\nAvailable columns after deleting sex and age information:")
print(dataset.columns.values)


Harness sizes
0     58
1     58
2     52
3     58
4     57
5     52
6     55
7     53
8     49
9     54
10    59
11    56
12    53
13    58
14    57
15    58
16    56
17    51
18    50
19    59
20    59
21    59
22    55
23    50
24    55
25    52
26    53
27    54
28    61
29    56
30    55
31    60
32    57
33    56
34    61
35    58
36    53
37    57
38    57
39    55
40    60
41    51
42    52
43    56
44    55
45    57
46    58
47    57
48    51
49    59
Name: harness_size, dtype: int64

Available columns after deleting sex and age information:
['boot_size' 'harness_size']


## Filtrar datos por filas

Podemos obtener datos de la parte superior de la tabla usando la función, o de la parte inferior de la tabla usando la función. head()tail()

Ambas funciones hacen una copia superficial de una sección de nuestro marco de datos. Aquí, estamos enviando estas copias a la función. Las vistas de cabeza y cola también se pueden utilizar para otros fines, como para su uso en análisis o gráficos.print()

In [3]:
# Print the data at the top of the table
print("TOP OF TABLE")
print(dataset.head())

# print the data at the bottom of the table
print("\nBOTTOM OF TABLE")
print(dataset.tail())

TOP OF TABLE
   boot_size  harness_size
0         39            58
1         38            58
2         37            52
3         39            58
4         38            57

BOTTOM OF TABLE
    boot_size  harness_size
45         41            57
46         39            58
47         39            57
48         35            51
49         39            59


También podemos filtrar lógicamente. Por ejemplo, podemos ver los datos de los perros que tienen un arnés menor que una talla 55.

Esto funciona calculando un valor o para cada fila, y luego manteniendo solo aquellas filas donde el valor es .TrueFalseTrue

In [4]:
# Print how many rows of data we have
print(f"We have {len(dataset)} rows of data")

# Determine whether each avalanche dog's harness size is < 55
# This creates a True or False value for each row where True means 
# they are smaller than 55
is_small = dataset.harness_size < 55
print("\nWhether the dog's harness was smaller than size 55:")
print(is_small)

# Now apply this 'mask' to our data to keep the smaller dogs
data_from_small_dogs = dataset[is_small]
print("\nData for dogs with harness smaller than size 55:")
print(data_from_small_dogs)

# Print the number of small dogs
print(f"\nNumber of dogs with harness size less than 55: {len(data_from_small_dogs)}")

We have 50 rows of data

Whether the dog's harness was smaller than size 55:
0     False
1     False
2      True
3     False
4     False
5      True
6     False
7      True
8      True
9      True
10    False
11    False
12     True
13    False
14    False
15    False
16    False
17     True
18     True
19    False
20    False
21    False
22    False
23     True
24    False
25     True
26     True
27     True
28    False
29    False
30    False
31    False
32    False
33    False
34    False
35    False
36     True
37    False
38    False
39    False
40    False
41     True
42     True
43    False
44    False
45    False
46    False
47    False
48     True
49    False
Name: harness_size, dtype: bool

Data for dogs with harness smaller than size 55:
    boot_size  harness_size
2          37            52
5          35            52
7          36            53
8          35            49
9          40            54
12         38            53
17         36            51
18         35    

Esto parece mucho código, pero podemos comprimir las partes importantes en una sola línea.

Hagamos algo similar: restrinjamos nuestros datos solo a aquellos con tamaños de arranque inferiores a 40.

In [5]:
# Make a copy of the dataset that only contains dogs with 
# a boot size below size 40
# The call to copy() is optional but can help avoid unexpected
# behaviour in more complex scenarios
data_smaller_paws = dataset[dataset.boot_size < 40].copy()


# Print information about this
print(f"We now have {len(data_smaller_paws)} rows in our dataset. The last few rows are:")
data_smaller_paws.tail()

We now have 34 rows in our dataset. The last few rows are:


Unnamed: 0,boot_size,harness_size
42,36,52
46,39,58
47,39,57
48,35,51
49,39,59


## Datos gráficos

Graficar datos es a menudo la forma más fácil de entenderlos.

En estos ejercicios, solemos hacer nuestros gráficos usando código en un archivo personalizado que hemos creado, llamado , que puedes ver en nuestra página de github.graphing.py

Sin embargo, aquí practicaremos cómo hacer un gráfico sin este código personalizado.

Hagamos un gráfico simple del tamaño del arnés frente al tamaño de la bota para nuestros perros de avalancha con pies más pequeños.

In [6]:
# Load and prepare plotly to create our graphs
import plotly.express
import graphing # this is a custom file you can find in our code on github

# Show a graph of harness size by boot size:
plotly.express.scatter(data_smaller_paws, x="harness_size", y="boot_size")



AttributeError: module 'dask.array' has no attribute 'lib'

## Crear nuevas columnas

El gráfico anterior muestra la relación que queremos investigar para nuestra tienda, pero algunos clientes pueden querer listas de tamaño de arnés en pulgadas, no en centímetros. ¿Cómo podemos ver estos tamaños de arnés en unidades imperiales?

Para hacer esto, necesitaremos crear una nueva columna llamada y ponerla en el eje X en su lugar.harness_size_imperial

La creación de nuevas columnas utiliza una sintaxis muy similar a la que hemos visto antes.

In [None]:
# Convert harness sizes from metric to imperial units 
# and save the result to a new column
data_smaller_paws['harness_size_imperial'] = data_smaller_paws.harness_size / 2.54

# Show a graph of harness size in imperial units
plotly.express.scatter(data_smaller_paws, x="harness_size_imperial", y="boot_size")

Ahora hemos graficado nuestra nueva columna de datos () contra el tamaño de la bota para perros con patas pequeñas.harness_size_imperial