In [None]:
import numpy as np
import pandas as pd

# Ejercicios de NumPy y pandas

Estos ejercicios están pensados para que probéis de primera mano las capacidades de las librerías NumPy y pandas.

## Ejercicios de NumPy

### 1 - Creación de arrays

a) Crea un array vacío en numpy de dimensiones 3×6

In [6]:
import numpy as np

arr = np.empty((3, 6))

print(arr)

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]


b) Repite el apartado a, pero llénalo con un número, como por ejemplo el `0`.

In [7]:
import numpy as np

arr = np.zeros((3, 6))

print(arr)

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]


### 2 - Comprobación de valores en un array

Dado el array `arr`:

In [None]:
arr = np.array([[5, 2, 0],
                [4, 3, 7]])

a) Comprueba con `numpy` si contiene el número 6

In [17]:
arr = np.array([[5, 2, 0],
                [4, 3, 7]])
num = 6
if np.any(arr == num):
  print('el número', num ,'está en el array')
else:
  print('el número', num ,'no está en el array')


el número 6 no está en el array


b) Comprueba con `numpy` si contiene el número 4

In [18]:
arr = np.array([[5, 2, 0],
                [4, 3, 7]])
num = 4
if np.any(arr == num):
  print('el número', num ,'está en el array')
else:
  print('el número', num ,'no está en el array')


el número 4 está en el array


### 3 - Operaciones con numpy arrays

a) Reduce la siguiente matriz (array de 2 dimensiones) a una dimensión:

In [27]:
mat = np.array([[2, 3], [4, 5]])
array_1d = mat.flatten()
print(f"Array unidimensional:\n {array_1d}\n")

Array unidimensional:
 [2 3 4 5]



b) Dados los vectores (arrays de 1 dimensión) `v_a` y `v_b`, calcula, **SIN USAR BUCLES**:
- `v_a` + `v_b` (elemento a elemento)
- `v_a` * `v_b` (elemento a elemento)
- Su producto escalar (dot product)   

In [30]:
v_a = np.array([6, 9, 12])
v_b = np.array([8, 5, 2])

suma = v_a + v_b
print(suma)
multiplicacion = v_a * v_b
print(multiplicacion)

[14 14 14]
[48 45 24]


## Ejercicios de pandas

Trabajaremos sobre un ejemplo de `DataFrame` que contiene datos sobre pilotos de fórmula 1.

Contamos con los siguientes datos:

|   Driver Name   | Number of Victories |  Country   |
|:---------------:|:-------------------:|:----------:|
|    Hamilton     |         103         |     UK     |
|   Schumacher    |         91          |  Germany   |
|    Raikkonen    |         26          |  Finland   |
|     Alonso      |         32          |   Spain    |
|     Vettel      |         53          |  Germany   |
|      Sainz      |         2           |   Spain    |
|    Hakkinen     |         20          |  Finland   |
|      Senna      |         41          |  Brazil    |
|   Verstappen    |         54          |Netherlands|
|   Fittipaldi    |         14          |  Brazil    |

### 1 - Creación de DataFrames

Empezaremos creando un dataframe sobre el que operar fijándonos en el DataFrame del ejemplo anterior.

Dada la siguiente lista bidimensional (matriz) y el array de nombres de columnas, crea el DataFrame mencionado anteriormente con `pandas`:

In [28]:
import pandas as pd

drivers = [['Hamilton', 103, 'UK'], ['Schumacher', 91, 'Germany'],
           ['Raikkonen', 26, 'Finland'], ['Alonso', 32, 'Spain'],
           ['Vettel', 53, 'Germany'], ['Sainz', 2, 'Spain'],
           ['Hakkinen', 20, 'Finland'], ['Senna', 41, 'Brazil'],
           ['Verstappen', 54, 'Netherlands'], ['Fittipaldi', 14, 'Brazil'],     # Sí, Fittipaldi existe
           [None, None, None], ['Sainz', 2, 'Spain']]

column_names = ['Driver Name', 'Number of Victories', 'Country']

df = pd.DataFrame(drivers, columns = column_names)
print(df)

   Driver Name  Number of Victories      Country
0     Hamilton                103.0           UK
1   Schumacher                 91.0      Germany
2    Raikkonen                 26.0      Finland
3       Alonso                 32.0        Spain
4       Vettel                 53.0      Germany
5        Sainz                  2.0        Spain
6     Hakkinen                 20.0      Finland
7        Senna                 41.0       Brazil
8   Verstappen                 54.0  Netherlands
9   Fittipaldi                 14.0       Brazil
10        None                  NaN         None
11       Sainz                  2.0        Spain


### 2 - Selección de filas basada en condiciones

- *Anotación: puedes obtener los resultados de estos apartados en el formato que prefieras, no importa si es array o dataframe*

a) ¿Qué piloto tiene el mayor número de victorias? ¿Y el menor?

- *Pista: puedes usar los métodos idxmax e idxmin*




In [32]:
import pandas as pd

drivers = [['Hamilton', 103, 'UK'], ['Schumacher', 91, 'Germany'],
           ['Raikkonen', 26, 'Finland'], ['Alonso', 32, 'Spain'],
           ['Vettel', 53, 'Germany'], ['Sainz', 2, 'Spain'],
           ['Hakkinen', 20, 'Finland'], ['Senna', 41, 'Brazil'],
           ['Verstappen', 54, 'Netherlands'], ['Fittipaldi', 14, 'Brazil'],     # Sí, Fittipaldi existe
           [None, None, None], ['Sainz', 2, 'Spain']]

column_names = ['Driver Name', 'Number of Victories', 'Country']

df = pd.DataFrame(drivers, columns = column_names)
print(df)

indice_maximo = df['Number of Victories'].idxmax()

indice_minimo = df['Number of Victories'].idxmin()

piloto_mas_victorias = df['Driver Name'].iloc[indice_maximo]

piloto_menos_victorias = df['Driver Name'].iloc[indice_minimo]
print(indice_maximo)
print(indice_minimo)
print(f"Piloto con más victorias: {piloto_mas_victorias}")
print(f"Piloto con menos victorias: {piloto_menos_victorias}")




   Driver Name  Number of Victories      Country
0     Hamilton                103.0           UK
1   Schumacher                 91.0      Germany
2    Raikkonen                 26.0      Finland
3       Alonso                 32.0        Spain
4       Vettel                 53.0      Germany
5        Sainz                  2.0        Spain
6     Hakkinen                 20.0      Finland
7        Senna                 41.0       Brazil
8   Verstappen                 54.0  Netherlands
9   Fittipaldi                 14.0       Brazil
10        None                  NaN         None
11       Sainz                  2.0        Spain
0
5
Piloto con más victorias: Hamilton
Piloto con menos victorias: Sainz


b) Obtén los pilotos con más de 20 victorias.

In [42]:
df_mas_de_20_victorias = df[df['Number of Victories'] > 20]

print(df_mas_de_20_victorias)

  Driver Name  Number of Victories      Country
0    Hamilton                103.0           UK
1  Schumacher                 91.0      Germany
2   Raikkonen                 26.0      Finland
3      Alonso                 32.0        Spain
4      Vettel                 53.0      Germany
7       Senna                 41.0       Brazil
8  Verstappen                 54.0  Netherlands


c) ¿Cuántos pilotos finlandeses hay?

In [43]:
df_pilotos_finlandeses = df[df['Country'] == 'Finland']
print(df_pilotos_finlandeses)

  Driver Name  Number of Victories  Country
2   Raikkonen                 26.0  Finland
6    Hakkinen                 20.0  Finland


### 3 - Una pequeña introducción a limpieza de datos

Vaya... Parece que se han colado valores nulos en nuestro DataFrame. De esta forma no podremos operar con él en el futuro, vamos a hacer una pequeña limpieza en dos pasos.


*Importante: Esto es un pequeño adelanto del tema de preprocesamiento, así que os daremos alguna pista*

a) Empecemos eliminando los valores nulos por ser los más problemáticos. Podríamos usar el método `dropna` de pandas.

In [45]:
df = df.dropna()

print(df)

   Driver Name  Number of Victories      Country
0     Hamilton                103.0           UK
1   Schumacher                 91.0      Germany
2    Raikkonen                 26.0      Finland
3       Alonso                 32.0        Spain
4       Vettel                 53.0      Germany
5        Sainz                  2.0        Spain
6     Hakkinen                 20.0      Finland
7        Senna                 41.0       Brazil
8   Verstappen                 54.0  Netherlands
9   Fittipaldi                 14.0       Brazil
11       Sainz                  2.0        Spain


b) Ahora queda una pregunta... ¿Hace falta que el número de victorias tenga decimales? No se puede ganar media carrera... Como es un poco difícil de mirar, podríamos convertirlo a enteros.

De esta manera podemos ilustrar una gran comodidad que ofrece pandas: cambiar de tipo una columna entera (en el futuro, es posible que os encontréis columnas que vienen en un formato que no es, por ejemplo números en forma de string).

In [46]:
# Este os lo damos hecho como ejemplo

df['Number of Victories'] = df['Number of Victories'].astype(int)

df

Unnamed: 0,Driver Name,Number of Victories,Country
0,Hamilton,103,UK
1,Schumacher,91,Germany
2,Raikkonen,26,Finland
3,Alonso,32,Spain
4,Vettel,53,Germany
5,Sainz,2,Spain
6,Hakkinen,20,Finland
7,Senna,41,Brazil
8,Verstappen,54,Netherlands
9,Fittipaldi,14,Brazil


¡Ya está! Nuestro dataframe es legible y podemos trabajar con él porque no contiene valores nulos.