In [80]:
import numpy as np
import pandas as pd

# Ejercicios de NumPy y pandas

Estos ejercicios están pensados para que probéis de primera mano las capacidades de las librerías NumPy y pandas.

## Ejercicios de NumPy

### 1 - Creación de arrays

a) Crea un array vacío en numpy de dimensiones 3×6

In [81]:
array = np.empty([3,6])
array

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

b) Repite el apartado a, pero llénalo con un número, como por ejemplo el `0`.

In [82]:
zeros = np.zeros([3,6])
print(zeros)

array0 = np.empty([3,6])
array0.fill(0)
array0

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]


array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

### 2 - Comprobación de valores en un array

Dado el array `arr`:

In [83]:
arr = np.array([[5, 2, 0],
                [4, 3, 7]])

a) Comprueba con `numpy` si contiene el número 6

In [84]:
6 in arr

False

b) Comprueba con `numpy` si contiene el número 4

In [85]:
4 in arr

True

### 3 - Operaciones con numpy arrays

a) Reduce la siguiente matriz (array de 2 dimensiones) a una dimensión:

In [86]:
mat = np.array([[2, 3], [4, 5]])

row0 = mat[0]
row1 = mat[1]

mat = np.concatenate([row0, row1])
print(f"Array bidimensional:\n {mat}\n")

Array bidimensional:
 [2 3 4 5]



b) Dados los vectores (arrays de 1 dimensión) `v_a` y `v_b`, calcula, **SIN USAR BUCLES**:
- `v_a` + `v_b` (elemento a elemento)
- `v_a` * `v_b` (elemento a elemento)
- Su producto escalar (dot product)   

In [87]:
v_a = np.array([6, 9, 12])
v_b = np.array([8, 5, 2])

In [88]:
print(v_a+v_b)
print(v_a*v_b)
print(np.dot(v_a,v_b))

[14 14 14]
[48 45 24]
117


## Ejercicios de pandas

Trabajaremos sobre un ejemplo de `DataFrame` que contiene datos sobre pilotos de fórmula 1.

Contamos con los siguientes datos:

|   Driver Name   | Number of Victories |  Country   |
|:---------------:|:-------------------:|:----------:|
|    Hamilton     |         103         |     UK     |
|   Schumacher    |         91          |  Germany   |
|    Raikkonen    |         26          |  Finland   |
|     Alonso      |         32          |   Spain    |
|     Vettel      |         53          |  Germany   |
|      Sainz      |         2           |   Spain    |
|    Hakkinen     |         20          |  Finland   |
|      Senna      |         41          |  Brazil    |
|   Verstappen    |         54          |Netherlands|
|   Fittipaldi    |         14          |  Brazil    |

### 1 - Creación de DataFrames

Empezaremos creando un dataframe sobre el que operar fijándonos en el DataFrame del ejemplo anterior.

Dada la siguiente lista bidimensional (matriz) y el array de nombres de columnas, crea el DataFrame mencionado anteriormente con `pandas`:

In [89]:
drivers = [['Hamilton', 103, 'UK'], ['Schumacher', 91, 'Germany'],
           ['Raikkonen', 26, 'Finland'], ['Alonso', 32, 'Spain'],
           ['Vettel', 53, 'Germany'], ['Sainz', 2, 'Spain'],
           ['Hakkinen', 20, 'Finland'], ['Senna', 41, 'Brazil'],
           ['Verstappen', 54, 'Netherlands'], ['Fittipaldi', 14, 'Brazil'],     # Sí, Fittipaldi existe
           [None, None, None], ['Sainz', 2, 'Spain']]

column_names = ['Driver Name', 'Number of Victories', 'Country']

### 2 - Selección de filas basada en condiciones

- *Anotación: puedes obtener los resultados de estos apartados en el formato que prefieras, no importa si es array o dataframe*

In [90]:
f1 = pd.DataFrame(drivers, columns=column_names)
f1 = f1.drop_duplicates()
f1

Unnamed: 0,Driver Name,Number of Victories,Country
0,Hamilton,103.0,UK
1,Schumacher,91.0,Germany
2,Raikkonen,26.0,Finland
3,Alonso,32.0,Spain
4,Vettel,53.0,Germany
5,Sainz,2.0,Spain
6,Hakkinen,20.0,Finland
7,Senna,41.0,Brazil
8,Verstappen,54.0,Netherlands
9,Fittipaldi,14.0,Brazil


a) ¿Qué piloto tiene el mayor número de victorias? ¿Y el menor?

- *Pista: puedes usar los métodos idxmax e idxmin*




In [91]:
print(f1[f1['Number of Victories']==f1['Number of Victories'].max()]['Driver Name'])
print(f1[f1['Number of Victories']==f1['Number of Victories'].min()]['Driver Name'])

0    Hamilton
Name: Driver Name, dtype: object
5    Sainz
Name: Driver Name, dtype: object


b) Obtén los pilotos con más de 20 victorias.

In [92]:
f1[f1['Number of Victories']>20]['Driver Name']

0      Hamilton
1    Schumacher
2     Raikkonen
3        Alonso
4        Vettel
7         Senna
8    Verstappen
Name: Driver Name, dtype: object

c) ¿Cuántos pilotos finlandeses hay?

In [93]:
f1[f1['Country']=='Finland']['Driver Name'].count()

2

### 3 - Una pequeña introducción a limpieza de datos

Vaya... Parece que se han colado valores nulos en nuestro DataFrame. De esta forma no podremos operar con él en el futuro, vamos a hacer una pequeña limpieza en dos pasos.


*Importante: Esto es un pequeño adelanto del tema de preprocesamiento, así que os daremos alguna pista*

a) Empecemos eliminando los valores nulos por ser los más problemáticos. Podríamos usar el método `dropna` de pandas.

In [94]:
f1 = f1.dropna()
f1

Unnamed: 0,Driver Name,Number of Victories,Country
0,Hamilton,103.0,UK
1,Schumacher,91.0,Germany
2,Raikkonen,26.0,Finland
3,Alonso,32.0,Spain
4,Vettel,53.0,Germany
5,Sainz,2.0,Spain
6,Hakkinen,20.0,Finland
7,Senna,41.0,Brazil
8,Verstappen,54.0,Netherlands
9,Fittipaldi,14.0,Brazil


b) Ahora queda una pregunta... ¿Hace falta que el número de victorias tenga decimales? No se puede ganar media carrera... Como es un poco difícil de mirar, podríamos convertirlo a enteros.

De esta manera podemos ilustrar una gran comodidad que ofrece pandas: cambiar de tipo una columna entera (en el futuro, es posible que os encontréis columnas que vienen en un formato que no es, por ejemplo números en forma de string).

In [95]:
# Este os lo damos hecho como ejemplo

f1['Number of Victories'] = f1['Number of Victories'].astype(int)

f1

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  f1['Number of Victories'] = f1['Number of Victories'].astype(int)


Unnamed: 0,Driver Name,Number of Victories,Country
0,Hamilton,103,UK
1,Schumacher,91,Germany
2,Raikkonen,26,Finland
3,Alonso,32,Spain
4,Vettel,53,Germany
5,Sainz,2,Spain
6,Hakkinen,20,Finland
7,Senna,41,Brazil
8,Verstappen,54,Netherlands
9,Fittipaldi,14,Brazil


¡Ya está! Nuestro dataframe es legible y podemos trabajar con él porque no contiene valores nulos.