### Pair Pandas
El objetivo de la clase de hoy será crear unos cuántos DataFrames y Series a través de los siguientes ejercicios:

1. ¿Qué diferencia hay entre una Serie y un DataFrame?

`Serie`: es una estructura de datos unidimensional, sólo admite un único tipo de datos. Se puede utilizar para almacenar datos de una sola columna.

`DataFrame`: es una estructura de datos bidimensional, que admite distintos tipos de datos. Almacena los datos en una tabla de filas y columnas.

2. Momento de trabajar con Series. Contesta a las siguientes preguntas:

- Crea dos listas:

-- Una que se llame "valores" que tenga 7 números aleatorios.

-- Otra que se llame "indices" que tenga 7 strings que se llamen como los días de la semana.

In [14]:
import pandas as pd
import random
import numpy as np

In [2]:
valores=random.sample(range(1, 50), 7)
print(valores)
indices = ['lunes', 'martes', 'miércoles', 'jueves', 'viernes', 'sábado', 'domingo']
print(indices)

[34, 20, 17, 2, 47, 19, 39]
['lunes', 'martes', 'miércoles', 'jueves', 'viernes', 'sábado', 'domingo']


- A partir de estas dos listas crea una Serie donde la variable "valores" sean los valores de la Serie y la variable indices sean los índices de la Serie.

In [3]:
serie1=pd.Series(valores, index=indices)
serie1

lunes        34
martes       20
miércoles    17
jueves        2
viernes      47
sábado       19
domingo      39
dtype: int64

- A partir de las dos listas anteriores crea un diccionario usando un bucle for. Para hacer esto tenemos el método zip que nos permite iterar por dos listas a la vez. Más informción sobre este método [aquí](https://www.programiz.com/python-programming/methods/built-in/zip).

In [19]:
diccionario=dict(zip(indices, valores))
diccionario

{'lunes': 34,
 'martes': 20,
 'miércoles': 17,
 'jueves': 2,
 'viernes': 47,
 'sábado': 19,
 'domingo': 39}

- Crea una Serie con el diccionario creado en el punto anterior.

In [5]:
serie2=pd.Series(diccionario)
serie2

lunes        34
martes       20
miércoles    17
jueves        2
viernes      47
sábado       19
domingo      39
dtype: int64

- ¿Qué forma tiene esta última Serie?

In [6]:
serie2.shape

(7,)

- ¿Qué tipo de datos tiene?

In [7]:
serie2.dtype

dtype('int64')

- ¿Qué tamaño tiene?

In [8]:
serie2.size

7

- ¿Cuáles son los índices de la Serie?

In [9]:
serie2.index

Index(['lunes', 'martes', 'miércoles', 'jueves', 'viernes', 'sábado',
       'domingo'],
      dtype='object')

- ¿Y los values?

In [10]:
serie2.values

array([34, 20, 17,  2, 47, 19, 39])

- Extrae el valor para el índice "lunes"

In [11]:
serie2["lunes"]

34

- Extrae el valor para el índice "lunes", "martes" y "miércoles".

In [12]:
print(serie2["lunes"])
print(serie2["martes"])
print(serie2["miércoles"])
print(f"\n{serie2[0:3]}")

34
20
17

lunes        34
martes       20
miércoles    17
dtype: int64


- Extrae el valor para el índice "lunes" y "domingo".

In [13]:
print(serie2["lunes"])
print(serie2["domingo"])

34
39


3. Es el turno de los DataFrames

- Crea un array de dos dimensiones con 4 filas y 3 columnas.

In [15]:
array=np.random.randint(1,50, (4,3))
array

array([[36, 38, 41],
       [38,  4,  4],
       [39, 48, 45],
       [11,  8, 10]])

- Convierte el array en un DataFrame donde las columnas se llamen "España", "Francia" e "Italia".

In [16]:
df_paises=pd.DataFrame(array, columns=["España", "Francia", "Italia"])
df_paises

Unnamed: 0,España,Francia,Italia
0,36,38,41
1,38,4,4
2,39,48,45
3,11,8,10


- Descarga el archivo "medallas" y carga el DataFrame.

In [18]:
df_medallas=pd.read_csv("medallas.csv", index_col=0)
df_medallas

Unnamed: 0,País,Oro,Plata,Bronce
1,China,1473,994,720
2,Japón,1032,1037,985
3,Corea del Sur,745,663,827
4,Irán,179,181,197
5,Kazajistán,155,158,224
6,India,154,202,315
7,Tailandia,132,175,278
8,Indonesia,112,131,240
9,China Taipéi,99,144,276
10,Corea del Norte,91,120,235


- Usando el loc extrae todas las columnas de la fila de Tailandia.

In [21]:
df_medallas.loc[df_medallas["País"]=="Tailandia"]

Unnamed: 0,País,Oro,Plata,Bronce
7,Tailandia,132,175,278


- Usando el loc extrae todas las columnas de China e Irán.

In [23]:
df_medallas.loc[(df_medallas["País"]=="China") | (df_medallas["País"]=="Irán")]

Unnamed: 0,País,Oro,Plata,Bronce
1,China,1473,994,720
4,Irán,179,181,197


- Usando el loc extrae solo las columnas de "Oro", "Plata" y "Bronce" de China e Irán.

In [28]:
medallas=df_medallas.loc[(df_medallas["País"]=="China") | (df_medallas["País"]=="Irán"), ["País", "Oro", "Plata", "Bronce"]]
medallas

Unnamed: 0,País,Oro,Plata,Bronce
1,China,1473,994,720
4,Irán,179,181,197


- Usando el iloc extrae la información de la India. Devolved todas las columnas.

In [29]:
info_india=df_medallas.iloc[5]
info_india

País      India
Oro         154
Plata       202
Bronce      315
Name: 6, dtype: object

- Usando el iloc extrae todas las columnas de los paises que estén en posición impar. La primera que nos tendría que salir es Japón y la última Corea del Norte.

In [30]:
paises_impares=df_medallas.iloc[1::2]
paises_impares

Unnamed: 0,País,Oro,Plata,Bronce
2,Japón,1032,1037,985
4,Irán,179,181,197
6,India,154,202,315
8,Indonesia,112,131,240
10,Corea del Norte,91,120,235


- Utilizando el código del ejercicio anterior, selecciona unicamente las columnas "Oro", "Plata" y "Bronce".

In [31]:
paises_medallas=df_medallas.iloc[1::2, [1, 2, 3]]
paises_medallas

Unnamed: 0,Oro,Plata,Bronce
2,1032,1037,985
4,179,181,197
6,154,202,315
8,112,131,240
10,91,120,235


- Contesta a las siguientes preguntas:

-- ¿Qué país consiguió más de 200 medallas de oro?

In [33]:
paises_oro=df_medallas[df_medallas["Oro"] > 200]
print(f"Los países que consiguieron más de 200 medallas de oro son:\n{paises_oro}")

Los países que consiguieron más de 200 medallas de oro son:
            País   Oro  Plata  Bronce
1          China  1473    994     720
2          Japón  1032   1037     985
3  Corea del Sur   745    663     827


-- ¿Qué país consiguió más de 200 medallas de oro y más de 1000 de plata?

In [38]:
paises_oro_plata=df_medallas[(df_medallas["Oro"] > 200) & (df_medallas["Plata"] > 1000)]

print(f"El país que consiguió más de 200 medallas de oro y más de 1000 de plata es:\n{paises_oro_plata}")

El país que consiguió más de 200 medallas de oro y más de 1000 de plata es:
    País   Oro  Plata  Bronce
2  Japón  1032   1037     985


-- ¿Qué país consiguió más de 200 medallas de oro o más de 700 de bronce?

In [39]:
paises_oro_bronce=df_medallas[(df_medallas["Oro"] > 200) | (df_medallas["Bronce"] > 700)]

print(f"Los países que consiguieron más de 200 medallas de oro o más de 700 de bronce son:\n{paises_oro_bronce}")

Los países que consiguieron más de 200 medallas de oro o más de 700 de bronce son:
            País   Oro  Plata  Bronce
1          China  1473    994     720
2          Japón  1032   1037     985
3  Corea del Sur   745    663     827


- Crea una nueva columma que se llame "total" que sea el resultado de la suma de todas las medallas obtenidas por cada país.

In [40]:
df_medallas["Total"]=df_medallas["Oro"] + df_medallas["Plata"] + df_medallas["Bronce"]
df_medallas

Unnamed: 0,País,Oro,Plata,Bronce,Total
1,China,1473,994,720,3187
2,Japón,1032,1037,985,3054
3,Corea del Sur,745,663,827,2235
4,Irán,179,181,197,557
5,Kazajistán,155,158,224,537
6,India,154,202,315,671
7,Tailandia,132,175,278,585
8,Indonesia,112,131,240,483
9,China Taipéi,99,144,276,519
10,Corea del Norte,91,120,235,446
