1. ¿Qué diferencia hay entre una Serie y un DataFrame?

>- Ambas son estructuras de datos de la librería pandas 
>- Las Series son unidimensionales, mientras que los Dataframes son bidimensionales

In [6]:
import pandas as pd
import numpy as np
import random

In [7]:
serie = pd.Series([1,3,5,7,9])
serie

0    1
1    3
2    5
3    7
4    9
dtype: int64

In [8]:
df = pd.DataFrame([2,4,6,8,10])
df

Unnamed: 0,0
0,2
1,4
2,6
3,8
4,10


In [9]:
# Creamos un array de dos dimensiones para posteriormente intentar crear una serie a partir de este array
a2 = np.array([[1,2],[3,4]])

In [10]:
serie1 = pd.Series(a2)
# Nos da error porque le hemos pasado un array de dos dimensiones y las series son unidimensionales

ValueError: Data must be 1-dimensional

In [11]:
df1 = pd.DataFrame(a2)
df1

Unnamed: 0,0,1
0,1,2
1,3,4


2. Momento de trabajar con Series. Contestad a las siguientes preguntas:
* Crea dos listas:
    * Una que se llame "valores" que tenga 7 números aleatorios.
    * Otra que se llame "indices" que tenga 7 strings que se llamen como los días de la semana.

In [12]:
# Por esto hacemos import random al inicio

In [13]:
valores = random.sample(range(1,20), 7)

In [14]:
indices = ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun']

* A partir de estas dos listas cread una Serie donde la variable "valores" sean los valores de la Serie y la variable indices sean los índices de la Serie.

In [15]:
# Primera modalidad
serie2_a = pd.Series(valores, index= (indices))
serie2_a

Mon     3
Tue    10
Wed     7
Thu    14
Fri    13
Sat    16
Sun    18
dtype: int64

In [16]:
# Segunda modalidad
serie2 = pd.Series(valores, indices)
serie2

Mon     3
Tue    10
Wed     7
Thu    14
Fri    13
Sat    16
Sun    18
dtype: int64

* A partir de las dos listas anteriores cread un diccionario usando un bucle for. Para hacer esto tenemos el método zip que nos permite iterar por dos listas a la vez. Más informción sobre este método

In [17]:
# Creamos diccionario solo con zip:
dicc = dict(zip(indices, valores))
dicc

{'Mon': 3, 'Tue': 10, 'Wed': 7, 'Thu': 14, 'Fri': 13, 'Sat': 16, 'Sun': 18}

In [18]:
# Creamos diccionario con el bucle for:
diccionario = {}
for i, v in zip(indices, valores):
    diccionario[i]=v

diccionario


{'Mon': 3, 'Tue': 10, 'Wed': 7, 'Thu': 14, 'Fri': 13, 'Sat': 16, 'Sun': 18}

* Crea una Serie con el diccionario creado en el punto anterior.

In [19]:
serie_dicc = pd.Series(dicc)
serie_dicc

Mon     3
Tue    10
Wed     7
Thu    14
Fri    13
Sat    16
Sun    18
dtype: int64

* ¿Qué forma tiene esta última Serie?

In [20]:
serie_dicc.shape

(7,)

* ¿Qué tipo de datos tiene?

In [21]:
serie_dicc.dtypes

dtype('int64')

* ¿Qué tamaño tiene?

In [22]:
serie_dicc.size

7

* ¿Cuáles son los índices de la Serie?

In [23]:
serie_dicc.index

Index(['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun'], dtype='object')

* ¿Y los values?

In [24]:
serie_dicc.values

array([ 3, 10,  7, 14, 13, 16, 18])

In [25]:
# La lista aleatoria la ha convertido a un array! :)

* Extraed el valor para el índice "lunes"

In [26]:
serie_dicc['Mon']

3

* Extraed el valor para el índice "lunes", "martes" y "miércoles".

In [27]:
serie_dicc[['Mon', 'Tue', 'Wed']] # usamos multiindex

Mon     3
Tue    10
Wed     7
dtype: int64

In [28]:
#probando con los índices numéricos
serie_dicc[[0,1,2]]

Mon     3
Tue    10
Wed     7
dtype: int64

In [29]:
#probando con slices(start:stop:step)
serie_dicc[0:3]

Mon     3
Tue    10
Wed     7
dtype: int64

In [30]:
serie_dicc['Mon':'Thu'] # con las etiquetas de los indices el slice sí te incluye el indice donde pones el stop!

Mon     3
Tue    10
Wed     7
Thu    14
dtype: int64

In [31]:
serie_dicc['Mon':'Thu':2] # te acepta poner step tambien con los slices por etiquetas

Mon    3
Wed    7
dtype: int64

* Extraed el valor para el índice "lunes" y "domingo".

In [32]:
# el primer y el último índice
serie_dicc[[0, -1]]

Mon     3
Sun    18
dtype: int64

In [33]:
serie_dicc[0::6] # con el 6 en el step

Mon     3
Sun    18
dtype: int64

In [34]:
serie_dicc[0:6] #pruebas... con el 6 en el stop

Mon     3
Tue    10
Wed     7
Thu    14
Fri    13
Sat    16
dtype: int64

In [35]:
serie_dicc[['Mon', 'Sun']]

Mon     3
Sun    18
dtype: int64

In [36]:
# hay mas formas?

3. Es el turno de los DataFrames
* Cread un array de dos dimensiones con 4 filas y 3 columnas.

In [37]:
arr2 = np.random.rand(4,3)
arr2

array([[0.3768272 , 0.52763185, 0.80370473],
       [0.92143536, 0.898419  , 0.80584682],
       [0.12466408, 0.50519429, 0.18668027],
       [0.14488483, 0.22230943, 0.88486533]])

* Convertid el array en un DataFrame donde las columnas se llamen "España", "Francia" e "Italia".

In [38]:
df2 = pd.DataFrame(arr2, columns=['España', 'Francia', 'Italia'])
df2

Unnamed: 0,España,Francia,Italia
0,0.376827,0.527632,0.803705
1,0.921435,0.898419,0.805847
2,0.124664,0.505194,0.18668
3,0.144885,0.222309,0.884865


* Descargad el archivo "medallas" y cargad el DataFrame con la siguiente línea de código:

In [39]:
df3 = pd.read_csv("medallas.csv", index_col=["País"])
df3

Unnamed: 0_level_0,Unnamed: 0,Oro,Plata,Bronce
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
China,1,1473,994,720
Japón,2,1032,1037,985
Corea del Sur,3,745,663,827
Irán,4,179,181,197
Kazajistán,5,155,158,224
India,6,154,202,315
Tailandia,7,132,175,278
Indonesia,8,112,131,240
China Taipéi,9,99,144,276
Corea del Norte,10,91,120,235


* Usando el loc extraed todas las columnas de la fila.

In [40]:
df3.loc[:,:]

Unnamed: 0_level_0,Unnamed: 0,Oro,Plata,Bronce
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
China,1,1473,994,720
Japón,2,1032,1037,985
Corea del Sur,3,745,663,827
Irán,4,179,181,197
Kazajistán,5,155,158,224
India,6,154,202,315
Tailandia,7,132,175,278
Indonesia,8,112,131,240
China Taipéi,9,99,144,276
Corea del Norte,10,91,120,235


* Usando el loc extraed todas las columnas de China e Irán.

In [41]:
df3.index

Index(['China', 'Japón', 'Corea del Sur', 'Irán', 'Kazajistán', 'India',
       'Tailandia', 'Indonesia', 'China Taipéi', 'Corea del Norte'],
      dtype='object', name='País')

In [42]:
df3.loc[('China', 'Irán'), :]

Unnamed: 0_level_0,Unnamed: 0,Oro,Plata,Bronce
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
China,1,1473,994,720
Irán,4,179,181,197


* Usando el loc extraed solo las columnas de "Oro", "Plata" y "Bronce" de China e Irán.

In [43]:
df3.loc[('China', 'Irán'), ('Oro',	'Plata', 'Bronce')]

Unnamed: 0_level_0,Oro,Plata,Bronce
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
China,1473,994,720
Irán,179,181,197


* Usando el iloc extraed la información de la India. Devolved todas las columnas.

In [44]:
df3.iloc[5]

Unnamed: 0      6
Oro           154
Plata         202
Bronce        315
Name: India, dtype: int64

* Usando el iloc extraed todas las columnas de los paises que estén en posición impar. La primera que nos tendría que salir es Japón y la última Corea del Norte.

In [45]:
df3.iloc[1::2,:]

Unnamed: 0_level_0,Unnamed: 0,Oro,Plata,Bronce
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Japón,2,1032,1037,985
Irán,4,179,181,197
India,6,154,202,315
Indonesia,8,112,131,240
Corea del Norte,10,91,120,235


* Utilizando el código del ejercicio anterior, seleccionad unicamente las columnas "Oro", "Plata" y "Bronce".

In [46]:
df3.iloc[1::2,1:4]

Unnamed: 0_level_0,Oro,Plata,Bronce
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Japón,1032,1037,985
Irán,179,181,197
India,154,202,315
Indonesia,112,131,240
Corea del Norte,91,120,235


* Contestad a las siguientes preguntas:
    * ¿Qué país consiguió más de 200 medallas de oro?

In [47]:
df3.loc[df3.Oro > 200]

Unnamed: 0_level_0,Unnamed: 0,Oro,Plata,Bronce
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
China,1,1473,994,720
Japón,2,1032,1037,985
Corea del Sur,3,745,663,827


* ¿Qué país consiguió más de 200 medallas de oro y más de 1000 de plata?

In [48]:
print('El pais con mas de 200 medallas de oro y mas de 1000 de plata es:\n ', df3.loc[(df3.Oro >= 200) & (df3.Plata > 1000)])

El pais con mas de 200 medallas de oro y mas de 1000 de plata es:
         Unnamed: 0   Oro  Plata  Bronce
País                                  
Japón           2  1032   1037     985


* ¿Qué país consiguió más de 200 medallas de oro o más de 700 de bronce? 

In [49]:
df3.loc[(df3.Oro >= 200) | (df3.Bronce > 700)]

Unnamed: 0_level_0,Unnamed: 0,Oro,Plata,Bronce
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
China,1,1473,994,720
Japón,2,1032,1037,985
Corea del Sur,3,745,663,827


* Como vemos hay una columna que se llama Unnamed: 0 que no nos interesa. Eliminad esa columna.

In [None]:
df3.drop('Unnamed: 0', axis = 1, inplace = True)

In [54]:
df3

Unnamed: 0_level_0,Oro,Plata,Bronce,Total_medallas
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
China,1473,994,720,3187
Japón,1032,1037,985,3054
Corea del Sur,745,663,827,2235
Irán,179,181,197,557
Kazajistán,155,158,224,537
India,154,202,315,671
Tailandia,132,175,278,585
Indonesia,112,131,240,483
China Taipéi,99,144,276,519
Corea del Norte,91,120,235,446


* Cread una nueva columma que se llame "total" que sea el resultado de la suma de todas las medallas obtenidas por cada país.

In [55]:
df3['Total_medallas'] = df3.Oro + df3.Plata + df3.Bronce
df3

Unnamed: 0_level_0,Oro,Plata,Bronce,Total_medallas
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
China,1473,994,720,3187
Japón,1032,1037,985,3054
Corea del Sur,745,663,827,2235
Irán,179,181,197,557
Kazajistán,155,158,224,537
India,154,202,315,671
Tailandia,132,175,278,585
Indonesia,112,131,240,483
China Taipéi,99,144,276,519
Corea del Norte,91,120,235,446
