In [1]:
import pandas as pd
import numpy as np

## Ejercicios
¿Qué diferencia hay entre una Serie y un DataFrame?

La diferencia fundamental entre una Serie y un DataFrame en la librería Pandas de Python radica en sus dimensiones y su estructura:

Series: Es una estructura de datos unidimensional (1D). Es similar a una columna en una hoja de cálculo o a un arreglo de NumPy, que contiene una secuencia de valores y un índice asociado para cada valor. Los elementos de una Serie deben ser homogéneos (del mismo tipo de dato).

Imagina una lista de números con una etiqueta al lado de cada uno.

DataFrame: Es una estructura de datos bidimensional (2D), similar a una tabla en una hoja de cálculo o una base de datos SQL. Se compone de filas y columnas, y es esencialmente una colección de objetos Series que comparten el mismo índice de filas. Las columnas de un DataFrame pueden contener datos de diferentes tipos (heterogéneos), ya que cada columna es una Serie separada.


## Es el turno de los DataFrames

In [2]:
# Crea un array de dos dimensiones con 4 filas y 3 columnas.
array1 = np.random.randint(0,20, (4,3))

array1

array([[11, 13, 12],
       [ 4,  2, 10],
       [ 0,  9,  8],
       [ 2, 18, 14]], dtype=int32)

In [9]:
# Convierte el array en un DataFrame donde las columnas se llamen "España", "Francia" e "Italia".
columnas = ["España", "Francia", "Italia"]

dicc = dict(zip(columnas, array1.tolist()))
dicc

{'España': [11, 13, 12], 'Francia': [4, 2, 10], 'Italia': [0, 9, 8]}

In [10]:
df = pd.DataFrame(dicc)
df

Unnamed: 0,España,Francia,Italia
0,11,4,0
1,13,2,9
2,12,10,8


In [11]:
# Descarga el archivo "medallas" y carga el DataFrame.
df_medallas = pd.read_csv("medallas.csv")

df_medallas.head()

Unnamed: 0.1,Unnamed: 0,País,Oro,Plata,Bronce
0,1,China,1473,994,720
1,2,Japón,1032,1037,985
2,3,Corea del Sur,745,663,827
3,4,Irán,179,181,197
4,5,Kazajistán,155,158,224


In [12]:
# Usando el loc extrae todas las columnas de la fila de Tailandia.
df_medallas.loc[df_medallas["País"] == "Tailandia", :]

Unnamed: 0.1,Unnamed: 0,País,Oro,Plata,Bronce
6,7,Tailandia,132,175,278


In [20]:
# Usando el loc extrae todas las columnas de China e Irán.
df_medallas.loc[(df_medallas["País"] == "China" )|(df_medallas["País"] == "Irán")]

Unnamed: 0.1,Unnamed: 0,País,Oro,Plata,Bronce
0,1,China,1473,994,720
3,4,Irán,179,181,197


In [22]:
# Usando el loc extrae solo las columnas de "Oro", "Plata" y "Bronce" de China e Irán.
df_medallas.loc[(df_medallas["País"] == "China")|(df_medallas["País"] == "Irán"), ["Oro", "Plata", "Bronce"]]

Unnamed: 0,Oro,Plata,Bronce
0,1473,994,720
3,179,181,197


In [25]:
# Usando el iloc extrae la información de la India. Devolved todas las columnas.
df_medallas.iloc[df_medallas.index[df_medallas["País"] == "India"], :]

Unnamed: 0.1,Unnamed: 0,País,Oro,Plata,Bronce
5,6,India,154,202,315


In [26]:
# Usando el iloc extrae todas las columnas de los países que estén en posición impar. 
# La primera que nos tendría que salir es Japón y la última Corea del Norte.
df_medallas.iloc[1::2, :]

Unnamed: 0.1,Unnamed: 0,País,Oro,Plata,Bronce
1,2,Japón,1032,1037,985
3,4,Irán,179,181,197
5,6,India,154,202,315
7,8,Indonesia,112,131,240
9,10,Corea del Norte,91,120,235


In [27]:
# Utilizando el código del ejercicio anterior, selecciona unicamente las columnas "Oro", "Plata" y "Bronce".
df_medallas.iloc[1::2, -3:]

Unnamed: 0,Oro,Plata,Bronce
1,1032,1037,985
3,179,181,197
5,154,202,315
7,112,131,240
9,91,120,235


## Contesta a las siguientes preguntas:



In [28]:
# ¿Qué país consiguió más de 200 medallas de oro?
df_medallas.loc[(df_medallas.Oro > 200), ["País"]]

Unnamed: 0,País
0,China
1,Japón
2,Corea del Sur


In [29]:
# ¿Qué país consiguió más de 200 medallas de oro y más de 1000 de plata?
df_medallas.loc[(df_medallas.Oro > 200) & (df_medallas.Plata > 1000), ['País']]

Unnamed: 0,País
1,Japón


In [30]:
# ¿Qué país consiguió más de 200 medallas de oro o más de 700 de bronce?
df_medallas.loc[(df_medallas.Oro > 200) & (df_medallas.Bronce > 700), ['País']]

Unnamed: 0,País
0,China
1,Japón
2,Corea del Sur


In [31]:
# Crea una nueva columna que se llame "total" que sea el resultado de la suma de todas las medallas obtenidas por cada país.
df_medallas["total"] = df_medallas["Oro"] + df_medallas["Plata"] + df_medallas["Bronce"]
df_medallas.head()

Unnamed: 0.1,Unnamed: 0,País,Oro,Plata,Bronce,total
0,1,China,1473,994,720,3187
1,2,Japón,1032,1037,985,3054
2,3,Corea del Sur,745,663,827,2235
3,4,Irán,179,181,197,557
4,5,Kazajistán,155,158,224,537


## Momento de trabajar con Series. Contesta a las siguientes preguntas:

# Crea dos listas:

In [33]:
# Una que se llame "valores" que tenga 7 números aleatorios.
valores = np.random.randint(0, 30, 7).tolist()
print(valores)


[11, 27, 27, 23, 8, 25, 5]


In [34]:
# Otra que se llame "indices" que tenga 7 strings que se llamen como los días de la semana.
indices = ["Lunes", "Martes", "Miércoles", "Jueves", "Viernes", "Sábado", "Domingo"]
print(indices)

['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes', 'Sábado', 'Domingo']


In [35]:
# A partir de estas dos listas crea una Serie donde la variable "valores" sean los valores de la Serie y la variable indices sean los índices de la Serie.
serie1 = pd.Series(data=valores, index=indices)
print(serie1)

Lunes        11
Martes       27
Miércoles    27
Jueves       23
Viernes       8
Sábado       25
Domingo       5
dtype: int64


In [36]:
# A partir de las dos listas anteriores crea un diccionario usando un bucle for. 
# Para hacer esto tenemos el método zip que nos permite iterar por dos listas a la vez. Más información sobre este método aquí.
valores = [4, 22, 4, 9, 27, 0, 21]
indices = ["Lunes", "Martes", "Miércoles", "Jueves", "Viernes", "Sábado", "Domingo"]

diccionario2 = {}

for dia, valor in zip(indices, valores):
    diccionario2[dia] = valor

print(diccionario2)

{'Lunes': 4, 'Martes': 22, 'Miércoles': 4, 'Jueves': 9, 'Viernes': 27, 'Sábado': 0, 'Domingo': 21}


In [37]:
# Crea una Serie con el diccionario creado en el punto anterior.
serie2 = pd.Series(diccionario2)

print(serie2)

Lunes         4
Martes       22
Miércoles     4
Jueves        9
Viernes      27
Sábado        0
Domingo      21
dtype: int64


In [38]:
# ¿Qué forma tiene esta última Serie?
serie2.shape

(7,)

In [39]:
# ¿Qué tipo de datos tiene?
serie2.dtype

dtype('int64')

In [40]:
# ¿Qué tamaño tiene?
serie2.size

7

In [41]:
# ¿Cuáles son los índices de la Serie?
serie2.index

Index(['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes', 'Sábado',
       'Domingo'],
      dtype='object')

In [42]:
# ¿Y los values?
serie2.values

array([ 4, 22,  4,  9, 27,  0, 21])

In [43]:
# Extrae el valor para el índice "lunes"
serie2["Lunes"]

np.int64(4)

In [45]:
# Extrae el valor para el índice "lunes", "martes" y "miércoles".
for i, v in serie2.items():
    if i in ("Lunes", "Martes", "Miércoles"):
        print(i, "->", v)
        print("----------------")

Lunes -> 4
----------------
Martes -> 22
----------------
Miércoles -> 4
----------------


In [46]:
# Extrae el valor para el índice "lunes" y "domingo".
for i, v in serie2.items():
    if i in ("Lunes", "Domingo"):
        print(i, "->", v)
        print("----------------")


Lunes -> 4
----------------
Domingo -> 21
----------------


## Más ejercicios de loc e iloc
Para realizar estos ejercicios deberéis usar el conjunto de datos de world-data-2023-part1.csv

In [50]:
# Selecciona todas las columnas de las filas 2 a 4 (inclusive) utilizando loc.
df_world = pd.read_csv("world-data-2023_part1.csv", index_col=0)

df_world.head()


Unnamed: 0,Country,Density\n(P/Km2),Abbreviation,Agricultural Land( %),Land Area(Km2),Armed Forces size,Birth Rate,Calling Code,Capital/Major City,Co2-Emissions,CPI,CPI Change (%),Currency-Code,Fertility Rate,Forested Area (%),Gasoline Price
0,Afghanistan,60,AF,58.10%,652230,323000.0,32.49,93.0,Kabul,8672,149.9,2.30%,AFN,4.47,2.10%,$0.70
1,Albania,105,AL,43.10%,28748,9000.0,11.78,355.0,Tirana,4536,119.05,1.40%,ALL,1.62,28.10%,$1.36
2,Algeria,18,DZ,17.40%,2381741,317000.0,24.28,213.0,Algiers,150006,151.36,2.00%,DZD,3.02,0.80%,$0.28
3,Andorra,164,AD,40.00%,468,,7.2,376.0,Andorra la Vella,469,,,EUR,1.27,34.00%,$1.51
4,Angola,26,AO,47.50%,1246700,117000.0,40.73,244.0,Luanda,34693,261.73,17.10%,AOA,5.52,46.30%,$0.97


In [53]:
df_world.loc[2:4:]

Unnamed: 0,Country,Density\n(P/Km2),Abbreviation,Agricultural Land( %),Land Area(Km2),Armed Forces size,Birth Rate,Calling Code,Capital/Major City,Co2-Emissions,CPI,CPI Change (%),Currency-Code,Fertility Rate,Forested Area (%),Gasoline Price
2,Algeria,18,DZ,17.40%,2381741,317000.0,24.28,213.0,Algiers,150006,151.36,2.00%,DZD,3.02,0.80%,$0.28
3,Andorra,164,AD,40.00%,468,,7.2,376.0,Andorra la Vella,469,,,EUR,1.27,34.00%,$1.51
4,Angola,26,AO,47.50%,1246700,117000.0,40.73,244.0,Luanda,34693,261.73,17.10%,AOA,5.52,46.30%,$0.97


In [62]:
# Utilizando loc, filtra el conjunto de datos para mostrar solo las filas donde la densidad (columna "Birth Rate") es mayor a 30.
df_world.loc[df_world['Birth Rate'] > 30, :]

Unnamed: 0,Country,Density\n(P/Km2),Abbreviation,Agricultural Land( %),Land Area(Km2),Armed Forces size,Birth Rate,Calling Code,Capital/Major City,Co2-Emissions,CPI,CPI Change (%),Currency-Code,Fertility Rate,Forested Area (%),Gasoline Price
0,Afghanistan,60,AF,58.10%,652230,323000.0,32.49,93.0,Kabul,8672,149.9,2.30%,AFN,4.47,2.10%,$0.70
4,Angola,26,AO,47.50%,1246700,117000.0,40.73,244.0,Luanda,34693,261.73,17.10%,AOA,5.52,46.30%,$0.97
18,Benin,108,BJ,33.30%,112622,12000.0,36.22,229.0,Porto-Novo,6476,110.71,-0.90%,XOF,4.84,37.80%,$0.72
26,Burkina Faso,76,BF,44.20%,274200,11000.0,37.93,226.0,Ouagadougou,3418,106.58,-3.20%,XOF,5.19,19.30%,$0.98
27,Burundi,463,BI,79.20%,27830,31000.0,39.01,257.0,Bujumbura,495,182.11,-0.70%,BIF,5.41,10.90%,$1.21
28,Ivory Coast,83,CI,64.80%,322463,27000.0,35.74,225.0,Yamoussoukro,9674,111.61,-0.90%,XOF,4.65,32.70%,$0.93
31,Cameroon,56,CM,20.60%,475440,24000.0,35.39,237.0,Yaound�,8291,118.65,2.50%,XAF,4.57,39.30%,$1.03
33,Central African Republic,8,CF,8.20%,622984,8000.0,35.35,236.0,Bangui,297,186.86,37.10%,,4.72,35.60%,$1.41
34,Chad,13,TD,39.70%,1284000,35000.0,42.17,235.0,N'Djamena,1016,117.7,-1.00%,XAF,5.75,3.80%,$0.78
38,Comoros,467,KM,71.50%,2235,,31.88,269.0,"Moroni, Comoros",202,103.62,-4.30%,KMF,4.21,19.70%,


In [72]:
# Utilizando loc selecciona las columnas "Country" y "Capital/Major City" de las filas donde el porcentaje de tierra agrícola (columna "Fertility Rate") es superior al 3.
df_world.loc[df_world["Fertility Rate"] > 3, ["Country", "Capital/Major City"]]

Unnamed: 0,Country,Capital/Major City
0,Afghanistan,Kabul
2,Algeria,Algiers
4,Angola,Luanda
18,Benin,Porto-Novo
26,Burkina Faso,Ouagadougou
27,Burundi,Bujumbura
28,Ivory Coast,Yamoussoukro
31,Cameroon,Yaound�
33,Central African Republic,Bangui
34,Chad,N'Djamena


In [76]:
# Selecciona todas las filas de las columnas 0 a 4 (excluyendo la columna 4) utilizando iloc. [Country	Density\n(P/Km2)	Abbreviation	Agricultural Land( %)]
df_world.iloc[0::,0:4]

Unnamed: 0,Country,Density\n(P/Km2),Abbreviation,Agricultural Land( %)
0,Afghanistan,60,AF,58.10%
1,Albania,105,AL,43.10%
2,Algeria,18,DZ,17.40%
3,Andorra,164,AD,40.00%
4,Angola,26,AO,47.50%
...,...,...,...,...
190,Venezuela,32,VE,24.50%
191,Vietnam,314,VN,39.30%
192,Yemen,56,YE,44.60%
193,Zambia,25,ZM,32.10%


In [78]:
# Encuentra el valor en la fila 2 y columna 7 utilizando iloc.
df_world.iloc[1:2:,6:7:]

Unnamed: 0,Birth Rate
1,11.78


In [None]:
# Selecciona todas las filas para las columnas 0, 2, y 5 utilizando iloc.
df_world.iloc[:, [0, 2, 5]]

In [None]:
# Encuentra el valor de "Gasoline Price" para el país cuya abreviatura es "AL" utilizando loc.

In [None]:
# Selecciona todas las columnas para el país cuya capital es "Tirana" utilizando loc.

In [None]:
# Filtra el conjunto de datos para mostrar solo las filas donde el índice de CPI (columna "CPI") sea igual a 128.85.

In [None]:
# Encuentra la densidad (columna "Density\n(P/Km2)") para el país cuya abreviatura es "AD" utilizando loc.


In [None]:
# Selecciona las columnas "Country" y "Co2-Emissions".

In [None]:
# Filtra el conjunto de datos para mostrar solo las filas donde el índice de CPI cambió un 2% (columna "CPI Change (%)").

In [None]:
# Encuentra la tasa de natalidad (columna "Birth Rate") para el país con la abreviatura "AF" utilizando loc.

In [None]:
# Selecciona todas las columnas de las filas 3 a 5 (excluyendo la fila 5) utilizando iloc.

In [None]:
# Selecciona las columnas 1, 3 y 6 para todas las filas utilizando iloc.