# Librerías de machine learning más usadas:

[librerías más usadas](../docs/01_librerías_ml.md)

# 1) Preprocesamiento y manipulación de datos

## NumPy

### 1. Creación de Arrays

In [1]:
import numpy as np

In [3]:
# Array desde lista
np.array([1, 2, 3])

array([1, 2, 3])

In [4]:
# Matriz 2D
np.array([[1, 2, 3], [4, 5, 6]])

array([[1, 2, 3],
       [4, 5, 6]])

In [5]:
# Rango de valores
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

In [6]:
# Números igualmente espaciados
np.linspace(0, 1, 5)    # genera un array de 5 números igualmente espaciados entre 0 y 1 (incluyendo ambos extremos).

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [7]:
# Matrices especiales
np.zeros((3, 4))        # Matriz de ceros de 3 filas y 4 columnas

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [8]:
np.ones((2, 5))         # Matriz de unos de 2 filas y 5 columnas

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [9]:
np.eye(4)            # Matriz identidad de 4x4

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [10]:
np.random.rand(2, 2)     # Matriz 2x2 con valores aleatorios entre 0 y 1

array([[0.94239785, 0.56427194],
       [0.62516219, 0.86861068]])

In [11]:
np.random.randn(2, 2)   # Matriz 2x2 con valores aleatorios de una distribución normal (media 0, desviación estándar 1)
# Se usa para simular datos con comportamiento normal (gaussiano).

array([[2.35303979, 0.54686764],
       [1.09585972, 1.41720339]])

In [12]:
np.random.randint(0, 10, (3, 3))  # Matriz 3x3 con enteros aleatorios entre 0 y 10

array([[1, 0, 9],
       [4, 3, 3],
       [5, 7, 5]])

In [13]:
np.random.randint(0, 10, 5)  # Array de 5 enteros aleatorios entre 0 y 10

array([8, 0, 6, 3, 1])

### 2. Inspección

In [14]:
a = np.array([[1,2,3],[4,5,6]])

In [15]:
a.shape       # Dimensiones del array (filas, columnas)

(2, 3)

In [16]:
a.ndim        # Número de dimensiones

2

In [17]:
a.size        # Número total de elementos

6

In [18]:
a.dtype       # Tipo de datos de los elementos

dtype('int64')

### 3. Operaciones Básicas

In [19]:
x = np.array([1, 2, 3])
y = np.array([10, 20, 30])

In [20]:
x + y       # Suma elemento a elemento

array([11, 22, 33])

In [21]:
x - y       # Resta elemento a elemento

array([ -9, -18, -27])

In [22]:
x * y       # Multiplicación elemento a elemento

array([10, 40, 90])

In [23]:
x / y       # División elemento a elemento

array([0.1, 0.1, 0.1])

In [24]:
x ** y      # Potenciación elemento a elemento

array([              1,         1048576, 205891132094649])

#### Operaciones escalares

In [25]:
x + 5

array([6, 7, 8])

In [26]:
y * 2

array([20, 40, 60])

### 4. Indexado y slicing

#### Arrays

In [27]:
a = np.array([10, 20, 30, 40, 50])

In [28]:
a[0]        # Primer elemento

np.int64(10)

In [29]:
a[-1]       # Último elemento

np.int64(50)

In [30]:
a[1:4]      # Elementos desde el índice 1 hasta el 3 (excluyendo el 4)

array([20, 30, 40])

In [31]:
a[::2]     # Elementos desde el inicio hasta el final, con paso 2

array([10, 30, 50])

#### Matrices

In [32]:
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [33]:
b[0, 2]      # Elemento en la primera fila, tercera columna

np.int64(3)

In [34]:
b[1, :]      # Todos los elementos de la segunda fila

array([4, 5, 6])

In [35]:
b[:, 1]      # Todos los elementos de la segunda columna

array([2, 5, 8])

### 5. Funciones estadísticas

In [36]:
data = np.array([1, 2, 3, 4, 5])

In [37]:
np.mean(data)      # Media

np.float64(3.0)

In [38]:
np.median(data)    # Mediana

np.float64(3.0)

In [39]:
np.std(data)       # Desviación estándar

np.float64(1.4142135623730951)

In [40]:
np.var(data)       # Varianza

np.float64(2.0)

In [41]:
np.min(data)       # Valor mínimo

np.int64(1)

In [42]:
np.max(data)       # Valor máximo

np.int64(5)

In [43]:
np.sum(data)       # Suma de todos los elementos

np.int64(15)

In [44]:
np.cumsum(data)    # Suma acumulativa

array([ 1,  3,  6, 10, 15])

### 6. Álgebra lineal

In [45]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

In [None]:
np.dot(A, B)   # Producto matricial de A y B

A @ B          # Producto matricial de A y B (otra sintaxis)

array([[19, 22],
       [43, 50]])

In [47]:
np.transpose(A)  # Transpuesta de A

array([[1, 3],
       [2, 4]])

In [48]:
np.linalg.inv(A)  # Inversa de A (si es invertible)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

In [49]:
np.linalg.det(A)  # Determinante de A

np.float64(-2.0000000000000004)

In [50]:
np.linalg.eig(A)  # Valores y vectores propios de A

EigResult(eigenvalues=array([-0.37228132,  5.37228132]), eigenvectors=array([[-0.82456484, -0.41597356],
       [ 0.56576746, -0.90937671]]))

### 7. Reshape y manipulación

In [53]:
a = np.arange(6)  # Array con valores del 0 al 5
a

array([0, 1, 2, 3, 4, 5])

In [54]:
a.reshape((2, 3))  # Cambia la forma a 2 filas y 3 columnas

array([[0, 1, 2],
       [3, 4, 5]])

In [61]:
a.reshape((-1, 2))  # Cambia la forma a 2 columnas, infiere el número de filas

array([[0, 1],
       [2, 3],
       [4, 5]])

In [60]:
a.flatten()  # Aplana el array a 1D

array([0, 1, 2, 3, 4, 5])

In [62]:
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])

In [63]:
np.concatenate((x, y))  # Concatena x e y

array([1, 2, 3, 4, 5, 6])

### 8. Condiciones y máscaras

In [64]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

In [65]:
arr > 3  # Devuelve un array booleano indicando dónde se cumple la condición

array([False, False, False,  True,  True,  True,  True,  True,  True,
        True])

In [66]:
arr[arr > 3]  # Filtra los elementos que cumplen la condición

array([ 4,  5,  6,  7,  8,  9, 10])

In [72]:
np.where(arr > 3, 1, 0)  # Devuelve los índices donde se cumple la condición

array([0, 0, 0, 1, 1, 1, 1, 1, 1, 1])

## Pandas

In [3]:
import pandas as pd

### 1. Cargar datos

In [2]:
# Datos de ejemplo con 20 países (como en la tabla anterior)
data = [
    ["África", "República Centroafricana", "Bangui", "Francés, Sango", 5650957],
    ["África", "Gambia", "Banjul", "Inglés", 2422712],
    ["Asia", "Indonesia", "Yakarta", "Bahasa Indonesia", 281562465],
    ["América", "Guatemala", "Ciudad de Guatemala", "Español", 18255216],
    ["América", "Haití", "Puerto Príncipe", "Francés, Criollo haitiano", 11753943],
    ["Europa", "Francia", "París", "Francés", 68374591],
    ["Europa", "Bélgica", "Bruselas", "Francés, Neerlandés, Alemán", 11977634],
    ["América", "Canadá", "Ottawa", "Inglés, Francés", 38794813],
    ["África", "Camerún", "Yaundé", "Francés, Inglés", 30966105],
    ["África", "Costa de Marfil", "Yamusukro", "Francés", 29981758],
    ["África", "Madagascar", "Antananarivo", "Malgache, Francés", 29452714],
    ["África", "Senegal", "Dakar", "Francés", 18847519],
    ["África", "Burundi", "Buyumbura", "Kirundi, Francés", 13590102],
    ["Europa", "Suiza", "Berna", "Alemán, Francés, Italiano, Romanche", 8860574],
    ["África", "Congo (República del)", "Brazzaville", "Francés", 6097665],
    ["Oceanía", "Vanuatu", "Port Vila", "Bislama, Inglés, Francés", 318007],
    ["África", "Seychelles", "Victoria", "Criollo seychelense, Inglés, Francés", 98187],
    ["Europa", "Mónaco", "Mónaco", "Francés", 31813],
    ["América", "México", "Ciudad de México", "Español", 129875529],
    ["Asia", "Japón", "Tokio", "Japonés", 123753041]
]

# Crear DataFrame
df = pd.DataFrame(data, columns=["Continente", "País", "Capital", "Idioma(s) oficial(es)", "Población estimada (2024)"])

In [3]:
# Guardar como CSV
file_path = "./paises_extracto.csv"
df.to_csv(file_path, index=False)

In [4]:
# Cargar datos
# df = pd.read_csv(file_path)
df = pd.read_csv("./paises_extracto.csv")
df

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población estimada (2024)
0,África,República Centroafricana,Bangui,"Francés, Sango",5650957.0
1,África,Gambia,Banjul,Inglés,2422712.0
2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465.0
3,América,Guatemala,Ciudad de Guatemala,Español,18255216.0
4,América,Haití,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0
5,Europa,Francia,París,Francés,68374591.0
6,Europa,Bélgica,Bruselas,"Francés, Neerlandés, Alemán",11977634.0
7,América,Canadá,Ottawa,"Inglés, Francés",38794813.0
8,África,Camerún,Yaundé,"Francés, Inglés",30966105.0
9,África,Costa de Marfil,Yamusukro,Francés,29981758.0


### 2. Exploración

In [6]:
df.head(3)  # Primeras filas

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población estimada (2024)
0,África,República Centroafricana,Bangui,"Francés, Sango",5650957
1,África,Gambia,Banjul,Inglés,2422712
2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465


In [7]:
df.tail(6)  # Últimas filas

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población estimada (2024)
14,África,Congo (República del),Brazzaville,Francés,6097665
15,Oceanía,Vanuatu,Port Vila,"Bislama, Inglés, Francés",318007
16,África,Seychelles,Victoria,"Criollo seychelense, Inglés, Francés",98187
17,Europa,Mónaco,Mónaco,Francés,31813
18,América,México,Ciudad de México,Español,129875529
19,Asia,Japón,Tokio,Japonés,123753041


In [8]:
df.info()  # Información del DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Continente                 20 non-null     object
 1   País                       20 non-null     object
 2   Capital                    20 non-null     object
 3   Idioma(s) oficial(es)      20 non-null     object
 4   Población estimada (2024)  20 non-null     int64 
dtypes: int64(1), object(4)
memory usage: 932.0+ bytes


In [9]:
df.describe()  # Estadísticas descriptivas

Unnamed: 0,Población estimada (2024)
count,20.0
mean,41533270.0
std,67735330.0
min,31813.0
25%,5985988.0
50%,15922660.0
75%,32923280.0
max,281562500.0


In [10]:
df.shape  # Dimensiones del DataFrame (filas, columnas)

(20, 5)

### 3. Selección de datos

In [11]:
df["Población estimada (2024)"] # Selección de una columna

0       5650957
1       2422712
2     281562465
3      18255216
4      11753943
5      68374591
6      11977634
7      38794813
8      30966105
9      29981758
10     29452714
11     18847519
12     13590102
13      8860574
14      6097665
15       318007
16        98187
17        31813
18    129875529
19    123753041
Name: Población estimada (2024), dtype: int64

In [12]:
df[["País", "Capital"]]  # Selección de múltiples columnas

Unnamed: 0,País,Capital
0,República Centroafricana,Bangui
1,Gambia,Banjul
2,Indonesia,Yakarta
3,Guatemala,Ciudad de Guatemala
4,Haití,Puerto Príncipe
5,Francia,París
6,Bélgica,Bruselas
7,Canadá,Ottawa
8,Camerún,Yaundé
9,Costa de Marfil,Yamusukro


In [14]:
df.loc[2, "Población estimada (2024)"]  # Valor específico (fila 2, columna "Población estimada (2024)")

np.int64(281562465)

In [15]:
df.iloc[2, 4]  # Valor específico usando índices (fila 2, columna 4)

np.int64(281562465)

### 4. Filtrado

In [16]:
df[df["Población estimada (2024)"] > 50000000]  # Filtrar países con población mayor a 50 millones

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población estimada (2024)
2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465
5,Europa,Francia,París,Francés,68374591
18,América,México,Ciudad de México,Español,129875529
19,Asia,Japón,Tokio,Japonés,123753041


In [None]:
df.query("`Idioma(s) oficial(es)`.str.contains('Francés') and `Población estimada (2024)` < 1000000")   # Filtrar con múltiples condiciones


Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población estimada (2024)
15,Oceanía,Vanuatu,Port Vila,"Bislama, Inglés, Francés",318007
16,África,Seychelles,Victoria,"Criollo seychelense, Inglés, Francés",98187
17,Europa,Mónaco,Mónaco,Francés,31813


### 5. Ordenar y ranking

In [25]:
df.sort_values(by="Población estimada (2024)", ascending=False)  # Ordenar por población descendente

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población estimada (2024)
2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465
18,América,México,Ciudad de México,Español,129875529
19,Asia,Japón,Tokio,Japonés,123753041
5,Europa,Francia,París,Francés,68374591
7,América,Canadá,Ottawa,"Inglés, Francés",38794813
8,África,Camerún,Yaundé,"Francés, Inglés",30966105
9,África,Costa de Marfil,Yamusukro,Francés,29981758
10,África,Madagascar,Antananarivo,"Malgache, Francés",29452714
11,África,Senegal,Dakar,Francés,18847519
3,América,Guatemala,Ciudad de Guatemala,Español,18255216


In [27]:
df.rank()  # Ranking de todas las columnas numéricas

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población estimada (2024)
0,16.0,16.0,2.0,15.0,5.0
1,16.0,8.0,3.0,16.0,4.0
2,5.5,11.0,18.0,2.0,20.0
3,2.5,9.0,8.0,5.5,11.0
4,2.5,10.0,15.0,12.0,8.0
5,8.5,7.0,13.0,9.0,17.0
6,8.5,2.0,6.0,14.0,9.0
7,2.5,4.0,12.0,17.0,16.0
8,16.0,3.0,20.0,13.0,15.0
9,16.0,6.0,19.0,9.0,14.0


### 6. Transformación

In [7]:
df.rename(columns={"Población estimada (2024)": "Población_2024"}, inplace=True)  # Renombrar columna
df.head()

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población_2024
0,África,República Centroafricana,Bangui,"Francés, Sango",5650957.0
1,África,Gambia,Banjul,Inglés,2422712.0
2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465.0
3,América,Guatemala,Ciudad de Guatemala,Español,18255216.0
4,América,Haití,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0


In [13]:
df2 = df.drop(
    columns=["Continente"],
    axis=1
)  # Eliminar columna

df2.head()

Unnamed: 0,País,Capital,Idioma(s) oficial(es),Población_2024
0,República Centroafricana,Bangui,"Francés, Sango",5650957.0
1,Gambia,Banjul,Inglés,2422712.0
2,Indonesia,Yakarta,Bahasa Indonesia,281562465.0
3,Guatemala,Ciudad de Guatemala,Español,18255216.0
4,Haití,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0


In [56]:
df.dropna() # Eliminar filas con valores nulos

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población_2024
0,África,República Centroafricana,Bangui,"Francés, Sango",5650957.0
1,África,Gambia,Banjul,Inglés,2422712.0
2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465.0
3,América,Guatemala,Ciudad de Guatemala,Español,18255216.0
4,América,Haití,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0
5,Europa,Francia,París,Francés,68374591.0
6,Europa,Bélgica,Bruselas,"Francés, Neerlandés, Alemán",11977634.0
7,América,Canadá,Ottawa,"Inglés, Francés",38794813.0
8,África,Camerún,Yaundé,"Francés, Inglés",30966105.0
9,África,Costa de Marfil,Yamusukro,Francés,29981758.0


In [57]:
df.fillna("desconocido") # Rellenar valores nulos con "desconocido"

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población_2024
0,África,República Centroafricana,Bangui,"Francés, Sango",5650957.0
1,África,Gambia,Banjul,Inglés,2422712.0
2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465.0
3,América,Guatemala,Ciudad de Guatemala,Español,18255216.0
4,América,Haití,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0
5,Europa,Francia,París,Francés,68374591.0
6,Europa,Bélgica,Bruselas,"Francés, Neerlandés, Alemán",11977634.0
7,América,Canadá,Ottawa,"Inglés, Francés",38794813.0
8,África,Camerún,Yaundé,"Francés, Inglés",30966105.0
9,África,Costa de Marfil,Yamusukro,Francés,29981758.0


In [60]:
df["Población_2025"] = df["Población_2024"].apply(lambda x: x * 1.01)  # Añadir nueva columna con población estimada para 2025 (1% más)
df

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población_2024,Población_2025
0,África,República Centroafricana,Bangui,"Francés, Sango",5650957.0,5707467.0
1,África,Gambia,Banjul,Inglés,2422712.0,2446939.0
2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465.0,284378100.0
3,América,Guatemala,Ciudad de Guatemala,Español,18255216.0,18437770.0
4,América,Haití,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0,11871480.0
5,Europa,Francia,París,Francés,68374591.0,69058340.0
6,Europa,Bélgica,Bruselas,"Francés, Neerlandés, Alemán",11977634.0,12097410.0
7,América,Canadá,Ottawa,"Inglés, Francés",38794813.0,39182760.0
8,África,Camerún,Yaundé,"Francés, Inglés",30966105.0,31275770.0
9,África,Costa de Marfil,Yamusukro,Francés,29981758.0,30281580.0


### 7. Agrupar y resumir

In [6]:
df.groupby("Continente")["Población estimada (2024)"].sum()  # Sumar población por continente

Continente
América    198679501.0
Asia       405315506.0
Europa      89244612.0
Oceanía       318007.0
África     137107719.0
Name: Población estimada (2024), dtype: float64

In [8]:
df.groupby(["Continente", "Idioma(s) oficial(es)"]).size()  # Contar países por continente e idioma oficial

Continente  Idioma(s) oficial(es)               
América     Español                                 2
            Francés, Criollo haitiano               1
            Inglés, Francés                         1
Asia        Bahasa Indonesia                        1
            Japonés                                 1
Europa      Alemán, Francés, Italiano, Romanche     1
            Francés                                 2
            Francés, Neerlandés, Alemán             1
Oceanía     Bislama, Inglés, Francés                1
África      Criollo seychelense, Inglés, Francés    1
            Francés                                 3
            Francés, Inglés                         1
            Francés, Sango                          1
            Inglés                                  1
            Kirundi, Francés                        1
            Malgache, Francés                       1
dtype: int64

### 8. Estadísticas rápidas

In [9]:
df["Continente"].value_counts()  # Contar número de países por continente

Continente
África     9
América    5
Europa     4
Asia       2
Oceanía    1
Name: count, dtype: int64

In [10]:
df["Idioma(s) oficial(es)"].unique()  # Listar idiomas oficiales únicos

array(['Francés, Sango', 'Inglés', 'Bahasa Indonesia', 'Español',
       'Francés, Criollo haitiano', 'Francés',
       'Francés, Neerlandés, Alemán', 'Inglés, Francés',
       'Francés, Inglés', 'Malgache, Francés', 'Kirundi, Francés',
       'Alemán, Francés, Italiano, Romanche', 'Bislama, Inglés, Francés',
       'Criollo seychelense, Inglés, Francés', 'Japonés', nan],
      dtype=object)

In [11]:
df["Idioma(s) oficial(es)"].nunique()  # Contar idiomas oficiales únicos

15

### 9. Uniones y Merge

In [14]:
pd.concat([df, df2], axis=1)  # Concatenar df y df2 horizontalmente

Unnamed: 0,Continente,País,Capital,Idioma(s) oficial(es),Población_2024,País.1,Capital.1,Idioma(s) oficial(es).1,Población_2024.1
0,África,República Centroafricana,Bangui,"Francés, Sango",5650957.0,República Centroafricana,Bangui,"Francés, Sango",5650957.0
1,África,Gambia,Banjul,Inglés,2422712.0,Gambia,Banjul,Inglés,2422712.0
2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465.0,Indonesia,Yakarta,Bahasa Indonesia,281562465.0
3,América,Guatemala,Ciudad de Guatemala,Español,18255216.0,Guatemala,Ciudad de Guatemala,Español,18255216.0
4,América,Haití,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0,Haití,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0
5,Europa,Francia,París,Francés,68374591.0,Francia,París,Francés,68374591.0
6,Europa,Bélgica,Bruselas,"Francés, Neerlandés, Alemán",11977634.0,Bélgica,Bruselas,"Francés, Neerlandés, Alemán",11977634.0
7,América,Canadá,Ottawa,"Inglés, Francés",38794813.0,Canadá,Ottawa,"Inglés, Francés",38794813.0
8,África,Camerún,Yaundé,"Francés, Inglés",30966105.0,Camerún,Yaundé,"Francés, Inglés",30966105.0
9,África,Costa de Marfil,Yamusukro,Francés,29981758.0,Costa de Marfil,Yamusukro,Francés,29981758.0


In [15]:
df.merge(df2, left_on="País", right_on="País", how="inner")  # Merge df y df2 por la columna "País"

Unnamed: 0,Continente,País,Capital_x,Idioma(s) oficial(es)_x,Población_2024_x,Capital_y,Idioma(s) oficial(es)_y,Población_2024_y
0,África,República Centroafricana,Bangui,"Francés, Sango",5650957.0,Bangui,"Francés, Sango",5650957.0
1,África,Gambia,Banjul,Inglés,2422712.0,Banjul,Inglés,2422712.0
2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465.0,Yakarta,Bahasa Indonesia,281562465.0
3,América,Guatemala,Ciudad de Guatemala,Español,18255216.0,Ciudad de Guatemala,Español,18255216.0
4,América,Haití,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0
5,Europa,Francia,París,Francés,68374591.0,París,Francés,68374591.0
6,Europa,Bélgica,Bruselas,"Francés, Neerlandés, Alemán",11977634.0,Bruselas,"Francés, Neerlandés, Alemán",11977634.0
7,América,Canadá,Ottawa,"Inglés, Francés",38794813.0,Ottawa,"Inglés, Francés",38794813.0
8,África,Camerún,Yaundé,"Francés, Inglés",30966105.0,Yaundé,"Francés, Inglés",30966105.0
9,África,Costa de Marfil,Yamusukro,Francés,29981758.0,Yamusukro,Francés,29981758.0


### 10. Índices

In [16]:
df.set_index("País")  # Establecer la columna "País" como índice

Unnamed: 0_level_0,Continente,Capital,Idioma(s) oficial(es),Población_2024
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
República Centroafricana,África,Bangui,"Francés, Sango",5650957.0
Gambia,África,Banjul,Inglés,2422712.0
Indonesia,Asia,Yakarta,Bahasa Indonesia,281562465.0
Guatemala,América,Ciudad de Guatemala,Español,18255216.0
Haití,América,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0
Francia,Europa,París,Francés,68374591.0
Bélgica,Europa,Bruselas,"Francés, Neerlandés, Alemán",11977634.0
Canadá,América,Ottawa,"Inglés, Francés",38794813.0
Camerún,África,Yaundé,"Francés, Inglés",30966105.0
Costa de Marfil,África,Yamusukro,Francés,29981758.0


In [17]:
df.reset_index()  # Restablecer el índice al valor predeterminado (0, 1, 2, ...)

Unnamed: 0,index,Continente,País,Capital,Idioma(s) oficial(es),Población_2024
0,0,África,República Centroafricana,Bangui,"Francés, Sango",5650957.0
1,1,África,Gambia,Banjul,Inglés,2422712.0
2,2,Asia,Indonesia,Yakarta,Bahasa Indonesia,281562465.0
3,3,América,Guatemala,Ciudad de Guatemala,Español,18255216.0
4,4,América,Haití,Puerto Príncipe,"Francés, Criollo haitiano",11753943.0
5,5,Europa,Francia,París,Francés,68374591.0
6,6,Europa,Bélgica,Bruselas,"Francés, Neerlandés, Alemán",11977634.0
7,7,América,Canadá,Ottawa,"Inglés, Francés",38794813.0
8,8,África,Camerún,Yaundé,"Francés, Inglés",30966105.0
9,9,África,Costa de Marfil,Yamusukro,Francés,29981758.0


### 11. Pivot & Reshape

In [18]:
df.pivot(index="País", columns="Continente", values="Población_2024")  # Pivotar el DataFrame

Continente,América,Asia,Europa,Oceanía,África
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
,,,,,
Burundi,,,,,13590102.0
Bélgica,,,11977634.0,,
Camerún,,,,,30966105.0
Canadá,38794813.0,,,,
Congo (República del),,,,,6097665.0
Costa de Marfil,,,,,29981758.0
Francia,,,68374591.0,,
Gambia,,,,,2422712.0
Guatemala,18255216.0,,,,


In [24]:
df.melt(id_vars=["País"]) # Deshacer el pivot (melt)

Unnamed: 0,País,variable,value
0,República Centroafricana,Continente,África
1,Gambia,Continente,África
2,Indonesia,Continente,Asia
3,Guatemala,Continente,América
4,Haití,Continente,América
...,...,...,...
79,Seychelles,Población_2024,98187.0
80,Mónaco,Población_2024,31813.0
81,México,Población_2024,129875529.0
82,Japón,Población_2024,123753041.0


## Scikit-learn