# Tutorial básico pandas

### importar libreria

Lo primero es siempre importar la librería. Por convención, se le da el alias pd.



In [1]:
import pandas as pd

### 2. Series de Pandas: La Columna Única

Una Serie es un array unidimensional que puede contener cualquier tipo de dato (números enteros, flotantes, cadenas de texto, etc.) y tiene una etiqueta para cada elemento, llamada índice.

In [2]:
# Crear una Serie a partir de una lista
mis_edades = pd.Series([25, 30, 22, 35, 28])
print("Mi primera Serie de edades:\n", mis_edades)

Mi primera Serie de edades:
 0    25
1    30
2    22
3    35
4    28
dtype: int64


In [3]:
# Crear una Serie a partir de una lista
mis_edades = pd.Series([25, 30, 22, 35, 28])
print("Mi primera Serie de edades:\n", mis_edades)

Mi primera Serie de edades:
 0    25
1    30
2    22
3    35
4    28
dtype: int64


In [4]:
# Puedes asignar índices personalizados
nombres = ['Ana', 'Juan', 'Maria', 'Pedro', 'Laura']
edades_con_nombre = pd.Series([25, 30, 22, 35, 28], index=nombres)
print("\nEdades con nombres como índice:\n", edades_con_nombre)


Edades con nombres como índice:
 Ana      25
Juan     30
Maria    22
Pedro    35
Laura    28
dtype: int64


In [5]:
# Acceder a elementos de una Serie
print(f"\nLa edad de Juan es: {edades_con_nombre['Juan']}")
print(f"La edad en la posición 0 es: {edades_con_nombre[0]}")


La edad de Juan es: 30
La edad en la posición 0 es: 25


  print(f"La edad en la posición 0 es: {edades_con_nombre[0]}")


### 3. DataFrames de Pandas: La Tabla de Datos

Los DataFrames son la estructura más utilizada en Pandas. Son bidimensionales (filas y columnas) y se parecen mucho a una hoja de cálculo o una tabla de base de datos.

In [6]:
# Crear un DataFrame a partir de un diccionario
datos = {
    'Nombre': ['Ana', 'Juan', 'Maria', 'Pedro', 'Laura', 'Carlos','Jordi','skjdfn'],
    'Edad': [25, 30, 22, 35, 28, 40,22,65],
    'Ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Valencia', 'Madrid', 'Bilbao','Valencia','lakjsnd'],
    'Salario': [50000, 60000, 45000, 70000, 55000, 80000,6817,654654]
}
df = pd.DataFrame(datos)
print("Mi primer DataFrame:\n", df)

Mi primer DataFrame:
    Nombre  Edad     Ciudad  Salario
0     Ana    25     Madrid    50000
1    Juan    30  Barcelona    60000
2   Maria    22    Sevilla    45000
3   Pedro    35   Valencia    70000
4   Laura    28     Madrid    55000
5  Carlos    40     Bilbao    80000
6   Jordi    22   Valencia     6817
7  skjdfn    65    lakjsnd   654654


### 4. Explorar un DataFrame

In [7]:
# Mostrar las primeras 5 filas (por defecto)
print("\nPrimeras 5 filas del DataFrame:\n", df.head(3))


Primeras 5 filas del DataFrame:
   Nombre  Edad     Ciudad  Salario
0    Ana    25     Madrid    50000
1   Juan    30  Barcelona    60000
2  Maria    22    Sevilla    45000


In [8]:
# Mostrar las últimas 3 filas
print("\nÚltimas 3 filas del DataFrame:\n", df.tail(8))


Últimas 3 filas del DataFrame:
    Nombre  Edad     Ciudad  Salario
0     Ana    25     Madrid    50000
1    Juan    30  Barcelona    60000
2   Maria    22    Sevilla    45000
3   Pedro    35   Valencia    70000
4   Laura    28     Madrid    55000
5  Carlos    40     Bilbao    80000
6   Jordi    22   Valencia     6817
7  skjdfn    65    lakjsnd   654654


In [9]:
# Ver información general del DataFrame (tipos de datos, valores no nulos)
print("\nInformación del DataFrame:\n")
df.info()


Información del DataFrame:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Nombre   8 non-null      object
 1   Edad     8 non-null      int64 
 2   Ciudad   8 non-null      object
 3   Salario  8 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 388.0+ bytes


In [10]:
# Obtener un resumen estadístico de las columnas numéricas
print("\nResumen estadístico de las columnas numéricas:\n", df.describe())


Resumen estadístico de las columnas numéricas:
            Edad        Salario
count   8.00000       8.000000
mean   33.37500  127683.875000
std    14.22209  214023.682176
min    22.00000    6817.000000
25%    24.25000   48750.000000
50%    29.00000   57500.000000
75%    36.25000   72500.000000
max    65.00000  654654.000000


In [11]:
# Ver las dimensiones del DataFrame (filas, columnas)
print(f"\nDimensiones del DataFrame (filas, columnas): {df.shape}")


Dimensiones del DataFrame (filas, columnas): (8, 4)


In [12]:
# Obtener los nombres de las columnas
print(f"Nombres de las columnas: {df.columns.tolist()}")

Nombres de las columnas: ['Nombre', 'Edad', 'Ciudad', 'Salario']


### 5. Seleccionar Datos en un DataFrame


In [13]:
# Seleccionar una columna (devuelve una Serie)
edades = df['Ciudad']
print("\nColumna 'Ciudad':\n", edades)


Columna 'Ciudad':
 0       Madrid
1    Barcelona
2      Sevilla
3     Valencia
4       Madrid
5       Bilbao
6     Valencia
7      lakjsnd
Name: Ciudad, dtype: object


In [53]:
lista_columna = ['Nombre', 'Ciudad']

In [15]:
# Seleccionar múltiples columnas (devuelve un DataFrame)
nombres_y_ciudades = df[lista_columna]
print("\nColumnas 'Nombre' y 'Ciudad':\n", nombres_y_ciudades)


Columnas 'Nombre' y 'Ciudad':
    Nombre     Ciudad
0     Ana     Madrid
1    Juan  Barcelona
2   Maria    Sevilla
3   Pedro   Valencia
4   Laura     Madrid
5  Carlos     Bilbao
6   Jordi   Valencia
7  skjdfn    lakjsnd


In [16]:
# Seleccionar filas por índice numérico (usando .iloc)
# La fila en la posición 0 (primera fila)
fila_0 = df.iloc[2]
print("\nFila en la posición 0:\n", fila_0)


Fila en la posición 0:
 Nombre       Maria
Edad            22
Ciudad     Sevilla
Salario      45000
Name: 2, dtype: object


In [17]:
# Filas de la posición 1 a la 3 (sin incluir la 4)
filas_1_a_3 = df.iloc[5:6]
print("\nFilas de la posición 1 a la 3:\n", filas_1_a_3)


Filas de la posición 1 a la 3:
    Nombre  Edad  Ciudad  Salario
5  Carlos    40  Bilbao    80000


In [18]:
# Seleccionar filas por etiqueta de índice (usando .loc)
# Si tu DataFrame no tiene un índice personalizado, .loc funciona igual que .iloc para los índices numéricos por defecto.
# Pero si lo tuviera, usaría esas etiquetas.
# Por ejemplo, si el nombre fuera el índice: df.loc['Ana']

### 6. Filtrar Datos en un DataFrame

In [19]:
# Filas donde la edad es mayor de 30
mayores_de_30 = df[df['Edad'] > 30]
print("\nPersonas mayores de 30 años:\n", mayores_de_30)


Personas mayores de 30 años:
    Nombre  Edad    Ciudad  Salario
3   Pedro    35  Valencia    70000
5  Carlos    40    Bilbao    80000
7  skjdfn    65   lakjsnd   654654


In [20]:
# Filas de personas de Madrid y con salario superior a 50000
condicion_compleja = (df['Ciudad'] == 'Madrid') | (df['Salario'] > 70000) # operadores disponible (& and) y ( | or)
madrid_salario_alto = df[condicion_compleja]
print("\nPersonas de Madrid con salario > 50000:\n", madrid_salario_alto)


Personas de Madrid con salario > 50000:
    Nombre  Edad   Ciudad  Salario
0     Ana    25   Madrid    50000
4   Laura    28   Madrid    55000
5  Carlos    40   Bilbao    80000
7  skjdfn    65  lakjsnd   654654


### 7. Añadir, Modificar y Eliminar Columnas

In [21]:
# Añadir una nueva columna
df['Años_Experiencia'] = [3, 8, 1, 10, 5, 15,12,13]
print("\nDataFrame con 'Años_Experiencia':\n", df)


DataFrame con 'Años_Experiencia':
    Nombre  Edad     Ciudad  Salario  Años_Experiencia
0     Ana    25     Madrid    50000                 3
1    Juan    30  Barcelona    60000                 8
2   Maria    22    Sevilla    45000                 1
3   Pedro    35   Valencia    70000                10
4   Laura    28     Madrid    55000                 5
5  Carlos    40     Bilbao    80000                15
6   Jordi    22   Valencia     6817                12
7  skjdfn    65    lakjsnd   654654                13


In [22]:
# Modificar valores en una columna
df.loc[df['Nombre'] == 'Ana', 'Salario'] = 52000
print("\nSalario de Ana actualizado:\n", df)


Salario de Ana actualizado:
    Nombre  Edad     Ciudad  Salario  Años_Experiencia
0     Ana    25     Madrid    52000                 3
1    Juan    30  Barcelona    60000                 8
2   Maria    22    Sevilla    45000                 1
3   Pedro    35   Valencia    70000                10
4   Laura    28     Madrid    55000                 5
5  Carlos    40     Bilbao    80000                15
6   Jordi    22   Valencia     6817                12
7  skjdfn    65    lakjsnd   654654                13


In [23]:
# Eliminar una columna
df_sin_salario = df.drop('Salario', axis=1) # axis=1 indica columna, axis=0 indica fila
print("\nDataFrame sin la columna 'Salario':\n", df_sin_salario)


DataFrame sin la columna 'Salario':
    Nombre  Edad     Ciudad  Años_Experiencia
0     Ana    25     Madrid                 3
1    Juan    30  Barcelona                 8
2   Maria    22    Sevilla                 1
3   Pedro    35   Valencia                10
4   Laura    28     Madrid                 5
5  Carlos    40     Bilbao                15
6   Jordi    22   Valencia                12
7  skjdfn    65    lakjsnd                13


### 8. Operaciones Comunes

In [24]:
# Calcular la media de una columna
media_salario = df['Salario'].mean()
print(f"\nSalario promedio: {media_salario:.2f}")


Salario promedio: 127933.88


In [None]:
# Contar valores únicos en una columna categórica
conteo_ciudades = df['Ciudad'].value_counts()
print("\nConteo de personas por Ciudad:\n", conteo_ciudades)


Conteo de personas por Ciudad:
 Ciudad
Madrid       2
Valencia     2
Barcelona    1
Sevilla      1
Bilbao       1
lakjsnd      1
Name: count, dtype: int64


In [26]:
# Agrupar datos por una columna y calcular el promedio de otra
salario_promedio_por_ciudad = df.groupby('Ciudad')['Salario'].mean()
print("\nSalario promedio por Ciudad:\n", salario_promedio_por_ciudad)


Salario promedio por Ciudad:
 Ciudad
Barcelona     60000.0
Bilbao        80000.0
Madrid        53500.0
Sevilla       45000.0
Valencia      38408.5
lakjsnd      654654.0
Name: Salario, dtype: float64


### 9. Cargar Datos desde Archivos

In [27]:
# Ejemplo: Cargar un archivo CSV (si tuvieras uno llamado 'datos.csv' en la misma carpeta)
# df_csv = pd.read_csv('datos.csv')
# print("\nDataFrame cargado desde CSV:\n", df_csv.head())

# Ejemplo: Cargar un archivo Excel
# df_excel = pd.read_excel('datos.xlsx', sheet_name='Hoja1')
# print("\nDataFrame cargado desde Excel:\n", df_excel.head())

# Tutorial Numpy

### 1. Importar NumPy

In [1]:
import numpy as np

### 2. Creando Arrays NumPy

Puedes crear arrays de varias formas: a partir de listas de Python, o usando funciones propias de NumPy.

In [2]:
# Crear un array 1D (vector) a partir de una lista de Python
lista_simple = [1, 2, 3, 4, 5]
array_1d = np.array(lista_simple)
print("Array 1D (Vector):\n", array_1d)
print(f"Tipo de datos del array: {array_1d.dtype}") # np.int64, np.float64, etc.
print(f"Dimensiones del array: {array_1d.shape}") # (5,) significa 5 elementos, 1 dimensión

Array 1D (Vector):
 [1 2 3 4 5]
Tipo de datos del array: int64
Dimensiones del array: (5,)


In [30]:
# Crear un array 2D (matriz) a partir de una lista de listas de Python
lista_de_listas = [[1, 2, 3], [4, 5, 6]]
array_2d = np.array(lista_de_listas)
print("\nArray 2D (Matriz):\n", array_2d)
print(f"Dimensiones del array: {array_2d.shape}") # (2, 3) significa 2 filas, 3 columnas


Array 2D (Matriz):
 [[1 2 3]
 [4 5 6]]
Dimensiones del array: (2, 3)


In [31]:
# Crear arrays con valores predefinidos
array_zeros = np.zeros((3, 4)) # Matriz de 3x4 con ceros
print("\nArray de ceros:\n", array_zeros)


Array de ceros:
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [32]:
array_ones = np.ones((2, 2)) # Matriz de 2x2 con unos
print("\nArray de unos:\n", array_ones)


Array de unos:
 [[1. 1.]
 [1. 1.]]


In [33]:
array_rango = np.arange(0, 10, 2) # Array con un rango de números (inicio, fin (excluido), paso)
print("\nArray de rango (0 a 10 de 2 en 2):\n", array_rango)


Array de rango (0 a 10 de 2 en 2):
 [0 2 4 6 8]


In [34]:
array_lineal = np.linspace(0, 10, 5) # Array con 5 números espaciados uniformemente entre 0 y 10
print("\nArray linealmente espaciado (5 números entre 0 y 10):\n", array_lineal)


Array linealmente espaciado (5 números entre 0 y 10):
 [ 0.   2.5  5.   7.5 10. ]


In [35]:
array_aleatorio = np.random.rand(3, 3) # Matriz de 3x3 con números aleatorios entre 0 y 1
print("\nArray aleatorio (3x3):\n", array_aleatorio)


Array aleatorio (3x3):
 [[0.00240455 0.41206042 0.33016827]
 [0.82707952 0.34875773 0.04984845]
 [0.7624422  0.57394751 0.28568819]]


### 3. Acceso y Slicing (Rebanado) de Arrays

In [36]:
mi_matriz = np.array([[10, 20, 30],
                      [40, 50, 60],
                      [70, 80, 90]])
print("Mi Matriz:\n", mi_matriz)

Mi Matriz:
 [[10 20 30]
 [40 50 60]
 [70 80 90]]


In [37]:
# Acceder a un elemento individual (fila, columna)
print(f"\nElemento en (0, 1): {mi_matriz[0, 1]}") # 20 (fila 0, columna 1)


Elemento en (0, 1): 20


In [38]:
# Slicing de filas
print(f"\nPrimera fila: {mi_matriz[0, :]}") # O simplemente mi_matriz[0]
print(f"Filas 0 y 1: \n{mi_matriz[0:2, :]}") # O simplemente mi_matriz[0:2]


Primera fila: [10 20 30]
Filas 0 y 1: 
[[10 20 30]
 [40 50 60]]


In [39]:
# Slicing de columnas
print(f"\nPrimera columna: {mi_matriz[:, 0]}")


Primera columna: [10 40 70]


In [40]:
# Slicing de un subconjunto (submatriz)
submatriz = mi_matriz[0:2, 1:3] # Filas 0 y 1, columnas 1 y 2
print(f"\nSubmatriz (filas 0-1, cols 1-2):\n{submatriz}")


Submatriz (filas 0-1, cols 1-2):
[[20 30]
 [50 60]]


In [41]:
# Indexación booleana (filtrado)
filtro = mi_matriz > 50
print(f"\nFiltrado: elementos > 50 (booleano):\n{filtro}")
print(f"\nElementos > 50 (valores):\n{mi_matriz[filtro]}") # Devuelve un array 1D con los valores que cumplen la condición


Filtrado: elementos > 50 (booleano):
[[False False False]
 [False False  True]
 [ True  True  True]]

Elementos > 50 (valores):
[60 70 80 90]


### 4. Operaciones con Arrays

In [42]:
array_a = np.array([1, 2, 3])
array_b = np.array([4, 5, 6])

In [43]:
# Suma elemento a elemento
print(f"\nSuma de arrays: {array_a + array_b}")


Suma de arrays: [5 7 9]


In [44]:
# Multiplicación elemento a elemento
print(f"Multiplicación de arrays: {array_a * array_b}")

Multiplicación de arrays: [ 4 10 18]


In [45]:
# Multiplicación escalar (cada elemento multiplicado por un número)
print(f"Multiplicación escalar: {array_a * 5}")

Multiplicación escalar: [ 5 10 15]


In [46]:
# Funciones matemáticas universales (ufuncs)
print(f"Raíz cuadrada de array_b: {np.sqrt(array_b)}")
print(f"Seno de array_a: {np.sin(array_a)}")

Raíz cuadrada de array_b: [2.         2.23606798 2.44948974]
Seno de array_a: [0.84147098 0.90929743 0.14112001]


In [47]:
# Suma de todos los elementos de un array
print(f"Suma de todos los elementos de mi_matriz: {np.sum(mi_matriz)}")


Suma de todos los elementos de mi_matriz: 450


In [48]:
# Suma a lo largo de un eje (axis)
print(f"Suma por columnas de mi_matriz (axis=0):\n{np.sum(mi_matriz, axis=0)}") # Suma de cada columna
print(f"Suma por filas de mi_matriz (axis=1):\n{np.sum(mi_matriz, axis=1)}") # Suma de cada fila

Suma por columnas de mi_matriz (axis=0):
[120 150 180]
Suma por filas de mi_matriz (axis=1):
[ 60 150 240]


In [49]:
# Media, máximo, mínimo
print(f"\nMedia de mi_matriz: {np.mean(mi_matriz)}")
print(f"Máximo de mi_matriz: {np.max(mi_matriz)}")
print(f"Mínimo de mi_matriz: {np.min(mi_matriz)}")


Media de mi_matriz: 50.0
Máximo de mi_matriz: 90
Mínimo de mi_matriz: 10


### Reshaping (Cambio de Forma) de Arrays

In [50]:
array_grande = np.arange(1, 10) # [1 2 3 4 5 6 7 8 9]
print("Array original:\n", array_grande)

Array original:
 [1 2 3 4 5 6 7 8 9]


In [51]:
# Reshape a una matriz de 3x3
matriz_3x3 = array_grande.reshape(3, 3)
print("\nArray reshaped a 3x3:\n", matriz_3x3)


Array reshaped a 3x3:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


In [52]:
# Aplanar un array (convertir a 1D)
array_aplanado = matriz_3x3.flatten()
print("\nArray aplanado:\n", array_aplanado)


Array aplanado:
 [1 2 3 4 5 6 7 8 9]
