# Tutorial básico pandas

### importar libreria

Lo primero es siempre importar la librería. Por convención, se le da el alias pd.



In [None]:
import pandas as pd

### 2. Series de Pandas: La Columna Única

Una Serie es un array unidimensional que puede contener cualquier tipo de dato (números enteros, flotantes, cadenas de texto, etc.) y tiene una etiqueta para cada elemento, llamada índice.

In [None]:
# Crear una Serie a partir de una lista
mis_edades = pd.Series([25, 30, 22, 35, 28])
print("Mi primera Serie de edades:\n", mis_edades)

In [None]:
# Crear una Serie a partir de una lista
mis_edades = pd.Series([25, 30, 22, 35, 28])
print("Mi primera Serie de edades:\n", mis_edades)

In [None]:
# Puedes asignar índices personalizados
nombres = ['Ana', 'Juan', 'Maria', 'Pedro', 'Laura']
edades_con_nombre = pd.Series([25, 30, 22, 35, 28], index=nombres)
print("\nEdades con nombres como índice:\n", edades_con_nombre)

In [None]:
# Acceder a elementos de una Serie
print(f"\nLa edad de Juan es: {edades_con_nombre['Juan']}")
print(f"La edad en la posición 0 es: {edades_con_nombre[0]}")

### 3. DataFrames de Pandas: La Tabla de Datos

Los DataFrames son la estructura más utilizada en Pandas. Son bidimensionales (filas y columnas) y se parecen mucho a una hoja de cálculo o una tabla de base de datos.

In [None]:
# Crear un DataFrame a partir de un diccionario
datos = {
    'Nombre': ['Ana', 'Juan', 'Maria', 'Pedro', 'Laura', 'Carlos','Jordi','skjdfn'],
    'Edad': [25, 30, 22, 35, 28, 40,22,65],
    'Ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Valencia', 'Madrid', 'Bilbao','Valencia','lakjsnd'],
    'Salario': [50000, 60000, 45000, 70000, 55000, 80000,6817,654654]
}
df = pd.DataFrame(datos)
print("Mi primer DataFrame:\n", df)

### 4. Explorar un DataFrame

In [None]:
# Mostrar las primeras 5 filas (por defecto)
print("\nPrimeras 5 filas del DataFrame:\n", df.head(3))

In [None]:
# Mostrar las últimas 3 filas
print("\nÚltimas 3 filas del DataFrame:\n", df.tail(8))

In [None]:
# Ver información general del DataFrame (tipos de datos, valores no nulos)
print("\nInformación del DataFrame:\n")
df.info()

In [None]:
# Obtener un resumen estadístico de las columnas numéricas
print("\nResumen estadístico de las columnas numéricas:\n", df.describe())

In [None]:
# Ver las dimensiones del DataFrame (filas, columnas)
print(f"\nDimensiones del DataFrame (filas, columnas): {df.shape}")

In [None]:
# Obtener los nombres de las columnas
print(f"Nombres de las columnas: {df.columns.tolist()}")

### 5. Seleccionar Datos en un DataFrame


In [None]:
# Seleccionar una columna (devuelve una Serie)
edades = df['Ciudad']
print("\nColumna 'Ciudad':\n", edades)

In [None]:
lista_columna = ['Nombre', 'Ciudad']

In [None]:
# Seleccionar múltiples columnas (devuelve un DataFrame)
nombres_y_ciudades = df[lista_columna]
print("\nColumnas 'Nombre' y 'Ciudad':\n", nombres_y_ciudades)

In [None]:
# Seleccionar filas por índice numérico (usando .iloc)
# La fila en la posición 0 (primera fila)
fila_0 = df.iloc[2]
print("\nFila en la posición 0:\n", fila_0)

In [None]:
# Filas de la posición 1 a la 3 (sin incluir la 4)
filas_1_a_3 = df.iloc[5:6]
print("\nFilas de la posición 1 a la 3:\n", filas_1_a_3)

In [None]:
# Seleccionar filas por etiqueta de índice (usando .loc)
# Si tu DataFrame no tiene un índice personalizado, .loc funciona igual que .iloc para los índices numéricos por defecto.
# Pero si lo tuviera, usaría esas etiquetas.
# Por ejemplo, si el nombre fuera el índice: df.loc['Ana']

### 6. Filtrar Datos en un DataFrame

In [None]:
# Filas donde la edad es mayor de 30
mayores_de_30 = df[df['Edad'] > 30]
print("\nPersonas mayores de 30 años:\n", mayores_de_30)

In [None]:
# Filas de personas de Madrid y con salario superior a 50000
condicion_compleja = (df['Ciudad'] == 'Madrid') | (df['Salario'] > 70000) # operadores disponible (& and) y ( | or)
madrid_salario_alto = df[condicion_compleja]
print("\nPersonas de Madrid con salario > 50000:\n", madrid_salario_alto)

### 7. Añadir, Modificar y Eliminar Columnas

In [None]:
# Añadir una nueva columna
df['Años_Experiencia'] = [3, 8, 1, 10, 5, 15,12,13]
print("\nDataFrame con 'Años_Experiencia':\n", df)

In [None]:
# Modificar valores en una columna
df.loc[df['Nombre'] == 'Ana', 'Salario'] = 52000
print("\nSalario de Ana actualizado:\n", df)

In [None]:
# Eliminar una columna
df_sin_salario = df.drop('Salario', axis=1) # axis=1 indica columna, axis=0 indica fila
print("\nDataFrame sin la columna 'Salario':\n", df_sin_salario)

### 8. Operaciones Comunes

In [None]:
# Calcular la media de una columna
media_salario = df['Salario'].mean()
print(f"\nSalario promedio: {media_salario:.2f}")

In [None]:
# Contar valores únicos en una columna categórica
conteo_ciudades = df['Ciudad'].value_counts()
print("\nConteo de personas por Ciudad:\n", conteo_ciudades)

In [None]:
# Agrupar datos por una columna y calcular el promedio de otra
salario_promedio_por_ciudad = df.groupby('Ciudad')['Salario'].mean()
print("\nSalario promedio por Ciudad:\n", salario_promedio_por_ciudad)

### 9. Cargar Datos desde Archivos

In [None]:
# Ejemplo: Cargar un archivo CSV (si tuvieras uno llamado 'datos.csv' en la misma carpeta)
# df_csv = pd.read_csv('datos.csv')
# print("\nDataFrame cargado desde CSV:\n", df_csv.head())

# Ejemplo: Cargar un archivo Excel
# df_excel = pd.read_excel('datos.xlsx', sheet_name='Hoja1')
# print("\nDataFrame cargado desde Excel:\n", df_excel.head())

# Tutorial Numpy

### 1. Importar NumPy

In [None]:
import numpy as np

### 2. Creando Arrays NumPy

Puedes crear arrays de varias formas: a partir de listas de Python, o usando funciones propias de NumPy.

In [None]:
# Crear un array 1D (vector) a partir de una lista de Python
lista_simple = [1, 2, 3, 4, 5]
array_1d = np.array(lista_simple)
print("Array 1D (Vector):\n", array_1d)
print(f"Tipo de datos del array: {array_1d.dtype}") # np.int64, np.float64, etc.
print(f"Dimensiones del array: {array_1d.shape}") # (5,) significa 5 elementos, 1 dimensión

In [None]:
# Crear un array 2D (matriz) a partir de una lista de listas de Python
lista_de_listas = [[1, 2, 3], [4, 5, 6]]
array_2d = np.array(lista_de_listas)
print("\nArray 2D (Matriz):\n", array_2d)
print(f"Dimensiones del array: {array_2d.shape}") # (2, 3) significa 2 filas, 3 columnas

In [None]:
# Crear arrays con valores predefinidos
array_zeros = np.zeros((3, 4)) # Matriz de 3x4 con ceros
print("\nArray de ceros:\n", array_zeros)

In [None]:
array_ones = np.ones((2, 2)) # Matriz de 2x2 con unos
print("\nArray de unos:\n", array_ones)

In [None]:
array_rango = np.arange(0, 10, 2) # Array con un rango de números (inicio, fin (excluido), paso)
print("\nArray de rango (0 a 10 de 2 en 2):\n", array_rango)

In [None]:
array_lineal = np.linspace(0, 10, 5) # Array con 5 números espaciados uniformemente entre 0 y 10
print("\nArray linealmente espaciado (5 números entre 0 y 10):\n", array_lineal)

In [None]:
array_aleatorio = np.random.rand(3, 3) # Matriz de 3x3 con números aleatorios entre 0 y 1
print("\nArray aleatorio (3x3):\n", array_aleatorio)

### 3. Acceso y Slicing (Rebanado) de Arrays

In [None]:
mi_matriz = np.array([[10, 20, 30],
                      [40, 50, 60],
                      [70, 80, 90]])
print("Mi Matriz:\n", mi_matriz)

In [None]:
# Acceder a un elemento individual (fila, columna)
print(f"\nElemento en (0, 1): {mi_matriz[0, 1]}") # 20 (fila 0, columna 1)

In [None]:
# Slicing de filas
print(f"\nPrimera fila: {mi_matriz[0, :]}") # O simplemente mi_matriz[0]
print(f"Filas 0 y 1: \n{mi_matriz[0:2, :]}") # O simplemente mi_matriz[0:2]

In [None]:
# Slicing de columnas
print(f"\nPrimera columna: {mi_matriz[:, 0]}")

In [None]:
# Slicing de un subconjunto (submatriz)
submatriz = mi_matriz[0:2, 1:3] # Filas 0 y 1, columnas 1 y 2
print(f"\nSubmatriz (filas 0-1, cols 1-2):\n{submatriz}")

In [None]:
# Indexación booleana (filtrado)
filtro = mi_matriz > 50
print(f"\nFiltrado: elementos > 50 (booleano):\n{filtro}")
print(f"\nElementos > 50 (valores):\n{mi_matriz[filtro]}") # Devuelve un array 1D con los valores que cumplen la condición

### 4. Operaciones con Arrays

In [None]:
array_a = np.array([1, 2, 3])
array_b = np.array([4, 5, 6])

In [None]:
# Suma elemento a elemento
print(f"\nSuma de arrays: {array_a + array_b}")

In [None]:
# Multiplicación elemento a elemento
print(f"Multiplicación de arrays: {array_a * array_b}")

In [None]:
# Multiplicación escalar (cada elemento multiplicado por un número)
print(f"Multiplicación escalar: {array_a * 5}")

In [None]:
# Funciones matemáticas universales (ufuncs)
print(f"Raíz cuadrada de array_b: {np.sqrt(array_b)}")
print(f"Seno de array_a: {np.sin(array_a)}")

In [None]:
# Suma de todos los elementos de un array
print(f"Suma de todos los elementos de mi_matriz: {np.sum(mi_matriz)}")


In [None]:
# Suma a lo largo de un eje (axis)
print(f"Suma por columnas de mi_matriz (axis=0):\n{np.sum(mi_matriz, axis=0)}") # Suma de cada columna
print(f"Suma por filas de mi_matriz (axis=1):\n{np.sum(mi_matriz, axis=1)}") # Suma de cada fila

In [None]:
# Media, máximo, mínimo
print(f"\nMedia de mi_matriz: {np.mean(mi_matriz)}")
print(f"Máximo de mi_matriz: {np.max(mi_matriz)}")
print(f"Mínimo de mi_matriz: {np.min(mi_matriz)}")

### Reshaping (Cambio de Forma) de Arrays

In [None]:
array_grande = np.arange(1, 10) # [1 2 3 4 5 6 7 8 9]
print("Array original:\n", array_grande)

In [None]:
# Reshape a una matriz de 3x3
matriz_3x3 = array_grande.reshape(3, 3)
print("\nArray reshaped a 3x3:\n", matriz_3x3)

In [None]:
# Aplanar un array (convertir a 1D)
array_aplanado = matriz_3x3.flatten()
print("\nArray aplanado:\n", array_aplanado)