# 1.- Creación de un DataFrame

## EJEMPLO 1: creación de un DataFrame a partir de un diccionario


In [None]:
import pandas as pd

In [None]:
# Diccionario con datos: precios (pvp) y ventas
data = {
  "pvp": [420, 380, 390],
  "ventas": [50, 40, 45]
}

In [None]:
# Crear un DataFrame a partir del diccionario (índices por defecto 0,1,2)
df = pd.DataFrame(data)
print(df) 


In [None]:
# Crear un DataFrame con índices personalizados
df = pd.DataFrame(data, index=["Art1", "Art2", "Art3"])
print(df) 

In [None]:
# Crear otro DataFrame con los mismos datos
df2 = pd.DataFrame(data)
print(df2)

In [None]:
# Cambiar el nombre de las columnas del DataFrame
df2.columns = ['COL1', 'COL2']
print(df2)

## EJEMPLO 2: creación de un DataFrame a partir de un diccionario de listas

In [None]:
import pandas as pd

In [None]:
datos = {'nombre':['María', 'Luis', 'Carmen', 'Antonio'],
         'edad':[18, 22, 20, 21],
         'grado':['Economía', 'Medicina', 'Arquitectura', 'Economía'],
         'correo':['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']
 }

In [None]:
df = pd.DataFrame(datos)
df

## EJEMPLO 3: creación de un DataFrame a partir de una lista de listas

In [None]:
import pandas as pd

In [None]:
# Crear un DataFrame a partir de una lista de listas
# Cada sublista corresponde a una fila (Nombre, Edad)
df = pd.DataFrame([['María', 18], 
                   ['Luis', 22], 
                   ['Carmen', 20]], 
                  columns=['Nombre', 'Edad'])  # Nombres de las columnas

# Mostrar el DataFrame (en Jupyter aparece en formato tabla)
df

## EJEMPLO 4: creación de un DataFrame a partir de una lista de diccionarios

In [None]:
import pandas as pd

In [None]:
# Crear un DataFrame a partir de una lista de diccionarios
# Cada diccionario corresponde a una fila
# Si falta algún valor, pandas lo rellena con NaN (dato nulo)
df = pd.DataFrame([
    {'Nombre': 'María', 'Edad': 18}, 
    {'Nombre': 'Luis', 'Edad': 22}, 
    {'Nombre': 'Carmen'}   # Falta 'Edad', se completará con NaN
])

# Mostrar el DataFrame (en Jupyter aparece en formato tabla)
df

## OTROS EJEMPLOS DE CREACIÓN DE UN DATAFRAME

### Con listas

In [None]:
import pandas as pd

In [None]:
# Lista con los nombres de los países (serán los índices del DataFrame)
nombre_paises = ["China", "India", "Estados Unidos", "Indonesia", "Pakistán",
                 "Brasil", "Nigeria", "Bangladesh", "Rusia", "México"]

In [None]:
# Lista con los nombres de las columnas
encabezado = ["poblacion", "porcentaje"]

In [None]:
# Lista de listas con los datos:
# Cada sublista representa una fila: [población (millones), porcentaje mundial]
datos = [
    [1439, 18.47],  [1380, 17.70], [331, 4.25],
    [273, 3.51],    [220, 2.83],   [212, 2.73], 
    [206, 2.64],    [164, 2.11],   [145, 1.87],
    [128, 1.65]
]

In [None]:
# Crear el DataFrame con datos, índices (filas) y nombres de columnas
paises = pd.DataFrame(datos, index=nombre_paises, columns=encabezado)

# Mostrar el DataFrame en forma de tabla (en Jupyter se renderiza automáticamente)
paises

### Con diccionario

In [None]:
# A partir de un diccionario
# Cada clave del diccionario es un país (será una columna en el DataFrame)
# Cada valor es una lista con [población, porcentaje]
datos = {
    "China": [1439, 18.47],  
    "India": [1380, 17.70],
    "Estados Unidos": [331, 4.25], 
    "Indonesia": [273, 3.51], 
    "Pakistán": [220, 2.83],   
    "Brasil": [212, 2.73], 
    "Nigeria": [206, 2.64],  
    "Bangladesh": [164, 2.11],
    "Rusia": [145, 1.87], 
    "México": [128, 1.65]
}

In [None]:
# Crear el DataFrame indicando que las filas iniciales son 'poblacion' y 'porcentaje'
paises = pd.DataFrame(datos, index=encabezado)

In [None]:
paises

In [None]:
# Transponer el DataFrame (intercambiar filas y columnas)
# Ahora los países pasan a ser filas (índices) y las columnas son 'poblacion' y 'porcentaje'
paises = paises.T  

# Mostrar el DataFrame
paises

# 2.- Añadir columnas nuevas a un DataFrame, función insert()

In [None]:
import pandas as pd
import numpy as np

In [None]:
# Diccionario con países como claves y [población, porcentaje] como valores
datos = {
    "China": [1439, 18.47],  
    "India": [1380, 17.70],
    "Estados Unidos": [331, 4.25], 
    "Indonesia": [273, 3.51], 
    "Pakistán": [220, 2.83],   
    "Brasil": [212, 2.73], 
    "Nigeria": [206, 2.64],  
    "Bangladesh": [164, 2.11],
    "Rusia": [145, 1.87], 
    "México": [128, 1.65]
}

In [None]:
# Lista con nombres de filas
encabezado = ["poblacion", "porcentaje"]

In [None]:
# Crear DataFrame con países como columnas y filas = 'poblacion', 'porcentaje'
paises = pd.DataFrame(datos, index=encabezado)

# Mostrar el DataFrame
paises

In [None]:
# -----------------------------
# AÑADIR COLUMNAS DE DIFERENTES FORMAS
# -----------------------------

In [None]:
# Añadir una nueva columna al final usando una Serie
# Asignamos valores a cada índice ('poblacion' y 'porcentaje')
paises['nuevacolum'] = pd.Series({'poblacion': 100, 'porcentaje': 10})
# Mostrar el DataFrame
paises

In [None]:

# Añadir otra columna pasando directamente una lista
otra = [33, 44]
paises['otra'] = otra

# Mostrar el DataFrame
paises

In [None]:
# Añadir una columna en una posición concreta
# insert(posición, nombre_columna, valores)

# Insertar columna al principio (posición 0)
paises.insert(0, "PrimeColum", [90, 80]) 

# Mostrar el DataFrame final
paises

In [None]:
# Insertar columna en la cuarta posición
paises.insert(3, "CuartaColum", [90, 80]) 

# Mostrar el DataFrame final
paises

# 3.- Atributos de un DataFrame

In [None]:
import pandas as pd

In [None]:
# Diccionario con listas → cada clave será una columna del DataFrame
datos = {
    'nombre': ['María', 'Luis', 'Carmen', 'Antonio'],
    'edad': [18, 22, 20, 21],
    'grado': ['Economía', 'Medicina', 'Arquitectura', 'Economía'],
    'correo': ['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']
}

# Crear el DataFrame
df = pd.DataFrame(datos)

In [None]:
# Información general del DataFrame (filas, columnas, tipos de datos, nulos…)
print("\n", df.info())

In [None]:
# Dimensiones del DataFrame (nº filas, nº columnas)
print("\n", df.shape)  # (4, 4)


In [None]:
# Acceso separado al número de filas y columnas
print("Filas:", df.shape[0], ", Columnas:", df.shape[1])

In [None]:
# Número total de elementos (celdas = filas × columnas)
print("\n", df.size)  # 16

In [None]:
# Nombres de las columnas
print("\n", df.columns)  # Index(['nombre', 'edad', 'grado', 'correo'], dtype='object')

In [None]:
# Índices de las filas
print("\n", df.index)  # RangeIndex(start=0, stop=4, step=1)

In [None]:
# Tipos de datos de cada columna
print("\n", df.dtypes)

In [None]:
# Primeras filas del DataFrame (por defecto 5)
print("\n", df.head())

In [None]:
# Últimas filas del DataFrame (por defecto 5)
print("\n", df.tail())

In [None]:
# Valores del DataFrame en forma de array de NumPy
print("\n", df.values)

# 4.- Seleccionar filas y columnas. Método loc, iloc.

# 5.- Recorrer un DataFrame

In [None]:
# Recorrido del DataFrame por filas usando df.values (array de NumPy)
# Cada 'fila' es una lista con los valores de todas las columnas
for fila in df.values:
    print("Nombre:", fila[0], "Edad=", fila[1], "Grado=", fila[2], "Correo=", fila[3])

In [None]:
# Recorrido del DataFrame por columnas
# Al iterar sobre df se obtienen los nombres de las columnas
# df[columna].values devuelve todos los valores de esa columna como array
for columna in df:
    print(columna, "=>", df[columna].values)

In [None]:
# Recorrido del DataFrame por índices
# Primero mostramos los índices disponibles
print(df.index)

# Usando .loc → acceso por etiquetas (nombre de la fila + nombre de la columna)
for i in df.index:
    print(i, df.loc[i, 'nombre'], df.loc[i, 'edad'])

print()

In [None]:
# Usando .iloc → acceso por posiciones (número de fila y número de columna)
for i in df.index:
    print(df.iloc[i, 0], df.iloc[i, 1], df.iloc[i, 2])

print()

# 6.- Cambiar los nombres de las filas y las columnas

## TODAS LAS COLUMNAS

In [None]:
df.columns=['NOMBRE','EDAD','GRADO','CORREO']

In [None]:
df.rename(columns={'nombre':'NOMBRE','edad':'EDAD'},inplace=True)
df.columns
df


## RENOMBRAR FILAS

In [None]:
df.rename(index={0:'aaaa',1:'bbbb'}, inplace=True)
df.head()

# 7.- Ordenar un DataFrame

In [None]:
# Diccionario con países como claves y [población, porcentaje] como valores
datos = {
    "A": [1439, 18.47], "B": [1380, 17.70], "D": [331, 4.25],
    "F": [273, 3.51], "E": [220, 2.83], "Z": [212, 2.73], 
    "G": [206, 2.64], "H": [164, 2.11], "R": [145, 1.87],
    "M": [128, 1.65]
}

In [None]:
# Lista con los nombres de las filas iniciales
encabezado = ["poblacion", "porcentaje"]

In [None]:
# Crear un DataFrame: filas = encabezado ["poblacion", "porcentaje"], columnas = países
paises = pd.DataFrame(datos, index=encabezado)

In [None]:
# Transponer (T): países pasan a ser las filas, columnas = ["poblacion", "porcentaje"]
paises = paises.T  
# Mostrar el DataFrame final ordenado por índices
paises

In [None]:
# Ordenar el DataFrame por valores de las columnas 'poblacion' y 'porcentaje'
# (por defecto, en orden ascendente). ⚠️ No modifica el original a menos que se use inplace=True
paises.sort_values(['poblacion', 'porcentaje'])
# Mostrar el DataFrame final ordenado por índices
paises

In [None]:
# Ordenar el DataFrame por los índices (los nombres de los países), en orden ascendente
paises = paises.reindex(sorted(paises.index))
# Mostrar el DataFrame final ordenado por índices
paises

In [None]:
# Ordenar por índice y guardar el resultado en el propio DataFrame (inplace=True)
paises.sort_index(inplace=True)

# Mostrar el DataFrame final ordenado por índices
paises

# 8.- Agregar y borrar columnas

In [None]:
tasa_fertilidad = [1.7, 2.2, 1.8, 2.3, 3.6, 1.7, 5.4, 2.1, 1.8, 2.1]
paises["tasa_fertilidad"] = tasa_fertilidad
paises

# 10.- Comprobar filas duplicados

In [None]:
import pandas as pd

In [None]:
# Creamos un DataFrame de ejemplo
data = {
    "nombre": ["Ana", "Luis", "Ana", "Marta", "Luis"],
    "edad": [20, 25, 20, 22, 25],
    "ciudad": ["Sevilla", "Córdoba", "Sevilla", "Málaga", "Córdoba"]
}
df = pd.DataFrame(data)

In [None]:
# Mostrar el DataFrame original
print("DataFrame original:")
print(df)

In [None]:
# Buscar duplicados en las columnas "nombre" y "edad"
duplicados = df[df.duplicated(subset=["nombre", "edad"], keep=False)]

# Mostrar resultados
print("\nFilas duplicadas (según nombre y edad):")
print(duplicados)

# 11.- Borrar filas duplicadas

In [None]:
import pandas as pd

In [None]:
# Creamos un DataFrame con valores repetidos
data = {
    "producto": ["Ratón", "Teclado", "Ratón", "Monitor", "Teclado"],
    "precio": [10, 20, 10, 150, 20]
}
df = pd.DataFrame(data)

In [None]:
# Mostrar el DataFrame original
print("DataFrame original:")
print(df)

In [None]:
# Eliminar duplicados de forma permanente
df.drop_duplicates(inplace=True)

# Mostrar el DataFrame ya limpio
print("\nDataFrame sin duplicados:")
print(df)

# 12.- Borrar nulos con dropna()

In [None]:
import pandas as pd
import numpy as np

In [None]:
# Creamos un DataFrame de prueba con valores nulos (np.nan)
df = pd.DataFrame(
       {"Dias en Inventario": [np.nan, "24","10" , "14", "12", "10", "35",np.nan,"40",np.nan],
        "Precio Promedio": ["23", "24", "18", np.nan,"46", np.nan, "35","41","15","9"],
        "Tipo de Inventario": ["A", "B", "C",np.nan, "C", "C", "A","A","B",np.nan],
        "Revision Calidad": [1, 1, np.nan, 1, 0, 0, 1, 1, 0, np.nan]})


In [None]:
print("DataFrame original con nulos:")
print(df)

In [None]:
# Detectar nulos en todo el DataFrame (True si hay null, False si no)
df.isnull()

In [None]:
# Eliminar filas que contengan al menos un valor nulo
df.dropna()

In [None]:
# Eliminar columnas que contengan al menos un valor nulo
df.dropna(axis=1)

In [None]:
# Eliminar filas que tengan menos de 3 valores no nulos
df.dropna(thresh=3)

In [None]:
# Eliminar columnas que tengan menos de 8 valores no nulos
df.dropna(axis=1, thresh=8)

In [None]:
# Eliminar filas donde haya nulos en columnas específicas
df.dropna(subset=['Dias en Inventario', 'Revision Calidad'])

In [None]:
# Eliminar una columna concreta (ejemplo: "Dias en Inventario")
df.drop(axis=1, columns='Dias en Inventario')

# 13.- Filtrar filas de un Dataframe, condición

In [None]:
import pandas as pd

In [None]:
# Diccionario con los datos de ejemplo
datos = {
    'nombre': ['María', 'María', 'Carmen', 'Antonio'],   # Nombres de las personas
    'edad': [18, 22, 20, 21],                            # Edad
    'peso': [79, 70, 60, 75],                            # Peso en kg
    'salario': [1000, 1700, 6000, 7005],                 # Salario en €
    'grado': ['Economía', 'Medicina', 'Arquitectura', 'Economía'],  # Estudios
    'correo': ['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com'] # Email
}

In [None]:
# Crear el DataFrame a partir del diccionario
df = pd.DataFrame(datos)

# Comparar la columna "salario" con el valor 2000
# Devuelve True si el salario es mayor que 2000, False en caso contrario
print(df['salario'] > 2000)

# 14.- Filtrar los datos

In [None]:
filtro=df['salario'] > 2000
df[filtro]

In [None]:
filtro=(df['peso'] < 75) & (df['edad'] >=20)
df[filtro]

# 15.- Resumen descriptivo de un DataFrame

In [None]:
# Contar valores NO nulos en cada columna
print(df.count())
print()

In [None]:
# Contar valores NO nulos en la columna "nombre"
print(df.nombre.count())
print()

# Mostrar el valor máximo de cada columna
print(df.max())

print()

# Mostrar el salario máximo
print(df.salario.max())

print()

# Calcular la media de las columnas numéricas
print(df.mean())

print()

# Calcular la media de la columna "salario"
print(df.salario.mean())

# Resumen estadístico de las columnas numéricas:
# (conteo, media, desviación, min, percentiles, max)
df.describe()

# 16.- Creación de un DataFrame a partir de un fichero CSV

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')

In [None]:
df.head()

# 16.- Creación de un DataFrame a partir de un fichero EXCEL

In [None]:
import pandas as pd

In [None]:
# Leer un archivo Excel llamado "cotizaciones.xlsx"
# engine='openpyxl' → librería usada para manejar archivos .xlsx
# sheet_name='cotizacion' → hoja de Excel que queremos leer
# header=0 → indica que la primera fila contiene los nombres de las columnas
df = pd.read_excel('datasets/cotizaciones.xlsx', engine='openpyxl', sheet_name='cotizacion', header=0)

In [None]:
# Mostrar las primeras filas del DataFrame
print(df.head())

# 17.- Selección condicional

In [None]:
import pandas as pd

In [None]:
# Creamos un DataFrame simple con datos de ejemplo
datos = {
    'Company': ['Apple', 'Microsoft', 'Toyota', 'Santander', 'Google'],
    'Country': ['United States', 'United States', 'Japan', 'Spain', 'United States'],
    'Revenue': [365000, 168000, 275000, 49000, 257000],  # en millones de dólares
    'Employees': [154000, 181000, 360000, 190000, 135000]
}
df = pd.DataFrame(datos)

print("Dataset original:\n")
print(df)

In [None]:
# Filtro 1: seleccionar empresas de Estados Unidos
print("\nEmpresas de Estados Unidos:\n")
print(df[df['Country'] == 'United States'])

In [None]:
# Filtro 2: usar variable para guardar la condición
filtro = (df['Country'] == 'United States')
print("\nEmpresas de Estados Unidos (usando variable filtro):\n")
print(df[filtro])

In [None]:
# Filtro 3: empresas con más de 100000 millones de ingresos y más de 100000 empleados
filtro1 = df['Revenue'] > 100000
filtro2 = df['Employees'] > 100000
print("\nEmpresas con +100000 millones de ingresos y +100000 empleados:\n")
print(df[filtro1 & filtro2])

# 19.- Recorrer un DataFrame

In [None]:
import pandas as pd

In [None]:
# Creamos un DataFrame de ejemplo parecido a "tecno.csv"
datos = {
    'Company': ['Apple', 'Google', 'Toyota'],
    'City': ['Cupertino', 'Mountain View', 'Tokyo'],
    'Revenue': [365000, 257000, 275000],   # en millones de dólares
    'Employees': [154000, 135000, 360000]
}

# Usamos la columna "Company" como índice
df = pd.DataFrame(datos).set_index('Company')

print("DataFrame:\n")
print(df, "\n")

In [None]:
# --- 1) Recorrer por número de fila con iloc ---
print("Recorrer con iloc (por posición de fila):\n")
for i in range(len(df)):
    print("City=", df.iloc[i]['City'], 
          ". Revenue=", df.iloc[i]['Revenue'], 
          ". Employees=", df.iloc[i]['Employees'])

In [None]:
# --- 2) Recorrer usando el índice del DataFrame ---
print("\nRecorrer con index (Company como índice):\n")
print("Índices disponibles:", df.index, "\n")

for i in df.index:  # cada i es el nombre de la empresa
    print("Fila=", i, 
          "| Employees:", df.loc[i, 'Employees'], 
          "| City:", df.loc[i, 'City'])

In [None]:
# --- 3) Recorrer celda por celda ---
print("\nRecorrer cada celda (fila x columna):\n")
for i in df.index:        # recorrer filas
    for j in df.loc[i].index:  # recorrer columnas dentro de cada fila
        print("Fila=", i, "| Columna=", j, "| Valor=", df.loc[i, j])
    print()  # salto de línea entre filas

# 19.- Asignar nuevos valores a una celda del DataFrame

In [None]:
import pandas as pd

In [None]:
# Creamos un DataFrame de ejemplo
df = pd.DataFrame({
    'P': [1, 2, 3, 4],
    'Q': [10, 20, 30, 40],
    'R': [100, 200, 300, 400]
})

print("DataFrame original:\n", df, "\n")

In [None]:
# 1) Cambiar el valor de una celda con at (índice 1, columna 'P')
df.at[1, 'P'] = 10
print("Cambiamos fila 1, col 'P' → 10:\n", df, "\n")

In [None]:
# 2) Cambiar el valor de una celda con loc (índice 1, columna 'Q')
df.loc[1, 'Q'] = 50
print("Cambiamos fila 1, col 'Q' → 50:\n", df, "\n")

In [None]:
# 3) Asignar un mismo valor a TODA la fila con índice 2
df.loc[2] = 200
print("Fila 2 completa → 200:\n", df, "\n")

In [None]:
# 4) Asignar un mismo valor a TODA la columna 'R'
df.loc[:, 'R'] = 88
print("Columna 'R' completa → 88:\n", df, "\n")


# 20.- Unir DataFrames

## Fusión de DataFrames (merge)

### Ejemplo 1- Merge - coincidencias parciales

In [None]:
import pandas as pd

In [None]:
# Creamos dos DataFrames con columnas en común (A, B)
df1 = pd.DataFrame({'A': [1,2,3], 'B': [4,5,6], 'C':[7,8,9]})
df2 = pd.DataFrame({'A': [1,2,4], 'B': [4,5,8], 'D':[10,11,12]})

In [None]:
df1

In [None]:
df2

In [None]:
# Fusión INNER → solo las filas que coinciden en A y B
print("INNER (intersección):\n", pd.merge(df1, df2, how='inner'))

# Fusión LEFT → todas las filas de df1 + coincidencias de df2
print("\nLEFT:\n", pd.merge(df1, df2, how='left'))

# Fusión RIGHT → todas las filas de df2 + coincidencias de df1
print("\nRIGHT:\n", pd.merge(df1, df2, how='right'))

# Fusión OUTER → unión completa de claves (rellena con NaN si no hay coincidencia)
print("\nOUTER:\n", pd.merge(df1, df2, how='outer'))

### Ejemplo 2- Merge - con cadenas de texto

In [None]:
# DataFrames con texto en columna A
df1 = pd.DataFrame({
    'A': ['foo', 'bar', 'baz', 'foo'],
    'B': [1, 2, 3, 5],
    'C': [22, 55, 66, 77]
})

df2 = pd.DataFrame({
    'A': ['foo', 'bar', 'baz', 'foo'],
    'E': [1, 6, 7, 8],
    'F': [12, 5225, 6226, 707]
})

In [None]:
df1

In [None]:
df2

In [None]:
# Fusión por columna "A" → une valores coincidentes de A
print("\nFusión por columna A:\n", pd.merge(df1, df2, on='A', how='inner'))

## Concatenación de DataFrames (concat)

In [None]:
df1 = pd.DataFrame({'A': [1,2], 'B': [3,4]})
df2 = pd.DataFrame({'A': [5,6], 'B': [7,8]})

In [None]:
df1

In [None]:
df2

In [None]:
# Concatenar filas
print(pd.concat([df1, df2], axis=0, ignore_index=True))

In [None]:
# Concatenar columnas
print(pd.concat([df1, df2], axis=1))

# 21.- Tipos de datos de dataframe

In [None]:
# Creamos un DataFrame con varios tipos de datos
df = pd.DataFrame({
    'float': [1.0],                              # número decimal
    'int': [1],                                  # número entero
    'datetime': [pd.Timestamp('20180310')],      # fecha
    'string': ['foo']                            # texto
})

In [None]:
# Mostrar los tipos de cada columna
print("\nTipos de datos de cada columna:\n", df.dtypes)