<a href="https://colab.research.google.com/github/abxda/python/blob/main/UP_Semana_2_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Importaciones básicas
import pandas as pd
import numpy as np

print(f"Versión de Pandas instalada: {pd.__version__}")

In [None]:
print("--- Creación de Series ---")

# 1. Serie a partir de una lista (índice numérico automático)
serie_numeros = pd.Series([10, 20, 30, 40, 50])
print("Serie creada desde una lista:")
print(serie_numeros)
print(f"Tipo de datos: {serie_numeros.dtype}")
print(f"Índice: {serie_numeros.index}\n") # Nota el índice por defecto


In [None]:
# 2. Serie a partir de otra lista (cadenas)
serie_letras = pd.Series(["a", "b", "c"])
print("Serie creada desde una lista de strings:")
print(serie_letras)
print(f"Tipo de datos: {serie_letras.dtype}") # 'object' usualmente indica strings o tipos mixtos
print(f"Índice: {serie_letras.index}\n")

In [None]:
# 3. Variación: Serie a partir de un diccionario
# Las claves del diccionario se convierten en el índice
datos_dict = {'Manzana': 5, 'Plátano': 8, 'Naranja': 3}
serie_frutas = pd.Series(datos_dict)
print("Serie creada desde un diccionario:")
print(serie_frutas)
print(f"Índice: {serie_frutas.index}\n")

In [None]:
print("--- Índices Personalizados en Series ---")

# 1. Crear un objeto Index explícito (aunque no siempre es necesario)
idx_ciudades = pd.Index(["Tijuana", "Juárez", "Gustavo A. Madero", "Iztapalapa", "León de los Aldama",
                         "Guadalajara", "Zapopan", "Ecatepec de Morelos", "Monterrey", "Heroica Puebla de Zaragoza"])
print("Objeto Index creado:")
print(idx_ciudades)
print(f"Tipo: {type(idx_ciudades)}\n")

# 2. Crear una Serie usando el índice personalizado y dándole un nombre
poblacion_lista = [1810645, 1501551, 1173351, 1835486, 1579803,
                   1385621, 1257547, 1643623, 1142952, 1542232]
pob = pd.Series(poblacion_lista, index=idx_ciudades, name="Población") # Añadimos nombre descriptivo
print("Serie con índice personalizado (Ciudades):")
print(pob)
print(f"\nNombre de la Serie: {pob.name}")
print(f"Índice de la Serie: {pob.index}")
print(f"Valores de la Serie (como array NumPy): {pob.values}\n")


In [None]:
# 3. Variación: Crear la Serie directamente con índice de strings
puntuaciones = pd.Series([9.5, 8.0, 7.5, 9.0], index=['Ana', 'Luis', 'Eva', 'Juan'], name='Calificaciones')
print("Otra Serie con índice personalizado (Nombres):")
print(puntuaciones)
print("\n")

In [None]:
print("--- Acceso por Posición (iloc implícito) ---")

# Reutilizamos la serie numérica sin índice personalizado
serie = pd.Series([10, 20, 30, 40, 50])
print(f"Serie original:\n{serie}\n")

# 1. Acceder al elemento en la posición 2 (el tercer elemento)
elemento_pos_2 = serie[2]
print(f"Elemento en la posición 2: {elemento_pos_2}\n")


In [None]:
print("--- Acceso por Etiqueta de Índice (loc implícito) ---")

# Reutilizamos la serie con índice de letras
serie_con_indice = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print(f"Serie original con índice:\n{serie_con_indice}\n")

# 1. Acceder al elemento con la etiqueta 'b'
elemento_b = serie_con_indice['b']
print(f"Elemento con etiqueta 'b': {elemento_b}\n")


# 2. Variación: Acceder a un rango de elementos (slicing)
# Desde la posición 1 hasta la 3 (sin incluir la 4)
slice_pos = serie[1:4]
print("Elementos desde la posición 1 hasta la 3:")
print(slice_pos)
print("\n")

# 3. Variación: Acceder a posiciones específicas
# Nota: Para acceso explícito por posición, especialmente si hay índices personalizados,
# se prefiere usar .iloc (veremos más adelante con DataFrames)
print(f"Acceso implícito a posición 0: {serie[0]}")
print(f"Acceso implícito a última posición: {serie[len(serie)-1]} o {serie.iloc[-1]}\n")

In [None]:
print("--- Selección y Filtrado (Condiciones Booleanas) ---")

# Reutilizamos la serie numérica
serie = pd.Series([10, 20, 30, 40, 50])
print(f"Serie original:\n{serie}\n")

# 1. Seleccionar elementos mayores que 25
condicion = serie > 25
print(f"La condición (Serie Booleana):\n{condicion}\n")
filtrados_mayores_25 = serie[condicion] # O directamente serie[serie > 25]
print("Elementos mayores que 25:")
print(filtrados_mayores_25)
print("\n")

# 2. Variación: Seleccionar elementos pares
filtrados_pares = serie[serie % 2 == 0]
print("Elementos pares:")
print(filtrados_pares)
print("\n")

# 3. Variación con la serie de población: Ciudades con más de 1.5 millones de habitantes
pob_mas_1_5M = pob[pob > 1500000]
print("Ciudades con más de 1.5 millones de habitantes:")
print(pob_mas_1_5M)
print("\n")

In [None]:
print("--- Asignación de Valores ---")

# Reutilizamos la serie con índice de letras
serie_con_indice = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print(f"Serie original:\n{serie_con_indice}\n")

# 1. Asignar un nuevo valor usando la etiqueta de índice
print("Asignando el valor 10 a la etiqueta 'b'...")
serie_con_indice['b'] = 10
print("Serie modificada:")
print(serie_con_indice)
print("\n")

# 2. Variación: Asignar un valor usando la posición
serie_numeros = pd.Series([100, 200, 300])
print(f"Otra serie:\n{serie_numeros}\n")
print("Asignando 999 a la posición 0...")
serie_numeros[0] = 999
print("Serie modificada:")
print(serie_numeros)
print("\n")

# 3. Variación: Asignar un valor basado en una condición
serie = pd.Series([10, 20, 30, 40, 50])
print(f"Serie original para asignación condicional:\n{serie}\n")
print("Asignando 0 a los elementos <= 20...")
serie[serie <= 20] = 0
print("Serie modificada:")
print(serie)
print("\n")

In [None]:
#*****

In [None]:
print("--- Definición y Creación de un DataFrame ---")

# 1. Crear un DataFrame a partir de un diccionario de listas
# Cada clave es un nombre de columna, cada lista son los datos de esa columna
data_dict = {
    'Año': [2020, 2021, 2022, 2023],
    'Población': [100, 150, 200, 250],
    'PIB': [1.0, 1.2, 1.5, 1.6]
}
df_dict = pd.DataFrame(data_dict)
print("DataFrame creado desde un diccionario de listas:")
print(df_dict)
print("\n")

# 2. Variación: Crear un DataFrame a partir de una lista de listas
# Se deben proporcionar los nombres de las columnas por separado
datos_listas = [['Ana', 25, 'Madrid'], ['Luis', 30, 'Barcelona'], ['Carlos', 35, 'Valencia']]
columnas = ['Nombre', 'Edad', 'Ciudad']
df_listas = pd.DataFrame(datos_listas, columns=columnas)
print("DataFrame creado desde una lista de listas:")
print(df_listas)
print("\n")

# 3. Variación: Crear DataFrame desde una Serie
print("DataFrame creado desde la Serie de Población:")
df_pob = pd.DataFrame(pob) # Convierte la Serie en un DF de una columna
print(df_pob)
# Para darle un nombre más explícito a la columna:
df_pob_named = pd.DataFrame({'Población': pob})
print("\nDataFrame desde Serie con nombre de columna explícito:")
print(df_pob_named)
print("\n")

In [None]:
print("--- Manejo de Índices y Columnas ---")

# Reutilizamos el DataFrame creado desde el diccionario
dataframe = pd.DataFrame({
    'Año': [2020, 2021, 2022],
    'Población': [100, 150, 200]
})
print(f"DataFrame original:\n{dataframe}\n")
print(f"Índice original: {dataframe.index}")
print(f"Columnas originales: {dataframe.columns}\n")

# 1. Establecer una columna ('Año') como el índice de filas
# 'inplace=True' modificaría el DataFrame original directamente
df_con_indice = dataframe.set_index('Año')
# Alternativamente: dataframe.set_index('Año', inplace=True)
print("DataFrame con 'Año' como índice:")
print(df_con_indice)
print(f"Nuevo índice: {df_con_indice.index}\n")

# 2. Acceso a columnas
# Se accede a las columnas por su nombre, como en un diccionario
columna_poblacion = dataframe['Población'] # Nota: Usamos el DF original sin el índice cambiado
print("Acceso a la columna 'Población' (esto es una Serie):")
print(columna_poblacion)
print(f"Tipo: {type(columna_poblacion)}\n")

# 3. Variación: Acceder a múltiples columnas
# Pasamos una lista de nombres de columnas
columnas_seleccionadas = dataframe[['Año', 'Población']] # Devuelve un DataFrame
print("Acceso a las columnas 'Año' y 'Población':")
print(columnas_seleccionadas)
print(f"Tipo: {type(columnas_seleccionadas)}\n")

# 4. Volver del índice a una columna regular
df_resetado = df_con_indice.reset_index()
print("DataFrame después de resetear el índice:")
print(df_resetado)
print("\n")

In [None]:
print("--- Exploración Inicial del DataFrame ---")

# Usaremos el DataFrame de población creado anteriormente
df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Eva', 'Juan', 'Sofia', 'Pedro'],
    'Edad': [25, 30, 35, 25, 30, 40, 35],
    'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Madrid', 'Barcelona', 'Sevilla'],
    'Puntuacion': [8.5, 9.0, 7.5, 8.5, 9.5, 8.0, 7.0]
})
print(f"DataFrame de ejemplo para exploración:\n{df}\n")

# 1. Ver las primeras filas (por defecto 5)
print("Primeras 3 filas (.head(3)):")
print(df.head(3))
print("\n")

# 2. Ver las últimas filas (por defecto 5)
print("Últimas 2 filas (.tail(2)):")
print(df.tail(2))
print("\n")

# 3. Obtener información general (tipos de datos, memoria, valores no nulos)
print("Información general (.info()):")
df.info() # info() imprime directamente, no devuelve un objeto imprimible
print("\n")

# 4. Resumen estadístico para columnas numéricas
print("Resumen estadístico (.describe()):")
print(df.describe())
print("\n")

# 5. Variación: Resumen estadístico para todas las columnas (incluyendo categóricas/object)
print("Resumen estadístico para todas las columnas (.describe(include='all')):")
print(df.describe(include='all'))
print("\n")

# 6. Dimensiones del DataFrame (filas, columnas)
print(f"Dimensiones del DataFrame (.shape): {df.shape}")
print(f"Número de filas: {df.shape[0]}, Número de columnas: {df.shape[1]}\n")

# 7. Nombres de las columnas
print(f"Nombres de las columnas (.columns): {df.columns}\n")

# 8. Tipos de datos de cada columna
print("Tipos de datos por columna (.dtypes):")
print(df.dtypes)
print("\n")

# 9. Explorar valores únicos en una columna específica
print("Valores únicos en la columna 'Ciudad' (.unique()):")
print(df['Ciudad'].unique())
print("\n")

# 10. Variación: Contar la frecuencia de cada valor único en una columna
print("Frecuencia de valores en 'Ciudad' (.value_counts()):")
print(df['Ciudad'].value_counts())
print("\n")

In [None]:
print("--- Importando Datos Externos ---")

# 1. Cargar datos desde un archivo CSV en una URL
# El archivo debe ser accesible públicamente
url_csv = 'https://raw.githubusercontent.com/abxda/python/main/datos.csv'
print(f"Cargando CSV desde: {url_csv}")
try:
    df_csv = pd.read_csv(url_csv)
    print("DataFrame cargado desde CSV:")
    print(df_csv.head()) # Mostramos solo las primeras filas
except Exception as e:
    print(f"Error al cargar CSV: {e}")
print("\n")

# 2. Cargar datos desde un archivo Excel en una URL
# Puede requerir la instalación de 'openpyxl' o 'xlrd': pip install openpyxl
url_excel = "https://raw.githubusercontent.com/abxda/python/main/datos.xlsx"
print(f"Cargando Excel desde: {url_excel}")
try:
    # Especificamos la hoja que queremos leer
    df_excel = pd.read_excel(url_excel, sheet_name='datos')
    print("DataFrame cargado desde Excel (hoja 'datos'):")
    print(df_excel.head())
except Exception as e:
    print(f"Error al cargar Excel: {e}")
print("\n")

# 3. Cargar datos desde una base de datos SQLite
# Nota: El comando !wget es para entornos tipo Colab/Jupyter para descargar el archivo.
# En un script local, necesitarías descargar el archivo manualmente o usar librerías como requests.
# ¡Descomenta la siguiente línea si estás en un entorno compatible y quieres descargar el archivo!
!wget http://2016.padjo.org/files/data/starterpack/simplefolks.sqlite -O simplefolks.sqlite

import sqlite3
import os

db_filename = "simplefolks.sqlite"
print(f"Intentando conectar a la base de datos: {db_filename}")

# Verificamos si el archivo existe antes de intentar conectar
if os.path.exists(db_filename):
    try:
        conexion = sqlite3.connect(db_filename)

        # a) Consultar las tablas disponibles
        sql_query_tablas = "SELECT name FROM sqlite_master WHERE type='table';"
        df_tablas = pd.read_sql(sql_query_tablas, conexion)
        print("Tablas encontradas en la base de datos:")
        print(df_tablas)
        print("\n")

        # b) Leer datos de la tabla 'pets'
        sql_query_pets = "SELECT * FROM pets;"
        df_pets = pd.read_sql(sql_query_pets, conexion)
        print("Primeras filas de la tabla 'pets':")
        print(df_pets.head())
        print("\n")

        # c) Leer datos de la tabla 'homes'
        sql_query_homes = "SELECT * FROM homes;"
        df_homes = pd.read_sql(sql_query_homes, conexion)
        print("Primeras filas de la tabla 'homes':")
        print(df_homes.head())
        print("\n")

        # Es buena práctica cerrar la conexión
        conexion.close()
        print("Conexión a la base de datos cerrada.")

    except sqlite3.Error as e:
        print(f"Error de SQLite: {e}")
    except Exception as e:
        print(f"Otro error al procesar SQLite: {e}")
else:
    print(f"Archivo de base de datos '{db_filename}' no encontrado. Omitiendo carga desde SQL.")

print("\n")

In [None]:
#Semana 2 Pandas

In [None]:
print("--- Identificación de Valores Faltantes (NaN) ---")

# 1. Crear un DataFrame de ejemplo con valores faltantes (NaN)
data_nan = {
    'A': [10, 20, np.nan, 40, 50],
    'B': [np.nan, 30, 40, np.nan, 60],
    'C': [50, np.nan, 70, 80, np.nan],
    'D': [1, 2, 3, 4, 5] # Columna sin NaN para comparar
}
df_nan = pd.DataFrame(data_nan)
print(f"DataFrame con valores NaN:\n{df_nan}\n")

# 2. Identificar valores faltantes (devuelve DataFrame booleano)
valores_faltantes_bool = df_nan.isnull()
print("Identificación de NaN (True donde falta valor):")
print(valores_faltantes_bool)
print("\n")

# 3. Contabilizar el número de valores faltantes por columna
faltantes_por_columna = valores_faltantes_bool.sum() # O df_nan.isnull().sum()
print("Número de NaN por columna:")
print(faltantes_por_columna)
print("\n")

# 4. Contabilizar el total de valores faltantes en todo el DataFrame
total_faltantes = faltantes_por_columna.sum() # O df_nan.isnull().sum().sum()
print(f"Número total de NaN en el DataFrame: {total_faltantes}")
print("\n")

# 5. Variación: Usar notnull() para ver los valores NO faltantes
valores_no_faltantes = df_nan.notnull()
print("Identificación de valores NO faltantes (True donde hay valor):")
print(valores_no_faltantes)
print(f"Total de valores NO faltantes: {df_nan.notnull().sum().sum()}")
print("\n")

In [None]:
print("--- Combinando DataFrames con pd.concat ---")

# Crear dos DataFrames de ejemplo simples
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]}, index=['f1', 'f2'])
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]}, index=['f3', 'f4'])
df3 = pd.DataFrame({'C': [11, 12], 'D': [13, 14]}, index=['f1', 'f2']) # Mismo índice que df1

print(f"DataFrame 1:\n{df1}\n")
print(f"DataFrame 2:\n{df2}\n")
print(f"DataFrame 3 (mismo índice que df1):\n{df3}\n")

# 1. Concatenación Vertical (apilar filas, axis=0 por defecto)
# Une df2 debajo de df1. Las columnas deben coincidir idealmente.
df_vertical = pd.concat([df1, df2]) # axis=0 es el default
print("Concatenación Vertical (axis=0):")
print(df_vertical)
print("Observa cómo se mantienen los índices originales.\n")

# 2. Variación Vertical: Ignorar índices originales y crear uno nuevo
df_vertical_reset = pd.concat([df1, df2], ignore_index=True)
print("Concatenación Vertical con ignore_index=True:")
print(df_vertical_reset)
print("Observa el nuevo índice numérico secuencial.\n")

# 3. Concatenación Horizontal (unir columnas, axis=1)
# Une las columnas de df3 al lado de las de df1. Los índices de fila deben coincidir.
df_horizontal = pd.concat([df1, df3], axis=1)
print("Concatenación Horizontal (axis=1):")
print(df_horizontal)
print("Observa cómo se alinean las filas por su índice ('f1', 'f2').\n")

# 4. Variación Horizontal: ¿Qué pasa si los índices no coinciden perfectamente?
df4 = pd.DataFrame({'E': [100, 200]}, index=['f2', 'f5']) # Índice parcialmente coincidente con df1
print(f"DataFrame 4 (índice parcial):\n{df4}\n")
df_horizontal_nan = pd.concat([df1, df4], axis=1)
print("Concatenación Horizontal con índices no coincidentes:")
print(df_horizontal_nan)
print("Observa cómo se introducen NaN donde no hay coincidencia de índice.\n")

In [None]:
print("--- Selección Avanzada y Filtros ---")

# Reutilizamos el DataFrame de ejemplo
df = pd.DataFrame({
    'Nombre': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Eva'],
    'Edad': [25, 30, 35, 22, 28],
    'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Madrid'],
    'Puntuacion': [8.5, 9.1, 7.8, 8.8, 9.5]
}, index=['id1', 'id2', 'id3', 'id4', 'id5']) # Añadimos un índice de etiquetas
print(f"DataFrame de ejemplo con índice:\n{df}\n")

# --- Filtros Booleanos ---
print("--- Filtros Booleanos ---")
# 1. Filtrar por una condición simple (como en Series)
df_jovenes = df[df['Edad'] < 30]
print("Personas con menos de 30 años:")
print(df_jovenes)
print("\n")

# 2. Filtrar por múltiples condiciones (usando & para AND)
# Nota los paréntesis alrededor de cada condición
df_filtrado_and = df[(df['Edad'] > 25) & (df['Ciudad'] == 'Madrid')]
print("Personas de Madrid mayores de 25 años:")
print(df_filtrado_and)
print("\n")

# 3. Variación: Filtrar con OR (usando |)
df_filtrado_or = df[(df['Ciudad'] == 'Barcelona') | (df['Puntuacion'] > 9.0)]
print("Personas de Barcelona O con puntuación mayor a 9.0:")
print(df_filtrado_or)
print("\n")

# --- Selección con .loc (basada en ETIQUETAS) ---
print("--- Selección con .loc (Etiquetas) ---")
# 1. Seleccionar una fila por su etiqueta de índice
fila_id2 = df.loc['id2']
print(f"Fila con índice 'id2' (devuelve una Serie):\n{fila_id2}\n")

# 2. Seleccionar múltiples filas por etiqueta de índice
filas_id1_id4 = df.loc[['id1', 'id4']]
print(f"Filas con índice 'id1' e 'id4' (devuelve DataFrame):\n{filas_id1_id4}\n")

# 3. Seleccionar filas y columnas específicas por etiqueta
# Formato: df.loc[etiquetas_filas, etiquetas_columnas]
seleccion_loc = df.loc[['id1', 'id3', 'id5'], ['Nombre', 'Puntuacion']]
print("Filas 'id1', 'id3', 'id5' y columnas 'Nombre', 'Puntuacion':")
print(seleccion_loc)
print("\n")

# 4. Variación loc: Seleccionar filas basadas en condición y columnas específicas
seleccion_loc_cond = df.loc[df['Edad'] < 30, ['Nombre', 'Ciudad']]
print("Personas < 30 años (loc), mostrando Nombre y Ciudad:")
print(seleccion_loc_cond)
print("\n")

# 5. Variación loc: Slicing con etiquetas de índice (incluye el final)
slice_loc = df.loc['id2':'id4', 'Edad':'Puntuacion'] # Incluye 'id4' y 'Puntuacion'
print("Slice de filas 'id2' a 'id4' y columnas 'Edad' a 'Puntuacion':")
print(slice_loc)
print("\n")


# --- Selección con .iloc (basada en POSICIÓN NUMÉRICA) ---
print("--- Selección con .iloc (Posición) ---")
# 1. Seleccionar la fila en la posición 0 (la primera fila)
fila_pos_0 = df.iloc[0]
print(f"Fila en posición 0 (devuelve Serie):\n{fila_pos_0}\n")

# 2. Seleccionar las filas en las posiciones 1 y 3
filas_pos_1_3 = df.iloc[[1, 3]]
print(f"Filas en posiciones 1 y 3 (devuelve DataFrame):\n{filas_pos_1_3}\n")

# 3. Seleccionar filas y columnas específicas por posición
# Formato: df.iloc[posiciones_filas, posiciones_columnas]
# Filas 0 y 2, Columnas 0 ('Nombre') y 3 ('Puntuacion')
seleccion_iloc = df.iloc[[0, 2], [0, 3]]
print("Filas en pos 0, 2 y Columnas en pos 0, 3:")
print(seleccion_iloc)
print("\n")

# 4. Variación iloc: Slicing por posición (NO incluye el final, como en Python)
# Primeras 3 filas (0, 1, 2) y primeras 2 columnas (0, 1)
slice_iloc = df.iloc[0:3, 0:2]
print("Slice de filas 0 a 2 y columnas 0 a 1:")
print(slice_iloc)
print("\n")

# 5. Variación iloc: Seleccionar todas las filas y columnas específicas
todas_filas_col_1_2 = df.iloc[:, [1, 2]] # ':' significa todas las filas
print("Todas las filas, columnas en posición 1 y 2:")
print(todas_filas_col_1_2)
print("\n")

In [None]:
print("--- Modificación y Creación de Columnas ---")

# Crear un DataFrame de ejemplo
df_mod = pd.DataFrame({
    'Nombre': ['Ana', 'Bruno', 'Carlos'],
    'Edad': [25, 30, 35],
    'Puntos_A': [100, 150, 200],
    'Puntos_B': [50, 60, 70]
})
print(f"DataFrame original:\n{df_mod}\n")

# 1. Añadir una nueva columna calculada
df_mod['Edad + 10'] = df_mod['Edad'] + 10
print("DataFrame con nueva columna 'Edad + 10':")
print(df_mod)
print("\n")

# 2. Variación: Añadir columna con un valor constante
df_mod['Pais'] = 'México'
print("DataFrame con columna constante 'Pais':")
print(df_mod)
print("\n")

# 3. Variación: Modificar una columna existente
df_mod['Edad'] = df_mod['Edad'] * 2 # Duplicar la edad
print("DataFrame con columna 'Edad' modificada (duplicada):")
print(df_mod)
print("\n")

# 4. Renombrar una columna
# Usamos inplace=True para modificar el df original directamente
df_mod.rename(columns={'Edad + 10': 'Edad_Futura', 'Pais': 'Nacionalidad'}, inplace=True)
print("DataFrame con columnas renombradas ('Edad_Futura', 'Nacionalidad'):")
print(df_mod)
print("\n")

# 5. Eliminar columnas
# Necesitamos especificar axis=1 para columnas
df_mod.drop(['Puntos_A', 'Nacionalidad'], axis=1, inplace=True)
print("DataFrame después de eliminar 'Puntos_A' y 'Nacionalidad':")
print(df_mod)
print("\n")

# --- Uso de apply() ---
print("--- Uso de apply() ---")
# 6. Definir una función para aplicar a una columna (Serie)
def rango_etario(edad):
    if edad < 60: # Ajustado por la duplicación anterior
        return 'Adulto'
    elif edad < 80:
        return 'Adulto Mayor'
    else:
        return 'Anciano'

# Aplicar la función a la columna 'Edad' para crear 'Rango Etario'
df_mod['Rango Etario'] = df_mod['Edad'].apply(rango_etario)
print("DataFrame con columna 'Rango Etario' creada con apply():")
print(df_mod)
print("\n")

# 7. Variación apply(): Aplicar una función a las filas (axis=1)
# Calcular el total de puntos (recreamos Puntos_A para el ejemplo)
df_mod['Puntos_A'] = [110, 160, 210]
print(f"DataFrame antes de sumar puntos por fila:\n{df_mod}\n")

def sumar_puntos(fila):
    # Accedemos a los valores de la fila por su nombre de columna
    total = fila['Puntos_A'] + fila['Puntos_B']
    return total

# axis=1 indica que la función se aplica a cada fila
df_mod['Puntos_Total'] = df_mod.apply(sumar_puntos, axis=1)
print("DataFrame con 'Puntos_Total' calculado por fila con apply(axis=1):")
print(df_mod)
print("\n")


# --- Uso de applymap() ---
print("--- Uso de applymap() ---")
# 8. Definir una función que opera sobre un único valor
def formato_moneda(valor):
    # Asegurarse de que sea numérico antes de formatear
    if isinstance(valor, (int, float)):
        return f"${valor:,.2f}" # Formato con comas y 2 decimales
    return valor # Devolver el valor original si no es número

# Aplicar la función a cada elemento de columnas numéricas específicas
columnas_numericas = ['Edad', 'Puntos_B', 'Puntos_A', 'Puntos_Total']
df_formateado = df_mod.copy() # Copiar para no alterar el original
df_formateado[columnas_numericas] = df_formateado[columnas_numericas].applymap(formato_moneda)
print("DataFrame con columnas numéricas formateadas usando applymap():")
print(df_formateado)
print("\n")

# 9. Variación applymap(): Aplicar a todo el DataFrame (puede dar error si hay tipos no compatibles)
def es_string(valor):
    return isinstance(valor, str)

df_es_string = df_mod.applymap(es_string)
print("Resultado de applymap(es_string) a todo el DataFrame:")
print(df_es_string)
print("\n")

In [None]:
print("--- Operaciones de Agregación con groupby() ---")

# Crear un DataFrame de ejemplo para agrupaciones
df_grupos = pd.DataFrame({
    'Categoría': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'SubCat': ['X', 'X', 'Y', 'Y', 'X', 'Y', 'Y', 'X'],
    'Datos': [10, 20, 30, 40, 50, 60, 70, 80],
    'Valores': [1, 5, 2, 6, 3, 7, 4, 8]
})
print(f"DataFrame original para agrupar:\n{df_grupos}\n")

# 1. Agrupar por 'Categoría' y sumar los 'Datos' para cada grupo
grupo_suma_cat = df_grupos.groupby('Categoría')['Datos'].sum()
print("Suma de 'Datos' por 'Categoría':")
print(grupo_suma_cat)
print(f"Tipo del resultado: {type(grupo_suma_cat)}\n") # Devuelve una Serie

# 2. Calcular el promedio de 'Datos' por 'Categoría'
grupo_promedio_cat = df_grupos.groupby('Categoría')['Datos'].mean()
print("Promedio de 'Datos' por 'Categoría':")
print(grupo_promedio_cat)
print("\n")

# 3. Variación: Agrupar por múltiples columnas ('Categoría' y 'SubCat')
# El resultado tendrá un MultiIndex
grupo_multi_suma = df_grupos.groupby(['Categoría', 'SubCat'])['Datos'].sum()
print("Suma de 'Datos' agrupando por 'Categoría' y 'SubCat':")
print(grupo_multi_suma)
print(f"Índice del resultado: {grupo_multi_suma.index}\n")

# 4. Variación: Aplicar múltiples funciones de agregación a la vez
# Usamos el método .agg() con una lista de funciones
agregaciones = df_grupos.groupby('Categoría')['Datos'].agg(['sum', 'mean', 'count', 'std'])
print("Múltiples agregaciones ('sum', 'mean', 'count', 'std') de 'Datos' por 'Categoría':")
print(agregaciones)
print(f"Tipo del resultado: {type(agregaciones)}\n") # Devuelve un DataFrame

# 5. Variación: Aplicar diferentes agregaciones a diferentes columnas
# Pasamos un diccionario a .agg() donde las claves son columnas y los valores son las funciones
agregaciones_dict = {
    'Datos': ['sum', 'mean'], # Suma y media para 'Datos'
    'Valores': 'max'          # Máximo para 'Valores'
}
agregaciones_multi_col = df_grupos.groupby('Categoría').agg(agregaciones_dict)
print("Diferentes agregaciones para 'Datos' y 'Valores' por 'Categoría':")
print(agregaciones_multi_col)
print("\n")

# 6. Obtener los grupos como un diccionario (menos común, pero útil para inspección)
# grupos = dict(list(df_grupos.groupby('Categoría')))
# print("Grupos como diccionario (clave=Categoría, valor=DataFrame del grupo):")
# print(grupos)
# print("\n")

In [None]:
print("--- Tratamiento de Valores Faltantes (fillna, dropna) ---")

# Reutilizamos el DataFrame con NaN
df_nan = pd.DataFrame({
    'A': [10, 20, np.nan, 40, 50],
    'B': [np.nan, 30, 40, np.nan, 60],
    'C': [50, np.nan, 70, 80, np.nan]
})
print(f"DataFrame original con NaN:\n{df_nan}\n")
print(f"Cantidad de NaN por columna:\n{df_nan.isnull().sum()}\n")

# --- Rellenar con fillna() ---
print("--- Rellenar con fillna() ---")
# 1. Rellenar todos los valores nulos con cero
# fillna() devuelve un NUEVO DataFrame por defecto. Usar inplace=True para modificar el original.
df_fillna_cero = df_nan.fillna(0)
print("DataFrame con NaN rellenados con 0:")
print(df_fillna_cero)
print("\n")

# 2. Variación: Rellenar utilizando el valor medio de cada columna
# Calculamos la media por columna (ignora NaN por defecto) y la usamos para rellenar
medias_columnas = df_nan.mean()
print(f"Medias por columna:\n{medias_columnas}\n")
df_fillna_mean = df_nan.fillna(medias_columnas)
print("DataFrame con NaN rellenados con la media de su columna:")
print(df_fillna_mean)
print("\n")

# 3. Variación: Rellenar usando el valor anterior (forward fill) o siguiente (backward fill)
df_fillna_ffill = df_nan.fillna(method='ffill') # Rellena con el último valor válido hacia adelante
print("DataFrame con NaN rellenados con el valor anterior (ffill):")
print(df_fillna_ffill)
print("\n")

df_fillna_bfill = df_nan.fillna(method='bfill') # Rellena con el primer valor válido hacia atrás
print("DataFrame con NaN rellenados con el valor siguiente (bfill):")
print(df_fillna_bfill)
print("\n")


# --- Eliminar con dropna() ---
print("--- Eliminar con dropna() ---")
# 4. Eliminar FILAS que contengan al menos un valor nulo (axis=0 por defecto)
# Esto puede ser muy agresivo si hay muchos NaN dispersos
df_dropna_filas = df_nan.dropna() # O dropna(axis=0)
print("DataFrame después de eliminar filas con CUALQUIER NaN:")
print(df_dropna_filas)
print("Observa que solo queda la fila sin NaN (si la hubiera).\n")

# 5. Eliminar COLUMNAS que contengan al menos un valor nulo (axis=1)
df_dropna_cols = df_nan.dropna(axis=1)
print("DataFrame después de eliminar columnas con CUALQUIER NaN:")
print(df_dropna_cols)
print("Observa que solo quedan las columnas sin NaN (si las hubiera).\n")

# 6. Variación dropna: Eliminar filas si TODOS sus valores son NaN
# Es menos común, se usa how='all'
df_nan_all = pd.DataFrame({'X': [np.nan, 1, np.nan], 'Y': [np.nan, 2, np.nan]})
df_nan_all.loc[2] = [np.nan, np.nan] # Añadir fila solo con NaN
print(f"DataFrame con fila de solo NaN:\n{df_nan_all}\n")
df_dropped_all_nan = df_nan_all.dropna(how='all')
print("DataFrame después de eliminar filas donde TODOS los valores son NaN:")
print(df_dropped_all_nan)
print("\n")

# 7. Variación dropna: Especificar un umbral mínimo de valores no-NaN
# thresh=N requiere al menos N valores no-NaN en la fila/columna para mantenerla
# Mantener filas con al menos 2 valores NO nulos
df_dropna_thresh = df_nan.dropna(thresh=2)
print("DataFrame después de eliminar filas con MENOS de 2 valores NO nulos:")
print(df_dropna_thresh)
print("\n")

In [None]:
print("--- Guardar DataFrames ---")

# Supongamos que 'df_final' es nuestro DataFrame resultado del análisis
# Usaremos el DataFrame con medias rellenadas como ejemplo
df_final = df_fillna_mean
print(f"DataFrame que vamos a guardar:\n{df_final}\n")

# --- Guardar en diferentes formatos ---

# 1. Exportar el DataFrame a un archivo CSV
# index=False: No escribe el índice del DataFrame en el archivo.
# encoding='utf-8': Buena práctica para compatibilidad de caracteres.
output_csv_file = 'datos_exportados.csv'
try:
    df_final.to_csv(output_csv_file, index=False, encoding='utf-8', sep=';') # Cambiado sep a ;
    print(f"DataFrame guardado exitosamente en: {output_csv_file}")
except Exception as e:
    print(f"Error al guardar en CSV: {e}")

# 2. Exportar el DataFrame a un archivo Excel
# sheet_name: Nombre de la hoja dentro del archivo Excel.
# Requiere 'openpyxl': pip install openpyxl
output_excel_file = 'datos_exportados.xlsx'
try:
    df_final.to_excel(output_excel_file, sheet_name='Resultados', index=False)
    print(f"DataFrame guardado exitosamente en: {output_excel_file}")
except Exception as e:
    print(f"Error al guardar en Excel: {e}")

# 3. Convertir el DataFrame a formato JSON
# orient='records': Formato común, lista de diccionarios (uno por fila).
# Otras opciones: 'split', 'index', 'columns', 'values', 'table'.
output_json_file = 'datos_exportados.json'
try:
    df_final.to_json(output_json_file, orient='records', indent=4) # indent=4 para mejor legibilidad
    print(f"DataFrame guardado exitosamente en: {output_json_file}")
    # Opcional: imprimir el JSON como string
    # json_string = df_final.to_json(orient='records', indent=4)
    # print(f"\nContenido JSON:\n{json_string}\n")
except Exception as e:
    print(f"Error al guardar en JSON: {e}")

# 4. Convertir el DataFrame a una tabla HTML
# Útil para visualización web o informes rápidos.
output_html_file = 'datos_exportados.html'
try:
    df_final.to_html(output_html_file, index=False, border=1) # border=1 añade bordes a la tabla
    print(f"DataFrame guardado exitosamente en: {output_html_file}")
    # Opcional: imprimir el HTML como string
    # html_string = df_final.to_html(index=False, border=1)
    # print(f"\nContenido HTML:\n{html_string}\n")
except Exception as e:
    print(f"Error al guardar en HTML: {e}")

print("\n--- Fin del Script ---")