# Ejercicios capítulo 5.

Ejercicios prácticos de programación en Python con soluciones paso a paso, enfocados en creación de series desde listas, NumPy, arrays y diccionarios y creación de DataFrames desde diferentes fuentes.

### **Ejercicio 1: Creación, Indexación y Filtrado de una Serie de Pandas**

**Instrucciones:**

1.  **Importa `pandas` como `pd`.**

2.  **Crea una Serie a partir de un Diccionario**:
    * Crea un diccionario que represente la población (en millones de habitantes) de 5 países clave. Usa los nombres de los países como claves.
        ```python
        datos_poblacion = {
            'China': 1444,
            'India': 1393,
            'EEUU': 333,
            'Indonesia': 276,
            'Pakistán': 225
        }
        ```
    * Utiliza este diccionario para crear una Serie de Pandas llamada `poblacion_mundial`.

3.  **Inspección y Selección por Etiqueta (`.loc`)**:
    * Muestra la Serie completa.
    * Usa `.loc` para seleccionar y mostrar la población de **'India'**.
    * Usa `.loc` para seleccionar y mostrar la población de **'EEUU' y 'China'** al mismo tiempo.

4.  **Selección por Posición Numérica (`.iloc`)**:
    * Usa `.iloc` para seleccionar el **segundo país** de la Serie (posición 1).
    * Usa `.iloc` para seleccionar los **últimos tres países** de la Serie.

5.  **Filtrado con una Máscara Booleana**:
    * Crea una máscara booleana para encontrar los países con una población **mayor a 1000 millones**.
    * Aplica la máscara a la Serie para mostrar únicamente los países que cumplen con esta condición.


In [None]:
# 1. Importar pandas
import pandas as pd

# 2. Crear una Serie a partir de un Diccionario
datos_poblacion = {
    'China': 1444,
    'India': 1393,
    'EEUU': 333,
    'Indonesia': 276,
    'Pakistán': 225
}
poblacion_mundial = pd.Series(datos_poblacion)

print("--- 2. Serie Original de Población (en millones) ---")
print(poblacion_mundial)
print("\n" + "="*40 + "\n")


# 3. Inspección y Selección por Etiqueta (.loc)
print("--- 3. Selección con .loc (por etiqueta) ---")
poblacion_india = poblacion_mundial.loc['India']
print(f"Población de India: {poblacion_india} millones")

poblacion_usa_china = poblacion_mundial.loc[['EEUU', 'China']]
print("\nPoblación de EEUU y China:")
print(poblacion_usa_china)
print("\n" + "="*40 + "\n")


# 4. Selección por Posición Numérica (.iloc)
print("--- 4. Selección con .iloc (por posición) ---")
segundo_pais = poblacion_mundial.iloc[1]
print(f"Población del segundo país en la lista: {segundo_pais} millones")

ultimos_tres = poblacion_mundial.iloc[-3:]
print("\nÚltimos tres países en la lista:")
print(ultimos_tres)
print("\n" + "="*40 + "\n")


# 5. Filtrado con una Máscara Booleana
print("--- 5. Filtrado de países con más de 1000 millones de habitantes ---")
# Primero, creamos la máscara de True/False
mascara_poblacion_alta = poblacion_mundial > 1000
print("Máscara booleana (población > 1000):")
print(mascara_poblacion_alta)

# Luego, usamos la máscara para filtrar la Serie original
paises_mas_poblados = poblacion_mundial[mascara_poblacion_alta]
print("\nPaíses que cumplen la condición:")
print(paises_mas_poblados)

--- 2. Serie Original de Población (en millones) ---
China        1444
India        1393
EEUU          333
Indonesia     276
Pakistán      225
dtype: int64


--- 3. Selección con .loc (por etiqueta) ---
Población de India: 1393 millones

Población de EEUU y China:
EEUU      333
China    1444
dtype: int64


--- 4. Selección con .iloc (por posición) ---
Población del segundo país en la lista: 1393 millones

Últimos tres países en la lista:
EEUU         333
Indonesia    276
Pakistán     225
dtype: int64


--- 5. Filtrado de países con más de 1000 millones de habitantes ---
Máscara booleana (población > 1000):
China         True
India         True
EEUU         False
Indonesia    False
Pakistán     False
dtype: bool

Países que cumplen la condición:
China    1444
India    1393
dtype: int64


### **Ejercicio 2: Operaciones Vectorizadas entre Series de Pandas**

**Instrucciones:**

1.  **Importa `pandas` como `pd`.**

2.  **Creación de las Series de Datos**:
    * Crea una primera Serie llamada `pib_usd_billones` con el PIB (en billones de USD) de 4 países de América del Sur. Usa un diccionario para que los nombres de los países sean el índice.
    * Crea una segunda Serie llamada `poblacion_millones` con la población (en millones) de los **mismos 4 países**. Es crucial que los índices coincidan para que Pandas pueda alinear los datos correctamente.

3.  **Operación entre dos Series (Cálculo del PIB per cápita)**:
    * Calcula el PIB per cápita para cada país. La fórmula es `(PIB / Población)`. Para que las unidades sean correctas (billones / millones), la operación real será `(pib_usd_billones * 1000) / poblacion_millones` para obtener el PIB per cápita en miles de USD.
    * Realiza esta operación directamente entre las dos Series y guarda el resultado en una nueva Serie llamada `pib_per_capita`.

4.  **Operación con un Escalar (Proyección a futuro)**:
    * Asume una tasa de crecimiento económico proyectada del 3.5% para todos los países.
    * Crea una nueva Serie llamada `pib_proyectado` calculando el PIB del próximo año. Esto se hace multiplicando la Serie `pib_usd_billones` completa por `1.035`.

5.  **Muestra todos los resultados**: Imprime la Serie `pib_per_capita` (redondeada a 2 decimales) y la Serie `pib_proyectado` con títulos descriptivos.

In [None]:
# 1. Importar pandas
import pandas as pd

# 2. Creación de las Series de Datos
pib_datos = {
    'Brasil': 1609,
    'Argentina': 487,
    'Colombia': 343,
    'Chile': 317
}
pib_usd_billones = pd.Series(pib_datos)

poblacion_datos = {
    'Brasil': 214,
    'Argentina': 45,
    'Colombia': 51,
    'Chile': 19
}
poblacion_millones = pd.Series(poblacion_datos)

print("--- Series de Datos Originales ---")
print("PIB (en Billones de USD):")
print(pib_usd_billones)
print("\nPoblación (en Millones):")
print(poblacion_millones)
print("\n" + "="*40 + "\n")


# 3. Operación entre dos Series
print("--- 3. Cálculo del PIB per Cápita (en miles de USD) ---")
# La operación se hace elemento a elemento gracias a los índices alineados
pib_per_capita = (pib_usd_billones * 1000) / poblacion_millones
print(pib_per_capita.round(2)) # Redondeamos para mejor lectura
print("\n" + "="*40 + "\n")


# 4. Operación con un Escalar
print("--- 4. Proyección del PIB para el Próximo Año (Crecimiento del 3.5%) ---")
# El escalar 1.035 se multiplica por cada elemento de la Serie
pib_proyectado = pib_usd_billones * 1.035
print(pib_proyectado.round(2))

--- Series de Datos Originales ---
PIB (en Billones de USD):
Brasil       1609
Argentina     487
Colombia      343
Chile         317
dtype: int64

Población (en Millones):
Brasil       214
Argentina     45
Colombia      51
Chile         19
dtype: int64


--- 3. Cálculo del PIB per Cápita (en miles de USD) ---
Brasil        7518.69
Argentina    10822.22
Colombia      6725.49
Chile        16684.21
dtype: float64


--- 4. Proyección del PIB para el Próximo Año (Crecimiento del 3.5%) ---
Brasil       1665.31
Argentina     504.04
Colombia      355.00
Chile         328.10
dtype: float64


### **Ejercicio 3: Selección de Datos en Series con `.loc` e `.iloc`**

**Instrucciones:**

1.  **Importa `pandas` como `pd`.**

2.  **Crea la Serie de Datos**: Para este ejercicio, utiliza una Serie que represente la tasa de desempleo (en porcentaje) de varios países.
    ```python
    datos_desempleo = {
        'México': 3.5,
        'Colombia': 10.8,
        'Brasil': 8.9,
        'Argentina': 6.8,
        'Chile': 8.5
    }
    tasa_desempleo = pd.Series(datos_desempleo)
    ```
    * Imprime la Serie completa para tenerla como referencia.

3.  **Práctica con `.loc` (Selección por Etiqueta)**:
    * Selecciona y muestra la tasa de desempleo de **'Brasil'**.
    * Selecciona y muestra las tasas de **'Argentina' y 'México'** al mismo tiempo (pasando una lista de etiquetas).
    * Selecciona y muestra el rango de tasas desde **'Colombia' hasta 'Argentina'**. Observa que con `.loc`, el slicing *incluye* el final.

4.  **Práctica con `.iloc` (Selección por Posición Numérica)**:
    * Selecciona y muestra el **primer elemento** de la Serie (posición 0).
    * Selecciona y muestra el **último elemento** de la Serie (usando el índice `-1`).
    * Selecciona y muestra los **tres primeros elementos** de la Serie usando slicing de posición. Observa que con `.iloc`, el slicing *excluye* el final.

In [None]:
# 1. Importar pandas
import pandas as pd

# 2. Crear la Serie de Datos
datos_desempleo = {
    'México': 3.5,
    'Colombia': 10.8,
    'Brasil': 8.9,
    'Argentina': 6.8,
    'Chile': 8.5
}
tasa_desempleo = pd.Series(datos_desempleo)

print("--- Serie Original: Tasa de Desempleo (%) ---")
print(tasa_desempleo)
print("\n" + "="*45 + "\n")


# 3. Práctica con .loc (Selección por Etiqueta)
print("--- 3. Selección con .loc (por Etiqueta) ---")

# Un solo elemento
tasa_brasil = tasa_desempleo.loc['Brasil']
print(f"Tasa de Brasil: {tasa_brasil}%")

# Múltiples elementos no contiguos
tasas_arg_mex = tasa_desempleo.loc[['Argentina', 'México']]
print("\nTasas de Argentina y México:")
print(tasas_arg_mex)

# Slicing por etiqueta (incluye el final)
rango_loc = tasa_desempleo.loc['Colombia':'Argentina']
print("\nRango de 'Colombia' a 'Argentina':")
print(rango_loc)
print("\n" + "="*45 + "\n")


# 4. Práctica con .iloc (Selección por Posición Numérica)
print("--- 4. Selección con .iloc (por Posición) ---")

# Un solo elemento
primer_elemento = tasa_desempleo.iloc[0]
print(f"Primer elemento de la Serie (México): {primer_elemento}%")

# Último elemento
ultimo_elemento = tasa_desempleo.iloc[-1]
print(f"Último elemento de la Serie (Chile): {ultimo_elemento}%")

# Slicing por posición (excluye el final)
tres_primeros = tasa_desempleo.iloc[:3] # Posiciones 0, 1, 2
print("\nLos tres primeros elementos de la Serie:")
print(tres_primeros)

--- Serie Original: Tasa de Desempleo (%) ---
México        3.5
Colombia     10.8
Brasil        8.9
Argentina     6.8
Chile         8.5
dtype: float64


--- 3. Selección con .loc (por Etiqueta) ---
Tasa de Brasil: 8.9%

Tasas de Argentina y México:
Argentina    6.8
México       3.5
dtype: float64

Rango de 'Colombia' a 'Argentina':
Colombia     10.8
Brasil        8.9
Argentina     6.8
dtype: float64


--- 4. Selección con .iloc (por Posición) ---
Primer elemento de la Serie (México): 3.5%
Último elemento de la Serie (Chile): 8.5%

Los tres primeros elementos de la Serie:
México       3.5
Colombia    10.8
Brasil       8.9
dtype: float64


### **Ejercicio 4: Introducción a los DataFrames de Pandas**

**Instrucciones:**

1.  **Importa `pandas` como `pd`.**

2.  **Crea un DataFrame a partir de un Diccionario de Listas**:
    * Define un diccionario que contenga los datos de un inventario de frutas. Las claves del diccionario serán los nombres de las columnas (`'Stock_KG'`, `'Precio_KG'`, `'Origen'`).
    * Los valores serán listas con los datos correspondientes para 4 frutas.
    * Usa `pd.DataFrame()` para crear un DataFrame a partir del diccionario. Asigna los nombres de las frutas como el índice del DataFrame.

3.  **Inspección Básica del DataFrame**:
    * Muestra el DataFrame completo para ver su estructura tabular.
    * Utiliza el método `.info()` para obtener un resumen técnico de las columnas, sus tipos de datos y si hay valores nulos.
    * Utiliza el método `.describe()` para obtener un resumen estadístico rápido de las columnas numéricas (precio y stock).

4.  **Selección de Columnas**:
    * Selecciona y muestra únicamente la columna `'Precio_KG'`. Observa que el resultado de seleccionar una sola columna es una Serie de Pandas.
    * Selecciona y muestra un nuevo DataFrame que contenga únicamente las columnas `'Stock_KG'` y `'Origen'`.

5.  **Selección de Filas y Celdas con `.loc`**:
    * Utiliza `.loc` para seleccionar y mostrar la fila completa de datos para la fruta **'Uva'**.
    * Utiliza `.loc` para seleccionar y mostrar el valor específico del **precio** para la **'Manzana'**.

In [None]:
# 1. Importar pandas
import pandas as pd

# 2. Crear un DataFrame a partir de un Diccionario de Listas
datos_inventario = {
    'Stock_KG': [150, 200, 80, 120],
    'Precio_KG': [35.50, 85.00, 92.80, 40.20],
    'Origen': ['México', 'México', 'Chile', 'Argentina']
}
indice_frutas = ['Manzana', 'Fresa', 'Uva', 'Pera']

df_frutas = pd.DataFrame(datos_inventario, index=indice_frutas)

print("--- 2. DataFrame de Inventario de Frutas ---")
print(df_frutas)
print("\n" + "="*50 + "\n")


# 3. Inspección Básica del DataFrame
print("--- 3. Inspección del DataFrame ---")
print("Salida de .info():")
df_frutas.info()

print("\nSalida de .describe():")
print(df_frutas.describe())
print("\n" + "="*50 + "\n")


# 4. Selección de Columnas
print("--- 4. Selección de Columnas ---")
# Seleccionar una sola columna devuelve una Serie
columna_precios = df_frutas['Precio_KG']
print("Columna de Precios (es una Serie):")
print(columna_precios)

# Seleccionar múltiples columnas devuelve un DataFrame
columnas_stock_origen = df_frutas[['Stock_KG', 'Origen']]
print("\nColumnas de Stock y Origen (es un DataFrame):")
print(columnas_stock_origen)
print("\n" + "="*50 + "\n")


# 5. Selección de Filas y Celdas con .loc
print("--- 5. Selección con .loc ---")
# Seleccionar una fila completa por su etiqueta de índice
fila_uva = df_frutas.loc['Uva']
print("Datos para la Uva:")
print(fila_uva)

# Seleccionar un valor específico (fila 'Manzana', columna 'Precio_KG')
precio_manzana = df_frutas.loc['Manzana', 'Precio_KG']
print(f"\nEl precio específico de la Manzana es: ${precio_manzana}")

--- 2. DataFrame de Inventario de Frutas ---
         Stock_KG  Precio_KG     Origen
Manzana       150       35.5     México
Fresa         200       85.0     México
Uva            80       92.8      Chile
Pera          120       40.2  Argentina


--- 3. Inspección del DataFrame ---
Salida de .info():
<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Manzana to Pera
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Stock_KG   4 non-null      int64  
 1   Precio_KG  4 non-null      float64
 2   Origen     4 non-null      object 
dtypes: float64(1), int64(1), object(1)
memory usage: 128.0+ bytes

Salida de .describe():
        Stock_KG  Precio_KG
count    4.00000    4.00000
mean   137.50000   63.37500
std     50.57997   29.70728
min     80.00000   35.50000
25%    110.00000   39.02500
50%    135.00000   62.60000
75%    162.50000   86.95000
max    200.00000   92.80000


--- 4. Selección de Columnas ---
Columna de Preci

### **Ejercicio 5: Alineación de Índices y Manejo de Datos Faltantes (`NaN`)**

**Instrucciones:**

1.  **Importa `pandas` como `pd`.**

2.  **Crea dos Series con Índices Parcialmente Diferentes**:
    * Imagina que tienes las ventas (en unidades) de varios productos en enero y febrero.
    * Crea una Serie `ventas_enero` para 3 productos: 'Teclado', 'Mouse', 'Monitor'.
    * Crea una Serie `ventas_febrero` para 3 productos, pero donde uno sea diferente: 'Mouse', 'Monitor', 'Webcam'.

3.  **Suma las Series y Observa el Resultado**:
    * Suma `ventas_enero` y `ventas_febrero` y guarda el resultado en una nueva Serie llamada `ventas_totales`.
    * Imprime `ventas_totales`. Observa cómo Pandas solo puede sumar los valores para los índices que existen en **ambas** Series ('Mouse', 'Monitor'). Para los productos que solo existen en una de las dos series ('Teclado', 'Webcam'), el resultado es `NaN` (Not a Number), que representa datos faltantes.

4.  **Manejo de Datos Faltantes con `.fillna()`**:
    * Para poder realizar cálculos sobre el total (como una suma), primero debemos tratar los valores `NaN`.
    * Utiliza el método `.fillna(0)` sobre la serie `ventas_totales` para reemplazar todos los `NaN` con el valor 0. Guarda el resultado en `ventas_totales_limpio`.
    * Imprime la nueva serie ya sin valores `NaN`.

5.  **Cálculo Final**:
    * Calcula la suma total de unidades vendidas en el bimestre usando el método `.sum()` sobre la serie `ventas_totales_limpio`.
    * Imprime el resultado final.



In [None]:
# 1. Importar pandas
import pandas as pd

# 2. Crear dos Series con Índices Parcialmente Diferentes
ventas_enero = pd.Series([150, 200, 80], index=['Teclado', 'Mouse', 'Monitor'])
ventas_febrero = pd.Series([220, 95, 45], index=['Mouse', 'Monitor', 'Webcam'])

print("--- 2. Datos de Ventas Originales ---")
print("Ventas de Enero:")
print(ventas_enero)
print("\nVentas de Febrero:")
print(ventas_febrero)
print("\n" + "="*45 + "\n")


# 3. Sumar las Series y Observar el Resultado con NaN
print("--- 3. Suma de Series con Índices no Alineados ---")
ventas_totales = ventas_enero + ventas_febrero
print("Resultado con NaN (Not a Number) para datos no coincidentes:")
print(ventas_totales)
print("\n" + "="*45 + "\n")


# 4. Manejo de Datos Faltantes con .fillna()
print("--- 4. Reemplazando NaN con 0 usando .fillna(0) ---")
ventas_totales_limpio = ventas_totales.fillna(0)
print("Serie con los datos limpios:")
print(ventas_totales_limpio)
print("\n" + "="*45 + "\n")


# 5. Cálculo Final
print("--- 5. Cálculo sobre los datos limpios ---")
total_unidades_bimestre = ventas_totales_limpio.sum()
print(f"Total de unidades vendidas en el bimestre: {int(total_unidades_bimestre)}")

--- 2. Datos de Ventas Originales ---
Ventas de Enero:
Teclado    150
Mouse      200
Monitor     80
dtype: int64

Ventas de Febrero:
Mouse      220
Monitor     95
Webcam      45
dtype: int64


--- 3. Suma de Series con Índices no Alineados ---
Resultado con NaN (Not a Number) para datos no coincidentes:
Monitor    175.0
Mouse      420.0
Teclado      NaN
Webcam       NaN
dtype: float64


--- 4. Reemplazando NaN con 0 usando .fillna(0) ---
Serie con los datos limpios:
Monitor    175.0
Mouse      420.0
Teclado      0.0
Webcam       0.0
dtype: float64


--- 5. Cálculo sobre los datos limpios ---
Total de unidades vendidas en el bimestre: 595


### **Ejercicio 6: Filtrado de Filas en un DataFrame con Máscaras Booleanas**

**Instrucciones:**

1.  **Importa `pandas` como `pd`.**

2.  **Crea el DataFrame de Solicitantes**: Crea un DataFrame llamado `df_solicitantes` a partir de un diccionario. Debe contener información sobre solicitantes de crédito, con columnas para `'Nombre'`, `'Edad'` y `'Puntaje_Credito'`.
    ```python
    datos = {
        'Nombre': ['Ana', 'Luis', 'Marta', 'Juan', 'Sofía'],
        'Edad': [28, 34, 45, 22, 39],
        'Puntaje_Credito': [750, 680, 790, 650, 720]
    }
    df_solicitantes = pd.DataFrame(datos)
    ```

3.  **Paso 1: Crear la Máscara Booleana**:
    * El criterio para una pre-aprobación es tener un puntaje de crédito **mayor o igual a 700**.
    * Crea una Serie booleana (máscara) a partir de la columna `'Puntaje_Credito'` que sea `True` para quienes cumplen la condición.
    * Imprime esta máscara para observar su contenido (`True`/`False`).

4.  **Paso 2: Aplicar la Máscara para Filtrar el DataFrame**:
    * Utiliza la máscara booleana que acabas de crear para seleccionar las **filas completas** del `df_solicitantes` original.
    * Guarda este nuevo DataFrame filtrado en una variable llamada `solicitantes_preaprobados`.

5.  **Muestra el Resultado**: Imprime el DataFrame `solicitantes_preaprobados` para ver la lista final de candidatos que pasaron el filtro.

6.  **Análisis Adicional**: Del DataFrame filtrado (`solicitantes_preaprobados`), selecciona y muestra únicamente los **nombres** de los solicitantes.

In [None]:
# 1. Importar pandas
import pandas as pd

# 2. Crear el DataFrame de Solicitantes
datos = {
    'Nombre': ['Ana', 'Luis', 'Marta', 'Juan', 'Sofía'],
    'Edad': [28, 34, 45, 22, 39],
    'Puntaje_Credito': [750, 680, 790, 650, 720]
}
df_solicitantes = pd.DataFrame(datos)

print("--- 2. DataFrame Original de Solicitantes ---")
print(df_solicitantes)
print("\n" + "="*50 + "\n")


# 3. Paso 1: Crear la Máscara Booleana
print("--- 3. Máscara para Puntaje de Crédito >= 700 ---")
mascara_aprobados = df_solicitantes['Puntaje_Credito'] >= 700
print(mascara_aprobados)
print("\n" + "="*50 + "\n")


# 4. Paso 2: Aplicar la Máscara para Filtrar
print("--- 4. DataFrame Filtrado con Solicitantes Pre-aprobados ---")
solicitantes_preaprobados = df_solicitantes[mascara_aprobados]


# 5. Mostrar el Resultado
print(solicitantes_preaprobados)
print("\n" + "="*50 + "\n")


# 6. Análisis Adicional
print("--- 6. Nombres de los solicitantes pre-aprobados ---")
nombres_aprobados = solicitantes_preaprobados['Nombre']
print(nombres_aprobados)

--- 2. DataFrame Original de Solicitantes ---
  Nombre  Edad  Puntaje_Credito
0    Ana    28              750
1   Luis    34              680
2  Marta    45              790
3   Juan    22              650
4  Sofía    39              720


--- 3. Máscara para Puntaje de Crédito >= 700 ---
0     True
1    False
2     True
3    False
4     True
Name: Puntaje_Credito, dtype: bool


--- 4. DataFrame Filtrado con Solicitantes Pre-aprobados ---
  Nombre  Edad  Puntaje_Credito
0    Ana    28              750
2  Marta    45              790
4  Sofía    39              720


--- 6. Nombres de los solicitantes pre-aprobados ---
0      Ana
2    Marta
4    Sofía
Name: Nombre, dtype: object


### **Ejercicio 7: Modificación y Creación de Columnas en un DataFrame**

**Instrucciones:**

1.  **Importa `pandas` y `numpy`** con sus alias `pd` y `np`.

2.  **Crea el DataFrame Inicial**: Usa un diccionario para crear un DataFrame `df_empleados` con información sobre 4 empleados. Debe tener las columnas `'Nombre'`, `'Departamento'` y `'Salario_Anual'`.

3.  **Añadir una Columna desde una Lista**:
    * Añade una nueva columna llamada `'Años_Antiguedad'` al DataFrame.
    * Asigna directamente una lista de Python con los años de antigüedad de cada empleado: `[5, 10, 2, 8]`.

4.  **Añadir una Columna con una Operación Vectorizada**:
    * Calcula el `'Salario_Mensual'` para cada empleado dividiendo la columna `'Salario_Anual'` entre 12.
    * Crea esta nueva columna en el DataFrame a partir del resultado de esa operación.

5.  **Añadir una Columna Condicional con una Máscara Booleana**:
    * Quieres identificar a los empleados elegibles para un bono de alto rendimiento. La condición es: pertenecer al departamento de **'Ventas' Y** tener un salario anual **mayor a 80,000**.
    * Crea una máscara booleana que sea `True` solo para los empleados que cumplen **ambas** condiciones.
    * Crea una nueva columna llamada `'Elegible_Bono'` y asígnale el valor de la máscara.

6.  **Muestra el DataFrame final** con todas sus columnas nuevas para ver el resultado del enriquecimiento de datos.

In [None]:
# 1. Importar pandas y numpy
import pandas as pd
import numpy as np

# 2. Crear el DataFrame Inicial
datos_iniciales = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta'],
    'Departamento': ['Marketing', 'Ventas', 'TI', 'Ventas'],
    'Salario_Anual': [65000, 85000, 78000, 92000]
}
df_empleados = pd.DataFrame(datos_iniciales)

print("--- 2. DataFrame Inicial ---")
print(df_empleados)
print("\n" + "="*50 + "\n")


# 3. Añadir una Nueva Columna (Asignación Directa)
print("--- 3. Añadiendo la columna 'Años_Antiguedad' ---")
df_empleados['Años_Antiguedad'] = [5, 10, 2, 8]
print(df_empleados)
print("\n" + "="*50 + "\n")


# 4. Añadir una Nueva Columna (Operación Vectorizada)
print("--- 4. Calculando y añadiendo 'Salario_Mensual' ---")
df_empleados['Salario_Mensual'] = (df_empleados['Salario_Anual'] / 12).round(2)
print(df_empleados)
print("\n" + "="*50 + "\n")


# 5. Añadir una Nueva Columna Condicional
print("--- 5. Añadiendo la columna condicional 'Elegible_Bono' ---")
# Crear la máscara para el departamento de 'Ventas'
mascara_depto = df_empleados['Departamento'] == 'Ventas'
# Crear la máscara para el salario > 80,000
mascara_salario = df_empleados['Salario_Anual'] > 80000

# Combinar ambas máscaras con un 'y' lógico (&)
mascara_final_bono = mascara_depto & mascara_salario

# Asignar la máscara booleana a la nueva columna
df_empleados['Elegible_Bono'] = mascara_final_bono


# 6. Mostrar el DataFrame final
print("--- 6. DataFrame Final Enriquecido ---")
print(df_empleados)

--- 2. DataFrame Inicial ---
   Nombre Departamento  Salario_Anual
0     Ana    Marketing          65000
1    Luis       Ventas          85000
2  Carlos           TI          78000
3   Marta       Ventas          92000


--- 3. Añadiendo la columna 'Años_Antiguedad' ---
   Nombre Departamento  Salario_Anual  Años_Antiguedad
0     Ana    Marketing          65000                5
1    Luis       Ventas          85000               10
2  Carlos           TI          78000                2
3   Marta       Ventas          92000                8


--- 4. Calculando y añadiendo 'Salario_Mensual' ---
   Nombre Departamento  Salario_Anual  Años_Antiguedad  Salario_Mensual
0     Ana    Marketing          65000                5          5416.67
1    Luis       Ventas          85000               10          7083.33
2  Carlos           TI          78000                2          6500.00
3   Marta       Ventas          92000                8          7666.67


--- 5. Añadiendo la columna condiciona

### **Ejercicio 8: De un Array de NumPy a un DataFrame Analizable**

**Instrucciones:**

1.  **Generación de Datos Numéricos con NumPy**:
    * Simula los datos de 12 meses para dos indicadores económicos: la tasa de interés y la tasa de inflación.
    * Crea un único array de NumPy de **12x2** llamado `datos_economicos`. La primera columna debe contener valores aleatorios para la tasa de interés (entre 2.5 y 5.0) y la segunda para la inflación (entre 1.5 y 4.0).

2.  **Conversión a DataFrame con Índices y Columnas**:
    * Convierte el array `datos_economicos` en un DataFrame de Pandas llamado `df_indicadores`.
    * Al crearlo, especifica los nombres de las columnas: `['Tasa_Interes', 'Tasa_Inflacion']`.
    * Además, crea un índice de fechas para los 12 meses del año 2024 y asígnalo como el índice del DataFrame. *Pista*: `pd.date_range(start='2024-01-01', periods=12, freq='MS')` crea un índice de inicio de mes.

3.  **Inspección y Análisis Inicial**:
    * Muestra las primeras 5 filas del `df_indicadores` con `.head()`.
    * Utiliza `.describe()` para obtener un resumen estadístico de ambos indicadores.

4.  **Filtrado Basado en Múltiples Columnas**:
    * Filtra y muestra todos los meses en los que la `'Tasa_Inflacion'` fue **mayor** que la `'Tasa_Interes'`.

5.  **Creación de una Nueva Columna Calculada**:
    * Calcula la tasa de interés real aproximada (`Tasa_Interes - Tasa_Inflacion`) y añádela al DataFrame en una nueva columna llamada `'Tasa_Real'`.
    * Muestra el DataFrame final con la nueva columna.

In [None]:
import numpy as np
import pandas as pd

# 1. Generación de Datos Numéricos con NumPy
print("--- 1. Generando datos crudos con NumPy ---")
np.random.seed(101) # Para reproducibilidad
tasas_interes = np.random.uniform(2.5, 5.0, size=12)
tasas_inflacion = np.random.uniform(1.5, 4.0, size=12)

# Combinar ambos vectores en una matriz de 12x2
# Usamos .reshape(-1, 1) para asegurar que son columnas y luego concatenamos
datos_economicos = np.concatenate(
    [tasas_interes.reshape(-1, 1), tasas_inflacion.reshape(-1, 1)],
    axis=1
)
print("Array de 12x2 creado.\n")

# 2. Conversión a DataFrame con Índices y Columnas
print("--- 2. Convirtiendo a DataFrame con etiquetas ---")
# Crear un índice de fechas para los 12 meses
indice_fechas = pd.date_range(start='2024-01-01', periods=12, freq='MS')

# Crear el DataFrame
df_indicadores = pd.DataFrame(
    datos_economicos,
    columns=['Tasa_Interes', 'Tasa_Inflacion'],
    index=indice_fechas
)


# 3. Inspección y Análisis Inicial
print("\n--- 3. Inspección del DataFrame ---")
print("Primeras 5 filas del DataFrame:")
print(df_indicadores.head())

print("\nResumen estadístico:")
print(df_indicadores.describe().round(2))
print("\n" + "="*50 + "\n")


# 4. Filtrado Basado en Múltiples Columnas
print("--- 4. Meses con Inflación > Tasa de Interés ---")
meses_inflacion_alta = df_indicadores[df_indicadores['Tasa_Inflacion'] > df_indicadores['Tasa_Interes']]
print(meses_inflacion_alta.round(2))
print("\n" + "="*50 + "\n")


# 5. Creación de una Nueva Columna Calculada
print("--- 5. Añadiendo la Tasa de Interés Real (Aprox.) ---")
df_indicadores['Tasa_Real'] = df_indicadores['Tasa_Interes'] - df_indicadores['Tasa_Inflacion']
print(df_indicadores.round(2))

--- 1. Generando datos crudos con NumPy ---
Array de 12x2 creado.

--- 2. Convirtiendo a DataFrame con etiquetas ---

--- 3. Inspección del DataFrame ---
Primeras 5 filas del DataFrame:
            Tasa_Interes  Tasa_Inflacion
2024-01-01      3.790997        1.954731
2024-02-01      3.926669        3.464004
2024-03-01      2.571186        3.913708
2024-04-01      2.928804        2.080884
2024-05-01      4.213192        1.708904

Resumen estadístico:
       Tasa_Interes  Tasa_Inflacion
count         12.00           12.00
mean           3.71            2.59
std            0.69            0.78
min            2.57            1.62
25%            3.19            1.93
50%            3.84            2.49
75%            4.24            3.24
max            4.73            3.91


--- 4. Meses con Inflación > Tasa de Interés ---
            Tasa_Interes  Tasa_Inflacion
2024-03-01          2.57            3.91
2024-07-01          3.27            3.32


--- 5. Añadiendo la Tasa de Interés Real (Apro

### **Ejercicio 9: Selección y Filtrado de Datos en un DataFrame**

**Instrucciones:**

1.  **Crea el DataFrame de Datos**:
    * Utiliza un diccionario para crear un DataFrame llamado `df_economia` con datos de varios países.
    * Las columnas deben ser `'PIB_Per_Capita'`, `'Tasa_Inflacion'` y `'Continente'`.
    * Utiliza los nombres de los países como índice del DataFrame.

2.  **Inspección Inicial**: Muestra el DataFrame completo para tenerlo como referencia.

3.  **Selección de Columnas**:
    * Selecciona y muestra únicamente la columna `'Tasa_Inflacion'`.
    * Selecciona y muestra un nuevo DataFrame que contenga las columnas `'PIB_Per_Capita'` y `'Continente'`.

4.  **Selección de Filas (por etiqueta y posición)**:
    * Utiliza `.loc` para seleccionar y mostrar la fila completa de datos para `'Japón'`.
    * Utiliza `.iloc` para seleccionar y mostrar la fila correspondiente al **segundo país** en el DataFrame (posición 1).

5.  **Selección de un Valor Específico (Celda)**:
    * Utiliza `.loc` para obtener y mostrar únicamente el valor del **PIB per cápita** de **'Alemania'**.

6.  **Filtrado por Condición (Máscara Booleana)**:
    * El objetivo es encontrar los países con una **tasa de inflación menor al 2.0%**.
    * Primero, crea la máscara booleana a partir de la columna `'Tasa_Inflacion'`.
    * Luego, usa esa máscara para filtrar el DataFrame `df_economia` y mostrar solo las filas de los países que cumplen con la condición.

In [None]:
import pandas as pd

# 1. Crear el DataFrame de Datos
datos = {
    'PIB_Per_Capita': [45900, 12600, 51500, 7800, 39300],
    'Tasa_Inflacion': [1.8, 6.5, 2.1, 7.8, 1.9],
    'Continente': ['América', 'América', 'Europa', 'África', 'Asia']
}
paises = ['EEUU', 'Brasil', 'Alemania', 'Nigeria', 'Japón']

df_economia = pd.DataFrame(datos, index=paises)

# 2. Inspección Inicial
print("--- 2. DataFrame Original de Datos Económicos ---")
print(df_economia)
print("\n" + "="*55 + "\n")


# 3. Selección de Columnas
print("--- 3. Selección de Columnas ---")
inflacion = df_economia['Tasa_Inflacion']
print("Columna 'Tasa_Inflacion' (es una Serie):")
print(inflacion)

pib_continente = df_economia[['PIB_Per_Capita', 'Continente']]
print("\nColumnas 'PIB_Per_Capita' y 'Continente' (es un DataFrame):")
print(pib_continente)
print("\n" + "="*55 + "\n")


# 4. Selección de Filas
print("--- 4. Selección de Filas ---")
datos_japon = df_economia.loc['Japón']
print("Datos para 'Japón' (usando .loc):")
print(datos_japon)

datos_segundo_pais = df_economia.iloc[1]
print("\nDatos para el segundo país, 'Brasil' (usando .iloc):")
print(datos_segundo_pais)
print("\n" + "="*55 + "\n")


# 5. Selección de un Valor Específico
print("--- 5. Selección de una Celda Específica ---")
pib_alemania = df_economia.loc['Alemania', 'PIB_Per_Capita']
print(f"PIB per cápita de Alemania: ${pib_alemania:,.0f}\n")
print("\n" + "="*55 + "\n")


# 6. Filtrado por Condición
print("--- 6. Filtrado: Países con Inflación Menor al 2.0% ---")
mascara_baja_inflacion = df_economia['Tasa_Inflacion'] < 2.0
paises_filtrados = df_economia[mascara_baja_inflacion]
print(paises_filtrados)

--- 2. DataFrame Original de Datos Económicos ---
          PIB_Per_Capita  Tasa_Inflacion Continente
EEUU               45900             1.8    América
Brasil             12600             6.5    América
Alemania           51500             2.1     Europa
Nigeria             7800             7.8     África
Japón              39300             1.9       Asia


--- 3. Selección de Columnas ---
Columna 'Tasa_Inflacion' (es una Serie):
EEUU        1.8
Brasil      6.5
Alemania    2.1
Nigeria     7.8
Japón       1.9
Name: Tasa_Inflacion, dtype: float64

Columnas 'PIB_Per_Capita' y 'Continente' (es un DataFrame):
          PIB_Per_Capita Continente
EEUU               45900    América
Brasil             12600    América
Alemania           51500     Europa
Nigeria             7800     África
Japón              39300       Asia


--- 4. Selección de Filas ---
Datos para 'Japón' (usando .loc):
PIB_Per_Capita    39300
Tasa_Inflacion      1.9
Continente         Asia
Name: Japón, dtype: object

Da

### **Ejercicio 10: Carga e Inspección de un Dataset desde un Archivo CSV**

**Instrucciones:**

**Parte 1: Preparación (Crear el archivo de datos)**

1.  Primero, vamos a crear un archivo CSV para trabajar. Define un DataFrame llamado `df_original` con datos de ventas simulados. Debe tener al menos 20 filas y las siguientes columnas: `'ID_Venta'`, `'Producto'`, `'Precio_Unitario'`, y `'Unidades_Vendidas'`.
2.  Usa el método `.to_csv('ventas_tienda.csv', index=False)` para guardar este DataFrame. Esto creará un archivo `ventas_tienda.csv` en tu directorio de trabajo.

**Parte 2: Carga e Inspección del Archivo**

1.  **Carga los datos**: Utiliza `pd.read_csv('ventas_tienda.csv')` para cargar los datos del archivo que acabas de crear en un nuevo DataFrame llamado `df_ventas`.

2.  **Inspección Visual (`.head()` y `.tail()`)**:
    * Muestra las **primeras 7 filas** del `df_ventas` para tener una idea inicial de cómo se ven los datos.
    * Muestra las **últimas 5 filas** para ver el final del conjunto de datos.

3.  **Inspección Técnica (`.info()`)**:
    * Utiliza el método `.info()` sobre `df_ventas` para obtener un resumen completo de la estructura del DataFrame: el número de entradas, los nombres de las columnas, los tipos de datos de cada columna y si hay valores nulos.

4.  **Inspección Estadística (`.describe()`)**:
    * Utiliza el método `.describe()` para generar un resumen de las principales estadísticas descriptivas (media, desviación estándar, mínimo, máximo, etc.) de todas las columnas numéricas del DataFrame.

In [None]:
import pandas as pd
import numpy as np

# --- Parte 1: Preparación (Crear el archivo de datos) ---
print("--- Creando archivo CSV de ejemplo: 'ventas_tienda.csv' ---")
np.random.seed(42) # Para reproducibilidad

num_registros = 50
datos_para_csv = {
    'ID_Venta': range(1001, 1001 + num_registros),
    'Producto': np.random.choice(['Teclado', 'Mouse', 'Monitor', 'Webcam'], num_registros),
    'Precio_Unitario': np.random.uniform(20, 500, num_registros).round(2),
    'Unidades_Vendidas': np.random.randint(1, 15, num_registros)
}
df_original = pd.DataFrame(datos_para_csv)

# Guardar en un archivo CSV, sin el índice de Pandas
df_original.to_csv('ventas_tienda.csv', index=False)
print("Archivo creado exitosamente.\n")
print("="*60 + "\n")


# --- Parte 2: Carga e Inspección del Archivo ---

# 1. Cargar los datos
print("--- 1. Cargando datos desde 'ventas_tienda.csv' ---")
df_ventas = pd.read_csv('ventas_tienda.csv')
print("¡DataFrame cargado!\n")


# 2. Inspección Visual
print("--- 2.1 Inspección con .head(7) (Primeras 7 filas) ---")
print(df_ventas.head(7))
print("\n--- 2.2 Inspección con .tail(5) (Últimas 5 filas) ---")
print(df_ventas.tail(5))
print("\n" + "="*60 + "\n")


# 3. Inspección Técnica
print("--- 3. Inspección con .info() ---")
df_ventas.info()
print("\n" + "="*60 + "\n")


# 4. Inspección Estadística
print("--- 4. Inspección con .describe() ---")
print(df_ventas.describe().round(2))

--- Creando archivo CSV de ejemplo: 'ventas_tienda.csv' ---
Archivo creado exitosamente.


--- 1. Cargando datos desde 'ventas_tienda.csv' ---
¡DataFrame cargado!

--- 2.1 Inspección con .head(7) (Primeras 7 filas) ---
   ID_Venta Producto  Precio_Unitario  Unidades_Vendidas
0      1001  Monitor           396.88                  3
1      1002   Webcam           115.84                  3
2      1003  Teclado           266.83                  1
3      1004  Monitor           304.36                 11
4      1005  Monitor            42.30                  5
5      1006   Webcam           311.62                 10
6      1007  Teclado           101.85                  7

--- 2.2 Inspección con .tail(5) (Últimas 5 filas) ---
    ID_Venta Producto  Precio_Unitario  Unidades_Vendidas
45      1046   Webcam           390.68                  7
46      1047   Webcam           115.38                  1
47      1048  Monitor            22.65                  4
48      1049    Mouse           411.42

### **Ejercicio 11: Inspección y Limpieza Básica de un DataFrame con Datos Faltantes**

**Instrucciones:**

1.  **Crea un DataFrame con Datos Faltantes**:
    * Crea un diccionario para representar datos económicos de varios países.
    * Usa `np.nan` de NumPy para simular datos faltantes en las columnas numéricas de `'PIB_Crecimiento'` y `'Tasa_Desempleo'`.
    * Crea un DataFrame llamado `df_economia` a partir de estos datos.

2.  **Paso 1: Diagnóstico del DataFrame Original**:
    * Muestra el DataFrame completo para observar visualmente los `NaN`.
    * Utiliza `.info()`. Presta especial atención a la columna "Non-Null Count" para ver cómo Pandas detecta los valores faltantes.
    * Utiliza `.describe()` y observa cómo los cálculos estadísticos (como la media) ignoran automáticamente los valores `NaN`.

3.  **Paso 2: Limpieza de Datos con `.fillna()`**:
    * Una estrategia común para manejar datos faltantes es reemplazarlos con la media de su columna.
    * Primero, calcula la media de la columna `'PIB_Crecimiento'`.
    * Luego, usa el método `.fillna()` **en esa columna** para reemplazar sus `NaN` con la media que calculaste.
    * Repite el proceso para la columna `'Tasa_Desempleo'`. *Pista: Puedes modificar las columnas directamente en el DataFrame.*

4.  **Paso 3: Verificación del DataFrame Limpio**:
    * Muestra el DataFrame modificado para ver que ya no contiene valores `NaN`.
    * Vuelve a llamar a `.info()` sobre el DataFrame limpio y confirma que ahora todas las columnas tienen el mismo número de entradas "Non-Null".

In [None]:
import pandas as pd
import numpy as np

# 1. Crear un DataFrame con Datos Faltantes
datos = {
    'País': ['Canadá', 'México', 'Brasil', 'España', 'Japón'],
    'Continente': ['América', 'América', 'América', 'Europa', 'Asia'],
    'PIB_Crecimiento': [1.5, 2.1, np.nan, 2.5, 0.8],
    'Tasa_Desempleo': [5.8, 3.5, 12.1, 13.0, np.nan]
}
df_economia = pd.DataFrame(datos)


# 2. Paso 1: Diagnóstico del DataFrame Original
print("--- 2. DataFrame Original con Datos Faltantes ---")
print(df_economia)
print("\nSalida de .info() (observa 'Non-Null Count'):")
df_economia.info()
print("\n" + "="*50 + "\n")


# 3. Paso 2: Limpieza de Datos con .fillna()
print("--- 3. Limpiando Datos Faltantes con la Media ---")
# Calcular la media para cada columna
media_pib = df_economia['PIB_Crecimiento'].mean()
media_desempleo = df_economia['Tasa_Desempleo'].mean()

print(f"Media de crecimiento del PIB a usar: {media_pib:.2f}")
print(f"Media de desempleo a usar: {media_desempleo:.2f}\n")

# --- LÍNEAS CORREGIDAS (Método recomendado) ---
# Se crea la columna modificada y se reasigna, evitando 'inplace=True'.
# Esta es la forma explícita y segura de hacerlo.
df_economia['PIB_Crecimiento'] = df_economia['PIB_Crecimiento'].fillna(media_pib)
df_economia['Tasa_Desempleo'] = df_economia['Tasa_Desempleo'].fillna(media_desempleo)


# 4. Paso 3: Verificación del DataFrame Limpio
print("--- 4. DataFrame Limpio ---")
print(df_economia.round(2))
print("\nSalida de .info() después de la limpieza:")
# Ahora todos los 'Non-Null Count' deben ser iguales
df_economia.info()

--- 2. DataFrame Original con Datos Faltantes ---
     País Continente  PIB_Crecimiento  Tasa_Desempleo
0  Canadá    América              1.5             5.8
1  México    América              2.1             3.5
2  Brasil    América              NaN            12.1
3  España     Europa              2.5            13.0
4   Japón       Asia              0.8             NaN

Salida de .info() (observa 'Non-Null Count'):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   País             5 non-null      object 
 1   Continente       5 non-null      object 
 2   PIB_Crecimiento  4 non-null      float64
 3   Tasa_Desempleo   4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 292.0+ bytes


--- 3. Limpiando Datos Faltantes con la Media ---
Media de crecimiento del PIB a usar: 1.72
Media de desempleo a usar: 8.60

--- 4. DataFrame Li

### **Ejercicio 12: Establecimiento de un Índice Personalizado y Selección con `.loc`**

**Instrucciones:**

**Parte 1: Preparación del Entorno**

1.  Primero, crea un archivo de datos de ejemplo. Define un DataFrame llamado `df_paises` con columnas para `'País'`, `'Continente'` y `'Poblacion_M'`.
2.  Guarda este DataFrame en un archivo llamado `paises_del_mundo.csv` usando el método `.to_csv(..., index=False)`.

**Parte 2: Carga, Indexación y Selección**

1.  **Carga el archivo y establece el índice**:
    * Utiliza `pd.read_csv()` para cargar `paises_del_mundo.csv`.
    * Usa el parámetro `index_col='País'` directamente dentro de `read_csv()` para decirle a Pandas que use la columna 'País' como el índice del DataFrame. Llama al DataFrame resultante `df_con_indice`.

2.  **Inspección del DataFrame Indexado**:
    * Muestra el `df_con_indice` completo y observa cómo la columna 'País' ahora funciona como el índice (las etiquetas de las filas).

3.  **Selección de una Fila Completa**:
    * Utiliza `.loc` para seleccionar y mostrar la fila completa de datos correspondiente a **'Brasil'**.

4.  **Selección de Múltiples Filas**:
    * Utiliza `.loc` para seleccionar y mostrar las filas para **'Japón' y 'Alemania'** al mismo tiempo.

5.  **Selección Cruzada (Fila y Columna)**:
    * El verdadero poder de `.loc`. Selecciona y muestra únicamente la **población** (`'Poblacion_M'`) para el país de **'China'**.

6.  **Slicing por Índice de Etiqueta**:
    * Selecciona y muestra un "slice" o rango de filas desde **'Nigeria' hasta 'Indonesia'**.


In [None]:
import pandas as pd

# --- Parte 1: Preparación del Entorno ---
print("--- Creando archivo de datos 'paises_del_mundo.csv' ---")
datos_paises = {
    'País': ['China', 'India', 'EEUU', 'Indonesia', 'Pakistán', 'Nigeria', 'Brasil', 'Japón', 'Alemania'],
    'Continente': ['Asia', 'Asia', 'América', 'Asia', 'Asia', 'África', 'América', 'Asia', 'Europa'],
    'Poblacion_M': [1444, 1393, 333, 276, 225, 211, 214, 125, 83]
}
df_paises = pd.DataFrame(datos_paises)
df_paises.to_csv('paises_del_mundo.csv', index=False)
print("Archivo creado exitosamente.\n")
print("="*60 + "\n")


# --- Parte 2: Carga, Indexación y Selección ---

# 1. Cargar el archivo estableciendo la columna 'País' como índice
df_con_indice = pd.read_csv('paises_del_mundo.csv', index_col='País')

# 2. Inspección del DataFrame Indexado
print("--- 2. DataFrame con 'País' como Índice ---")
print(df_con_indice)
print("\n" + "="*60 + "\n")


# 3. Selección de una Fila Completa
print("--- 3. Selección de la fila para 'Brasil' ---")
fila_brasil = df_con_indice.loc['Brasil']
print(fila_brasil)
print("\n" + "="*60 + "\n")


# 4. Selección de Múltiples Filas
print("--- 4. Selección de las filas para 'Japón' y 'Alemania' ---")
filas_japon_alemania = df_con_indice.loc[['Japón', 'Alemania']]
print(filas_japon_alemania)
print("\n" + "="*60 + "\n")


# 5. Selección Cruzada (Fila y Columna)
print("--- 5. Selección de un valor específico ---")
poblacion_china = df_con_indice.loc['China', 'Poblacion_M']
print(f"Población de China: {poblacion_china} millones\n")
print("\n" + "="*60 + "\n")


# 6. Slicing por Índice de Etiqueta
print("--- 6. Selección de un rango de filas de 'Nigeria' a 'Indonesia' ---")
# Nota: Con .loc, el slicing de etiquetas es INCLUSIVO
rango_paises = df_con_indice.loc['Nigeria':'Indonesia']
print(rango_paises)


--- Creando archivo de datos 'paises_del_mundo.csv' ---
Archivo creado exitosamente.


--- 2. DataFrame con 'País' como Índice ---
          Continente  Poblacion_M
País                             
China           Asia         1444
India           Asia         1393
EEUU         América          333
Indonesia       Asia          276
Pakistán        Asia          225
Nigeria       África          211
Brasil       América          214
Japón           Asia          125
Alemania      Europa           83


--- 3. Selección de la fila para 'Brasil' ---
Continente     América
Poblacion_M        214
Name: Brasil, dtype: object


--- 4. Selección de las filas para 'Japón' y 'Alemania' ---
         Continente  Poblacion_M
País                            
Japón          Asia          125
Alemania     Europa           83


--- 5. Selección de un valor específico ---
Población de China: 1444 millones



--- 6. Selección de un rango de filas de 'Nigeria' a 'Indonesia' ---
Empty DataFrame
Columns: [C

### **Ejercicio 13: Caso Práctico - Análisis y Filtrado de un Dataset de Ventas**

**Instrucciones:**

1.  **Crea el Dataset de Ventas**:
    * Utiliza un diccionario de listas para crear un DataFrame llamado `df_ventas`.
    * Debe contener las siguientes columnas: `'ID_Producto'`, `'Categoria'`, `'Precio_Unitario'`, y `'Unidades_Vendidas'`.
    * Incluye al menos 8 registros con una mezcla de categorías (ej. 'Hardware', 'Software', 'Accesorios').

2.  **Ingeniería de Características (Añadir una Columna Calculada)**:
    * El DataFrame actual tiene el precio y las unidades, pero no el ingreso total por venta.
    * Crea una nueva columna llamada `'Ingreso_Total'` que sea el resultado de multiplicar la columna `'Precio_Unitario'` por `'Unidades_Vendidas'`.

3.  **Análisis con Filtrado Complejo**:
    * El objetivo es encontrar las **ventas de alto valor en las categorías de 'Hardware' o 'Software'**.
    * La condición lógica es: (La `'Categoria'` es `'Hardware'` **O** la `'Categoria'` es `'Software'`) **Y** (El `'Ingreso_Total'` es **mayor a 15,000**).
    * Deberás crear y combinar máscaras booleanas usando los operadores `|` (para 'o') y `&` (para 'y') para lograrlo.

4.  **Generación del Reporte Final**:
    * Aplica la máscara final al `df_ventas` para obtener un nuevo DataFrame que contenga solo las ventas que cumplen con los criterios.
    * De este DataFrame filtrado, selecciona y muestra únicamente las columnas `'Categoria'`, `'Producto'` e `'Ingreso_Total'`.

5.  **Muestra tus resultados**: Imprime el DataFrame original con la columna de ingresos y luego imprime el reporte final filtrado.

In [None]:
import pandas as pd

# 1. Crear el Dataset de Ventas
datos = {
    'ID_Producto': ['A101', 'A102', 'B201', 'C301', 'A103', 'B202', 'C302', 'A104'],
    'Categoria': ['Hardware', 'Hardware', 'Software', 'Accesorios', 'Hardware', 'Software', 'Accesorios', 'Hardware'],
    'Producto': ['Laptop', 'Monitor', 'Antivirus', 'Mousepad', 'Teclado', 'Licencia OS', 'Webcam', 'CPU'],
    'Precio_Unitario': [25000, 4500, 1200, 250, 1800, 3500, 900, 12000],
    'Unidades_Vendidas': [5, 10, 50, 80, 25, 15, 60, 2]
}
df_ventas = pd.DataFrame(datos)


# 2. Añadir la Columna Calculada
df_ventas['Ingreso_Total'] = df_ventas['Precio_Unitario'] * df_ventas['Unidades_Vendidas']

print("--- 2. DataFrame Original con Ingreso Total Calculado ---")
print(df_ventas)
print("\n" + "="*60 + "\n")


# 3. Análisis con Filtrado Complejo
print("--- 3. Filtrando Ventas de Alto Valor en Hardware y Software ---")
# Máscara para la categoría
mascara_categoria = (df_ventas['Categoria'] == 'Hardware') | (df_ventas['Categoria'] == 'Software')

# Máscara para el ingreso
mascara_ingreso = df_ventas['Ingreso_Total'] > 15000

# Combinar ambas máscaras con un 'y' lógico (&)
mascara_final = mascara_categoria & mascara_ingreso

# 4. Generación del Reporte Final
# Aplicar la máscara al DataFrame original
df_filtrado = df_ventas[mascara_final]

# Seleccionar solo las columnas de interés para el reporte
reporte_final = df_filtrado[['Categoria', 'Producto', 'Ingreso_Total']]

print("Reporte de Ventas Relevantes:")
print(reporte_final)

--- 2. DataFrame Original con Ingreso Total Calculado ---
  ID_Producto   Categoria     Producto  Precio_Unitario  Unidades_Vendidas  \
0        A101    Hardware       Laptop            25000                  5   
1        A102    Hardware      Monitor             4500                 10   
2        B201    Software    Antivirus             1200                 50   
3        C301  Accesorios     Mousepad              250                 80   
4        A103    Hardware      Teclado             1800                 25   
5        B202    Software  Licencia OS             3500                 15   
6        C302  Accesorios       Webcam              900                 60   
7        A104    Hardware          CPU            12000                  2   

   Ingreso_Total  
0         125000  
1          45000  
2          60000  
3          20000  
4          45000  
5          52500  
6          54000  
7          24000  


--- 3. Filtrando Ventas de Alto Valor en Hardware y Software ---
R