# Bloque 1 - Fundamentos

En este bloque falta un poco de organización, empecé a apuntar los ejercicios y separarlo en secciones en el bloque 2

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.DataFrame(np.random.randn(3, 3), index=['a', 'b', 'c'], columns=['X', 'Y', 'Z'])
print("Fila 'a':\n", df.loc['a'])
print("\nValor en ('b', 'Y'):", df.loc['b', 'Y'])

Fila 'a':
 X   -0.104908
Y    0.739948
Z   -0.466816
Name: a, dtype: float64

Valor en ('b', 'Y'): -0.8264642789620729


In [None]:
datos_empleados = {
    'Nombre': ['Ana', 'Luis', 'Marta', 'Javier', 'Sofía', 'Carlos'],
    'Edad': [28, 34, 29, 42, 31, 45],
    'Ciudad': ['Valencia', 'Madrid', 'Barcelona', 'Madrid', 'Sevilla', 'Valencia'],
    'Departamento': ['Marketing', 'Ventas', 'IT', 'Ventas', 'Marketing', 'IT']
}
df = pd.DataFrame(datos_empleados)

print(df, "\n")

df = df[(df['Edad'] > 30) & ((df["Departamento"] == "Ventas") | (df["Departamento"] == "Marketing"))]
df = df.loc[:,['Nombre', 'Ciudad']]

df.to_csv('datos_empleados.csv', index=False)

datos = pd.read_csv('datos_empleados.csv')

print(datos.head())

   Nombre  Edad     Ciudad Departamento
0     Ana    28   Valencia    Marketing
1    Luis    34     Madrid       Ventas
2   Marta    29  Barcelona           IT
3  Javier    42     Madrid       Ventas
4   Sofía    31    Sevilla    Marketing
5  Carlos    45   Valencia           IT 

   Nombre   Ciudad
0    Luis   Madrid
1  Javier   Madrid
2   Sofía  Sevilla


# Bloque 2 - Preparación

# 2.1: MultiIndex y Estructuración

In [None]:
datos_ventas = {
    'Año': [2022, 2022, 2023, 2023],
    'Trimestre': ['T1', 'T2', 'T1', 'T2'],
    'Ventas': [1500, 1800, 2100, 1900]
}
df_ventas = pd.DataFrame(datos_ventas)


df_multi = df_ventas.set_index(['Año', 'Trimestre'])
print(df_multi)

df_ventas.to_csv('datos_ventas.csv', index=False)

                Ventas
Año  Trimestre        
2022 T1           1500
     T2           1800
2023 T1           2100
     T2           1900


In [None]:
datos_poblacion = {
    'Continente': ['Europa', 'Europa', 'América', 'América'],
    'País': ['España', 'Francia', 'EEUU', 'Canadá'],
    'Poblacion': [47, 65, 331, 38]
}
df = pd.DataFrame(datos_poblacion)


df_multi = df.set_index(['Continente', 'País'])
print(df_multi)

                    Poblacion
Continente País              
Europa     España          47
           Francia         65
América    EEUU           331
           Canadá          38


In [None]:
datos = pd.read_csv('datos_ventas.csv')
datos = datos[datos.loc[:,"Año"] == 2023]
print(datos)

    Año Trimestre  Ventas
2  2023        T1    2100
3  2023        T2    1900


In [None]:
datos = pd.read_csv('datos_ventas.csv')
datos = datos[datos.loc[:,"Trimestre"] == "T1"]
print(datos)

    Año Trimestre  Ventas
0  2022        T1    1500
2  2023        T1    2100


# 2.2: Operaciones y Transformación

1: Conversor de Temperatura: Crea un DataFrame con una columna 'Celsius' que contenga los valores [22, 25, 19, 30]. Usa .apply() para añadir una nueva columna 'Fahrenheit' con las temperaturas convertidas. La fórmula es: (C * 9/5) + 32.

In [None]:
df = pd.DataFrame({"Celsius": [22, 25, 19, 30]})
df["Farenheit"] = df["Celsius"].apply(lambda x: (x * 9/5) + 32)
print(df)

   Celsius  Farenheit
0       22       71.6
1       25       77.0
2       19       66.2
3       30       86.0


2: Categorización por Precio: Partiendo de un DataFrame con una columna 'Precio' ([15, 99, 150, 45]), define una función que clasifique los productos en 'Barato' (<50), 'Medio' (50-100) y 'Caro' (>100). Aplica esta función para crear una nueva columna llamada 'Categoria_Precio'.


In [None]:
def categoriza_precio(precio):
  if precio < 50:
    categoria = "Barato"
  elif precio > 100:
    categoria = "Caro"
  else:
    categoria = "Medio"
  return categoria

df = pd.DataFrame({'Precio': ([15, 99, 150, 45])})
df["Categoria_Precio"] = df.apply(lambda df: categoriza_precio(df["Precio"]), axis=1)

print(df)

   Precio Categoria_Precio
0      15           Barato
1      99            Medio
2     150             Caro
3      45           Barato


3: Mapeo de Códigos: Tienes un DataFrame con una columna 'Codigo_Turno' y los valores ['M', 'T', 'N', 'M']. Utiliza el método .map() y un diccionario para crear una nueva columna 'Turno_Completo' que traduzca 'M' a 'Mañana', 'T' a 'Tarde' y 'N' a 'Noche'.


In [None]:
df = pd.DataFrame({"Codigo_Turno": ['M', 'T', 'N', 'M']})
df['Turno_Completo'] = df['Codigo_Turno'].map({'M': 'Mañana', 'T': 'Tarde', 'N': 'Noche'})
print(df)

4. Calificación con Lambda: Dado un DataFrame con una columna de notas ([4, 7, 9, 5, 10]), usa una función lambda dentro de .apply() para generar una columna 'Resultado' que muestre 'Suspendido' para notas menores a 5 y 'Aprobado' para el resto.


In [None]:
df = pd.DataFrame({"Notas": [4, 7, 9, 5, 10]})
df["Resultado"] = df.apply(lambda x: "Suspendido" if x["Notas"] < 5 else "Aprobado", axis=1)
print(df)

   Notas   Resultado
0      4  Suspendido
1      7    Aprobado
2      9    Aprobado
3      5    Aprobado
4     10    Aprobado


5. Bonificación por Rendimiento: Una empresa quiere calcular una bonificación. La bonificación base es el 10% de las ventas anuales, pero se ajusta por un multiplicador según el rendimiento del empleado. Tu objetivo es calcular la 'Bonificacion' final. Para ello, crea un DataFrame con los datos de abajo y un diccionario de mapeo para los multiplicadores. Luego, utiliza .apply() sobre las filas (axis=1) y, dentro de la lambda, accede al multiplicador correspondiente para realizar el cálculo final.


In [None]:
datos_empleados = {
    'Empleado': ['Ana', 'Luis', 'Marta'],
    'Ventas_Anuales': [50000, 62000, 45000],
    'Rendimiento': ['B', 'E', 'R']
}

mapeo_rendimiento = {'E': 1.2, 'B': 1.0, 'R': 0.9}

df = pd.DataFrame(datos_empleados)
df["Multiplicador"] = df["Rendimiento"].map(mapeo_rendimiento)
df["Bonificacion"] = df.apply(lambda x: (x["Ventas_Anuales"] * 0.1) * x["Multiplicador"],axis=1)

print(df)

  Empleado  Ventas_Anuales Rendimiento  Multiplicador  Bonificacion
0      Ana           50000           B            1.0        5000.0
1     Luis           62000           E            1.2        7440.0
2    Marta           45000           R            0.9        4050.0


6. Sistema Avanzado de Puntos de Lealtad: Una plataforma de e-commerce quiere calcular los puntos de lealtad finales. El cálculo es un proceso de varios pasos que combina mapeo, una función simple y una función condicional sobre las filas.

In [None]:
datos_clientes = {
    'Nivel_Cliente': ['Oro', 'Plata', 'Bronce', 'Plata', 'Oro'],
    'Gasto_Total': [550, 230, 150, 180, 800],
    'Evento_Especial': [True, False, False, True, False]
}

puntos_base_mapa = {'Oro': 100, 'Plata': 50, 'Bronce': 25}

def calcular_bonus(gasto):
    # 1 punto por cada 10€ de gasto
    return int(gasto / 10)

# Tu tarea:
# 1. Crea el DataFrame.
df = pd.DataFrame(datos_clientes)
# 2. Usa .map() y 'puntos_base_mapa' para crear la columna 'Puntos_Base'.
df["Puntos_Base"] = df["Nivel_Cliente"].map(puntos_base_mapa)
# 3. Usa .apply() y la función 'calcular_bonus' en 'Gasto_Total' para crear 'Puntos_Bonus'.
df["Puntos_Bonus"] = df["Gasto_Total"].apply(calcular_bonus)
# 4. Calcula 'Puntos_Subtotal' sumando las dos columnas de puntos anteriores.
df["Puntos_Subtotal"] = df.apply(lambda x: x["Puntos_Base"] + x["Puntos_Bonus"], axis=1)
# 5. Finalmente, crea 'Puntos_Totales'. Usa .apply() con una lambda sobre las filas (axis=1). Si la columna 'Evento_Especial' es True para una fila, duplica su 'Puntos_Subtotal'; de lo contrario, déjalo como está.
df["Puntos_Totales"] = df.apply(lambda x: x["Puntos_Subtotal"] * 2 if x["Evento_Especial"] == True else x["Puntos_Subtotal"],axis=1)
print(df)

  Nivel_Cliente  Gasto_Total  Evento_Especial  Puntos_Base  Puntos_Bonus  \
0           Oro          550             True          100            55   
1         Plata          230            False           50            23   
2        Bronce          150            False           25            15   
3         Plata          180             True           50            18   
4           Oro          800            False          100            80   

   Puntos_Subtotal  Puntos_Totales  
0              155             310  
1               73              73  
2               40              40  
3               68             136  
4              180             180  


# 2.3: Manejo de Tipos de Datos

1: Fechas a DateTime: Crea un DataFrame con una columna de fechas en formato de texto (por ejemplo, '2023-01-15'). Utiliza pd.to_datetime() para convertirla al tipo de dato correcto y verifica el cambio con .info().

In [None]:
df = pd.DataFrame({"Fechas": ['2023-01-17', '2023-01-15', '2023-01-19']})
df = pd.to_datetime(df["Fechas"])
print(df.info)

<bound method Series.info of 0   2023-01-17
1   2023-01-15
2   2023-01-19
Name: Fechas, dtype: datetime64[ns]>


2: De Texto a Número: Crea un DataFrame con una columna 'ID_Producto' que contenga números pero esté almacenada como texto (tipo 'object'). Conviértela al tipo entero (int) usando .astype().

In [None]:
df = pd.DataFrame({"ID_Producto": ["13123","5645251","6357357","76734"]})
print(df.dtypes,"\n-------------------")
df["ID_Producto"] = df["ID_Producto"].astype(int)
print(df.dtypes)

ID_Producto    object
dtype: object 
-------------------
ID_Producto    int64
dtype: object


3: Desafío de Limpieza de Tipos: Tienes un DataFrame con datos de eventos, donde las fechas son texto y los valores numéricos también están como texto, algunos con decimales. Tu objetivo es convertir la columna 'Fecha_Evento' a tipo datetime y la columna 'Valor_str' a tipo int. ¡Ojo! Para convertir a entero, puede que primero necesites un paso intermedio.

In [None]:
datos_eventos = {
    'Fecha_Evento': ['2023-10-01', '2023-10-02', '2023-10-03'],
    'Valor_str': ['100.0', '150.5', '200']
}

df = pd.DataFrame(datos_eventos)
print(datos_eventos)

df["Fecha_Evento"] = pd.to_datetime(df["Fecha_Evento"])
df["Valor_str"] = df["Valor_str"].astype(float)
df["Valor_str"] = df["Valor_str"].round(0)
df["Valor_str"] = df["Valor_str"].astype(int)
print(df)

{'Fecha_Evento': ['2023-10-01', '2023-10-02', '2023-10-03'], 'Valor_str': ['100.0', '150.5', '200']}
  Fecha_Evento  Valor_str
0   2023-10-01        100
1   2023-10-02        150
2   2023-10-03        200


# 2.4: Optimización y Memoria

1: Downcasting Numérico: Crea un DataFrame con una columna 'ID_Usuario' con números del 1 al 1000 (averigua cómo hacerlo usando "range"). Verifica su tipo de dato (probablemente int64) y conviértelo al tipo entero más pequeño posible que pueda albergar esos valores (int16) usando pd.to_numeric() con el argumento downcast.

In [None]:
usuarios = pd.Series(range(1,1001), name="ID_Usuario")
df = pd.DataFrame(usuarios)
print("Tipo de datos de ID_Usuario: ",df["ID_Usuario"].dtype)
df['ID_Usuario'] = pd.to_numeric(df['ID_Usuario'], downcast='integer')
print("Tipo de datos de ID_Usuario: ",df["ID_Usuario"].dtype)

Tipo de datos de ID_Usuario:  int64
Tipo de datos de ID_Usuario:  int16


2: Optimización con Categorías: Crea un DataFrame con una columna 'Dia_Semana' que contenga los días de la semana repetidos 500 veces. Compara el uso de memoria (usando .info(memory_usage='deep')) antes y después de convertir la columna al tipo 'category'.

In [None]:
df = pd.DataFrame({"Dias_Semana": ["Lunes", "Martes", "Miercoles", "Jueves", "Viernes", "Sabado", "Domingo"] * 500})

print(df.info(memory_usage="deep"))
df["Dias_Semana"] = df["Dias_Semana"].astype("category")
print("----------------------------------------")
print(df.info(memory_usage="deep"))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 1 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Dias_Semana  3500 non-null   object
dtypes: object(1)
memory usage: 190.1 KB
None
----------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 1 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   Dias_Semana  3500 non-null   category
dtypes: category(1)
memory usage: 4.2 KB
None


# 2.5: Manipulación de Texto (Strings)

1: Filtrado de Emails: Crea un DataFrame con una columna de correos electrónicos. Utiliza el accesor .str.contains() para filtrar y mostrar solo los emails que pertenecen al dominio '@gmail.com'.

In [None]:
emails = pd.Series([
    'ejemplo@hotmail.com',
    'ejemplo@outlook.com',
    'ejemplo@gmail.com',
    'ejemplo@hotmail.com',
    'ejemplo@gmail.com',
    'ejemplo@outlook.com',
    'ejemplo@gmail.com',
    'ejemplo@hotmail.com',
    'ejemplo@outlook.com',
    'ejemplo@hotmail.com',
    'ejemplo@outlook.com',
    'ejemplo@gmail.com'
    ], name="Emails")

df = pd.DataFrame(emails)
print("Filas con '@gmail.com':\n", df[df["Emails"].str.contains("@gmail.com")])

Filas con '@gmail.com':
                Emails
2   ejemplo@gmail.com
4   ejemplo@gmail.com
6   ejemplo@gmail.com
11  ejemplo@gmail.com



2: Desglose de Fechas: Partiendo de un DataFrame con una columna 'Fecha_Texto' (con el formato 'DD/MM/YYYY'), usa .str.split() para separarla en tres nuevas columnas: 'Día', 'Mes' y 'Año'.

In [None]:
fechas = pd.Series([
    '25/02/2005',
    '25/02/2015',
    '25/03/2015',
    '15/03/2015',
    '15/02/2015',
    '15/04/2025',
    '21/04/2025',
    '21/04/2025'],
    name="Fecha_Texto")

df[["Dia", "Mes", "Año"]] = pd.DataFrame(fechas)["Fecha_Texto"].str.split("/",expand=True)

print(df)

  Fecha_Texto Dia Mes   Año
0  25/02/2005  25  02  2005
1  25/02/2015  25  02  2015
2  25/03/2015  25  03  2015
3  15/03/2015  15  03  2015
4  15/02/2015  15  02  2015
5  15/04/2025  15  04  2025
6  21/04/2025  21  04  2025
7  21/04/2025  21  04  2025



3: Normalización de Nombres: Crea un DataFrame con una columna de nombres que contengan espacios en blanco al inicio/final y mayúsculas/minúsculas inconsistentes (ej: [' Ana ', 'luis ', ' CARLOS']). Normaliza la columna convirtiendo todo a minúsculas y eliminando los espacios sobrantes con .str.lower() y .str.strip().

In [None]:
df = pd.DataFrame({"Nombres": [
    "  GeraRD  ",
    "     AnTONIO        ",
    "ANA     ",
]})

df["Nombres"] = df["Nombres"].str.lower().str.strip()

print(df)

   Nombres
0   gerard
1  antonio
2      ana



4. Limpieza de Números de Teléfono: Partiendo de un DataFrame con una columna 'Telefono' que contiene números con guiones y espacios (ej: '600-11-22-33', '600 11 22 33'), usa .str.replace() para eliminar tanto los guiones como los espacios, dejando solo los números.

In [None]:
df = pd.DataFrame({"Telefonos": [
     '600-11-22-33',
     '602-16-33-56',
     '610-15-22-33',
     '600 11 277 33',
     '602 16 565 33',
     '600 33 277 16'
]})

df["Telefonos"] = df["Telefonos"].str.replace("-", "").str.replace(" ", "")

print(df)

    Telefonos
0   600112233
1   602163356
2   610152233
3  6001127733
4  6021656533
5  6003327716


5. Desafío de Extracción de Datos: Tienes un DataFrame con una columna 'Info_Producto' con un formato inconsistente como el del ejemplo. Tu objetivo es crear dos nuevas columnas limpias:
*   'SKU': debe contener solo el número del producto (ej: '001', '002').
*   'Producto': debe contener solo el nombre del producto, en minúsculas y sin espacios extra (ej: 'portátil', 'teclado').

In [None]:
datos_productos = {
    'Info_Producto': ['  SKU-001 : Portátil  ', 'sku-002: TECLADO', ' SKU-003: Ratón']
}
df = pd.DataFrame(datos_productos)
df["Info_Producto"] = df["Info_Producto"].str.strip().str.lower().str.replace("sku-", "")
df[["SKU", "Producto"]] = df["Info_Producto"].str.split(":",expand=True)
df["Info_Producto"] = df["Info_Producto"].str.strip()

print(df)

    Info_Producto   SKU   Producto
0  001 : portátil  001    portátil
1    002: teclado   002    teclado
2      003: ratón   003      ratón


# 2.6: Ejercicio Práctico de Preparación de Datos

Escenario: Has recibido un pequeño conjunto de datos de transacciones de una tienda. Los datos están 'sucios' y necesitan una limpieza y estructuración completa antes de poder ser analizados.

Datos Iniciales: Comienza creando un DataFrame a partir del siguiente diccionario:

In [None]:
import pandas as pd
import numpy as np

datos_ventas = {
    'ID_Transaccion': ['T-001', 'T-002', 'T-003', 'T-004', 'T-005', 'T-006', 'T-007'],
    'Fecha': ['15-03-2023', '16-03-2023', '16-03-2023', '17-03-2023', '18-03-2023', '18-03-2023', '19-03-2023'],
    'Producto_SKU': ['TEC-M-01', 'aud-h-05', 'MON-G-02', 'tec-k-03', 'RAT-G-01', 'mon-g-02', 'TEC-M-01'],
    'Precio_str': ['$ 150.99', '€ 45.50', '$ 300.00', '$ 89.90', '€ 25.00', '$ 290.50', '$ 145.00'],
    'Tipo_Cliente': [1, 2, 1, 1, 2, 1, 2]
}

Objetivo Final: Tu meta es transformar el DataFrame inicial en una tabla limpia, optimizada y bien estructurada. El DataFrame final debe cumplir con los siguientes requisitos:

1: Renombrado de IDs: Utiliza un método de manipulación de texto para crear una nueva columna llamada 'ID_Cliente_Limpio' que reemplace el prefijo 'T-' de la columna 'ID_Transaccion' por 'CLIENTE-'.

In [None]:
df = pd.DataFrame(datos_ventas)
df["ID_Cliente_Limpio"] = df["ID_Transaccion"].str.replace("T-", "CLIENTE-")

2: Conversión de Tipos (Fechas): La columna 'Fecha' es texto. Conviértela al tipo de dato de fecha y hora (`datetime`).

In [None]:
df["Fecha"] = pd.to_datetime(df["Fecha"])

  df["Fecha"] = pd.to_datetime(df["Fecha"])


3: Limpieza y Conversión de Texto (Precio): Limpia la columna Precio_str eliminando los símbolos de divisa ('$' y '€') y los espacios en blanco. Luego, convierte el resultado a tipo numérico (float) y guárdalo en una nueva columna llamada 'Precio'.

In [None]:
df["Precio"] = df["Precio_str"].str.strip().str.replace("$","").str.replace("€","").astype(float)

4: Extracción de Texto (ID Transacción): De la columna 'ID_Transaccion', extrae solo la parte numérica (ej: de 'T-001' a 1) y guárdala en una nueva columna numérica llamada 'Transaccion_Num'.

In [None]:
df["Transaccion_Num"] = df["ID_Transaccion"].str.replace("T-", "").str.replace("0", "")

5: Normalización y División de Texto (SKU):
*   Primero, normaliza la columna Producto_SKU convirtiendo todo su texto a mayúsculas.
*   Después, divídela para extraer tres nuevas columnas ('Categoria', 'Marca', 'ID_Num') usando el guion como separador.



In [None]:
df["Producto_SKU"] = df["Producto_SKU"].str.upper()
df[['Categoria', 'Marca', 'ID_Num']] = df["Producto_SKU"].str.split("-", expand=True)

NameError: name 'df' is not defined

6: Mapeo de Valores: Crea una nueva columna 'Cliente_Desc' que traduzca el 'Tipo_Cliente' numérico a texto (1: 'Empresa', 2: 'Particular').

In [None]:
df["Cliente_Desc"] = df["Tipo_Cliente"].map({1: 'Empresa', 2: 'Particular'})

7: Operaciones entre Columnas (IVA): Crea una nueva columna llamada 'Precio_con_IVA' que calcule el precio de cada producto con un 21% de IVA añadido.

In [None]:
df["Precio_Con_Iva"] = df["Precio"] * 1.21

8: Lógica Condicional (Descuento): Añade otra columna 'Precio_Final'. Utiliza una operación por filas para aplicar un 10% de descuento sobre el 'Precio_con_IVA' si el cliente es de tipo 'Empresa'. Si es 'Particular', el precio final será el mismo que el 'Precio_con_IVA'.

In [None]:
df["Precio_Final"] = df.apply(lambda x: x["Precio_Con_Iva"] * 0.9 if x["Cliente_Desc"] == "Empresa" else x["Precio_Con_Iva"],axis=1)

9: Optimización de Memoria: Convierte las columnas de texto con pocos valores únicos ('Categoria', 'Marca' y 'Cliente_Desc') al tipo 'category' para optimizar el uso de memoria.

In [None]:
df[['Categoria', 'Marca', 'Cliente_Desc']] = df[['Categoria', 'Marca', 'Cliente_Desc']].astype("category")

10: Estructuración con MultiIndex: Reestructura el DataFrame para que utilice un MultiIndex basado en las columnas 'Fecha' y 'Categoria'.

In [None]:
df = df.set_index(["Fecha", "Categoria"])

In [None]:
print(df)
print(df.info(memory_usage="deep"))

                     ID_Transaccion Producto_SKU Precio_str  Tipo_Cliente  \
Fecha      Categoria                                                        
2023-03-15 TEC                T-001     TEC-M-01   $ 150.99             1   
2023-03-16 AUD                T-002     AUD-H-05    € 45.50             2   
           MON                T-003     MON-G-02   $ 300.00             1   
2023-03-17 TEC                T-004     TEC-K-03    $ 89.90             1   
2023-03-18 RAT                T-005     RAT-G-01    € 25.00             2   
           MON                T-006     MON-G-02   $ 290.50             1   
2023-03-19 TEC                T-007     TEC-M-01   $ 145.00             2   

                     ID_Cliente_Limpio  Precio Transaccion_Num Marca ID_Num  \
Fecha      Categoria                                                          
2023-03-15 TEC             CLIENTE-001  150.99               1     M     01   
2023-03-16 AUD             CLIENTE-002   45.50               2     H 

# Bloque 3 - Análisis

# 3.1: Agrupaciones

1: Venta Media por Empresa: Utilizando el primer DataFrame de ejemplo (el de las empresas GOOG, MSFT y FB), calcula la venta media (mean) para cada compañía.

In [None]:
import pandas as pd
data = {'Empresa': ['GOOG', 'GOOG', 'MSFT', 'MSFT', 'FB', 'FB'],
        'Persona': ['Sam', 'Charlie', 'Amy', 'Vanessa', 'Carl', 'Sarah'],
        'Ventas': [200, 120, 340, 124, 243, 350]}
df = pd.DataFrame(data)

ventas_por_empresa = df.groupby('Empresa')['Ventas'].agg(['mean'])
print("Media de ventas por empresa:\n", ventas_por_empresa)

Media de ventas por empresa:
           mean
Empresa       
FB       296.5
GOOG     160.0
MSFT     232.0


2: Análisis Salarial por Departamento: Crea un nuevo DataFrame con dos columnas: 'Departamento' (con valores como 'Ventas', 'IT', 'Marketing', repitiendo algunos) y 'Salario' (con valores numéricos). Agrupa los datos por 'Departamento' y encuentra el salario máximo (max) en cada uno.

In [None]:
datos_salarios = {
    'Departamento': ['Ventas', 'IT', 'Marketing', 'IT', 'Ventas'],
    'Salario': [45000, 60000, 55000, 62000, 48000]
}
df_salarios = pd.DataFrame(datos_salarios)
salario_maximo = df_salarios.groupby("Departamento")["Salario"].max()
print("Salario maximo por departamento:\n", salario_maximo)

Salario maximo por departamento:
 Departamento
IT           122000
Marketing     55000
Ventas        93000
Name: Salario, dtype: int64


3: Agrupación por Múltiples Columnas: Crea un DataFrame que contenga 'Vendedor', 'Producto' y 'Unidades_Vendidas'. Agrupa por ambas columnas, 'Vendedor' y 'Producto', para calcular el total de unidades vendidas (sum) para cada combinación.

In [None]:
datos_multigrupo = {
    'Vendedor': ['Ana', 'Luis', 'Ana', 'Luis', 'Ana'],
    'Producto': ['A', 'A', 'B', 'A', 'B'],
    'Unidades_Vendidas': [10, 5, 8, 7, 12]
}
df_multigrupo = pd.DataFrame(datos_multigrupo)
ventas_vendedor_producto = df_multigrupo.groupby(["Vendedor", "Producto"])["Unidades_Vendidas"].agg('sum')
print("Ventas por Vendedor y Producto:\n", ventas_vendedor_producto)

Ventas por Vendedor y Producto:
 Vendedor  Producto
Ana       A           10
          B           20
Luis      A           12
Name: Unidades_Vendidas, dtype: int64


4: Resumen Estadístico Completo: Reutiliza el DataFrame del ejercicio 2 ('Departamento' y 'Salario'). Agrupa por 'Departamento' y utiliza el método .describe() para obtener un resumen estadístico completo (media, desviación estándar, conteo, etc.) de los salarios en cada departamento.

In [None]:
datos_salarios = {
    'Departamento': ['Ventas', 'IT', 'Marketing', 'IT', 'Ventas'],
    'Salario': [45000, 60000, 55000, 62000, 48000]
}
df_salarios = pd.DataFrame(datos_salarios)
resumen_departamento = df_salarios.groupby("Departamento").describe()
print("Resumen por departamento:\n",resumen_departamento)

Resumen por departamento:
              Salario                                                   \
               count     mean          std      min      25%      50%   
Departamento                                                            
IT               2.0  61000.0  1414.213562  60000.0  60500.0  61000.0   
Marketing        1.0  55000.0          NaN  55000.0  55000.0  55000.0   
Ventas           2.0  46500.0  2121.320344  45000.0  45750.0  46500.0   

                                
                  75%      max  
Departamento                    
IT            61500.0  62000.0  
Marketing     55000.0  55000.0  
Ventas        47250.0  48000.0  


# 3.2: Tablas Pivote

1: Resumen de Ventas por Vendedor: Crea un DataFrame con datos de ventas que incluya 'Vendedor', 'Producto' y 'Cantidad'. Luego, genera una tabla pivote que muestre la cantidad total (sum) vendida por cada 'Vendedor' (índice) para cada 'Producto' (columnas).

In [None]:
datos_ventas_vendedor = {
    'Vendedor': ['Ana', 'Luis', 'Ana', 'Luis', 'Ana', 'Luis'],
    'Producto': ['A', 'A', 'B', 'A', 'B', 'B'],
    'Cantidad': [15, 10, 20, 12, 18, 5]
}
df_ventas_vendedor = pd.DataFrame(datos_ventas_vendedor)
df_pivot = df_ventas_vendedor.pivot_table(values="Cantidad", columns="Producto", index="Vendedor", aggfunc="sum")
print(df_pivot)

Producto   A   B
Vendedor        
Ana       15  38
Luis      22   5


2: Temperaturas Medias: Crea un DataFrame con las columnas 'Mes', 'Ciudad' y 'Temperatura'. Pivota la tabla para que los meses sean el índice, las ciudades las columnas y los valores sean la temperatura media (mean).

In [None]:
datos_temperaturas_mes = {
    'Mes': ['Enero', 'Enero', 'Febrero', 'Febrero', 'Marzo', 'Marzo'],
    'Ciudad': ['Valencia', 'Madrid', 'Valencia', 'Madrid', 'Valencia', 'Madrid'],
    'Temperatura': [12, 8, 14, 10, 16, 13]
}
df_temperaturas_mes = pd.DataFrame(datos_temperaturas_mes)
df_pivot = df_temperaturas_mes.pivot_table(values="Temperatura", columns="Ciudad", index="Mes")
print(df_pivot)

Ciudad   Madrid  Valencia
Mes                      
Enero         8        12
Febrero      10        14
Marzo        13        16


3: Desafío - Análisis Multidimensional de Ventas:Partiendo del siguiente DataFrame, crea una tabla pivote compleja que analice los ingresos. La tabla debe cumplir con todos estos requisitos:


*   El índice debe ser la 'Categoría'.
*   Las columnas deben ser el 'Producto'.
*   Los valores deben ser los 'Ingresos'.
*   Debe calcular dos agregaciones a la vez: la suma total y el promedio ('sum', 'mean').
*   Debe incluir los totales para filas y columnas (márgenes).
*   Cualquier valor faltante (NaN) en la tabla final debe ser rellenado con 0.



In [None]:
df_multianalisis = pd.DataFrame({
    'Categoría': ['Bebida', 'Postre', 'Bebida', 'Postre', 'Bebida', 'Postre'],
    'Producto': ['Café', 'Tarta', 'Té', 'Tarta', 'Café', 'Pastel'],
    'Ingresos': [100, 300, 80, 250, 120, 150]
})
df_pivot = df_multianalisis.pivot_table(values="Ingresos", columns="Producto", index="Categoría", aggfunc=["sum", "mean"], fill_value=0, margins=True)
print(df_pivot)

           sum                          mean                                
Producto  Café Pastel Tarta  Té   All   Café Pastel  Tarta    Té         All
Categoría                                                                   
Bebida     220      0     0  80   300  110.0    0.0    0.0  80.0  100.000000
Postre       0    150   550   0   700    0.0  150.0  275.0   0.0  233.333333
All        220    150   550  80  1000  110.0  150.0  275.0  80.0  166.666667


# 3.3: Operaciones entre DataFrames

1: Uniendo Clientes y Pedidos: Crea dos DataFrames. El primero, df_clientes, debe tener las columnas 'ID_Cliente' y 'Nombre'. El segundo, df_pedidos, debe tener 'ID_Cliente' y 'Producto'. Utiliza pd.merge() para unirlos y obtener una tabla que muestre qué 'Nombre' de cliente pidió qué 'Producto'.

In [None]:
datos_clientes = {
    'ID_Cliente': [101, 102, 103],
    'Nombre': ['Ana', 'Luis', 'Marta']
}
df_clientes = pd.DataFrame(datos_clientes)

datos_pedidos = {
    'ID_Cliente': [101, 101, 102, 103],
    'Producto': ['Café', 'Tarta', 'Pastel', 'Té']
}
df_pedidos = pd.DataFrame(datos_pedidos)

df_merge = pd.merge(df_clientes, df_pedidos, on="ID_Cliente", how="inner")
print("\nInner Join:\n", df_merge)


Inner Join:
    ID_Cliente Nombre Producto
0         101    Ana     Café
1         101    Ana    Tarta
2         102   Luis   Pastel
3         103  Marta       Té


2: Concatenando Datos Mensuales: Imagina que tienes dos DataFrames, ventas_enero y ventas_febrero, ambos con las mismas columnas ('Producto', 'Cantidad'). Usa pd.concat() para unirlos en un único DataFrame que contenga las ventas de ambos meses.

In [None]:
ventas_enero_datos = {
    'Producto': ['Café', 'Tarta', 'Té'],
    'Cantidad': [150, 40, 35]
}
ventas_enero = pd.DataFrame(ventas_enero_datos)

ventas_febrero_datos = {
    'Producto': ['Café', 'Tarta', 'Pastel'],
    'Cantidad': [130, 35, 25]
}
ventas_febrero = pd.DataFrame(ventas_febrero_datos)
df_concat = pd.concat([ventas_enero, ventas_febrero], ignore_index=True)
print("Ventas Enero & Febrero:\n", df_concat)

Ventas Enero & Febrero:
   Producto  Cantidad
0     Café       150
1    Tarta        40
2       Té        35
3     Café       130
4    Tarta        35
5   Pastel        25


3: Reconstrucción de Datos de E-commerce:Tienes datos de un e-commerce distribuidos en tres tablas. Tu misión es unificarlos para calcular el ingreso total por cada línea de pedido y luego identificar el pedido que generó más ingresos.


1.   Crea los tres DataFrames a partir de los diccionarios de abajo.
2.   Usa pd.merge() para unir df_pedidos con df_detalles usando la clave 'Pedido_ID'.
3.   Realiza un segundo merge para unir el resultado anterior con df_productos usando la clave 'Producto_ID'.
4.   Crea una nueva columna llamada 'Ingreso_Total' que sea el resultado de multiplicar 'Cantidad' por 'Precio'.
5.   Agrupa el resultado por 'Pedido_ID' para sumar los ingresos de cada pedido y encontrar cuál fue el de mayor valor.



In [None]:
pedidos = {'Pedido_ID': [1, 2, 3], 'Cliente_ID': [101, 102, 101]}
detalles = {'Pedido_ID': [1, 1, 2, 3], 'Producto_ID': [10, 11, 10, 12], 'Cantidad': [2, 1, 5, 3]}
productos = {'Producto_ID': [10, 11, 12], 'Precio': [15.0, 50.0, 10.5]}

df_pedidos = pd.DataFrame(pedidos)
df_detalles = pd.DataFrame(detalles)
df_productos = pd.DataFrame(productos)

df_pedidos_detalle_inner = pd.merge(df_pedidos, df_detalles, on="Pedido_ID", how="inner")
df_productos_inner = pd.merge(df_pedidos_detalle_inner, df_productos, on="Producto_ID", how="inner")
df_productos_inner["Ingreso_Total"] = df_productos_inner["Cantidad"] * df_productos_inner["Precio"]

print("Productos:\n",df_productos_inner)
print("\nMaximo valor por Id_Producto:\n", df_productos_inner.groupby("Pedido_ID")["Ingreso_Total"].max())

Productos:
    Pedido_ID  Cliente_ID  Producto_ID  Cantidad  Precio  Ingreso_Total
0          1         101           10         2    15.0           30.0
1          1         101           11         1    50.0           50.0
2          2         102           10         5    15.0           75.0
3          3         101           12         3    10.5           31.5

Maximo valor por Id_Producto:
 Pedido_ID
1    50.0
2    75.0
3    31.5
Name: Ingreso_Total, dtype: float64


4: Explorando Tipos de Joins: Tienes dos DataFrames, uno con información de productos y otro con precios. No todos los productos tienen precio y no todos los precios corresponden a un producto. Tu tarea es explorar cómo los diferentes tipos de merge afectan el resultado final.
*  Realiza un inner join. ¿Qué sucede con el ID 1 y el ID 4?
*  Realiza un outer join. ¿Cómo se representan los valores que no *  coinciden?
*  Realiza un left join (df_a es el izquierdo). ¿Qué DataFrame *  conserva todas sus filas?
*  Realiza un right join. ¿En qué se diferencia del left join?

In [None]:
df_a = pd.DataFrame({'ID': [1, 2, 3], 'Producto': ['A', 'B', 'C']})
df_b = pd.DataFrame({'ID': [2, 3, 4], 'Precio': [100, 200, 300]})

print("\nCon la unión inner join los valores con ID 1 y 4 no aparecen en el resultado final porque no están en ambas tablas\n:",
      pd.merge(df_a, df_b, on="ID", how="inner"))
print("\nCon la unión outer join los valores que no coinciden en ambas tablas se representan con un vacío 'NaN'\n:",
      pd.merge(df_a, df_b, on="ID", how="outer"))
print("\nCon la unión left join (a df_a) se conservan todas la ID de la tabla izquierda y se rellenan los vacíos con 'NaN'\n:",
      pd.merge(df_a, df_b, on="ID", how="left"))
print("\nCon la unión right join (a df_b) se conservan todas las ID de la tabla derecha y se rellenan los vacíos con 'NaN'\n:",
      pd.merge(df_a, df_b, on="ID", how="right"))


Con la unión inner join los valores con ID 1 y 4 no aparecen en el resultado final porque no están en ambas tablas
:    ID Producto  Precio
0   2        B     100
1   3        C     200

Con la unión outer join los valores que no coinciden en ambas tablas se representan con un vacío 'NaN'
:    ID Producto  Precio
0   1        A     NaN
1   2        B   100.0
2   3        C   200.0
3   4      NaN   300.0

Con la unión left join (a df_a) se conservan todas la ID de la tabla izquierda y se rellenan los vacíos con 'NaN'
:    ID Producto  Precio
0   1        A     NaN
1   2        B   100.0
2   3        C   200.0

Con la unión right join (a df_b) se conservan todas las ID de la tabla derecha y se rellenan los vacíos con 'NaN'
:    ID Producto  Precio
0   2        B     100
1   3        C     200
2   4      NaN     300


# 3.4: Series Temporales

In [None]:
import pandas as pd
import numpy as np
dates = pd.date_range('20230101', periods=100)
ts = pd.Series(np.random.randint(0, 500, len(dates)), index=dates)

# Remuestrear a frecuencia mensual y calcular la media
print("Media mensual:\n", ts.resample('M').mean())

Media mensual:
 2023-01-31    281.032258
2023-02-28    207.035714
2023-03-31    252.741935
2023-04-30    240.400000
Freq: ME, dtype: float64


  print("Media mensual:\n", ts.resample('M').mean())


In [None]:
print("Serie original:\n", ts.head(3))
print("\nSerie desplazada 1 día:\n", ts.shift(1).head(3))

Serie original:
 2023-01-01    448
2023-01-02    248
2023-01-03    291
Freq: D, dtype: int64

Serie desplazada 1 día:
 2023-01-01      NaN
2023-01-02    448.0
2023-01-03    248.0
Freq: D, dtype: float64


1: Agregación Semanal: Crea una serie temporal con datos de ventas diarias para un periodo de 3 meses. Después, usa .resample() para agregar los datos y obtener el total de ventas por semana ('W').

In [None]:
import pandas as pd
import numpy as np
dates = pd.date_range("20250101", periods=90)
ts = pd.Series(np.random.randint(0, 100, len(dates)), index=dates)

print("Total ventas por semana:\n", ts.resample("W").sum())

Total ventas por semana:
 2025-01-05    307
2025-01-12    282
2025-01-19    411
2025-01-26    425
2025-02-02    381
2025-02-09    387
2025-02-16    363
2025-02-23    210
2025-03-02    270
2025-03-09    370
2025-03-16    372
2025-03-23    302
2025-03-30    373
2025-04-06     75
Freq: W-SUN, dtype: int64


2: Desafío - Crecimiento Mensual de Ventas:Una métrica clave para cualquier negocio es el crecimiento mes a mes (MoM). Tu tarea es calcular este indicador.


1.   Partiendo de la serie temporal con datos de ventas diarias del ejercicio anterior, primero agrega los datos para obtener el total de ventas de cada mes usando .resample().
2.   Utiliza el método .shift() en los datos mensuales para crear una nueva serie que contenga las ventas del mes anterior.
3.   Calcula el crecimiento porcentual MoM usando la fórmula: ((ventas_actuales - ventas_anteriores) / ventas_anteriores) * 100.

Esto te permitirá ver el porcentaje de crecimiento (o decrecimiento) de las ventas de un mes respecto al anterior.

In [None]:
ts_month = ts.resample("ME").sum()
ts_shift = ts_month.shift(1)
ts_growth = pd.Series(((ts_month - ts_shift) / ts_shift) * 100)
print("Crecimiento MoM (%):\n", ts_growth)

Crecimiento MoM (%):
 2025-01-31          NaN
2025-02-28   -24.325944
2025-03-31    26.365796
Freq: ME, dtype: float64


# 3.5: Ejercicio Práctico de Análisis de Datos

Escenario: Eres analista en una cadena de cafeterías y te han encargado analizar las ventas de la primera quincena de enero para entender el rendimiento por producto y por ciudad.

Datos Iniciales: Comienza creando los dos DataFrames siguientes a partir de los diccionarios proporcionados.

In [None]:
datos_ventas = {
    'Fecha': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03', '2023-01-08', '2023-01-08', '2023-01-09'],
    'Tienda_ID': ['T1', 'T2', 'T1', 'T2', 'T1', 'T2', 'T1', 'T2'],
    'Producto': ['Café', 'Tarta', 'Café', 'Pastel', 'Té', 'Café', 'Tarta', 'Pastel'],
    'Cantidad': [20, 5, 25, 7, 10, 18, 6, 8]
}
df_ventas = pd.DataFrame(datos_ventas)
df_ventas['Fecha'] = pd.to_datetime(df_ventas['Fecha'])

datos_tiendas = {
    'Tienda_ID': ['T1', 'T2'],
    'Ciudad': ['Valencia', 'Madrid']
}
df_tiendas = pd.DataFrame(datos_tiendas)

Objetivo del Análisis: Tu objetivo es generar tres tablas resumen para responder a las siguientes preguntas de negocio:

1.   ¿Cuál es la cantidad total de productos vendidos en cada ciudad?
1.   ¿Cómo se distribuyen las ventas de cada producto por ciudad?
1.   ¿Cuál ha sido el total de productos vendidos por semana?

Tendrás que decidir qué pasos y funciones (merge, groupby, pivot_table, resample, etc.) son necesarios para construir cada uno de estos resúmenes. ¡A por ello!

In [None]:
ventas_ciudad = pd.merge(df_ventas, df_tiendas, on="Tienda_ID", how="inner")
ventas_ciudad_total = ventas_ciudad.groupby("Ciudad")["Cantidad"].sum()

print("Total de productos vendidos por ciudad:\n", ventas_ciudad_total)

Total de productos vendidos por ciudad:
 Ciudad
Madrid      38
Valencia    61
Name: Cantidad, dtype: int64


In [None]:
ventas_producto_ciudad = ventas_ciudad.pivot_table(values="Cantidad", columns="Ciudad", index="Producto", aggfunc="sum")

print("Total de ventas por producto en cada ciudad:\n", ventas_producto_ciudad)

Total de ventas por producto en cada ciudad:
 Ciudad    Madrid  Valencia
Producto                  
Café        18.0      45.0
Pastel      15.0       NaN
Tarta        5.0       6.0
Té           NaN      10.0


In [None]:
ventas_semana = df_ventas.groupby("Fecha")["Cantidad"].sum()
ventas_semana = ventas_semana.resample("W").sum()

print("Total de productos vendidos por semana:\n", ventas_semana)

Total de productos vendidos por semana:
 Fecha
2023-01-01    25
2023-01-08    66
2023-01-15     8
Freq: W-SUN, Name: Cantidad, dtype: int64


# Práctica Final: Análisis de Datos

# Parte 1: Análisis de Ventas de una Tienda

1: Carga y Limpieza de Datos

Comenzarás con tres conjuntos de datos con algunos problemas. Tu primera tarea es cargarlos, unirlos y realizar una limpieza exhaustiva para dejarlos listos para el análisis.

In [None]:
import pandas as pd
import numpy as np

datos_ventas = {
    'Venta_ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 10], # Hay una fila duplicada
    'Fecha': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03', '2023-01-08', '2023-01-08', '2023-01-09', '2023-01-10', '2023-01-11', '2023-01-11'],
    'Producto_ID': [101, 102, 101, 103, 104, 101, 102, 103, 102, 101, 101],
    'Vendedor_ID': [1, 2, 1, 1, 2, 1, 2, 1, 2, 1, 1],
    'Cantidad': [20, 5, 25, 7, 10, 18, 6, 8, np.nan, 15, 15], # Hay un valor nulo
    'Precio_str': ['$ 5.00', '€ 20.50', '$ 5.50', '$ 8.00', '€ 3.00', '$ 5.25', '$ 21.00', '$ 8.50', '€ 22.00', '$ 5.00', '$ 5.00'],
    'Sucursal': ['Norte', '  Sur', 'norte', 'Norte', 'Sur', 'Norte', 'Sur', 'Norte', 'Sur', '  norte  ', '  norte  '] # Nombres inconsistentes
}

datos_productos = {
    'Producto_ID': [101, 102, 103, 104],
    'Nombre_Producto': ['Café', 'Tarta', 'Pastel', 'Té'],
    'Categoría': ['Bebida', 'Postre', 'Postre', 'Bebida']
}

datos_vendedores = {
    'Vendedor_ID': [1, 2],
    'Nombre_Vendedor': ['Ana', 'Luis']
}

* Crea un DataFrame para cada diccionario.

In [None]:
df_ventas = pd.DataFrame(datos_ventas)
df_productos = pd.DataFrame(datos_productos)
df_vendedores = pd.DataFrame(datos_vendedores)

* Limpia `df_ventas`:
  - Elimina las filas completamente duplicadas. (Pista: investiga el método .drop_duplicates()).
  - Maneja el valor nulo en `Cantidad`: elimina cualquier fila que contenga valores nulos. (Pista: investiga el método .dropna()).

In [None]:
df_ventas = df_ventas.drop_duplicates(subset=["Venta_ID"]).dropna()
df_ventas["Venta_ID"]

Unnamed: 0,Venta_ID
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
9,10


- - Normaliza la columna `Sucursal`: conviértela a minúsculas y elimina los espacios en blanco al inicio y al final.

In [None]:
df_ventas["Sucursal"] = df_ventas["Sucursal"].str.lower().str.strip()
print(df_ventas["Sucursal"])

0    norte
1      sur
2    norte
3    norte
4      sur
5    norte
6      sur
7    norte
9    norte
Name: Sucursal, dtype: object


- - Limpia la columna `Precio_str`: esta columna contiene múltiples divisas ('$' y '€') y espacios. Debes eliminar todos los caracteres no numéricos (excepto el punto decimal) y convertir la columna a un tipo numérico `float`.

In [None]:
df_ventas["Precio_str"] = df_ventas["Precio_str"].str.replace("€", "").str.replace("$", "").str.strip().astype(float)
print(df_ventas["Precio_str"])

0     5.00
1    20.50
2     5.50
3     8.00
4     3.00
5     5.25
6    21.00
7     8.50
9     5.00
Name: Precio_str, dtype: float64


- - Me ha parecido adecuado además renombrar la columna para que sea más claro el tipo de dato que maneja

In [None]:
df_ventas.rename(columns={'Precio_str': "Precio"}, inplace=True)

- * Une los tres DataFrames en uno solo que contenga toda la información.

In [None]:
df_tienda = pd.merge(df_ventas, df_vendedores, on="Vendedor_ID", how="inner")
df_tienda = pd.merge(df_tienda, df_productos, on="Producto_ID", how="inner")

- * Crea una nueva columna `Ingresos_Totales` multiplicando el precio por la cantidad.

In [None]:
df_tienda["Ingresos_Totales"] = df_tienda["Precio"] * df_tienda["Cantidad"]
print(df_tienda["Ingresos_Totales"])

0    100.0
1    102.5
2    137.5
3     56.0
4     30.0
5     94.5
6    126.0
7     68.0
8     75.0
Name: Ingresos_Totales, dtype: float64


- * Convierte la columna `Fecha` a formato `datetime` y establécela como el índice del DataFrame final. Puedes usar .head() para inspeccionar el resultado.

In [None]:
df_tienda["Fecha"] = pd.to_datetime(df_tienda["Fecha"])
#  Aqui creo una columna de dia de la semana para usarla luego
df_tienda["Dia_Semana"] = df_tienda["Fecha"].dt.day_name()
df_tienda = df_tienda.set_index("Fecha")

2: Análisis Exploratorio y Creación de Variables

Con los datos limpios, realizarás un análisis para responder a preguntas clave de negocio y crearás nuevas variables.

* Usa `.groupby()` para determinar los ingresos totales por `Categoría` y por `Nombre_Vendedor`.

In [None]:
df_ingresos_categoria_vendedor = df_tienda.groupby(["Categoría", "Nombre_Vendedor"])["Ingresos_Totales"].sum()
print(df_ingresos_categoria_vendedor)

Categoría  Nombre_Vendedor
Bebida     Ana                407.0
           Luis                30.0
Postre     Ana                124.0
           Luis               228.5
Name: Ingresos_Totales, dtype: float64


* Crea una tabla pivote que muestre la cantidad total de productos vendidos por `Categoría` (índice) en cada `Sucursal` (columnas).


In [None]:
df_productos_vendidos = df_tienda.pivot_table(values='Cantidad', index='Categoría', columns='Sucursal')
print(df_productos_vendidos)

Sucursal   norte   sur
Categoría             
Bebida      19.5  10.0
Postre       7.5   5.5


* Crea una nueva columna categórica llamada `Tipo_Venta`. Si `Ingresos_Totales` es mayor que $50, el valor será 'Grande'; de lo contrario, será 'Normal'.


In [None]:
df_tienda["Tipo_Venta"] = df_tienda.apply(lambda x: "Grande" if x["Ingresos_Totales"] > 50 else "Normal", axis=1).astype("category")
print(df_tienda["Tipo_Venta"])

Fecha
2023-01-01    Grande
2023-01-01    Grande
2023-01-02    Grande
2023-01-02    Grande
2023-01-03    Normal
2023-01-08    Grande
2023-01-08    Grande
2023-01-09    Grande
2023-01-11    Grande
Name: Tipo_Venta, dtype: category
Categories (2, object): ['Grande', 'Normal']


* Desafío - Producto Estrella: Para cada `Categoría`, encuentra cuál fue el `Nombre_Producto` que generó más `Ingresos_Totales`. (Pista: investiga cómo combinar .groupby() con el método .idxmax() para encontrar el índice del valor máximo en cada grupo).


In [None]:
producto_estrella = df_tienda.groupby(["Categoría", "Nombre_Producto"])["Ingresos_Totales"].idxmax()
print(producto_estrella)

Categoría  Nombre_Producto
Bebida     Café              2023-01-02
           Té                2023-01-03
Postre     Pastel            2023-01-09
           Tarta             2023-01-08
Name: Ingresos_Totales, dtype: datetime64[ns]


* Desafío - Contribución al Ingreso: Calcula una nueva columna llamada `Pct_Ingreso_Categoria` que muestre qué porcentaje representan los `Ingresos_Totales` de cada venta con respecto al total de ingresos de su `Categoría`. (Pista: para este cálculo, donde necesitas un valor agregado (la suma por categoría) pero quieres mantener la forma original del DataFrame, investiga el método .transform()).

In [None]:
df_tienda["Pct_Ingreso_Categoria"] = ((df_tienda["Ingresos_Totales"] / df_tienda.groupby("Categoría")["Ingresos_Totales"].transform("sum")) * 100).round(2)
print(df_tienda["Pct_Ingreso_Categoria"])

3: Análisis Temporal

Investigarás cómo varían las ventas a lo largo del tiempo para identificar patrones.

* Utiliza `.resample()` para calcular los ingresos totales diarios ('D') y semanales ('W').


In [None]:
ingresos_diarios = df_tienda["Ingresos_Totales"].resample("D").sum()
ingresos_semanales = df_tienda["Ingresos_Totales"].resample("W").sum()

print("Total de ingresos diarios:\n", ingresos_diarios)
print("\nTotal de ingresos semanales:", ingresos_semanales)

Total de ingresos diarios:
 Fecha
2023-01-01    202.5
2023-01-02    193.5
2023-01-03     30.0
2023-01-04      0.0
2023-01-05      0.0
2023-01-06      0.0
2023-01-07      0.0
2023-01-08    220.5
2023-01-09     68.0
2023-01-10      0.0
2023-01-11     75.0
Freq: D, Name: Ingresos_Totales, dtype: float64

Total de ingresos semanales: Fecha
2023-01-01    202.5
2023-01-08    444.0
2023-01-15    143.0
Freq: W-SUN, Name: Ingresos_Totales, dtype: float64


* Encuentra el día de la semana (Lunes, Martes, etc.) con el promedio de ingresos más alto. (Pista: después de agrupar, puedes usar .sort_values() para ordenar los resultados).

In [None]:
print("El dia de la semana con mas ventas es:",
      df_tienda.groupby("Dia_Semana")["Ingresos_Totales"].median().idxmax())

El dia de la semana con mas ventas es: Sunday


# Parte 2: Análisis Exploratorio de Datos de Inmuebles

1: Contexto y Datos Iniciales

En esta segunda parte, actuarás como un analista de datos para una agencia inmobiliaria. Te han proporcionado un conjunto de datos con propiedades en venta en diferentes ciudades y tu tarea es realizar un análisis exploratorio para extraer información valiosa para la empresa y sus clientes.

In [88]:
datos_inmuebles = {
    'Referencia': ['VLC-01', 'MAD-01', 'BCN-01', 'VLC-02', 'MAD-02', 'BCN-02', 'VLC-03', 'MAD-03', 'BCN-03', 'VLC-04'],
    'Ciudad': ['Valencia', 'Madrid', 'Barcelona', 'Valencia', 'Madrid', 'Barcelona', 'Valencia', 'Madrid', 'Barcelona', 'Valencia'],
    'Habitaciones': [3, 4, 2, 4, 5, 3, 2, 3, 4, 3],
    'Baños': [2, 2, 1, 3, 3, 2, 1, 2, 2, 2],
    'Superficie': [90, 120, 65, 110, 150, 85, 55, 95, 115, 100],
    'Precio': [210000, 450000, 320000, 280000, 600000, 410000, 180000, 390000, 550000, 250000],
    'Tipo_Propiedad': ['Piso', 'Piso', 'Apartamento', 'Piso', 'Chalet', 'Piso', 'Apartamento', 'Piso', 'Piso', 'Piso'],
    'Extras': ['Garaje', 'Piscina', np.nan, 'Garaje;Terraza', 'Piscina;Jardín', 'Terraza', np.nan, 'Garaje', 'Garaje;Piscina', 'Terraza']
}

df_inmuebles = pd.DataFrame(datos_inmuebles)

2: Preguntas de Negocio a Resolver

A partir del DataFrame, deberás aplicar las técnicas de Pandas que consideres necesarias para preparar los datos y responder a las siguientes preguntas. El enunciado es abierto y no te dará pistas sobre qué funciones usar. Deberás justificar cada paso que realices.

* Preparación de Datos:
  - ¿Cómo has gestionado los valores nulos en la columna `Extras`? (Pista: investiga el método .fillna() para reemplazar valores nulos).

In [89]:
df_inmuebles["Extras"] = df_inmuebles["Extras"].fillna("Sin extras")

  - - La columna `Extras` contiene varios valores en una sola cadena de texto. ¿Cómo la has procesado para poder analizar los extras de forma individual?

In [90]:
# He dividido los datos dentro de Extras en una lista de cadenas de texto con cada uno de los elementos en ellas
df_inmuebles["Extras"] = df_inmuebles["Extras"].str.split(";")

-   - Crea una nueva variable que consideres relevante para el análisis (por ejemplo, el precio por metro cuadrado).

In [91]:
df_inmuebles["Precio_M2"] = (df_inmuebles["Precio"] / df_inmuebles["Superficie"]).round(0).astype(int)

* Análisis del Mercado:
  - ¿Cuál es la distribución de precios y superficies en las diferentes ciudades? ¿Qué ciudad es, en promedio, más cara?

In [93]:
df_distribucion_ciudad = df_inmuebles.groupby("Ciudad")[["Precio", "Superficie"]].mean()
print("Distribución de precios y superficies por ciudad (media):\n", df_distribucion_ciudad)

ciudad_mas_cara = df_distribucion_ciudad["Precio"].idxmax()
print(f"\nLa ciudad más cara en promedio es: {ciudad_mas_cara}")

Distribución de precios y superficies por ciudad (media):
                   Precio  Superficie
Ciudad                              
Barcelona  426666.666667   88.333333
Madrid     480000.000000  121.666667
Valencia   230000.000000   88.750000

La ciudad más cara en promedio es: Madrid


-   - ¿Cómo influye el número de habitaciones y baños en el precio final de las viviendas en cada ciudad?

In [99]:
df_influencia_habitaciones_banyos = df_inmuebles.groupby(["Ciudad", "Habitaciones", "Baños"])["Precio"].mean()
print("Influencia de habitaciones y baños en el precio por ciudad:\n", df_influencia_habitaciones_banyos)

Influencia de habitaciones y baños en el precio por ciudad:
 Ciudad     Habitaciones  Baños
Barcelona  2             1        320000.0
           3             2        410000.0
           4             2        550000.0
Madrid     3             2        390000.0
           4             2        450000.0
           5             3        600000.0
Valencia   2             1        180000.0
           3             2        230000.0
           4             3        280000.0
Name: Precio, dtype: float64


-   - ¿Qué `Tipo_Propiedad` (Piso, Chalet, etc.) tiene un mayor precio medio? ¿Y una mayor superficie media?

In [100]:
inmuebles_precio = df_inmuebles.groupby("Tipo_Propiedad")["Precio"].mean()
print(f"El tipo de propiedad con mayor precio medio es {inmuebles_precio.idxmax()} con un valor promedio de {inmuebles_precio.loc[inmuebles_precio.idxmax()]} euros")
inmuebles_superficie = df_inmuebles.groupby("Tipo_Propiedad")["Superficie"].mean()
print(f"El tipo de propiedad con mayor superficie media es {inmuebles_superficie.idxmax()} con un valor promedio de {inmuebles_superficie.loc[inmuebles_superficie.idxmax()]} metros cuadrados")

El tipo de propiedad con mayor precio medio es Chalet con un valor promedio de 600000.0 euros
El tipo de propiedad con mayor superficie media es Chalet con un valor promedio de 150.0 metros cuadrados


-   - ¿Qué porcentaje de las propiedades en cada ciudad ofrece 'Piscina'? ¿Y 'Garaje'?

In [101]:
df_inmuebles["Tiene_Piscina"] = df_inmuebles["Extras"].apply(lambda x: "Piscina" in x)
df_inmuebles["Tiene_Garaje"] = df_inmuebles["Extras"].apply(lambda x: "Garaje" in x)

porcentaje_extras_ciudad = df_inmuebles.groupby("Ciudad")[["Tiene_Piscina", "Tiene_Garaje"]].mean() * 100

print("Porcentaje de propiedades con Piscina y Garaje por ciudad:\n", porcentaje_extras_ciudad)

Porcentaje de propiedades con Piscina y Garaje por ciudad:
            Tiene_Piscina  Tiene_Garaje
Ciudad                                
Barcelona      33.333333     33.333333
Madrid         66.666667     33.333333
Valencia        0.000000     50.000000


* Segmentación y Recomendación:
  - Identifica las 3 propiedades con la mejor relación superficie-precio. (Pista: utiliza .sort_values() para ordenar y .head(3) para seleccionar las primeras).

In [102]:
df_inmuebles['Precio_por_M2'] = df_inmuebles['Precio'] / df_inmuebles['Superficie']
mejores_propiedades = df_inmuebles.sort_values(by='Precio_por_M2').head(3)

print("Las 3 propiedades con la mejor relación superficie-precio son:\n", mejores_propiedades)

Las 3 propiedades con la mejor relación superficie-precio son:
   Referencia    Ciudad  Habitaciones  Baños  Superficie  Precio  \
0     VLC-01  Valencia             3      2          90  210000   
9     VLC-04  Valencia             3      2         100  250000   
3     VLC-02  Valencia             4      3         110  280000   

  Tipo_Propiedad             Extras  Precio_M2  Tiene_Piscina  Tiene_Garaje  \
0           Piso           [Garaje]       2333          False          True   
9           Piso          [Terraza]       2500          False         False   
3           Piso  [Garaje, Terraza]       2545          False          True   

   Precio_por_M2  
0    2333.333333  
9    2500.000000  
3    2545.454545  


-   - Filtra y muestra un listado de propiedades que podrían ser de interés para una familia (ej: más de 3 habitaciones y con garaje), ordenadas de menor a mayor precio. (Pista: no olvides usar .sort_values() al final).

In [103]:
propiedades_familia = df_inmuebles[(df_inmuebles["Habitaciones"] > 3) & (df_inmuebles["Tiene_Garaje"] == True)].sort_values(by="Precio")
print("Propiedades de interés para familias (más de 3 habitaciones y con garaje):\n", propiedades_familia)

Propiedades de interés para familias (más de 3 habitaciones y con garaje):
   Referencia     Ciudad  Habitaciones  Baños  Superficie  Precio  \
3     VLC-02   Valencia             4      3         110  280000   
8     BCN-03  Barcelona             4      2         115  550000   

  Tipo_Propiedad             Extras  Precio_M2  Tiene_Piscina  Tiene_Garaje  \
3           Piso  [Garaje, Terraza]       2545          False          True   
8           Piso  [Garaje, Piscina]       4783           True          True   

   Precio_por_M2  
3    2545.454545  
8    4782.608696  
