#Analisis de datos con Pandas

In [1]:
import pandas as pd

In [4]:
datos = {
    "Departamento": ["Ventas","TI","Ventas","TI","HR","HR"],
    "Empleado": ["Ana","Luis","Juan","Maria","Pedro","Laura"],
    "Salario":[50000,54000,58000,60000,52000,51000]
}
# type(datos)

dict

In [3]:
df = pd.DataFrame(datos)

In [5]:
# Agrupar por departamento y calcular la media de salarios
agrupado = df.groupby("Departamento")
salario_medio = agrupado["Salario"].mean()
print(salario_medio)

Departamento
HR        51500.0
TI        57000.0
Ventas    54000.0
Name: Salario, dtype: float64


#Datos faltantes

In [6]:
import pandas as pd

In [7]:
# Datos con valores faltantes
datos = {
    "Nombre": ["Ana", "Luis", "Juan", "Maria", "Pedro"],
    "Edad": [25, 30, None, 28, 32],
    "Departamento": ["Ventas", "TI", "Ventas", "TI", None]
}

In [8]:
df = pd.DataFrame(datos)

In [9]:
# Mostramos datos
print("Datos originales: ")
print(df)

Datos originales: 
  Nombre  Edad Departamento
0    Ana  25.0       Ventas
1   Luis  30.0           TI
2   Juan   NaN       Ventas
3  Maria  28.0           TI
4  Pedro  32.0         None


In [10]:
# Cambiamos valores faltantes con valor especifico
df_sin_nulos = df.fillna({"Edad":df["Edad"].mean(), "Departamento":"Desconocido"})
print("\nDatos sin nulos: ")
print(df_sin_nulos)



Datos sin nulos: 
  Nombre   Edad Departamento
0    Ana  25.00       Ventas
1   Luis  30.00           TI
2   Juan  28.75       Ventas
3  Maria  28.00           TI
4  Pedro  32.00  Desconocido


In [11]:
# Eliminamos filas con valores faltantes
df_eliminado = df.dropna()
print("\nDatos sin nulos: ")
print(df_eliminado)


Datos sin nulos: 
  Nombre  Edad Departamento
0    Ana  25.0       Ventas
1   Luis  30.0           TI
3  Maria  28.0           TI


#Union de dataframes

In [12]:
import pandas as pd

In [13]:
# Datos de ejemplos
datos1 = {
    "ID": [1, 2, 3],
    "Nombre": ["Ana", "Luis", "Juan"]
}
datos2 = {
    "ID": [1,2,4],
    "Salario": [50000, 60000, 70000]
}


In [14]:
df1 = pd.DataFrame(datos1)
df2 = pd.DataFrame(datos2)

In [15]:
# Union interna (inner join)
df_inner = pd.merge(df1, df2, on="ID", how="inner")
print("Union interna: ")
print(df_inner)

Union interna: 
   ID Nombre  Salario
0   1    Ana    50000
1   2   Luis    60000


In [16]:
# union externa (outer join)
df_outer = pd.merge(df1, df2, on="ID", how="outer")
print("\nUnion externa: ")
print(df_outer)


Union externa: 
   ID Nombre  Salario
0   1    Ana  50000.0
1   2   Luis  60000.0
2   3   Juan      NaN
3   4    NaN  70000.0


#Ejercicio practico

In [17]:
import pandas as pd

In [18]:
# Productos
productos = {
    "ID_Producto": [1, 2, 3, 4, 5],
    "Nombre": ["Camiseta", "Pantalón", "Zapatos", "Blusa", "Chaqueta"],
    "Categoria": ["Ropa", "Ropa", "Calzado", "Ropa", "Ropa"]
}
# Ventas
ventas = {
    "ID_Producto": [2, 2, 3, 4, 4],
    "Ventas": [10, 5, 8, 12, 6]
}

In [22]:
df_productos = pd.DataFrame(productos)
df_ventas = pd.DataFrame(ventas)


In [23]:
df_union = pd.merge(df_productos, df_ventas, on="ID_Producto", how="inner")
print(df_union)


   ID_Producto    Nombre Categoria  Ventas
0            2  Pantalón      Ropa      10
1            2  Pantalón      Ropa       5
2            3   Zapatos   Calzado       8
3            4     Blusa      Ropa      12
4            4     Blusa      Ropa       6


In [24]:
ventas_por_categoria = df_union.groupby("Categoria")["Ventas"].sum()
print("Ventas totales por categoria:")
print(ventas_por_categoria)

Ventas totales por categoria:
Categoria
Calzado     8
Ropa       33
Name: Ventas, dtype: int64
