# Pandas y visualizacion

In [6]:
import pandas as pd
# Crear un DataFrame de ejemplo
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Bananas'],
    'Ventas': [50, 30, 20],
    'Precio': [0.5, 0.75, 0.3]
}
df = pd.DataFrame(data)

# Convertir a un diccionario
dict_data = df.to_dict()
print("DataFrame convertido a diccionario:")
print(dict_data)

DataFrame convertido a diccionario:
{'Producto': {0: 'Manzanas', 1: 'Naranjas', 2: 'Bananas'}, 'Ventas': {0: 50, 1: 30, 2: 20}, 'Precio': {0: 0.5, 1: 0.75, 2: 0.3}}


In [7]:
import numpy as np

# Convertir a un array de NumPy
array_data = df.to_numpy()
print("DataFrame convertido a array de NumPy:")
print(array_data)

DataFrame convertido a array de NumPy:
[['Manzanas' 50 0.5]
 ['Naranjas' 30 0.75]
 ['Bananas' 20 0.3]]


In [19]:
# Guardar el DataFrame en un archivo CSV
df.to_csv('ventas.csv', index=False, encoding='utf-8')
print("DataFrame guardado como archivo CSV")

df_csv_utf8 = pd.read_csv('ventas.csv', encoding='utf-8')

DataFrame guardado como archivo CSV


In [10]:
# Convertir a JSON
json_data = df.to_json()
print("DataFrame convertido a JSON:")
print(json_data)

# Guardar el DataFrame en un archivo JSON
df.to_json('ventas.json', orient='records', lines=True)
print("DataFrame guardado como archivo JSON")

DataFrame convertido a JSON:
{"Producto":{"0":"Manzanas","1":"Naranjas","2":"Bananas"},"Ventas":{"0":50,"1":30,"2":20},"Precio":{"0":0.5,"1":0.75,"2":0.3}}
DataFrame guardado como archivo JSON


In [13]:
# Convertir a JSON
json_data = df.to_json()
print(json_data)

# Guardar el DataFrame en un archivo JSON
df.to_json('ventas.json', orient='records', lines=True)
print("DataFrame guardado como archivo JSON")

{"Producto":{"0":"Manzanas","1":"Naranjas","2":"Bananas"},"Ventas":{"0":50,"1":30,"2":20},"Precio":{"0":0.5,"1":0.75,"2":0.3}}
DataFrame guardado como archivo JSON


In [16]:
# Guardar el DataFrame en un archivo Excel
df.to_excel('ventas.xlsx', index=False)
print("dato guardado en excel")

dato guardado en excel


In [21]:
# Guardar un archivo CSV comprimido
df.to_csv('ventas_comprimido.csv.gz', index=False, compression='gzip')

# Leer un archivo CSV comprimido
df_from_compressed_csv = pd.read_csv('ventas_comprimido.csv.gz', compression='gzip')

# Group by

In [53]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Bananas', 'Manzanas', 'Naranjas', 'Bananas'],
    'Ventas': [50, 30, 20, 60, 40, 30],
    'Tienda': ['A', 'A', 'A', 'B', 'B', 'B']
}
df = pd.DataFrame(data)

# Agrupar por columna 'Producto'
grouped = df.groupby('Producto')

df.groupby(['Tienda']).sum('Ventas')
df.groupby(['Producto']).sum('Ventas')


Unnamed: 0_level_0,Ventas
Producto,Unnamed: 1_level_1
Bananas,50
Manzanas,110
Naranjas,70


In [54]:
# Suma de ventas por producto
ventas_por_producto = grouped['Ventas'].sum()
print(ventas_por_producto)

# Promedio de ventas por producto
promedio_ventas_por_producto = grouped['Ventas'].mean()
print(promedio_ventas_por_producto)

# Número de ventas por producto
conteo_ventas_por_producto = grouped['Ventas'].count()
print(conteo_ventas_por_producto)

Producto
Bananas      50
Manzanas    110
Naranjas     70
Name: Ventas, dtype: int64
Producto
Bananas     25.0
Manzanas    55.0
Naranjas    35.0
Name: Ventas, dtype: float64
Producto
Bananas     2
Manzanas    2
Naranjas    2
Name: Ventas, dtype: int64


In [57]:
# Calcular el porcentaje de ventas de cada producto en su tienda
df['Porcentaje'] = grouped['Ventas'].transform(lambda x: x / x.sum() * 100)
print(df)


   Producto  Ventas Tienda  Porcentaje
0  Manzanas      50      A   45.454545
1  Naranjas      30      A   42.857143
2   Bananas      20      A   40.000000
3  Manzanas      60      B   54.545455
4  Naranjas      40      B   57.142857
5   Bananas      30      B   60.000000


In [62]:
# Filtrar productos con ventas totales mayores a 50
filtro = grouped.filter(lambda x: x['Ventas'].sum() > 50)
print(filtro)

   Producto  Ventas Tienda  Porcentaje
0  Manzanas      50      A   45.454545
1  Naranjas      30      A   42.857143
3  Manzanas      60      B   54.545455
4  Naranjas      40      B   57.142857


In [65]:
# Suma de ventas por tienda
ventas_por_tienda = df.groupby('Tienda')['Ventas'].sum()
print(ventas_por_tienda)

Tienda
A    100
B    130
Name: Ventas, dtype: int64


In [67]:
# Promedio de ventas por tienda
promedio_ventas_por_tienda = df.groupby('Tienda')['Ventas'].mean()
print(promedio_ventas_por_tienda)

Tienda
A    33.333333
B    43.333333
Name: Ventas, dtype: float64


In [69]:
# Número de ventas por tienda
conteo_ventas_por_tienda = df.groupby('Tienda')['Ventas'].count()
print(conteo_ventas_por_tienda)

Tienda
A    3
B    3
Name: Ventas, dtype: int64


In [70]:
# Ventas mínimas y máximas por tienda
ventas_minimas_por_tienda = df.groupby('Tienda')['Ventas'].min()
ventas_maximas_por_tienda = df.groupby('Tienda')['Ventas'].max()
print(ventas_minimas_por_tienda)
print(ventas_maximas_por_tienda)

Tienda
A    20
B    30
Name: Ventas, dtype: int64
Tienda
A    50
B    60
Name: Ventas, dtype: int64


In [71]:
# Desviación estándar de las ventas por tienda
desviacion_estandar_ventas = df.groupby('Tienda')['Ventas'].std()
print(desviacion_estandar_ventas)

# Varianza de las ventas por tienda
varianza_ventas = df.groupby('Tienda')['Ventas'].var()
print(varianza_ventas)


Tienda
A    15.275252
B    15.275252
Name: Ventas, dtype: float64
Tienda
A    233.333333
B    233.333333
Name: Ventas, dtype: float64


In [75]:
grouped_multi = df.groupby(['Tienda','Producto'])['Ventas'].sum()
grouped_multi

Tienda  Producto
A       Bananas     20
        Manzanas    50
        Naranjas    30
B       Bananas     30
        Manzanas    60
        Naranjas    40
Name: Ventas, dtype: int64

In [82]:
# Agrupar por 'Producto' y 'Tienda'
grouped_multi = df.groupby(['Producto', 'Tienda'])

# Suma de ventas por producto y tienda
ventas_por_producto_y_tienda = grouped_multi['Ventas'].sum()
print(ventas_por_producto_y_tienda)

# Promedio de ventas por producto y tienda
promedio_ventas_por_producto_y_tienda = grouped_multi['Ventas'].mean()
print(promedio_ventas_por_producto_y_tienda)

Producto  Tienda
Bananas   A         20
          B         30
Manzanas  A         50
          B         60
Naranjas  A         30
          B         40
Name: Ventas, dtype: int64
Producto  Tienda
Bananas   A         20.0
          B         30.0
Manzanas  A         50.0
          B         60.0
Naranjas  A         30.0
          B         40.0
Name: Ventas, dtype: float64


In [83]:
# Aplicar múltiples funciones de agregación a 'Ventas' agrupadas por 'Producto'
agg_result = df.groupby('Producto')['Ventas'].agg(['sum', 'mean', 'count'])
print(agg_result)

          sum  mean  count
Producto                  
Bananas    50  25.0      2
Manzanas  110  55.0      2
Naranjas   70  35.0      2


In [84]:
# Calcular el rango (max - min) de ventas por producto
rango_ventas_por_producto = df.groupby('Producto')['Ventas'].apply(lambda x: x.max() - x.min())
print(rango_ventas_por_producto)

Producto
Bananas     10
Manzanas    10
Naranjas    10
Name: Ventas, dtype: int64


In [86]:
# Crear un DataFrame de ejemplo
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Bananas', 'Manzanas', 'Naranjas', 'Bananas'],
    'Mes': ['Enero', 'Enero', 'Enero', 'Febrero', 'Febrero', 'Febrero'],
    'Ventas': [100, 80, 50, 120, 90, 70]
}
df = pd.DataFrame(data)

# Agrupar por 'Producto' y 'Mes'
grouped = df.groupby(['Producto', 'Mes'])

# Suma y promedio de ventas por producto y mes
ventas_por_producto_y_mes = grouped['Ventas'].agg(['sum', 'mean'])
print(ventas_por_producto_y_mes)

                  sum   mean
Producto Mes                
Bananas  Enero     50   50.0
         Febrero   70   70.0
Manzanas Enero    100  100.0
         Febrero  120  120.0
Naranjas Enero     80   80.0
         Febrero   90   90.0


In [87]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Cliente': ['A', 'B', 'C', 'A', 'B', 'C', 'A'],
    'Monto': [100, 200, 150, 300, 120, 180, 90],
    'Compra': [1, 1, 1, 2, 2, 2, 3]
}
df = pd.DataFrame(data)

# Agrupar por 'Cliente'
grouped = df.groupby('Cliente')

# Analizar la cantidad de compras y el monto total gastado por cada cliente
cantidad_compras = grouped['Compra'].count()
monto_total = grouped['Monto'].sum()

print("Cantidad de compras por cliente:")
print(cantidad_compras)

print("nMonto total gastado por cliente:")
print(monto_total)

Cantidad de compras por cliente:
Cliente
A    3
B    2
C    2
Name: Compra, dtype: int64
nMonto total gastado por cliente:
Cliente
A    490
B    320
C    330
Name: Monto, dtype: int64


# APPLY

In [88]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'A': [1, 2, 3, 4],
    'B': [10, 20, 30, 40]
}
df = pd.DataFrame(data)

# Aplicar una función a la columna 'A'
df['A_squared'] = df['A'].apply(lambda x: x ** 2)
print(df)

   A   B  A_squared
0  1  10          1
1  2  20          4
2  3  30          9
3  4  40         16


In [91]:
# Aplicar una función a lo largo de las filas
df['sum_row'] = df.apply(lambda row: row['A'] + row['B'], axis=1)
print(df)

   A   B  A_squared  sum_row
0  1  10          1       11
1  2  20          4       22
2  3  30          9       33
3  4  40         16       44


In [92]:
# Crear una nueva columna basada en múltiples columnas
df['A_B_ratio'] = df.apply(lambda row: row['A'] / row['B'], axis=1)
print(df)

   A   B  A_squared  sum_row  A_B_ratio
0  1  10          1       11        0.1
1  2  20          4       22        0.1
2  3  30          9       33        0.1
3  4  40         16       44        0.1


In [93]:
# Crear un DataFrame de ejemplo
data = {
    'Estudiante': ['Ana', 'Luis', 'Carlos', 'Marta'],
    'Calificación': [85, 40, 72, 65]
}
df = pd.DataFrame(data)

# Clasificar las calificaciones
df['Resultado'] = df['Calificación'].apply(lambda x: 'Aprobado' if x >= 60 else 'Reprobado')
print(df)

  Estudiante  Calificación  Resultado
0        Ana            85   Aprobado
1       Luis            40  Reprobado
2     Carlos            72   Aprobado
3      Marta            65   Aprobado


In [94]:
# Crear un DataFrame de ejemplo
data = {
    'Producto': ['A', 'B', 'C', 'D'],
    'Ventas': [200, 300, 400, 500]
}
df = pd.DataFrame(data)

# Normalizar la columna 'Ventas'
max_value = df['Ventas'].max()
min_value = df['Ventas'].min()
df['Ventas_normalizado'] = df['Ventas'].apply(lambda x: (x - min_value) / (max_value - min_value))
print(df)

  Producto  Ventas  Ventas_normalizado
0        A     200            0.000000
1        B     300            0.333333
2        C     400            0.666667
3        D     500            1.000000


In [95]:
import numpy as np

# Crear un DataFrame de ejemplo
data = {
    'A': [1, 2, 3, 4],
    'B': [10, 20, 30, 40]
}
df = pd.DataFrame(data)

# Calcular la desviación absoluta media
mean_A = df['A'].mean()
df['MAD_A'] = df['A'].apply(lambda x: np.abs(x - mean_A))
print(df)

mean_A['Otro'] = df['A'].apply(lambda x: np.abs(x - mean_A))

   A   B  MAD_A
0  1  10    1.5
1  2  20    0.5
2  3  30    0.5
3  4  40    1.5


In [99]:
#incluyendo transformaciones y agregaciones personalizadas.
# Crear un DataFrame de ejemplo
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Bananas', 'Manzanas', 'Naranjas', 'Bananas'],
    'Ventas': [50, 30, 20, 60, 40, 30],
    'Precio': [0.5, 0.75, 0.3, 0.55, 0.8, 0.35]
}
df = pd.DataFrame(data)

# Calcular el ingreso total por venta
df['Ingreso'] = df.apply(lambda row: row['Ventas'] * row['Precio'], axis=1)

# Clasificar los productos por rango de ventas
df['Clasificación'] = df['Ventas'].apply(lambda x: 'Alta' if x > 40 else 'Baja')

# Normalizar la columna 'Ventas'
max_ventas = df['Ventas'].max()
min_ventas = df['Ventas'].min()
df['Ventas_normalizado'] = df['Ventas'].apply(lambda x: (x - min_ventas) / (max_ventas - min_ventas))

# Mostrar el DataFrame resultante
print(df)

   Producto  Ventas  Precio  Ingreso Clasificación  Ventas_normalizado
0  Manzanas      50    0.50     25.0          Alta                0.75
1  Naranjas      30    0.75     22.5          Baja                0.25
2   Bananas      20    0.30      6.0          Baja                0.00
3  Manzanas      60    0.55     33.0          Alta                1.00
4  Naranjas      40    0.80     32.0          Baja                0.50
5   Bananas      30    0.35     10.5          Baja                0.25
