# Librería Pandas  


### __Definir un DataFrame__  

In [1]:
import pandas as pd

# Definimos el DataFrame
data = {
    'Producto': ['A', 'B', 'C', 'D', 'E', 'F', 'G'],
    'Ventas': [100, 150, 200, 130, 150, 200, 130],
    'Descuento': [5, 10, 0, 20, 10, 0, 20],
    'Fecha': ['2024-08-01', '2024-08-02', '2024-08-03', '2024-08-04', '2024-08-02', '2024-08-03', '2024-08-04']
}

df = pd.DataFrame(data)
df


Unnamed: 0,Producto,Ventas,Descuento,Fecha
0,A,100,5,2024-08-01
1,B,150,10,2024-08-02
2,C,200,0,2024-08-03
3,D,130,20,2024-08-04
4,E,150,10,2024-08-02
5,F,200,0,2024-08-03
6,G,130,20,2024-08-04


### __Métodos más utilizados y útiles en pandas__  

In [2]:
# 1. head()
# Descripción: Muestra las primeras filas del DataFrame. Por defecto, muestra las primeras 5 filas.

df.head(3)

Unnamed: 0,Producto,Ventas,Descuento,Fecha
0,A,100,5,2024-08-01
1,B,150,10,2024-08-02
2,C,200,0,2024-08-03


In [3]:
# 2. info()
# Descripción: Proporciona un resumen del DataFrame, incluyendo el número de entradas, 
# columnas, tipos de datos, y valores nulos.

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Producto   7 non-null      object
 1   Ventas     7 non-null      int64 
 2   Descuento  7 non-null      int64 
 3   Fecha      7 non-null      object
dtypes: int64(2), object(2)
memory usage: 356.0+ bytes


In [4]:
# 3. describe()
# Descripción: Genera estadísticas descriptivas como conteo, media, 
# desviación estándar, mínimo y percentiles.

df.describe()

Unnamed: 0,Ventas,Descuento
count,7.0,7.0
mean,151.428571,9.285714
std,37.161168,8.380817
min,100.0,0.0
25%,130.0,2.5
50%,150.0,10.0
75%,175.0,15.0
max,200.0,20.0


In [5]:
# 4. loc[]
# Descripción: Accede a un grupo de filas y columnas por etiquetas o una condición booleana.

df.loc[df['Ventas'] >= 150]

Unnamed: 0,Producto,Ventas,Descuento,Fecha
1,B,150,10,2024-08-02
2,C,200,0,2024-08-03
4,E,150,10,2024-08-02
5,F,200,0,2024-08-03


In [6]:
# 5. iloc[]
# Descripción: Accede a un grupo de filas y columnas por índices de posición.

df.iloc[1:3]

Unnamed: 0,Producto,Ventas,Descuento,Fecha
1,B,150,10,2024-08-02
2,C,200,0,2024-08-03


In [7]:
# 6. groupby()
# Descripción: Agrupa el DataFrame utilizando una o más claves, y luego se pueden 
# aplicar funciones de agregación.

df.groupby('Producto')['Ventas'].sum()

Producto
A    100
B    150
C    200
D    130
E    150
F    200
G    130
Name: Ventas, dtype: int64

In [8]:
# 7. merge()
# Descripción: Combina dos DataFrames en uno, utilizando una clave común.
# Creamos otro DataFrame
data2 = {
    'Producto': ['A', 'B', 'C', 'D'],
    'Categoria': ['Electrónica', 'Juguetes', 'Electrónica', 'Ropa']
}
df2 = pd.DataFrame(data2)

# Combinamos los DataFrames
df_merged = pd.merge(df, df2, on='Producto')
df_merged

Unnamed: 0,Producto,Ventas,Descuento,Fecha,Categoria
0,A,100,5,2024-08-01,Electrónica
1,B,150,10,2024-08-02,Juguetes
2,C,200,0,2024-08-03,Electrónica
3,D,130,20,2024-08-04,Ropa


In [9]:
df_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Producto   4 non-null      object
 1   Ventas     4 non-null      int64 
 2   Descuento  4 non-null      int64 
 3   Fecha      4 non-null      object
 4   Categoria  4 non-null      object
dtypes: int64(2), object(3)
memory usage: 292.0+ bytes


In [10]:
df_merged.to_excel('data/datos_merged.xlsx', index=False)

In [11]:
df.to_excel('data/datos1.xlsx', index=False, header=False)