In [None]:
# 📊 Análisis de Datos Financieros con Pandas

Este notebook demuestra cómo trabajar con datos financieros utilizando **pandas** para leer, explorar y fusionar diferentes datasets de precios y valoraciones de acciones.

## 🎯 Objetivos
- Cargar y explorar datasets de Excel
- Analizar la estructura de los datos
- Realizar diferentes tipos de uniones (merge) entre datasets
- Comparar los resultados de diferentes estrategias de fusión

---

In [None]:
# Importar pandas para análisis de datos
import pandas as pd

# Configurar pandas para mostrar todas las columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

In [None]:
# Cargar el primer dataset: precios de acciones
df1 = pd.read_excel("stock price.xlsx")

# Cargar el segundo dataset: valoraciones de acciones
df2 = pd.read_excel("stock valuation.xlsx")

In [8]:
# Información general del dataset de precios
print("🏷️ INFORMACIÓN DEL DATASET DE PRECIOS:")
print("=" * 40)
df1.info()

print("\n" + "=" * 50 + "\n")

# Información general del dataset de valoraciones
print("🏷️ INFORMACIÓN DEL DATASET DE VALORACIONES:")
print("=" * 40)
df2.info()

Info 1:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id          10 non-null     int64  
 1   stock_name  10 non-null     object 
 2   value       10 non-null     float64
 3   price       10 non-null     int64  
dtypes: float64(1), int64(2), object(1)
memory usage: 452.0+ bytes
Info 2:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      10 non-null     int64  
 1   name    10 non-null     object 
 2   eps     10 non-null     float64
 3   bps     10 non-null     int64  
 4   per     10 non-null     float64
 5   pbr     10 non-null     float64
dtypes: float64(3), int64(2), object(1)
memory usage: 612.0+ bytes


### 👀 Vista Previa de los Datos

Echemos un vistazo a las primeras filas de cada dataset para entender su estructura.

In [11]:
# Vista previa del dataset de precios (primeras 5 filas)
print("📈 DATASET DE PRECIOS:")
print("=" * 30)
df1.head()

Unnamed: 0,id,stock_name,value,price
0,128940,Hanmi Pharmaceutical,59385.666667,421000
1,130960,CJ E&M,58540.666667,98900
2,138250,NS Shopping,14558.666667,13200
3,139480,E-mart,239230.833333,254500
4,142280,Green Cross Medical Science Corporation,468.833333,10200


In [10]:
# Vista previa del dataset de valoraciones (primeras 5 filas)
print("💰 DATASET DE VALORACIONES:")
print("=" * 35)
df2.head()

Unnamed: 0,id,name,eps,bps,per,pbr
0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,Harim Co.,274.166667,3551,11.489362,0.887074
2,138040,Meritz Financial Group,2122.333333,14894,6.313806,0.899691
3,139480,E-mart,18268.166667,295780,13.931338,0.860437
4,145990,Samyang,5741.0,108090,14.283226,0.758627


In [12]:
# Merge básico (inner join por defecto)
# Une los datasets manteniendo solo las filas con valores coincidentes en ambos
print("🔄 MERGE BÁSICO (INNER JOIN):")
print("=" * 40)
pd.merge(df1, df2)

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,E-mart,239230.833333,254500,E-mart,18268.166667,295780,13.931338,0.860437
2,145990,Samyang,82750.0,82000,Samyang,5741.0,108090,14.283226,0.758627
3,185750,Chong Kun Dang,40293.666667,100500,Chong Kun Dang,3990.333333,40684,25.185866,2.470259
4,204210,Mode Tour Reit,3093.333333,3475,Mode Tour Reit,85.166667,5335,40.802348,0.651359


### 🔧 Explorando la función merge()

Primero, exploremos la documentación de la función `pd.merge()` para entender todas sus opciones.

In [13]:
# Exploramos la documentación completa de pd.merge()
help(pd.merge)

Help on function merge in module pandas.core.reshape.merge:

merge(left: 'DataFrame | Series', right: 'DataFrame | Series', how: 'MergeHow' = 'inner', on: 'IndexLabel | AnyArrayLike | None' = None, left_on: 'IndexLabel | AnyArrayLike | None' = None, right_on: 'IndexLabel | AnyArrayLike | None' = None, left_index: 'bool' = False, right_index: 'bool' = False, sort: 'bool' = False, suffixes: 'Suffixes' = ('_x', '_y'), copy: 'bool | None' = None, indicator: 'str | bool' = False, validate: 'str | None' = None) -> 'DataFrame'
    Merge DataFrame or named Series objects with a database-style join.

    A named Series object is treated as a DataFrame with a single named column.

    The join is done on columns or indexes. If joining columns on
    columns, the DataFrame indexes *will be ignored*. Otherwise if joining indexes
    on indexes or indexes on a column or columns, the index will be passed on.
    When performing a cross merge, no column specifications to merge on are
    allowed.


 

### 🧪 Comparando Diferentes Tipos de Merge

A continuación comparamos los resultados de diferentes estrategias de unión:

- **LEFT JOIN**: Mantiene todas las filas del DataFrame izquierdo
- **INNER JOIN**: Solo las filas con coincidencias en ambos DataFrames
- **RIGHT JOIN**: Mantiene todas las filas del DataFrame derecho

In [14]:
# LEFT JOIN: Mantiene todas las filas del DataFrame izquierdo (df1)
# Las filas sin coincidencia en df2 tendrán valores NaN en las columnas de df2
print("⬅️ LEFT JOIN:")
print("=" * 20)
pd.merge(df1, df2, how="left")

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,Hanmi Pharmaceutical,59385.666667,421000,,,,,
1,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,NS Shopping,14558.666667,13200,,,,,
3,139480,E-mart,239230.833333,254500,E-mart,18268.166667,295780.0,13.931338,0.860437
4,142280,Green Cross Medical Science Corporation,468.833333,10200,,,,,
5,145990,Samyang,82750.0,82000,Samyang,5741.0,108090.0,14.283226,0.758627
6,185750,Chong Kun Dang,40293.666667,100500,Chong Kun Dang,3990.333333,40684.0,25.185866,2.470259
7,192400,Cuckoo Holdings,179204.666667,177500,,,,,
8,199800,Toolgen,-2514.333333,115400,,,,,
9,204210,Mode Tour Reit,3093.333333,3475,Mode Tour Reit,85.166667,5335.0,40.802348,0.651359


In [15]:
# INNER JOIN: Solo mantiene las filas con coincidencias en ambos DataFrames
# Es el tipo de merge por defecto
print("🔄 INNER JOIN:")
print("=" * 20)
pd.merge(df1, df2, how="inner")

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,E-mart,239230.833333,254500,E-mart,18268.166667,295780,13.931338,0.860437
2,145990,Samyang,82750.0,82000,Samyang,5741.0,108090,14.283226,0.758627
3,185750,Chong Kun Dang,40293.666667,100500,Chong Kun Dang,3990.333333,40684,25.185866,2.470259
4,204210,Mode Tour Reit,3093.333333,3475,Mode Tour Reit,85.166667,5335,40.802348,0.651359


In [17]:
# RIGHT JOIN: Mantiene todas las filas del DataFrame derecho (df2)
# Las filas sin coincidencia en df1 tendrán valores NaN en las columnas de df1
print("➡️ RIGHT JOIN:")
print("=" * 20)
pd.merge(df1, df2, how="right")

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,,,,Harim Co.,274.166667,3551,11.489362,0.887074
2,138040,,,,Meritz Financial Group,2122.333333,14894,6.313806,0.899691
3,139480,E-mart,239230.833333,254500.0,E-mart,18268.166667,295780,13.931338,0.860437
4,145990,Samyang,82750.0,82000.0,Samyang,5741.0,108090,14.283226,0.758627
5,161390,,,,Hankook Tire,5648.5,51341,7.453306,0.820007
6,181710,,,,NHN Entertainment,2110.166667,78434,30.755864,0.827447
7,185750,Chong Kun Dang,40293.666667,100500.0,Chong Kun Dang,3990.333333,40684,25.185866,2.470259
8,204210,Mode Tour Reit,3093.333333,3475.0,Mode Tour Reit,85.166667,5335,40.802348,0.651359
9,207940,,,,Samsung BioLogics,4644.166667,60099,89.790059,6.938551


## 🎯 Conclusiones

En este notebook hemos aprendido a:

1. **Cargar datos** desde archivos Excel usando `pd.read_excel()`
2. **Explorar datasets** con métodos como `.info()` y `.head()`
3. **Fusionar datasets** usando diferentes tipos de merge:
   - **Inner Join**: Solo registros coincidentes
   - **Left Join**: Todos los registros del dataset izquierdo
   - **Right Join**: Todos los registros del dataset derecho

### 💡 Próximos Pasos

- Explorar el **Outer Join** para mantener todos los registros de ambos datasets
- Analizar casos donde las columnas de unión tienen nombres diferentes
- Practicar con múltiples columnas de unión
- Explorar las opciones de sufijos para columnas duplicadas

---

**¡Felicidades!** Has completado tu primer análisis de fusión de datos financieros con pandas. 🎉