Durante el proceso de análisis y modelado de datos, se dedica una cantidad significativa de tiempo a la preparación de los datos: **cargarlos, limpiarlos, transformarlos y reorganizarlos**. Estas tareas ocupan el 80% o más del tiempo de un analista, dado que a veces la forma en que se almacenan los datos en archivos o bases de datos no tiene el formato adecuado para una tarea en particular. 

Pandas, junto con las funciones integradas del lenguaje Python, proporciona un conjunto de herramientas rápidas, flexible y de alto nivel permiten manipular datos en la forma correcta.

# Manejando datos perdidos

La falta de datos es algo habitual en muchas aplicaciones de análisis de datos. 

Uno de los objetivos de Pandas es hacer que trabajar con datos faltantes sea lo menos complicado posible. Por ejemplo, todas las estadísticas descriptivas de los objetos de Pandas excluyen los datos faltantes de forma predeterminada.

In [1]:
import pandas as pd

In [2]:
ejemplo = pd.read_csv('Store_CAed.txt',sep=',') #anadimos la extension archivo
ejemplo

Unnamed: 0,ProductVariety,MarketingSpend,CustomerFootfall,StoreSize,EmployeeEfficiency,StoreAge,CompetitorDistance,PromotionsCount,EconomicIndicator,StoreLocation,StoreCategory,MonthlySalesRevenue
0,581.0,29,1723.0,186.0,84.9,1.0,12.0,6,108.3,Los Angeles,Electronics,284.90
1,382.0,31,1218.0,427.0,75.8,18.0,11.0,6,97.8,Los Angeles,Electronics,308.21
2,449.0,35,2654.0,,92.8,14.0,11.0,6,101.1,Los Angeles,Grocery,292.11
3,666.0,9,2591.0,159.0,66.3,11.0,11.0,4,115.1,Sacramento,Clothing,279.61
4,657.0,35,2151.0,275.0,89.1,28.0,12.0,7,,Palo Alto,Electronics,359.71
...,...,...,...,...,...,...,...,...,...,...,...,...
1645,295.0,15,2681.0,235.0,58.5,15.0,10.0,5,88.7,Sacramento,Clothing,273.55
1646,761.0,8,1398.0,456.0,78.5,26.0,14.0,4,95.1,San Francisco,Clothing,432.82
1647,405.0,21,1490.0,465.0,76.7,18.0,12.0,5,73.0,Los Angeles,Clothing,303.52
1648,359.0,41,2042.0,350.0,67.6,2.0,6.0,7,105.0,Palo Alto,Clothing,241.39


In [11]:
ejemplo.isnull() #Cual sera el resultado?

Unnamed: 0,ProductVariety,MarketingSpend,CustomerFootfall,StoreSize,EmployeeEfficiency,StoreAge,CompetitorDistance,PromotionsCount,EconomicIndicator,StoreLocation,StoreCategory,MonthlySalesRevenue
0,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,True,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,True,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
1645,False,False,False,False,False,False,False,False,False,False,False,False
1646,False,False,False,False,False,False,False,False,False,False,False,False
1647,False,False,False,False,False,False,False,False,False,False,False,False
1648,False,False,False,False,False,False,False,False,False,False,False,False


In [9]:
#Buscamos si tenemos datos NAN a lo largo de todo el dataset
ejemplo.isnull().sum()

ProductVariety         1
MarketingSpend         0
CustomerFootfall       2
StoreSize              2
EmployeeEfficiency     1
StoreAge               1
CompetitorDistance     1
PromotionsCount        0
EconomicIndicator      2
StoreLocation          0
StoreCategory          0
MonthlySalesRevenue    1
dtype: int64

In [3]:
#Cual es la diferencia entre NAN y NA?
ejemplo.dropna()#??

Unnamed: 0,ProductVariety,MarketingSpend,CustomerFootfall,StoreSize,EmployeeEfficiency,StoreAge,CompetitorDistance,PromotionsCount,EconomicIndicator,StoreLocation,StoreCategory,MonthlySalesRevenue
0,581.0,29,1723.0,186.0,84.9,1.0,12.0,6,108.3,Los Angeles,Electronics,284.90
1,382.0,31,1218.0,427.0,75.8,18.0,11.0,6,97.8,Los Angeles,Electronics,308.21
3,666.0,9,2591.0,159.0,66.3,11.0,11.0,4,115.1,Sacramento,Clothing,279.61
5,182.0,43,1789.0,312.0,88.8,13.0,8.0,8,70.4,Palo Alto,Electronics,258.21
6,341.0,29,1868.0,400.0,65.2,8.0,12.0,6,99.3,San Francisco,Electronics,240.30
...,...,...,...,...,...,...,...,...,...,...,...,...
1645,295.0,15,2681.0,235.0,58.5,15.0,10.0,5,88.7,Sacramento,Clothing,273.55
1646,761.0,8,1398.0,456.0,78.5,26.0,14.0,4,95.1,San Francisco,Clothing,432.82
1647,405.0,21,1490.0,465.0,76.7,18.0,12.0,5,73.0,Los Angeles,Clothing,303.52
1648,359.0,41,2042.0,350.0,67.6,2.0,6.0,7,105.0,Palo Alto,Clothing,241.39


**NA = Not available**

En las aplicaciones estadísticas, los datos de NA pueden ser datos que no existen o que existen pero no se observaron (debido a problemas con la recopilación de datos, por ejemplo). Al limpiar los datos para el análisis, a menudo es importante realizar un análisis de los datos faltantes para identificar problemas de recopilación de datos o posibles sesgos en los datos causados **por la falta de datos.**


In [5]:
ejemplo.dropna()

Unnamed: 0,ProductVariety,MarketingSpend,CustomerFootfall,StoreSize,EmployeeEfficiency,StoreAge,CompetitorDistance,PromotionsCount,EconomicIndicator,StoreLocation,StoreCategory,MonthlySalesRevenue
0,581.0,29,1723.0,186.0,84.9,1.0,12.0,6,108.3,Los Angeles,Electronics,284.90
1,382.0,31,1218.0,427.0,75.8,18.0,11.0,6,97.8,Los Angeles,Electronics,308.21
3,666.0,9,2591.0,159.0,66.3,11.0,11.0,4,115.1,Sacramento,Clothing,279.61
5,182.0,43,1789.0,312.0,88.8,13.0,8.0,8,70.4,Palo Alto,Electronics,258.21
6,341.0,29,1868.0,400.0,65.2,8.0,12.0,6,99.3,San Francisco,Electronics,240.30
...,...,...,...,...,...,...,...,...,...,...,...,...
1645,295.0,15,2681.0,235.0,58.5,15.0,10.0,5,88.7,Sacramento,Clothing,273.55
1646,761.0,8,1398.0,456.0,78.5,26.0,14.0,4,95.1,San Francisco,Clothing,432.82
1647,405.0,21,1490.0,465.0,76.7,18.0,12.0,5,73.0,Los Angeles,Clothing,303.52
1648,359.0,41,2042.0,350.0,67.6,2.0,6.0,7,105.0,Palo Alto,Clothing,241.39


In [4]:
print(len(ejemplo)-len(ejemplo.dropna()))

11


In [6]:
ejemplo = ejemplo.dropna()
len(ejemplo)

1639

![ManejarNA.png](attachment:ManejarNA.png)

In [7]:
#Que pasa en el siguiente caso?
import numpy as np

data = pd.DataFrame([
    [1.0, 6.5, 5,np.nan],
    [1.0, np.nan, np.nan],
    [np.nan, np.nan, np.nan],
    [np.nan, 6.5, 2,np.nan],
    [3,6,7,np.nan]])
data

Unnamed: 0,0,1,2,3
0,1.0,6.5,5.0,
1,1.0,,,
2,,,,
3,,6.5,2.0,
4,3.0,6.0,7.0,


In [8]:
cleaned = data.dropna()
cleaned

Unnamed: 0,0,1,2,3


In [33]:
data.dropna(how = 'all') #axis sin especificar por defecto es?

Unnamed: 0,0,1,2,3
0,1.0,6.5,5.0,
1,1.0,,,
3,,6.5,2.0,
4,3.0,6.0,7.0,


In [9]:
data

Unnamed: 0,0,1,2,3
0,1.0,6.5,5.0,
1,1.0,,,
2,,,,
3,,6.5,2.0,
4,3.0,6.0,7.0,


In [10]:
data.dropna(axis = 1, how = 'all')

Unnamed: 0,0,1,2
0,1.0,6.5,5.0
1,1.0,,
2,,,
3,,6.5,2.0
4,3.0,6.0,7.0


# Llenado datos perdidos

En lugar de filtrar los datos faltantes (y posiblemente descartar otros datos junto con ellos), es posible que se desee rellenar los “vacíos” de varias maneras. 

Para la mayoría de los propósitos, el método **fillna** es la función ideal para usar.

In [11]:
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[1:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df

Unnamed: 0,0,1,2
0,0.091187,-1.323761,
1,0.921614,,
2,-0.903302,,0.772081
3,-0.647301,,-1.162439
4,-1.841524,2.082399,0.646546
5,-1.459472,-1.511333,0.514235
6,1.201264,-1.459481,1.27023


In [12]:
df.fillna(900) #Objeto memoria temporal

Unnamed: 0,0,1,2
0,0.091187,-1.323761,900.0
1,0.921614,900.0,900.0
2,-0.903302,900.0,0.772081
3,-0.647301,900.0,-1.162439
4,-1.841524,2.082399,0.646546
5,-1.459472,-1.511333,0.514235
6,1.201264,-1.459481,1.27023


In [14]:
df

Unnamed: 0,0,1,2
0,0.091187,-1.323761,
1,0.921614,,
2,-0.903302,,0.772081
3,-0.647301,,-1.162439
4,-1.841524,2.082399,0.646546
5,-1.459472,-1.511333,0.514235
6,1.201264,-1.459481,1.27023


In [13]:
df.ffill() #Propagamos el ultimo valor observado

Unnamed: 0,0,1,2
0,0.091187,-1.323761,
1,0.921614,-1.323761,
2,-0.903302,-1.323761,0.772081
3,-0.647301,-1.323761,-1.162439
4,-1.841524,2.082399,0.646546
5,-1.459472,-1.511333,0.514235
6,1.201264,-1.459481,1.27023


In [15]:
df.mean()

0   -0.376791
1   -0.553044
2    0.408131
dtype: float64

In [16]:
df

Unnamed: 0,0,1,2
0,0.091187,-1.323761,
1,0.921614,,
2,-0.903302,,0.772081
3,-0.647301,,-1.162439
4,-1.841524,2.082399,0.646546
5,-1.459472,-1.511333,0.514235
6,1.201264,-1.459481,1.27023


In [17]:
#Tambien podemos llenar los datos perdidos con valores estadisticos.
df.fillna(df.mean())

Unnamed: 0,0,1,2
0,0.091187,-1.323761,0.408131
1,0.921614,-0.553044,0.408131
2,-0.903302,-0.553044,0.772081
3,-0.647301,-0.553044,-1.162439
4,-1.841524,2.082399,0.646546
5,-1.459472,-1.511333,0.514235
6,1.201264,-1.459481,1.27023


In [None]:
df = df.fillna(df.mean())

In [19]:
df.fillna(900, inplace = True) #Objeto memoria temporal es asignado al mismo dataframe

In [20]:
df

Unnamed: 0,0,1,2
0,0.091187,-1.323761,900.0
1,0.921614,900.0,900.0
2,-0.903302,900.0,0.772081
3,-0.647301,900.0,-1.162439
4,-1.841524,2.082399,0.646546
5,-1.459472,-1.511333,0.514235
6,1.201264,-1.459481,1.27023


# Detectando y filtrando Outliers

In [23]:
#Filtrar datos con base algun criterio por columna:
datos_filtrados = df[df[0]>=0] #En la condicion se puede adicionar cuantas condiciones de filtrado se deseen
datos_filtrados

Unnamed: 0,0,1,2
0,0.091187,-1.323761,900.0
1,0.921614,900.0,900.0
6,1.201264,-1.459481,1.27023


In [30]:
#Que pasa si: ??
for x in range(0,4):
    print(datos_filtrados[0][x])

0.09118734130794501
0.9216139086630374


KeyError: 2

In [26]:
datos_filtrados.index

Int64Index([0, 1, 6], dtype='int64')

In [31]:
datos_filtrados.reset_index(inplace = True)

In [36]:
datos_filtrados.index

RangeIndex(start=0, stop=3, step=1)

In [35]:
#Que pasa si: ??
for x in range(0,3):
    print(datos_filtrados[0][x])

0.09118734130794501
0.9216139086630374
1.201263736473501


In [37]:
datos_filtrados

Unnamed: 0,index,0,1,2
0,0,0.091187,-1.323761,900.0
1,1,0.921614,900.0,900.0
2,6,1.201264,-1.459481,1.27023


In [38]:
#Forma correcta:
datos_filtrados = df[df[0]>=0] #En la condicion se puede adicionar cuantas condiciones de filtrado se deseen
datos_filtrados.reset_index(drop= True,inplace = True)
datos_filtrados

Unnamed: 0,0,1,2
0,0.091187,-1.323761,900.0
1,0.921614,900.0,900.0
2,1.201264,-1.459481,1.27023


In [39]:
#El filtrado o la transformación de valores atípicos es en gran medida una cuestión de aplicar operaciones de matriz.
dataALEATORIA = pd.DataFrame(np.random.randn(100, 4))
dataALEATORIA.describe()

Unnamed: 0,0,1,2,3
count,100.0,100.0,100.0,100.0
mean,0.133679,0.01134,0.064974,0.122054
std,1.045465,0.97969,0.97367,0.988513
min,-2.131569,-2.777015,-2.51387,-1.959115
25%,-0.53395,-0.638171,-0.405507,-0.537372
50%,0.132996,-0.004889,0.102798,0.018251
75%,0.668147,0.691014,0.580031,0.654263
max,3.372007,2.322827,2.455821,3.773865


In [40]:
# Supongamos que queremos encontrar los valores en una columna que sean mayores abs(2)
#1. Extraemos la columna sobre la que deseamos hacer la busqueda
aux = dataALEATORIA[1]
#2. Teniendo la variable auxiliar con los datos aplicamos condicion
aux[np.abs(aux)>2]

1    -2.777015
42    2.023994
50    2.322827
99   -2.747428
Name: 1, dtype: float64

In [45]:
#En su salida podemos conocer los indices y los valores que cumplen con la condicion

#En caso que deseemos aplicar la condiciones a todos los elementos del dataframe que estan junto a los que cumplen la condicion
dataALEATORIA[(np.abs(dataALEATORIA)>2).any(1)]

  dataALEATORIA[(np.abs(dataALEATORIA)>2).any(1)]


Unnamed: 0,0,1,2,3
1,-0.84393,-2.777015,0.544476,0.369735
9,-0.531536,0.331501,-2.51387,0.015475
22,-0.058052,-0.884287,2.305432,0.674359
33,2.13743,-0.804002,0.062357,-0.675881
34,-1.81123,-1.025989,-2.068049,-0.506244
40,2.420116,-0.139647,0.869926,-0.673764
42,0.046622,2.023994,1.688133,-0.121204
50,1.36395,2.322827,0.437078,0.617384
60,0.471815,-0.793594,1.103076,2.826106
63,-2.045779,-0.951667,-1.139443,3.773865


In [42]:
#En caso de querer seleccionar un subset aleatorio sin permitir repeticiones
dataALEATORIA.sample(n=25)

Unnamed: 0,0,1,2,3
37,-0.900331,1.420261,0.178478,0.324969
59,0.589656,0.599747,-1.114639,0.476457
84,-0.432971,0.474713,0.58747,1.981569
1,-0.84393,-2.777015,0.544476,0.369735
73,0.019572,-0.430123,-0.726573,0.306681
65,-0.386181,0.786968,-0.65608,-0.392842
94,1.836231,-1.612184,0.457898,0.788203
92,-0.245486,-0.004285,-1.299858,0.589746
33,2.13743,-0.804002,0.062357,-0.675881
13,0.651448,0.871167,-0.51534,-0.177934


In [91]:
#En caso de querer seleccionar un subset aleatorio permitiendo repeticiones
dataALEATORIA.sample(n=25, replace = True)

Unnamed: 0,0,1,2,3
68,1.895442,0.262712,1.060779,0.201136
35,-0.360591,0.002274,-1.446712,-0.567316
36,-0.788694,1.013529,-0.486259,0.832555
86,-0.111801,2.181654,-1.668206,-0.185607
24,-0.312978,-1.600065,1.117035,-0.51777
16,-0.119507,-2.08193,0.091778,-1.0068
45,-1.471142,0.380855,-1.225193,0.110928
12,-0.303523,0.287192,-1.321326,-0.333466
7,-1.216556,-0.692529,-1.874344,-1.454775
87,-1.312606,0.098016,-0.646559,-0.93153


# Manipulación de datos: unir, combinar y remodelar

En muchas aplicaciones, los datos pueden estar distribuidos en varios archivos o bases de datos o estar organizados de una forma que no es fácil de analizar. Este acapite se centra en las herramientas que ayudan a combinar, unir y reorganizar los datos.

Los datos contenidos en los objetos pandas se pueden combinar de varias maneras:

**• pandas.merge** conecta filas en DataFrames en función de una o más claves. Esto resulta familiar para los usuarios de SQL u otras bases de datos relacionales, ya que implementa operaciones de unión de bases de datos.

**• pandas.concat** concatena o “apila” objetos a lo largo de un eje.

**• El método de instancia combine_first** permite unir datos superpuestos para completar los valores faltantes en un objeto con valores de otro.

In [46]:
#Tenemos dos dataframes
estudiantes = pd.DataFrame({
    'ID': [101, 102, 103, 104,105],
    'Nombre': ['Ana', 'Juan', 'Luis', 'María','Jose'],
    'Curso': ['Matemáticas', 'Ciencias', 'Historia', 'Matemáticas','Ciencias']
})
estudiantes

Unnamed: 0,ID,Nombre,Curso
0,101,Ana,Matemáticas
1,102,Juan,Ciencias
2,103,Luis,Historia
3,104,María,Matemáticas
4,105,Jose,Ciencias


In [47]:
# Segundo dataframe
calificaciones = pd.DataFrame({
    'ID': [101, 101, 102, 102,103],
    'Materia': ['Álgebra', 'Geometría', 'Física', 'Quimica','Historia Mundial'],
    'Calificación': [85, 90, 88, 65, 75]
})

calificaciones

Unnamed: 0,ID,Materia,Calificación
0,101,Álgebra,85
1,101,Geometría,90
2,102,Física,88
3,102,Quimica,65
4,103,Historia Mundial,75


In [48]:
pd.merge(estudiantes,calificaciones)

Unnamed: 0,ID,Nombre,Curso,Materia,Calificación
0,101,Ana,Matemáticas,Álgebra,85
1,101,Ana,Matemáticas,Geometría,90
2,102,Juan,Ciencias,Física,88
3,102,Juan,Ciencias,Quimica,65
4,103,Luis,Historia,Historia Mundial,75


In [51]:
pd.merge(estudiantes,calificaciones, on ="ID")

Unnamed: 0,ID,Nombre,Curso,Materia,Calificación
0,101,Ana,Matemáticas,Álgebra,85
1,101,Ana,Matemáticas,Geometría,90
2,102,Juan,Ciencias,Física,88
3,102,Juan,Ciencias,Quimica,65
4,103,Luis,Historia,Historia Mundial,75


Por defecto si no se especifica el parametro **how**, este esta configurado como how='inner', lo que conserva solo las filas que tienen coincidencias en ambos DataFrames.

In [53]:
pd.merge(estudiantes,calificaciones, on ="ID", how='outer')

Unnamed: 0,ID,Nombre,Curso,Materia,Calificación
0,101,Ana,Matemáticas,Álgebra,85.0
1,101,Ana,Matemáticas,Geometría,90.0
2,102,Juan,Ciencias,Física,88.0
3,102,Juan,Ciencias,Quimica,65.0
4,103,Luis,Historia,Historia Mundial,75.0
5,104,María,Matemáticas,,
6,105,Jose,Ciencias,,


**Tipos de joins:**

Si cambiamos el parámetro how, se puede modificar cómo se combinan los DataFrames:

**how='inner'**: Mantiene solo las filas con coincidencias en ambos DataFrames.

**how='outer'**: Mantiene todas las filas de ambos DataFrames, llenando con NaN donde no hay coincidencias.

**how='right'**: Mantiene todas las filas del DataFrame derecho

**how='left'**: Mantiene todas las filas del DataFrame izquierdo

In [111]:
#Forma de obtener mismo resultado???
pd.merge(estudiantes,calificaciones, on ="ID", how='outer')

Unnamed: 0,ID,Nombre,Curso,Materia,Calificación
0,101,Ana,Matemáticas,Álgebra,85.0
1,101,Ana,Matemáticas,Geometría,90.0
2,102,Juan,Ciencias,Física,88.0
3,102,Juan,Ciencias,Quimica,65.0
4,103,Luis,Historia,Historia Mundial,75.0
5,104,María,Matemáticas,,
6,105,Jose,Ciencias,,


In [54]:
#Tabmien podemos unir datasets usando varias claves
pd.merge(estudiantes,calificaciones,on = ['ID','Curso'])

KeyError: 'Curso'

In [55]:
#Usando otro ejemplo

# DataFrame de ventas
ventas = pd.DataFrame({
    'Tienda': ['A', 'A', 'B', 'C'],
    'Producto': ['Manzana', 'Plátano', 'Manzana', 'Fresa'],
    'Cantidad': [10, 8, 5, 12]
})

# DataFrame de precios
precios = pd.DataFrame({
    'Tienda': ['A', 'A', 'B', 'C'],
    'Producto': ['Manzana', 'Plátano', 'Manzana', 'Fresa'],
    'Precio': [2.5, 1.2, 2.8, 3.0]
})
ventas

Unnamed: 0,Tienda,Producto,Cantidad
0,A,Manzana,10
1,A,Plátano,8
2,B,Manzana,5
3,C,Fresa,12


In [56]:
precios

Unnamed: 0,Tienda,Producto,Precio
0,A,Manzana,2.5
1,A,Plátano,1.2
2,B,Manzana,2.8
3,C,Fresa,3.0


In [57]:
# Realizamos el merge utilizando dos claves: 'Tienda' y 'Producto'
resultado = pd.merge(ventas, precios, on=['Tienda', 'Producto'], how='inner')
resultado

Unnamed: 0,Tienda,Producto,Cantidad,Precio
0,A,Manzana,10,2.5
1,A,Plátano,8,1.2
2,B,Manzana,5,2.8
3,C,Fresa,12,3.0


In [58]:
# Para alcular el ingreso total por tienda y producto
resultado['Ingreso Total'] = resultado['Cantidad'] * resultado['Precio']

resultado

Unnamed: 0,Tienda,Producto,Cantidad,Precio,Ingreso Total
0,A,Manzana,10,2.5,25.0
1,A,Plátano,8,1.2,9.6
2,B,Manzana,5,2.8,14.0
3,C,Fresa,12,3.0,36.0


**Podemos unir dos dataset a lo largo del eje X**

In [139]:
pd.merge(ventas, precios, left_index=True, right_index=True)

Unnamed: 0,Tienda_x,Producto_x,Cantidad,Tienda_y,Producto_y,Precio
0,A,Manzana,10,A,Manzana,2.5
1,A,Plátano,8,A,Plátano,1.2
2,B,Manzana,5,B,Manzana,2.8
3,C,Fresa,12,C,Fresa,3.0


In [None]:
#Otro ejemplo

In [63]:
#Generamos dataframe sales
Sales = pd.DataFrame({
    'Ventas Totales': [150000, 200000, 180000]
}, index=['Tienda A', 'Tienda B', 'Tienda C'])

# Creamos DataFrame de Regiones
regiones = pd.DataFrame({
    'Región': ['Norte', 'Centro']
}, index=['Tienda A', 'Tienda C'])

In [64]:
Sales

Unnamed: 0,Ventas Totales
Tienda A,150000
Tienda B,200000
Tienda C,180000


In [65]:
regiones

Unnamed: 0,Región
Tienda A,Norte
Tienda C,Centro


In [66]:
# Realizar la unión por índices
resultado = pd.merge(Sales, regiones, left_index=True, right_index=True)

resultado

Unnamed: 0,Ventas Totales,Región
Tienda A,150000,Norte
Tienda C,180000,Centro


# Concatenando a lo largo de un eje

Usamos el metodo contact cuando deseamos unir dos dataset que no comparten palabras clave. Combina datasets apilándolos uno encima de otro (por filas) o uno al lado del otro (por columnas), basándose en la alineación de índices.

In [67]:
# DataFrame 1
ventas1 = pd.DataFrame({
    'ID_Tienda': [1, 2, 3],
    'Ventas Totales': [150000, 200000, 180000]
})

# DataFrame 2
regiones1 = pd.DataFrame({
    'ID_Tienda': [1, 2, 3],
    'Región': ['Norte', 'Sur', 'Centro']
})
ventas1

Unnamed: 0,ID_Tienda,Ventas Totales
0,1,150000
1,2,200000
2,3,180000


In [68]:
regiones1

Unnamed: 0,ID_Tienda,Región
0,1,Norte
1,2,Sur
2,3,Centro


In [69]:
#que pasa si ejecuto esta linea de codigo?
pd.merge(ventas1, regiones1, on='ID_Tienda', how='inner')

Unnamed: 0,ID_Tienda,Ventas Totales,Región
0,1,150000,Norte
1,2,200000,Sur
2,3,180000,Centro


In [70]:
#Usemos contact
pd.concat([ventas1, regiones1], axis=1)

Unnamed: 0,ID_Tienda,Ventas Totales,ID_Tienda.1,Región
0,1,150000,1,Norte
1,2,200000,2,Sur
2,3,180000,3,Centro


In [71]:
pd.concat([ventas1, regiones1], axis=0)

Unnamed: 0,ID_Tienda,Ventas Totales,Región
0,1,150000.0,
1,2,200000.0,
2,3,180000.0,
0,1,,Norte
1,2,,Sur
2,3,,Centro


In [72]:
ventas

Unnamed: 0,Tienda,Producto,Cantidad
0,A,Manzana,10
1,A,Plátano,8
2,B,Manzana,5
3,C,Fresa,12


In [73]:
regiones

Unnamed: 0,Región
Tienda A,Norte
Tienda C,Centro


In [74]:
#que pasara si?
pd.concat([ventas, regiones], axis=1)

Unnamed: 0,Tienda,Producto,Cantidad,Región
0,A,Manzana,10.0,
1,A,Plátano,8.0,
2,B,Manzana,5.0,
3,C,Fresa,12.0,
Tienda A,,,,Norte
Tienda C,,,,Centro


![mergeVSconcat.png](attachment:mergeVSconcat.png)

**Metodo combine_first**
Nos sirve para:

1. Rellenar datos faltantes (NaN):

2. Cuando tienes un DataFrame incompleto y deseas completarlo con valores de otro DataFrame o Series que tiene información complementaria.
3. Preservar datos existentes:
4. Si no quieres sobrescribir los datos ya presentes en el DataFrame original.

Operaciones de consolidación:

Combinar dos fuentes de datos donde una es más confiable o contiene información más reciente y usarla para llenar los huecos de la otra.


In [75]:
# DataFrame 1: Información incompleta
df1 = pd.DataFrame({
    'A': [1, np.nan, 3],
    'B': [4, np.nan, 6],
    'C': [7, 8, np.nan]
})

# DataFrame 2: Información complementaria
df2 = pd.DataFrame({
    'A': [np.nan, 2, np.nan],
    'B': [np.nan, 5, np.nan],
    'C': [np.nan, np.nan, 9]
})
df1

Unnamed: 0,A,B,C
0,1.0,4.0,7.0
1,,,8.0
2,3.0,6.0,


In [76]:
df2

Unnamed: 0,A,B,C
0,,,
1,2.0,5.0,
2,,,9.0


In [77]:
df1.combine_first(df2)

Unnamed: 0,A,B,C
0,1.0,4.0,7.0
1,2.0,5.0,8.0
2,3.0,6.0,9.0


**Comparación con otros métodos**

**fillna:**

Propósito: Solo llena los valores faltantes con un valor específico o los valores de una Serie/columna.
Diferencia: fillna no considera otra estructura completa (DataFrame o Series) como fuente para rellenar.

**combine_first:**
Más poderoso cuando estás trabajando con dos estructuras completas que necesitas combinar, no solo con un valor fijo o una Serie.

**merge o concat:**
Propósito: Fusionar o concatenar datasets.
Diferencia: Estos métodos son para combinar datasets por filas o columnas, mientras que combine_first está diseñado específicamente para rellenar datos faltantes de forma inteligente.

In [None]:
#Practiquemos lo aprendido