<a href="https://colab.research.google.com/github/Victorvv1/Curso-de-Analisis-de-Datos-/blob/main/Concatenacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Combinando datasets: concat y append

In [None]:
import pandas as pd
import numpy as np

In [None]:
def make_df(cols, ind):
  """Quickly make a DataFrame"""
  data = {c: [str(c) + str(i) for i in ind]
          for c in cols}
  return pd.DataFrame(data, ind)

In [None]:
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [None]:
class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args

    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)

    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

## Recordando la concatenación de los Arrays de Numpy

In [None]:
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
x = [[1, 2],
     [3, 4]]
np.concatenate([x, x], axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

In [None]:
np.concatenate([x, x], axis=0)

array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])

## Concatenación simple con pd.concat

```python
# Signature in Pandas v1.3.5
pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None,
          levels=None, names=None, verify_integrity=False,
          sort=False, copy=True)
```

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

Unnamed: 0,0
1,A
2,B
3,C
4,D
5,E
6,F


In [None]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
display('df1', 'df2', 'pd.concat([df1, df2])')

Unnamed: 0,A,B
1,A1,B1
2,A2,B2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [None]:
pd.concat([df1, df2])

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [None]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0,1])
display('df3', 'df4', "pd.concat([df3, df4], axis='columns')")

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,C,D
0,C0,D0
1,C1,D1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


In [None]:
pd.concat([df3, df4], axis=1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


## Índices Duplicados

In [None]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index # match de índices
display('x', 'y', 'pd.concat([x, y])')

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


In [None]:
try:
  pd.concat([x, y], verify_integrity=True)
except ValueError as e:
  print("ValueError:", e)

ValueError: Indexes have overlapping values: Index([0, 1], dtype='int64')


## Ignorando el índice

In [None]:
display('x', 'y', 'pd.concat([x, y], ignore_index=True)')

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


## Añadiendo MultiIndex

In [None]:
display('x', 'y', "pd.concat([x, y], keys=['x', 'y'])")

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3

Unnamed: 0,Unnamed: 1,A,B
x,0,A0,B0
x,1,A1,B1
y,0,A2,B2
y,1,A3,B3


## Concatenación con Joins

In [None]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
display('df5', 'df6', 'pd.concat([df5, df6])')

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


In [None]:
pd.concat([df5, df6], join='outer')

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


In [None]:
display('df5', 'df6', "pd.concat([df5, df6], join='inner')")

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


## El Método append
En las versiones más recientes de Pandas (a partir de la versión 2.0.0, lanzada en abril de 2023), el método append() ha sido completamente eliminado.



In [None]:
display('df1', 'df2', 'df1.append(df2)')

AttributeError: 'DataFrame' object has no attribute 'append'

AttributeError: 'DataFrame' object has no attribute 'append'

## Ejercicios

In [None]:
import pandas as pd
import numpy as np

# 1.1 Crea dos Series:
# - ser1 con valores ['A', 'B', 'C'] e índices [1, 2, 3]
# - ser2 con valores ['D', 'E', 'F'] e índices [4, 5, 6]
# Tu código aquí

# 1.2 Concatena las dos Series verticalmente (por defecto)
# Tu código aquí

# 1.3 Crea dos DataFrames:
# - df1 con columnas 'nombre' y 'edad', y dos filas con datos:
#   ('Ana', 25) y ('Carlos', 30)
# - df2 con las mismas columnas y dos filas:
#   ('Elena', 35) y ('David', 28)
# Tu código aquí

# 1.4 Concatena los dos DataFrames verticalmente
# Tu código aquí

# 1.5 Crea dos DataFrames más:
# - df3 con columnas 'nombre' y 'ciudad', y datos:
#   ('Ana', 'Madrid') y ('Carlos', 'Barcelona')
# - df4 con columnas 'nombre' y 'profesión', y datos:
#   ('Ana', 'Ingeniera') y ('Carlos', 'Médico')
# Tu código aquí

# 1.6 Concatena df3 y df4 horizontalmente (por columnas)
# Tu código aquí

# 1.7 Verifica qué ocurre si concatenas DataFrames con índices duplicados
# Crea df5 idéntico a df1 pero estableciendo sus índices a [0, 1]
# Crea df6 idéntico a df2 pero estableciendo sus índices a [0, 1]
# Concatena df5 y df6 verticalmente
# Tu código aquí

# 1.8 Utiliza el parámetro verify_integrity=True al concatenar df5 y df6
# y maneja el error que se produce
# Tu código aquí

# 1.9 Concatena df5 y df6 ignorando los índices (usando ignore_index=True)
# Tu código aquí

# 1.10 Concatena df5 y df6 añadiendo una clave para identificar el origen de cada fila
# (usando el parámetro keys=['primero', 'segundo'])
# Tu código aquí

In [None]:
# 2.1 Crea los siguientes DataFrames:
# - df_ventas_q1: columnas 'producto', 'unidades', 'ingresos' con 3 productos distintos
# - df_ventas_q2: mismas columnas que df_ventas_q1 con 3 productos (algunos repetidos de Q1)
# - df_costos_q1: columnas 'producto', 'costos', 'proveedor' con los mismos productos que df_ventas_q1
# Tu código aquí

# 2.2 Concatena df_ventas_q1 y df_ventas_q2 verticalmente
# para obtener los datos de ventas de ambos trimestres
# Tu código aquí

# 2.3 Concatena df_ventas_q1 y df_costos_q1 horizontalmente
# ¿Qué ocurre con las columnas? ¿Se conservan todas?
# Tu código aquí

# 2.4 Ahora realiza la misma concatenación pero solo manteniendo
# las columnas comunes (usando join='inner')
# Tu código aquí

# 2.5 Crea un nuevo DataFrame df_q3 con datos de un tercer trimestre
# pero con una columna adicional 'descuento' y sin la columna 'ingresos'
# Tu código aquí

# 2.6 Concatena df_ventas_q1, df_ventas_q2 y df_q3 verticalmente.
# ¿Qué valores se generan para las columnas que faltan?
# Tu código aquí

# 2.7 Concatena df_ventas_q1 y df_costos_q1, pero antes reindexando
# df_costos_q1 para que tenga las mismas columnas que df_ventas_q1
# (usa el método reindex)
# Tu código aquí

# 2.8 Concatena verticalmente df_ventas_q1 y df_ventas_q2,
# pero añade un nivel de índice para identificar el trimestre
# Tu código aquí

# 2.9 Concatena horizontalmente df_ventas_q1 y df_costos_q1,
# pero añadiendo un nivel de columna para identificar si los datos
# son de 'ventas' o 'costos'
# Tu código aquí

In [None]:
import pandas as pd
import numpy as np

# 1.1 Crea dos Series
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
print("Series 1:")
print(ser1)
print("\nSeries 2:")
print(ser2)

# 1.2 Concatena las dos Series verticalmente
ser_concat = pd.concat([ser1, ser2])
print("\nSeries concatenadas:")
print(ser_concat)

# 1.3 Crea dos DataFrames
df1 = pd.DataFrame({
    'nombre': ['Ana', 'Carlos'],
    'edad': [25, 30]
})
df2 = pd.DataFrame({
    'nombre': ['Elena', 'David'],
    'edad': [35, 28]
})
print("\nDataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

# 1.4 Concatena los dos DataFrames verticalmente
df_concat = pd.concat([df1, df2])
print("\nDataFrames concatenados verticalmente:")
print(df_concat)

# 1.5 Crea dos DataFrames más
df3 = pd.DataFrame({
    'nombre': ['Ana', 'Carlos'],
    'ciudad': ['Madrid', 'Barcelona']
})
df4 = pd.DataFrame({
    'nombre': ['Ana', 'Carlos'],
    'profesión': ['Ingeniera', 'Médico']
})
print("\nDataFrame 3:")
print(df3)
print("\nDataFrame 4:")
print(df4)

# 1.6 Concatena df3 y df4 horizontalmente
df_h_concat = pd.concat([df3, df4], axis='columns')
print("\nDataFrames concatenados horizontalmente:")
print(df_h_concat)

# 1.7 Verifica qué ocurre con índices duplicados
df5 = pd.DataFrame({
    'nombre': ['Ana', 'Carlos'],
    'edad': [25, 30]
}, index=[0, 1])
df6 = pd.DataFrame({
    'nombre': ['Elena', 'David'],
    'edad': [35, 28]
}, index=[0, 1])
df_concat_dup = pd.concat([df5, df6])
print("\nConcatenación con índices duplicados:")
print(df_concat_dup)

# 1.8 Utiliza verify_integrity
try:
    pd.concat([df5, df6], verify_integrity=True)
except ValueError as e:
    print("\nError al verificar integridad de índices:")
    print(e)

# 1.9 Ignora los índices
df_concat_ignore = pd.concat([df5, df6], ignore_index=True)
print("\nConcatenación ignorando índices:")
print(df_concat_ignore)

# 1.10 Añade claves para identificar origen
df_concat_keys = pd.concat([df5, df6], keys=['primero', 'segundo'])
print("\nConcatenación con claves:")
print(df_concat_keys)

Series 1:
1    A
2    B
3    C
dtype: object

Series 2:
4    D
5    E
6    F
dtype: object

Series concatenadas:
1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

DataFrame 1:
   nombre  edad
0     Ana    25
1  Carlos    30

DataFrame 2:
  nombre  edad
0  Elena    35
1  David    28

DataFrames concatenados verticalmente:
   nombre  edad
0     Ana    25
1  Carlos    30
0   Elena    35
1   David    28

DataFrame 3:
   nombre     ciudad
0     Ana     Madrid
1  Carlos  Barcelona

DataFrame 4:
   nombre  profesión
0     Ana  Ingeniera
1  Carlos     Médico

DataFrames concatenados horizontalmente:
   nombre     ciudad  nombre  profesión
0     Ana     Madrid     Ana  Ingeniera
1  Carlos  Barcelona  Carlos     Médico

Concatenación con índices duplicados:
   nombre  edad
0     Ana    25
1  Carlos    30
0   Elena    35
1   David    28

Error al verificar integridad de índices:
Indexes have overlapping values: Index([0, 1], dtype='int64')

Concatenación ignorando índices:
   nombre  edad


In [None]:
# 2.1 Crea los DataFrames
df_ventas_q1 = pd.DataFrame({
    'producto': ['Laptop', 'Teléfono', 'Tablet'],
    'unidades': [50, 100, 30],
    'ingresos': [25000, 30000, 9000]
})

df_ventas_q2 = pd.DataFrame({
    'producto': ['Laptop', 'Teléfono', 'Monitor'],
    'unidades': [45, 110, 60],
    'ingresos': [22500, 33000, 12000]
})

df_costos_q1 = pd.DataFrame({
    'producto': ['Laptop', 'Teléfono', 'Tablet'],
    'costos': [15000, 18000, 5400],
    'proveedor': ['TechCorp', 'MobileCo', 'TabletInc']
})

print("Ventas Q1:")
print(df_ventas_q1)
print("\nVentas Q2:")
print(df_ventas_q2)
print("\nCostos Q1:")
print(df_costos_q1)

# 2.2 Concatena datos de ventas de ambos trimestres
ventas_semestre = pd.concat([df_ventas_q1, df_ventas_q2])
print("\nVentas del semestre:")
print(ventas_semestre)

# 2.3 Concatena ventas y costos horizontalmente
ventas_costos = pd.concat([df_ventas_q1, df_costos_q1], axis='columns')
print("\nVentas y costos (todas las columnas):")
print(ventas_costos)

# 2.4 Concatena manteniendo solo columnas comunes
ventas_costos_inner = pd.concat([df_ventas_q1, df_costos_q1], axis='columns', join='inner')
print("\nVentas y costos (solo columnas comunes):")
print(ventas_costos_inner)

# 2.5 Crea DataFrame para Q3
df_q3 = pd.DataFrame({
    'producto': ['Laptop', 'Tablet', 'Auriculares'],
    'unidades': [55, 35, 80],
    'descuento': [0.1, 0.05, 0.15]
})
print("\nVentas Q3:")
print(df_q3)

# 2.6 Concatena los tres trimestres
ventas_tres_trimestres = pd.concat([df_ventas_q1, df_ventas_q2, df_q3])
print("\nVentas de tres trimestres:")
print(ventas_tres_trimestres)

# 2.7 Reindexar y concatenar
costos_reindexado = df_costos_q1.reindex(columns=df_ventas_q1.columns)
ventas_costos_reindexado = pd.concat([df_ventas_q1, costos_reindexado])
print("\nVentas y costos con reindexación:")
print(ventas_costos_reindexado)

# 2.8 Concatena con identificador de trimestre
ventas_con_trimestre = pd.concat([df_ventas_q1, df_ventas_q2], keys=['Q1', 'Q2'])
print("\nVentas con identificador de trimestre:")
print(ventas_con_trimestre)

# 2.9 Concatena horizontalmente con nivel de columna
ventas_costos_identificados = pd.concat(
    [df_ventas_q1, df_costos_q1],
    axis='columns',
    keys=['ventas', 'costos']
)
print("\nVentas y costos con identificador en columnas:")
print(ventas_costos_identificados)

Ventas Q1:
   producto  unidades  ingresos
0    Laptop        50     25000
1  Teléfono       100     30000
2    Tablet        30      9000

Ventas Q2:
   producto  unidades  ingresos
0    Laptop        45     22500
1  Teléfono       110     33000
2   Monitor        60     12000

Costos Q1:
   producto  costos  proveedor
0    Laptop   15000   TechCorp
1  Teléfono   18000   MobileCo
2    Tablet    5400  TabletInc

Ventas del semestre:
   producto  unidades  ingresos
0    Laptop        50     25000
1  Teléfono       100     30000
2    Tablet        30      9000
0    Laptop        45     22500
1  Teléfono       110     33000
2   Monitor        60     12000

Ventas y costos (todas las columnas):
   producto  unidades  ingresos  producto  costos  proveedor
0    Laptop        50     25000    Laptop   15000   TechCorp
1  Teléfono       100     30000  Teléfono   18000   MobileCo
2    Tablet        30      9000    Tablet    5400  TabletInc

Ventas y costos (solo columnas comunes):
   producto  u