<a href="https://colab.research.google.com/github/yelsinhc2025/PROGRANACION-102/blob/main/07_manipulaci_n_de_datos_con_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://www.ctic.uni.edu.pe/wp-content/uploads/2022/04/588px-x-348px-web-1.png" alt="HTML5 Icon" width="900" height="350" >


# **Manipulación de Datos con Pandas**


**Objetivo**

El objetivo de este laboratorio es capacitar al estudiante con las herramientas y técnicas esenciales para la manipulación de datos utilizando la biblioteca Pandas. Al final del laboratorio, el estudiante será capaz de realizar operaciones básicas y avanzadas en conjuntos de datos, combinarlos, agruparlos y extraer información útil para el análisis.

**Contenido**

1. <a href="#item31">Introducción a Pandas</a>
2. <a href="#item31">Operaciones Básicas con DataFrames</a>
3. <a href="#item31">Combinación de Datasets</a>
4. <a href="#item31">Agregación y Agrupamiento</a>

</font>
</div>


---

# 1. Introducción a Pandas



## 1.1. ¿Qué es Pandas?

Pandas es una biblioteca de código abierto para el lenguaje de programación Python, que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Es fundamental en el campo de la ciencia de datos y el análisis de datos.

**Características clave de Pandas:**

- Estructuras de datos flexibles: Series y DataFrames para datos unidimensionales y bidimensionales.
- Indexación potente: Permite acceso y manipulación eficientes de datos.
- Herramientas de limpieza y preparación de datos: Funciones para manejar datos faltantes, duplicados, y más.
- Integración con otras bibliotecas: Se complementa bien con NumPy, Matplotlib, y otras.



## 1.2. Estructuras de datos en Pandas

**Series:** Estructura unidimensional similar a una columna en una tabla.

In [None]:
import pandas as pd

# Crear una Serie
s = pd.Series([1, 3, 5, 7, 9])
print(s)


0    1
1    3
2    5
3    7
4    9
dtype: int64


**DataFrame:** Estructura bidimensional, similar a una hoja de cálculo con filas y columnas.


In [None]:
# Crear un DataFrame
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 45, 34],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)
print(df)


## 1.3. Importación y exploración inicial de datos

Importar datos desde un archivo CSV:


In [None]:
# archivo 'datos.csv'
df = pd.read_csv('datos_v2.csv', encoding='latin-1', encoding_errors='ignore', sep=';')

df.head()

Unnamed: 0,DNI_NIÑO,ANEMIA,GENERO,PESO_NACIDO,TALLA_NACIDO,DUR_EMB_PARTO,EDAD_MADRE,CONDICION_PARTO,LACTANCIA_PRECOZ,Nivel_Intruccion_Madre,NUM_EMBAR_MADRE,Estado_Civil,Prov_Madre,VIF,SUPLEMENTACION_GEST,ANEMIA_GEST,AUMENTO_PESO_GEST
0,91660415,NO,0,3370,51,39,26,1,1,8,1,1,2,0,0,0,0
1,91660603,SI,0,2700,47,38,40,1,1,3,3,1,3,0,0,0,0
2,91660650,NO,0,3615,52,39,37,2,0,3,3,1,5,0,0,0,0
3,91660904,NO,0,3240,48,39,34,1,1,3,4,1,1,0,0,0,0
4,91661106,NO,0,3365,51,40,26,1,1,3,2,1,4,0,0,0,0


**Exploración inicial:**

Ver las primeras filas:

In [None]:
print(df.head())  # Muestra las primeras 5 filas
df.head()

   DNI_NIÑO ANEMIA  GENERO  PESO_NACIDO  TALLA_NACIDO  DUR_EMB_PARTO  \
0  91660415     NO       0         3370            51             39   
1  91660603     SI       0         2700            47             38   
2  91660650     NO       0         3615            52             39   
3  91660904     NO       0         3240            48             39   
4  91661106     NO       0         3365            51             40   

   EDAD_MADRE  CONDICION_PARTO  LACTANCIA_PRECOZ  Nivel_Intruccion_Madre  \
0          26                1                 1                       8   
1          40                1                 1                       3   
2          37                2                 0                       3   
3          34                1                 1                       3   
4          26                1                 1                       3   

   NUM_EMBAR_MADRE  Estado_Civil  Prov_Madre  VIF  SUPLEMENTACION_GEST  \
0                1             1    

Unnamed: 0,DNI_NIÑO,ANEMIA,GENERO,PESO_NACIDO,TALLA_NACIDO,DUR_EMB_PARTO,EDAD_MADRE,CONDICION_PARTO,LACTANCIA_PRECOZ,Nivel_Intruccion_Madre,NUM_EMBAR_MADRE,Estado_Civil,Prov_Madre,VIF,SUPLEMENTACION_GEST,ANEMIA_GEST,AUMENTO_PESO_GEST
0,91660415,NO,0,3370,51,39,26,1,1,8,1,1,2,0,0,0,0
1,91660603,SI,0,2700,47,38,40,1,1,3,3,1,3,0,0,0,0
2,91660650,NO,0,3615,52,39,37,2,0,3,3,1,5,0,0,0,0
3,91660904,NO,0,3240,48,39,34,1,1,3,4,1,1,0,0,0,0
4,91661106,NO,0,3365,51,40,26,1,1,3,2,1,4,0,0,0,0


Resumen de información:

In [None]:



len(df[(df.GENERO == 0) & (df.ANEMIA != 'SI') & (df.EDAD_MADRE > 35) ])

118

In [None]:
print(df.info())  # Información sobre tipos de datos y valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8723 entries, 0 to 8722
Data columns (total 17 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   DNI_NIÑO                8723 non-null   int64 
 1   ANEMIA                  8723 non-null   object
 2   GENERO                  8723 non-null   int64 
 3   PESO_NACIDO             8723 non-null   int64 
 4   TALLA_NACIDO            8723 non-null   int64 
 5   DUR_EMB_PARTO           8723 non-null   int64 
 6   EDAD_MADRE              8723 non-null   int64 
 7   CONDICION_PARTO         8723 non-null   int64 
 8   LACTANCIA_PRECOZ        8723 non-null   int64 
 9   Nivel_Intruccion_Madre  8723 non-null   int64 
 10  NUM_EMBAR_MADRE         8723 non-null   int64 
 11  Estado_Civil            8723 non-null   int64 
 12  Prov_Madre              8723 non-null   int64 
 13  VIF                     8723 non-null   int64 
 14  SUPLEMENTACION_GEST     8723 non-null   int64 
 15  ANEM

Estadísticas descriptivas:

In [None]:
print(df.describe())  # Estadísticas básicas de las columnas numéricas

           DNI_NIÑO       GENERO  PESO_NACIDO  TALLA_NACIDO  DUR_EMB_PARTO  \
count  8.723000e+03  8723.000000  8723.000000   8723.000000    8723.000000   
mean   9.242271e+07     0.488364  3231.073713     48.852574      38.819214   
std    4.035455e+05     0.499893   468.367938      2.193004       1.445085   
min    9.166042e+07     0.000000   925.000000     28.000000      25.000000   
25%    9.210013e+07     0.000000  2965.000000     48.000000      38.000000   
50%    9.244617e+07     0.000000  3240.000000     49.000000      39.000000   
75%    9.276510e+07     1.000000  3530.000000     50.000000      40.000000   
max    9.311067e+07     1.000000  5470.000000     59.000000      42.000000   

        EDAD_MADRE  CONDICION_PARTO  LACTANCIA_PRECOZ  Nivel_Intruccion_Madre  \
count  8723.000000      8723.000000       8723.000000             8723.000000   
mean     28.706179         1.265734          0.760977                5.947151   
std       6.542419         0.443045          0.426511 

##2. Operaciones Básicas con DataFrames



###2.1. Acceso a datos

**Conceptos clave:**

- Acceso a columnas y filas.
- Uso de loc (basado en etiquetas) y iloc (basado en posiciones).


**Ejemplo:**

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
    'Edad': [23, 45, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

dff = pd.DataFrame(data)

In [None]:
# Acceder a una columna
edades = df['Edad']
print("Edades:")
print(edades)

Edades:
0    23
1    45
2    34
3    29
Name: Edad, dtype: int64


In [None]:

# Acceder a múltiples columnas
nombre_ciudad = df[['Nombre', 'Ciudad']]
print("\nNombre y Ciudad:")
print(nombre_ciudad)

In [None]:
# Acceder a una fila por etiqueta
fila_ana = df.loc[0]
print("\nFila de Ana:")
print(fila_ana)

In [None]:
# Acceder a una fila por posición
fila_primera = df.iloc[0]
print("\nPrimera fila:")
print(fila_primera)



Primera fila:
Nombre       Ana
Edad          23
Ciudad    Madrid
Name: 0, dtype: object


### 2.2. Selección y filtrado

Conceptos clave:

- Filtrado condicional.
- Uso de operadores lógicos (&, |, ~).

**Ejemplo:**

In [None]:
# Filtrar por condición
mayores_30 = df[df['Edad'] > 30]
print("\nPersonas mayores de 30 años:")
print(mayores_30)

In [None]:
# Filtrar por múltiples condiciones
madrid_mayor_25 = df[(df['Ciudad'] == 'Madrid') & (df['Edad'] > 25)]
print("\nPersonas de Madrid mayores de 25 años:")
print(madrid_mayor_25)

In [None]:
# Uso de isin para múltiples valores
ciudades = df[df['Ciudad'].isin(['Madrid', 'Valencia'])]
print("\nPersonas de Madrid o Valencia:")
print(ciudades)

### 2.3. Ordenamiento de datos

**Conceptos clave:**

- Ordenar por una o varias columnas.
- Orden ascendente (ascending=True) y descendente (ascending=False).

**Ejemplo:**

In [None]:
df.head()

Unnamed: 0,DNI_NIÑO,ANEMIA,GENERO,PESO_NACIDO,TALLA_NACIDO,DUR_EMB_PARTO,EDAD_MADRE,CONDICION_PARTO,LACTANCIA_PRECOZ,Nivel_Intruccion_Madre,NUM_EMBAR_MADRE,Estado_Civil,Prov_Madre,VIF,SUPLEMENTACION_GEST,ANEMIA_GEST,AUMENTO_PESO_GEST
0,91660415,NO,0,3370,51,39,26,1,1,8,1,1,2,0,0,0,0
1,91660603,SI,0,2700,47,38,40,1,1,3,3,1,3,0,0,0,0
2,91660650,NO,0,3615,52,39,37,2,0,3,3,1,5,0,0,0,0
3,91660904,NO,0,3240,48,39,34,1,1,3,4,1,1,0,0,0,0
4,91661106,NO,0,3365,51,40,26,1,1,3,2,1,4,0,0,0,0


In [None]:
df.sort_values(by = 'EDAD_MADRE').head()

Unnamed: 0,DNI_NIÑO,ANEMIA,GENERO,PESO_NACIDO,TALLA_NACIDO,DUR_EMB_PARTO,EDAD_MADRE,CONDICION_PARTO,LACTANCIA_PRECOZ,Nivel_Intruccion_Madre,NUM_EMBAR_MADRE,Estado_Civil,Prov_Madre,VIF,SUPLEMENTACION_GEST,ANEMIA_GEST,AUMENTO_PESO_GEST
1364,91928763,NO,0,3125,48,38,14,1,1,4,1,1,4,1,0,1,0
6257,92722644,SI,0,2720,49,38,15,2,0,5,1,1,2,1,1,0,1
1766,92013564,NO,1,3220,51,39,15,1,1,5,1,1,5,1,0,0,0
3125,92249472,SI,1,2750,47,38,16,2,0,5,1,1,2,0,0,0,0
5866,92669136,SI,0,3530,50,39,17,1,1,6,1,1,5,1,0,0,0


 Del dataframe, ordenene de mayor a menor la condicion del parto teniendo en cuenta
que mujeres que no tienen anemia y corresponden a madres con edad mayor a 35 años?

In [None]:
df[(df.GENERO == 0) & (df.ANEMIA != 'SI') & (df.EDAD_MADRE > 35) ].sort_values(by = 'CONDICION_PARTO', ascending=False).head()

Unnamed: 0,DNI_NIÑO,ANEMIA,GENERO,PESO_NACIDO,TALLA_NACIDO,DUR_EMB_PARTO,EDAD_MADRE,CONDICION_PARTO,LACTANCIA_PRECOZ,Nivel_Intruccion_Madre,NUM_EMBAR_MADRE,Estado_Civil,Prov_Madre,VIF,SUPLEMENTACION_GEST,ANEMIA_GEST,AUMENTO_PESO_GEST
1615,91979548,NO,0,3350,49,39,36,3,0,10,3,2,2,0,0,0,0
2,91660650,NO,0,3615,52,39,37,2,0,3,3,1,5,0,0,0,0
49,91671546,NO,0,3380,50,40,37,2,0,10,3,1,2,0,0,0,0
278,91717729,NO,0,3510,50,39,43,2,0,6,2,1,5,0,0,0,0
188,91699216,NO,0,3315,50,39,41,2,0,1,5,1,2,0,0,0,1


In [None]:
df.sort_values(by = '', ascending = False).head()

In [None]:
# Ordenar por edad ascendente
df_ordenado_edad = df.sort_values(by='Edad')
print("\nDataFrame ordenado por edad (ascendente):")
print(df_ordenado_edad)


In [None]:

# Ordenar por edad descendente
df_ordenado_edad_desc = df.sort_values(by='Edad', ascending=False)
print("\nDataFrame ordenado por edad (descendente):")
print(df_ordenado_edad_desc)


In [None]:

# Ordenar por ciudad y luego por edad
df_ordenado_ciudad_edad = df.sort_values(by=['Ciudad', 'Edad'])
print("\nDataFrame ordenado por ciudad y edad:")
print(df_ordenado_ciudad_edad)


### 2.4. Modificación y eliminación de datos

**Conceptos clave:**

- Añadir y modificar columnas.
- Eliminar filas y columnas.

**Ejemplo:**

In [None]:
# Añadir una nueva columna
df['Puntaje'] = [88, 92, 79, 85]
print("\nDataFrame con nueva columna 'Puntaje':")
print(df)


In [None]:
# Modificar valores
df.loc[df['Nombre'] == 'Ana', 'Edad'] = 24
print("\nDataFrame después de modificar la edad de Ana:")
print(df)


In [None]:
# Eliminar una columna
df_sin_puntaje = df.drop('Puntaje', axis=1)
print("\nDataFrame sin la columna 'Puntaje':")
print(df_sin_puntaje)


In [None]:
# Eliminar una fila
df_sin_fila = df.drop(2)  # Eliminar la fila con índice 2
print("\nDataFrame sin la fila de Carlos:")
print(df_sin_fila)

### 2.5. Manejo de datos faltantes

**Conceptos clave:**

- Identificar y tratar valores nulos (NaN).
- Métodos para eliminar o imputar datos faltantes.

**Ejemplo:**

In [None]:
# Introducir valores faltantes
df_con_nan = df.copy()
df_con_nan.loc[1, 'Edad'] = None
print("\nDataFrame con valor faltante:")
print(df_con_nan)


In [None]:
# Identificar valores faltantes
print("\nValores faltantes en 'Edad':")
print(df_con_nan['Edad'].isnull())

In [None]:

# Eliminar filas con valores faltantes
df_sin_nan = df_con_nan.dropna()
print("\nDataFrame sin filas con valores faltantes:")
print(df_sin_nan)

In [None]:
# Imputar valores faltantes
df_imputado = df_con_nan.fillna({'Edad': df_con_nan['Edad'].mean()})
print("\nDataFrame con valores faltantes imputados:")
print(df_imputado)


###2.6. Tamaño y resumen de datos

**Conceptos clave:**

- Obtener el número de filas y columnas.
- Resumen estadístico de los datos.

**Ejemplo:**

In [None]:
# Obtener el número de filas y columnas
filas, columnas = df.shape
print(f"\nEl DataFrame tiene {filas} filas y {columnas} columnas.")


In [None]:

# Listar las columnas
print("\nColumnas del DataFrame:")
print(df.columns)

In [None]:
# Resumen estadístico
print("\nResumen estadístico:")
print(df.describe())

### 2.7. Ejercicios



**Ejercicio 1**

Crea un DataFrame con la siguiente información:

- Nombre: 'Juan', 'Laura', 'Pedro', 'Carmen', 'Luis'
- Departamento: 'Ventas', 'Marketing', 'Ventas', 'Finanzas', 'Marketing'
- Salario: 50000, 60000, 55000, 65000, 62000

Tareas:

- Accede a la columna de salarios.
- Filtra los empleados del departamento de 'Marketing'.
- Ordena el DataFrame por salario de manera descendente.
- Añade una nueva columna 'Bono' que sea el 10% del salario.
- Calcula el salario total (salario + bono) y añade una columna 'SalarioTotal'.


**Ejercicio 2**

Utilizando el DataFrame del ejercicio anterior:

- Modifica el salario de 'Juan' a 52000.
- Elimina el empleado 'Pedro' del DataFrame.
- Identifica si hay datos faltantes en el DataFrame.
- Si hay datos faltantes, imputa con el valor promedio de la columna correspondiente.




**Ejercicio 3**

Crea un DataFrame con datos de ventas:

- Producto: 'Producto A', 'Producto B', 'Producto C', 'Producto D'
- Ventas Enero: 150, 200, 140, 170
- Ventas Febrero: 180, None, 160, 190

Tareas:

- Calcula el total de ventas por producto sumando 'Ventas Enero' y 'Ventas Febrero'.
- Identifica los productos con datos faltantes en 'Ventas Febrero'.
- Imputa los valores faltantes con el promedio de 'Ventas Febrero'.
- Ordena el DataFrame por total de ventas de manera ascendente.

## 3. Combinación de Datasets


### 3.1. Métodos de combinación: merge, join, concat

Pandas ofrece varias funciones para combinar y fusionar DataFrames:

- **pd.merge:** Combina DataFrames basándose en una o más claves comunes; similar a las uniones (joins) de SQL.
- **pd.DataFrame.join:** Combina DataFrames basándose en los índices.
- **pd.concat:** Une DataFrames a lo largo de un eje (filas o columnas).


### 3.2. Combinación uno a uno

**Ejemplo:**

In [None]:
import pandas as pd

# DataFrame de empleados
df_empleados = pd.DataFrame({
    'EmpleadoID': [1, 2, 3, 4],
    'Nombre': ['John', 'Anna', 'Peter', 'Maria'],
    'DepartamentoID': [101, 102, 103, 104]
})



In [None]:
# DataFrame de departamentos
df_departamentos = pd.DataFrame({
    'DepartamentoID': [101, 102, 103],
    'Departamento': ['HR', 'IT', 'Marketing']
})


In [None]:
df_empleados.head()

Unnamed: 0,EmpleadoID,Nombre,DepartamentoID
0,1,John,101
1,2,Anna,102
2,3,Peter,103
3,4,Maria,104


In [None]:
df_departamentos.head()

Unnamed: 0,DepartamentoID,Departamento
0,101,HR
1,102,IT
2,103,Marketing


In [None]:
pd.merge(df_empleados, df_departamentos, on = 'DepartamentoID', how = 'left')

Unnamed: 0,EmpleadoID,Nombre,DepartamentoID,Departamento
0,1,John,101,HR
1,2,Anna,102,IT
2,3,Peter,103,Marketing
3,4,Maria,104,


In [None]:

# Combinar los DataFrames
df_combined = pd.merge(df_empleados, df_departamentos, on='DepartamentoID')
print("\nDataFrame combinado (uno a uno):")
df_combined



DataFrame combinado (uno a uno):


Unnamed: 0,EmpleadoID,Nombre,DepartamentoID,Departamento
0,1,John,101,HR
1,2,Anna,102,IT
2,3,Peter,103,Marketing


### 3.3. Combinación muchos a uno

**Ejemplo:**

In [None]:
# DataFrame de pedidos
df_pedidos = pd.DataFrame({
    'PedidoID': [1001, 1002, 1003, 1004],
    'ClienteID': [1, 1, 2, 3],
    'Monto': [250, 150, 400, 130]
})
df_pedidos

Unnamed: 0,PedidoID,ClienteID,Monto
0,1001,1,250
1,1002,1,150
2,1003,2,400
3,1004,3,130


In [None]:
# DataFrame de clientes
df_clientes = pd.DataFrame({
    'ClienteID': [1, 2, 3],
    'Cliente': ['Alice', 'Bob', 'Charlie']
})

df_clientes

Unnamed: 0,ClienteID,Cliente
0,1,Alice
1,2,Bob
2,3,Charlie


In [None]:



# Combinar los DataFrames
df_pedidos_clientes = pd.merge(df_pedidos, df_clientes, on='ClienteID', how = 'left')
print("\nDataFrame combinado (muchos a uno):")
df_pedidos_clientes



DataFrame combinado (muchos a uno):


Unnamed: 0,PedidoID,ClienteID,Monto,Cliente
0,1001,1,250,Alice
1,1002,1,150,Alice
2,1003,2,400,Bob
3,1004,3,130,Charlie


### 3.4. Combinación muchos a muchos

**Ejemplo:**


In [None]:
# DataFrame de estudiantes
df_estudiantes = pd.DataFrame({
    'EstudianteID': [1, 2, 3],
    'Nombre': ['Laura', 'Kevin', 'Sophie']})

df_estudiantes

Unnamed: 0,EstudianteID,Nombre
0,1,Laura
1,2,Kevin
2,3,Sophie


In [None]:

# DataFrame de cursos
df_cursos = pd.DataFrame({
    'CursoID': [101, 102],
    'Curso': ['Matemáticas', 'Ciencias']
})

df_cursos

Unnamed: 0,CursoID,Curso
0,101,Matemáticas
1,102,Ciencias


In [None]:
# DataFrame de inscripciones
df_inscripciones = pd.DataFrame({
    'EstudianteID': [1, 1, 2, 3, 3],
    'CursoID': [101, 102, 101, 101, 102]
})

df_inscripciones

Unnamed: 0,EstudianteID,CursoID
0,1,101
1,1,102
2,2,101
3,3,101
4,3,102


In [None]:

df_inscripciones_temp  = pd.merge(df_estudiantes, df_inscripciones, on='EstudianteID', how='right')
df_inscripciones_final = pd.merge(df_inscripciones_temp, df_cursos, on='CursoID', how='left')
df_inscripciones_final


Unnamed: 0,EstudianteID,Nombre,CursoID,Curso
0,1,Laura,101,Matemáticas
1,1,Laura,102,Ciencias
2,2,Kevin,101,Matemáticas
3,3,Sophie,101,Matemáticas
4,3,Sophie,102,Ciencias


In [None]:


# Combinar los DataFrames
df_full = pd.merge(pd.merge(df_inscripciones, df_estudiantes, on=['EstudianteID', 'ID']),
                   df_cursos, on='CursoID')
print("\nDataFrame combinado (muchos a muchos):")
print(df_full)


In [None]:
import pandas as pd

# DataFrame de empleados
df_empleados = pd.DataFrame({
    'EmpleadoID': [1, 2, 3, 4],
    'Nombre': ['John', 'Anna', 'Peter', 'Maria'],
    'DepartamentoID': [101, 102, 103, 104]
})

# DataFrame de departamentos
df_departamentos = pd.DataFrame({
    'DepartamentoID': [101, 102, 103, 105],
    'Departamento': ['HR', 'IT', 'Marketing', 'Data Science']
})



In [None]:
pd.merge(df_empleados, df_departamentos, on = 'DepartamentoID', how = 'outer')

Unnamed: 0,EmpleadoID,Nombre,DepartamentoID,Departamento
0,1.0,John,101,HR
1,2.0,Anna,102,IT
2,3.0,Peter,103,Marketing
3,4.0,Maria,104,
4,,,105,Data Science


### 3.5. Concatenación de datasets

**Concatenación vertical (añadir filas):**

In [None]:
# DataFrames de ventas de dos meses
df_enero = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [100, 150]
})
df_enero

Unnamed: 0,Producto,Ventas
0,A,100
1,B,150


In [None]:
df_febrero = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [200, 250]
})
df_febrero

Unnamed: 0,Producto,Ventas
0,A,200
1,B,250


In [None]:
pd.concat([df_enero, df_febrero], keys=['Enero', 'Febrero'])

Unnamed: 0,Unnamed: 1,Producto,Ventas
Enero,0,A,100
Enero,1,B,150
Febrero,0,A,200
Febrero,1,B,250


In [None]:
# Concatenar los DataFrames
df_ventas = pd.concat([df_enero, df_febrero], keys=['Enero', 'Febrero'])
print("\nDataFrame concatenado (vertical):")


df_ventas = df_ventas.reset_index()
df_ventas.drop('level_1', axis = 1, inplace = True)
df_ventas.rename(columns={'level_0': 'Mes'}, inplace=True)
df_ventas



DataFrame concatenado (vertical):


Unnamed: 0,Mes,Producto,Ventas
0,Enero,A,100
1,Enero,B,150
2,Febrero,A,200
3,Febrero,B,250


**Concatenación horizontal (añadir columnas):**


In [None]:
# DataFrames de características
df_caracteristicas1 = pd.DataFrame({
    'ID': [1, 2],
    'Caracteristica1': ['X', 'Y']
})
df_caracteristicas1

Unnamed: 0,ID,Caracteristica1
0,1,X
1,2,Y


In [None]:
df_caracteristicas2 = pd.DataFrame({
    'ID': [1, 2],
    'Caracteristica2': ['Z', 'W']
})
df_caracteristicas2

Unnamed: 0,ID,Caracteristica2
0,1,Z
1,2,W


In [None]:
# Establecer 'ID' como índice
df_caracteristicas1.set_index('ID', inplace=True)
df_caracteristicas2.set_index('ID', inplace=True)


In [None]:
df_caracteristicas2

Unnamed: 0_level_0,Caracteristica2
ID,Unnamed: 1_level_1
1,Z
2,W


In [None]:



# Concatenar los DataFrames
df_caracteristicas = pd.concat([df_caracteristicas1, df_caracteristicas2.drop('ID',axis=1)], axis=1)
print("\nDataFrame concatenado (horizontal):")
df_caracteristicas



DataFrame concatenado (horizontal):


Unnamed: 0,ID,Caracteristica1,Caracteristica2
0,1,X,Z
1,2,Y,W


### 3.6. Ejercicios

**Ejercicio 1**

Tienes dos DataFrames:

- df_productos con columnas ProductoID, Producto, Categoría.
- df_precios con columnas ProductoID, Precio.

Tareas:
- Realiza un merge para obtener un DataFrame que contenga toda la información de productos y sus precios.
- Experimenta con los diferentes tipos de combinación: inner, outer, left, right.
- Analiza cómo cambia el resultado con cada tipo de combinación.


In [None]:
import pandas as pd

df_productos = pd.DataFrame({
    'ProductoID': [1, 2, 3],
    'Producto': ['A', 'B', 'C'],
    'Categoría': ['X', 'Y', 'Z']
})

df_precios = pd.DataFrame({
    'ProductoID': [2, 3, 4],
    'Precio': [10, 15, 20]
})

df_merged = pd.merge(df_productos, df_precios, on='ProductoID', how='outer')
df_merged

Unnamed: 0,ProductoID,Producto,Categoría,Precio
0,1,A,X,
1,2,B,Y,10.0
2,3,C,Z,15.0
3,4,,,20.0


In [None]:
how_list = ['left', 'right', 'inner', 'outer']

for how in how_list:
  print(f'How: {how}')
  df_prod_precios = pd.merge(df_productos, df_precios, on='ProductoID', how=how)
  print(f'Merge: \n {df_prod_precios} \n')



How: left
Merge: 
    ProductoID Producto Categoría  Precio
0           1        A         X     NaN
1           2        B         Y    10.0
2           3        C         Z    15.0 

How: right
Merge: 
    ProductoID Producto Categoría  Precio
0           2        B         Y      10
1           3        C         Z      15
2           4      NaN       NaN      20 

How: inner
Merge: 
    ProductoID Producto Categoría  Precio
0           2        B         Y      10
1           3        C         Z      15 

How: outer
Merge: 
    ProductoID Producto Categoría  Precio
0           1        A         X     NaN
1           2        B         Y    10.0
2           3        C         Z    15.0
3           4      NaN       NaN    20.0 



**Ejercicio 2**

Tienes los siguientes DataFrames:

- df_ventas_Q1 con ventas del primer trimestre.
- df_ventas_Q2 con ventas del segundo trimestre.

Ambos tienen las mismas columnas: Producto, Ventas.

Tareas:

- Concatenar los DataFrames para tener las ventas del semestre.
- Añade una clave para identificar el trimestre al que pertenece cada fila.
- Calcula las ventas totales por producto en el semestre.


**Ejercicio 3**

Supongamos que tienes dos DataFrames con índices diferentes:

- df_empleados indexado por EmpleadoID y columnas Nombre, Departamento.
- df_salarios indexado por Nombre y columna Salario.

Tareas:

- Combina estos DataFrames utilizando join para obtener un DataFrame que contenga EmpleadoID, Nombre, Departamento y Salario.
- Asegúrate de manejar correctamente los índices para que la combinación sea exitosa.
- Identifica y maneja cualquier inconsistencia en los datos (por ejemplo, nombres que no coinciden).


## 4. Agregación y Agrupamiento


### 4.1. El proceso groupby

El método groupby permite:

- Dividir: Separar el DataFrame en grupos basados en una o más claves.
- Aplicar: Calcular una función específica en cada grupo.
- Combinar: Unir los resultados en una estructura de datos.


### 4.2. Funciones de agregación

- Sumatorias: sum()
- Promedios: mean()
- Conteos: count()
- Valores extremos: min(), max()
- Medidas de dispersión: std(), var()



**Ejemplo:**

In [None]:
titanic = pd.read_csv('titanic.csv')
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
titanic['over18'] = titanic['Age'].apply(lambda x: '>= 18' if x >= 18 else '< 18')

titanic.groupby(['Sex', 'over18']).agg({'PassengerId': 'count',
                            'Age': 'mean',
                            'Fare': 'mean',
                            'Survived': 'mean'})



Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Age,Fare,Survived
Sex,over18,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,< 18,108,9.236364,31.024153,0.685185
female,>= 18,206,32.902913,51.534244,0.771845
male,< 18,182,8.856379,22.52422,0.214286
male,>= 18,395,33.937975,26.906022,0.177215


In [None]:
titanic.groupby(['Sex', 'Pclass']).agg({'PassengerId': 'count',
                            'Age': 'mean',
                            'Fare': 'mean',
                            'Survived': 'mean'})


Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Age,Fare,Survived
Sex,Pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,1,94,34.611765,106.125798,0.968085
female,2,76,28.722973,21.970121,0.921053
female,3,144,21.75,16.11881,0.5
male,1,122,41.281386,67.226127,0.368852
male,2,108,30.740707,19.741782,0.157407
male,3,347,26.507589,12.661633,0.135447


In [None]:
pd.crosstab(titanic['Sex'], titanic['Pclass'], normalize='all')

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.105499,0.085297,0.161616
male,0.136925,0.121212,0.38945


In [None]:
pd.pivot_table(titanic, index = 'Sex', columns = 'Pclass', values = 'Survived', aggfunc = 'mean')

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [None]:
pd.pivot_table(titanic, index = 'Pclass', columns = 'over18', values = 'Fare', aggfunc = 'mean')

over18,< 18,>= 18
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,74.131345,86.574115
2,20.129903,20.782833
3,17.06581,11.05636


In [None]:
#Embarked

titanic.groupby('Embarked').agg({'Fare': 'mean',
                                 'Survived': 'mean'})


Unnamed: 0_level_0,Fare,Survived
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,59.954144,0.553571
Q,13.27603,0.38961
S,27.079812,0.336957


In [None]:
import seaborn as sns

sns.lineplot()



In [None]:
# DataFrame de ventas
df_ventas = pd.DataFrame({
    'Región': ['Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur'],
    'Ventas': [100, 150, 200, 130, 120, 170],
    'Ganancia': [20, 30, 50, 25, 22, 35]
})

# Agrupar por 'Región' y calcular la suma de 'Ventas' y 'Ganancia'
agrupado = df_ventas.groupby('Región').agg({'Ventas': 'sum', 'Ganancia': 'sum'})
print("\nAgregación por región:")
print(agrupado)


### 4.3. Agrupamiento por múltiples claves

**Ejemplo:**

In [None]:
# Agregar una columna 'Tipo' para demostrar agrupamiento múltiple
df_ventas['Tipo'] = ['Minorista', 'Mayorista', 'Minorista', 'Minorista', 'Mayorista', 'Minorista']

# Agrupar por 'Región' y 'Tipo' y calcular el promedio de 'Ventas'
agrupado_multiple = df_ventas.groupby(['Región', 'Tipo']).mean()
print("\nAgrupación por región y tipo:")
print(agrupado_multiple)


### 4.4. Operaciones de transformación

Las transformaciones aplican una función a cada grupo y devuelven un objeto del mismo tamaño que el grupo original.

**Ejemplo:**

In [None]:
# Calcular la diferencia de cada venta respecto al promedio de su región
df_ventas['PromedioVentasRegión'] = df_ventas.groupby('Región')['Ventas'].transform('mean')
df_ventas['DiferenciaVentas'] = df_ventas['Ventas'] - df_ventas['PromedioVentasRegión']
print("\nDataFrame con transformaciones:")
print(df_ventas)


### 4.5. Ejercicios

**Ejercicio 1**

Usando el DataFrame df_ventas:

- Agrupa los datos por Región y calcula la media y suma de Ventas y Ganancia.
- Ordena los resultados de mayor a menor en función de la suma de Ventas.
- Visualiza los resultados utilizando un gráfico de barras.


**Ejercicio 2**

Tienes un DataFrame df_estudiantes con las columnas Clase, Género, Puntuación.

- Calcula la puntuación media por clase y género.
- Encuentra la puntuación máxima y mínima por clase.
- Normaliza las puntuaciones de cada estudiante restando la media de su clase.


**Ejercicio 3**

Con el DataFrame de ventas df_ventas, crea una función personalizada que calcule el rango intercuartílico (IQR) de las ventas por región.

- Define una función que calcule el IQR.
- Utiliza groupby() y agg() para aplicar esta función.
- Interpreta los resultados.

---

# Gracias por completar este laboratorio!

---