<a href="https://colab.research.google.com/github/pipaber/Python-Programming101/blob/main/01_Introduccion_a_Python/07_Manipulaci%C3%B3n_de_Datos_con_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://www.ctic.uni.edu.pe/wp-content/uploads/2022/04/588px-x-348px-web-1.png" alt="HTML5 Icon" width="900" height="350" >


# **Manipulación de Datos con Pandas**


**Objetivo**

El objetivo de este laboratorio es capacitar al estudiante con las herramientas y técnicas esenciales para la manipulación de datos utilizando la biblioteca Pandas. Al final del laboratorio, el estudiante será capaz de realizar operaciones básicas y avanzadas en conjuntos de datos, combinarlos, agruparlos y extraer información útil para el análisis.

**Contenido**

1. <a href="#item31">Introducción a Pandas</a>
2. <a href="#item31">Operaciones Básicas con DataFrames</a>
3. <a href="#item31">Combinación de Datasets</a>
4. <a href="#item31">Agregación y Agrupamiento</a>

</font>
</div>


---

# 1. Introducción a Pandas



## 1.1. ¿Qué es Pandas?

Pandas es una biblioteca de código abierto para el lenguaje de programación Python, que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Es fundamental en el campo de la ciencia de datos y el análisis de datos.

**Características clave de Pandas:**

- Estructuras de datos flexibles: Series y DataFrames para datos unidimensionales y bidimensionales.
- Indexación potente: Permite acceso y manipulación eficientes de datos.
- Herramientas de limpieza y preparación de datos: Funciones para manejar datos faltantes, duplicados, y más.
- Integración con otras bibliotecas: Se complementa bien con NumPy, Matplotlib, y otras.



## 1.2. Estructuras de datos en Pandas

**Series:** Estructura unidimensional similar a una columna en una tabla.

In [None]:
import pandas as pd

# Crear una Serie
s = pd.Series([21, 23, 25, 27, 29], name="age")
s


Unnamed: 0,age
0,21
1,23
2,25
3,27
4,29


**DataFrame:** Estructura bidimensional, similar a una hoja de cálculo con filas y columnas.


In [None]:
# Crear un DataFrame
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 45, 34],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)

df



Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Luis,45,Barcelona
2,Carlos,34,Valencia


## 1.3. Importación y exploración inicial de datos

Importar datos desde un archivo CSV:


In [None]:
# archivo 'datos.csv'

df = pd.read_csv("/content/datos_v2.csv", encoding='latin-1', sep=";")


**Exploración inicial:**

Ver las primeras filas:

In [None]:
print(df.head())  # Muestra las primeras 5 filas

   DNI_NIÑO ANEMIA  GENERO  PESO_NACIDO  TALLA_NACIDO  DUR_EMB_PARTO  \
0  91660415     NO       0         3370            51             39   
1  91660603     SI       0         2700            47             38   
2  91660650     NO       0         3615            52             39   
3  91660904     NO       0         3240            48             39   
4  91661106     NO       0         3365            51             40   

   EDAD_MADRE  CONDICION_PARTO  LACTANCIA_PRECOZ  Nivel_Intruccion_Madre  \
0          26                1                 1                       8   
1          40                1                 1                       3   
2          37                2                 0                       3   
3          34                1                 1                       3   
4          26                1                 1                       3   

   NUM_EMBAR_MADRE  Estado_Civil  Prov_Madre  VIF  SUPLEMENTACION_GEST  \
0                1             1    

Resumen de información:

In [None]:
df.isnull().sum()

Unnamed: 0,0
DNI_NIÑO,0
ANEMIA,0
GENERO,0
PESO_NACIDO,0
TALLA_NACIDO,0
DUR_EMB_PARTO,0
EDAD_MADRE,0
CONDICION_PARTO,0
LACTANCIA_PRECOZ,0
Nivel_Intruccion_Madre,0


In [None]:
print(df.info())  # Información sobre tipos de datos y valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8723 entries, 0 to 8722
Data columns (total 17 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   DNI_NIÑO                8723 non-null   int64 
 1   ANEMIA                  8723 non-null   object
 2   GENERO                  8723 non-null   int64 
 3   PESO_NACIDO             8723 non-null   int64 
 4   TALLA_NACIDO            8723 non-null   int64 
 5   DUR_EMB_PARTO           8723 non-null   int64 
 6   EDAD_MADRE              8723 non-null   int64 
 7   CONDICION_PARTO         8723 non-null   int64 
 8   LACTANCIA_PRECOZ        8723 non-null   int64 
 9   Nivel_Intruccion_Madre  8723 non-null   int64 
 10  NUM_EMBAR_MADRE         8723 non-null   int64 
 11  Estado_Civil            8723 non-null   int64 
 12  Prov_Madre              8723 non-null   int64 
 13  VIF                     8723 non-null   int64 
 14  SUPLEMENTACION_GEST     8723 non-null   int64 
 15  ANEM

Estadísticas descriptivas:

In [None]:
print(df.describe().T)  # Estadísticas básicas de las columnas numéricas

                         count          mean            std         min  \
DNI_NIÑO                8723.0  9.242271e+07  403545.477093  91660415.0   
GENERO                  8723.0  4.883641e-01       0.499893         0.0   
PESO_NACIDO             8723.0  3.231074e+03     468.367938       925.0   
TALLA_NACIDO            8723.0  4.885257e+01       2.193004        28.0   
DUR_EMB_PARTO           8723.0  3.881921e+01       1.445085        25.0   
EDAD_MADRE              8723.0  2.870618e+01       6.542419        14.0   
CONDICION_PARTO         8723.0  1.265734e+00       0.443045         1.0   
LACTANCIA_PRECOZ        8723.0  7.609767e-01       0.426511         0.0   
Nivel_Intruccion_Madre  8723.0  5.947151e+00       1.902539         1.0   
NUM_EMBAR_MADRE         8723.0  2.463831e+00       1.284525         1.0   
Estado_Civil            8723.0  1.077840e+00       0.293268         1.0   
Prov_Madre              8723.0  3.278574e+00       1.436697         1.0   
VIF                     8

##2. Operaciones Básicas con DataFrames



###2.1. Acceso a datos

**Conceptos clave:**

- Acceso a columnas y filas.
- Uso de loc (basado en etiquetas) y iloc (basado en posiciones).


**Ejemplo:**

In [1]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
    'Edad': [23, 45, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(data)

In [None]:
# Acceder a una columna
edades = df['Edad']
print("Edades:")
print(edades)

Edades:
0    23
1    45
2    34
3    29
Name: Edad, dtype: int64


In [None]:

# Acceder a múltiples columnas
nombre_ciudad = df[['Nombre', 'Ciudad']]
print("\nNombre y Ciudad:")
print(nombre_ciudad)


Nombre y Ciudad:
   Nombre     Ciudad
0     Ana     Madrid
1    Luis  Barcelona
2  Carlos   Valencia
3   María    Sevilla


In [None]:
# Acceder a una fila por etiqueta
fila_ana = df.loc[0]
print("\nFila de Ana:")
print(fila_ana)


Fila de Ana:
Nombre       Ana
Edad          23
Ciudad    Madrid
Name: 0, dtype: object


In [None]:
# Acceder a una fila por posición
fila_primera = df.iloc[0]
print("\nPrimera fila:")
print(fila_primera)



Primera fila:
Nombre       Ana
Edad          23
Ciudad    Madrid
Name: 0, dtype: object


### 2.2. Selección y filtrado

Conceptos clave:

- Filtrado condicional.
- Uso de operadores lógicos (&, |, ~).

**Ejemplo:**

In [5]:
df = pd.read_csv("/content/datos_v2.csv", encoding='latin-1', sep=";")
df.head()

Unnamed: 0,DNI_NIÑO,ANEMIA,GENERO,PESO_NACIDO,TALLA_NACIDO,DUR_EMB_PARTO,EDAD_MADRE,CONDICION_PARTO,LACTANCIA_PRECOZ,Nivel_Intruccion_Madre,NUM_EMBAR_MADRE,Estado_Civil,Prov_Madre,VIF,SUPLEMENTACION_GEST,ANEMIA_GEST,AUMENTO_PESO_GEST
0,91660415,NO,0,3370,51,39,26,1,1,8,1,1,2,0,0,0,0
1,91660603,SI,0,2700,47,38,40,1,1,3,3,1,3,0,0,0,0
2,91660650,NO,0,3615,52,39,37,2,0,3,3,1,5,0,0,0,0
3,91660904,NO,0,3240,48,39,34,1,1,3,4,1,1,0,0,0,0
4,91661106,NO,0,3365,51,40,26,1,1,3,2,1,4,0,0,0,0


In [23]:
anemia_above_35 = df[(df['ANEMIA'] == "NO") & (df['EDAD_MADRE'] > 35) & (df['GENERO']==0)]
total_above_35 = df.copy()

percentage_anemia_above_35 = (len(anemia_above_35) / len(total_above_35)) * 100

print(f"Percentage of mothers with anemia and age above 35: {percentage_anemia_above_35:.2f}%")
print(df.shape)

Percentage of mothers with anemia and age above 35: 1.35%
(8723, 17)


In [6]:
# Filtrar por condición
mayores_30 = df[df['EDAD_MADRE'] > 30]
print("\nPersonas mayores de 30 años:")
print(mayores_30)


Personas mayores de 30 años:
      DNI_NIÑO ANEMIA  GENERO  PESO_NACIDO  TALLA_NACIDO  DUR_EMB_PARTO  \
1     91660603     SI       0         2700            47             38   
2     91660650     NO       0         3615            52             39   
3     91660904     NO       0         3240            48             39   
6     91661302     SI       0         2850            47             38   
7     91661649     NO       1         3140            47             39   
...        ...    ...     ...          ...           ...            ...   
8715  93099451     SI       1         1165            37             32   
8716  93099699     SI       0         2585            46             38   
8719  93102871     SI       1         2460            46             36   
8720  93103486     SI       1         2585            47             38   
8722  93110672     SI       0         3140            49             39   

      EDAD_MADRE  CONDICION_PARTO  LACTANCIA_PRECOZ  Nivel_Intruccion

In [None]:
# Filtrar por múltiples condiciones
madrid_mayor_25 = df[(df['Ciudad'] == 'Madrid') & (df['Edad'] > 25)]
print("\nPersonas de Madrid mayores de 25 años:")
print(madrid_mayor_25)


Personas de Madrid mayores de 25 años:
Empty DataFrame
Columns: [Nombre, Edad, Ciudad]
Index: []


In [None]:
# Uso de isin para múltiples valores
ciudades = df[df['Ciudad'].isin(['Madrid', 'Valencia'])]
print("\nPersonas de Madrid o Valencia:")
print(ciudades)


Personas de Madrid o Valencia:
   Nombre  Edad    Ciudad
0     Ana    23    Madrid
2  Carlos    34  Valencia


### 2.3. Ordenamiento de datos

**Conceptos clave:**

- Ordenar por una o varias columnas.
- Orden ascendente (ascending=True) y descendente (ascending=False).

**Ejemplo:**

In [27]:
# Ordenar por edad ascendente
df_ordenado_edad = df.sort_values(by='EDAD_MADRE', ascending=True)
print("\nDataFrame ordenado por edad (ascendente):")
print(df_ordenado_edad)



DataFrame ordenado por edad (ascendente):
      DNI_NIÑO ANEMIA  GENERO  PESO_NACIDO  TALLA_NACIDO  DUR_EMB_PARTO  \
1364  91928763     NO       0         3125            48             38   
6257  92722644     SI       0         2720            49             38   
1766  92013564     NO       1         3220            51             39   
3125  92249472     SI       1         2750            47             38   
5866  92669136     SI       0         3530            50             39   
...        ...    ...     ...          ...           ...            ...   
8059  92991798     SI       0         2660            47             39   
1073  91874680     NO       0         1560            39             31   
562   91776518     SI       1         3800            51             38   
1072  91874677     SI       0         1530            38             31   
4956  92541036     SI       0         2015            44             36   

      EDAD_MADRE  CONDICION_PARTO  LACTANCIA_PRECOZ  Niv

In [28]:

# Ordenar por edad descendente
df_ordenado_edad_desc = df.sort_values(by='EDAD_MADRE', ascending=False)
print("\nDataFrame ordenado por edad (descendente):")
print(df_ordenado_edad_desc)



DataFrame ordenado por edad (descendente):
      DNI_NIÑO ANEMIA  GENERO  PESO_NACIDO  TALLA_NACIDO  DUR_EMB_PARTO  \
4956  92541036     SI       0         2015            44             36   
1073  91874680     NO       0         1560            39             31   
1072  91874677     SI       0         1530            38             31   
562   91776518     SI       1         3800            51             38   
8059  92991798     SI       0         2660            47             39   
...        ...    ...     ...          ...           ...            ...   
4615  92482945     SI       0         4010            52             39   
3125  92249472     SI       1         2750            47             38   
6257  92722644     SI       0         2720            49             38   
1766  92013564     NO       1         3220            51             39   
1364  91928763     NO       0         3125            48             38   

      EDAD_MADRE  CONDICION_PARTO  LACTANCIA_PRECOZ  Ni

In [29]:

# Ordenar por ciudad y luego por edad
df_ordenado_ciudad_edad = df.sort_values(by=['ANEMIA', 'EDAD_MADRE'])
print("\nDataFrame ordenado por ciudad y edad:")
print(df_ordenado_ciudad_edad)



DataFrame ordenado por ciudad y edad:
      DNI_NIÑO ANEMIA  GENERO  PESO_NACIDO  TALLA_NACIDO  DUR_EMB_PARTO  \
1364  91928763     NO       0         3125            48             38   
1766  92013564     NO       1         3220            51             39   
1529  91961628     NO       1         3590            52             38   
45    91670963     NO       1         3695            52             38   
253   91713640     NO       0         3035            49             38   
...        ...    ...     ...          ...           ...            ...   
5527  92624530     SI       1         3195            50             39   
8059  92991798     SI       0         2660            47             39   
562   91776518     SI       1         3800            51             38   
1072  91874677     SI       0         1530            38             31   
4956  92541036     SI       0         2015            44             36   

      EDAD_MADRE  CONDICION_PARTO  LACTANCIA_PRECOZ  Nivel_I

In [32]:
df[(df['ANEMIA'] == "NO") & (df['EDAD_MADRE'] > 35)].sort_values(by=["CONDICION_PARTO"], ascending=False)

Unnamed: 0,DNI_NIÑO,ANEMIA,GENERO,PESO_NACIDO,TALLA_NACIDO,DUR_EMB_PARTO,EDAD_MADRE,CONDICION_PARTO,LACTANCIA_PRECOZ,Nivel_Intruccion_Madre,NUM_EMBAR_MADRE,Estado_Civil,Prov_Madre,VIF,SUPLEMENTACION_GEST,ANEMIA_GEST,AUMENTO_PESO_GEST
1615,91979548,NO,0,3350,49,39,36,3,0,10,3,2,2,0,0,0,0
2,91660650,NO,0,3615,52,39,37,2,0,3,3,1,5,0,0,0,0
21,91664990,NO,1,2520,46,39,38,2,0,8,4,1,2,0,0,0,0
13,91663981,NO,0,3660,50,41,39,2,0,6,4,1,2,0,0,0,0
58,91673885,NO,1,2785,45,37,42,2,1,6,4,1,2,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2521,92165467,NO,0,3900,50,40,37,1,1,8,2,1,1,0,0,0,0
2491,92157962,NO,0,3000,49,38,43,1,1,3,5,1,2,1,0,0,0
4267,92430406,NO,0,3080,48,40,37,1,1,5,4,1,2,1,0,0,1
6222,92718752,NO,1,3120,49,38,41,1,1,6,5,1,2,1,0,0,0


### 2.4. Modificación y eliminación de datos

**Conceptos clave:**

- Añadir y modificar columnas.
- Eliminar filas y columnas.

**Ejemplo:**

In [39]:
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
    'Edad': [23, 45, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(data)

In [42]:
df.apply(lambda x: x.count())

Unnamed: 0,0
Nombre,4
Edad,4
Ciudad,4


In [35]:
# Añadir una nueva columna
df['Puntaje'] = [88, 92, 79, 85]
print("\nDataFrame con nueva columna 'Puntaje':")
print(df)



DataFrame con nueva columna 'Puntaje':
   Nombre  Edad     Ciudad  Puntaje
0     Ana    23     Madrid       88
1    Luis    45  Barcelona       92
2  Carlos    34   Valencia       79
3   María    29    Sevilla       85


In [36]:
# Modificar valores
df.loc[df['Nombre'] == 'Ana', 'Edad'] = 24
print("\nDataFrame después de modificar la edad de Ana:")
print(df)



DataFrame después de modificar la edad de Ana:
   Nombre  Edad     Ciudad  Puntaje
0     Ana    24     Madrid       88
1    Luis    45  Barcelona       92
2  Carlos    34   Valencia       79
3   María    29    Sevilla       85


In [37]:
# Eliminar una columna
df_sin_puntaje = df.drop('Puntaje', axis=1)
print("\nDataFrame sin la columna 'Puntaje':")
print(df_sin_puntaje)



DataFrame sin la columna 'Puntaje':
   Nombre  Edad     Ciudad
0     Ana    24     Madrid
1    Luis    45  Barcelona
2  Carlos    34   Valencia
3   María    29    Sevilla


In [38]:
# Eliminar una fila
df_sin_fila = df.drop(2)  # Eliminar la fila con índice 2
print("\nDataFrame sin la fila de Carlos:")
print(df_sin_fila)


DataFrame sin la fila de Carlos:
  Nombre  Edad     Ciudad  Puntaje
0    Ana    24     Madrid       88
1   Luis    45  Barcelona       92
3  María    29    Sevilla       85


### 2.5. Manejo de datos faltantes

**Conceptos clave:**

- Identificar y tratar valores nulos (NaN).
- Métodos para eliminar o imputar datos faltantes.

**Ejemplo:**

In [43]:
# Introducir valores faltantes
df_con_nan = df.copy()
df_con_nan.loc[1, 'Edad'] = None
print("\nDataFrame con valor faltante:")
print(df_con_nan)



DataFrame con valor faltante:
   Nombre  Edad     Ciudad
0     Ana  23.0     Madrid
1    Luis   NaN  Barcelona
2  Carlos  34.0   Valencia
3   María  29.0    Sevilla


In [44]:
# Identificar valores faltantes
print("\nValores faltantes en 'Edad':")
print(df_con_nan['Edad'].isnull())


Valores faltantes en 'Edad':
0    False
1     True
2    False
3    False
Name: Edad, dtype: bool


In [45]:

# Eliminar filas con valores faltantes
df_sin_nan = df_con_nan.dropna()
print("\nDataFrame sin filas con valores faltantes:")
print(df_sin_nan)


DataFrame sin filas con valores faltantes:
   Nombre  Edad    Ciudad
0     Ana  23.0    Madrid
2  Carlos  34.0  Valencia
3   María  29.0   Sevilla


In [46]:
# Imputar valores faltantes
df_imputado = df_con_nan.fillna({'Edad': df_con_nan['Edad'].mean()})
print("\nDataFrame con valores faltantes imputados:")
print(df_imputado)



DataFrame con valores faltantes imputados:
   Nombre       Edad     Ciudad
0     Ana  23.000000     Madrid
1    Luis  28.666667  Barcelona
2  Carlos  34.000000   Valencia
3   María  29.000000    Sevilla


###2.6. Tamaño y resumen de datos

**Conceptos clave:**

- Obtener el número de filas y columnas.
- Resumen estadístico de los datos.

**Ejemplo:**

In [47]:
# Obtener el número de filas y columnas
filas, columnas = df.shape
print(f"\nEl DataFrame tiene {filas} filas y {columnas} columnas.")



El DataFrame tiene 4 filas y 3 columnas.


In [48]:

# Listar las columnas
print("\nColumnas del DataFrame:")
print(df.columns)


Columnas del DataFrame:
Index(['Nombre', 'Edad', 'Ciudad'], dtype='object')


In [49]:
# Resumen estadístico
print("\nResumen estadístico:")
print(df.describe())


Resumen estadístico:
            Edad
count   4.000000
mean   32.750000
std     9.322911
min    23.000000
25%    27.500000
50%    31.500000
75%    36.750000
max    45.000000


### 2.7. Ejercicios



**Ejercicio 1**

Crea un DataFrame con la siguiente información:

- Nombre: 'Juan', 'Laura', 'Pedro', 'Carmen', 'Luis'
- Departamento: 'Ventas', 'Marketing', 'Ventas', 'Finanzas', 'Marketing'
- Salario: 50000, 60000, 55000, 65000, 62000

Tareas:

- Accede a la columna de salarios.
- Filtra los empleados del departamento de 'Marketing'.
- Ordena el DataFrame por salario de manera descendente.
- Añade una nueva columna 'Bono' que sea el 10% del salario.
- Calcula el salario total (salario + bono) y añade una columna 'SalarioTotal'.


In [61]:
df = pd.DataFrame({
    'Nombre': ['Juan', 'Laura', 'Pedro', 'Carmen', 'Luis'],
    'Departamento': ['Ventas', 'Marketing', 'Ventas', 'Finanzas', 'Marketing'],
    'Salario': [50000, 60000, 55000, 65000, 62000]
})

In [62]:
print(df['Salario'])
print(df[df['Departamento'] == 'Marketing'])
print(df.sort_values(by='Salario', ascending=False))
df['Bono'] = df['Salario'] * 0.1
df['SalarioTotal'] = df['Salario'] + df['Bono']
df

0    50000
1    60000
2    55000
3    65000
4    62000
Name: Salario, dtype: int64
  Nombre Departamento  Salario
1  Laura    Marketing    60000
4   Luis    Marketing    62000
   Nombre Departamento  Salario
3  Carmen     Finanzas    65000
4    Luis    Marketing    62000
1   Laura    Marketing    60000
2   Pedro       Ventas    55000
0    Juan       Ventas    50000


Unnamed: 0,Nombre,Departamento,Salario,Bono,SalarioTotal
0,Juan,Ventas,50000,5000.0,55000.0
1,Laura,Marketing,60000,6000.0,66000.0
2,Pedro,Ventas,55000,5500.0,60500.0
3,Carmen,Finanzas,65000,6500.0,71500.0
4,Luis,Marketing,62000,6200.0,68200.0


**Ejercicio 2**

Utilizando el DataFrame del ejercicio anterior:

- Modifica el salario de 'Juan' a 52000.
- Elimina el empleado 'Pedro' del DataFrame.
- Identifica si hay datos faltantes en el DataFrame.
- Si hay datos faltantes, imputa con el valor promedio de la columna correspondiente.




In [63]:
df.loc[df['Nombre'] == 'Juan', 'Salario'] = 52000

df = df[df['Nombre'] != 'Pedro'].reset_index(drop=True)

df.isnull().sum()

df

Unnamed: 0,Nombre,Departamento,Salario,Bono,SalarioTotal
0,Juan,Ventas,52000,5000.0,55000.0
1,Laura,Marketing,60000,6000.0,66000.0
2,Carmen,Finanzas,65000,6500.0,71500.0
3,Luis,Marketing,62000,6200.0,68200.0


**Ejercicio 3**

Crea un DataFrame con datos de ventas:

- Producto: 'Producto A', 'Producto B', 'Producto C', 'Producto D'
- Ventas Enero: 150, 200, 140, 170
- Ventas Febrero: 180, None, 160, 190

Tareas:

- Calcula el total de ventas por producto sumando 'Ventas Enero' y 'Ventas Febrero'.
- Identifica los productos con datos faltantes en 'Ventas Febrero'.
- Imputa los valores faltantes con el promedio de 'Ventas Febrero'.
- Ordena el DataFrame por total de ventas de manera ascendente.

## 3. Combinación de Datasets


### 3.1. Métodos de combinación: merge, join, concat

Pandas ofrece varias funciones para combinar y fusionar DataFrames:

- **pd.merge:** Combina DataFrames basándose en una o más claves comunes; similar a las uniones (joins) de SQL.
- **pd.DataFrame.join:** Combina DataFrames basándose en los índices.
- **pd.concat:** Une DataFrames a lo largo de un eje (filas o columnas).


### 3.2. Combinación uno a uno

**Ejemplo:**

In [None]:
import pandas as pd

# DataFrame de empleados
df_empleados = pd.DataFrame({
    'EmpleadoID': [1, 2, 3, 4],
    'Nombre': ['John', 'Anna', 'Peter', 'Maria'],
    'DepartamentoID': [101, 102, 103, 104]
})



In [None]:
# DataFrame de departamentos
df_departamentos = pd.DataFrame({
    'DepartamentoID': [101, 102, 103],
    'Departamento': ['HR', 'IT', 'Marketing']
})


In [None]:
df_empleados.head()

Unnamed: 0,EmpleadoID,Nombre,DepartamentoID
0,1,John,101
1,2,Anna,102
2,3,Peter,103
3,4,Maria,104


In [None]:
df_departamentos.head()

Unnamed: 0,DepartamentoID,Departamento
0,101,HR
1,102,IT
2,103,Marketing


In [None]:
pd.merge(df_empleados, df_departamentos, on = 'DepartamentoID', how = 'left')

Unnamed: 0,EmpleadoID,Nombre,DepartamentoID,Departamento
0,1,John,101,HR
1,2,Anna,102,IT
2,3,Peter,103,Marketing
3,4,Maria,104,


In [None]:

# Combinar los DataFrames
df_combined = pd.merge(df_empleados, df_departamentos, on='DepartamentoID')
print("\nDataFrame combinado (uno a uno):")
df_combined



DataFrame combinado (uno a uno):


Unnamed: 0,EmpleadoID,Nombre,DepartamentoID,Departamento
0,1,John,101,HR
1,2,Anna,102,IT
2,3,Peter,103,Marketing


### 3.3. Combinación muchos a uno

**Ejemplo:**

In [None]:
# DataFrame de pedidos
df_pedidos = pd.DataFrame({
    'PedidoID': [1001, 1002, 1003, 1004],
    'ClienteID': [1, 1, 2, 3],
    'Monto': [250, 150, 400, 130]
})
df_pedidos

Unnamed: 0,PedidoID,ClienteID,Monto
0,1001,1,250
1,1002,1,150
2,1003,2,400
3,1004,3,130


In [None]:
# DataFrame de clientes
df_clientes = pd.DataFrame({
    'ClienteID': [1, 2, 3],
    'Cliente': ['Alice', 'Bob', 'Charlie']
})

df_clientes

Unnamed: 0,ClienteID,Cliente
0,1,Alice
1,2,Bob
2,3,Charlie


In [None]:



# Combinar los DataFrames
df_pedidos_clientes = pd.merge(df_pedidos, df_clientes, on='ClienteID', how = 'left')
print("\nDataFrame combinado (muchos a uno):")
df_pedidos_clientes



DataFrame combinado (muchos a uno):


Unnamed: 0,PedidoID,ClienteID,Monto,Cliente
0,1001,1,250,Alice
1,1002,1,150,Alice
2,1003,2,400,Bob
3,1004,3,130,Charlie


### 3.4. Combinación muchos a muchos

**Ejemplo:**


In [None]:
# DataFrame de estudiantes
df_estudiantes = pd.DataFrame({
    'EstudianteID': [1, 2, 3],
    'Nombre': ['Laura', 'Kevin', 'Sophie']})

df_estudiantes

Unnamed: 0,EstudianteID,Nombre
0,1,Laura
1,2,Kevin
2,3,Sophie


In [None]:

# DataFrame de cursos
df_cursos = pd.DataFrame({
    'CursoID': [101, 102],
    'Curso': ['Matemáticas', 'Ciencias']
})

df_cursos

Unnamed: 0,CursoID,Curso
0,101,Matemáticas
1,102,Ciencias


In [None]:
# DataFrame de inscripciones
df_inscripciones = pd.DataFrame({
    'EstudianteID': [1, 1, 2, 3, 3],
    'CursoID': [101, 102, 101, 101, 102]
})

df_inscripciones

Unnamed: 0,EstudianteID,CursoID
0,1,101
1,1,102
2,2,101
3,3,101
4,3,102


In [None]:

df_inscripciones_temp  = pd.merge(df_estudiantes, df_inscripciones, on='EstudianteID', how='right')
df_inscripciones_final = pd.merge(df_inscripciones_temp, df_cursos, on='CursoID', how='left')
df_inscripciones_final


Unnamed: 0,EstudianteID,Nombre,CursoID,Curso
0,1,Laura,101,Matemáticas
1,1,Laura,102,Ciencias
2,2,Kevin,101,Matemáticas
3,3,Sophie,101,Matemáticas
4,3,Sophie,102,Ciencias


In [None]:


# Combinar los DataFrames
df_full = pd.merge(pd.merge(df_inscripciones, df_estudiantes, on=['EstudianteID', 'ID']),
                   df_cursos, on='CursoID')
print("\nDataFrame combinado (muchos a muchos):")
print(df_full)


In [None]:
import pandas as pd

# DataFrame de empleados
df_empleados = pd.DataFrame({
    'EmpleadoID': [1, 2, 3, 4],
    'Nombre': ['John', 'Anna', 'Peter', 'Maria'],
    'DepartamentoID': [101, 102, 103, 104]
})

# DataFrame de departamentos
df_departamentos = pd.DataFrame({
    'DepartamentoID': [101, 102, 103, 105],
    'Departamento': ['HR', 'IT', 'Marketing', 'Data Science']
})



In [None]:
pd.merge(df_empleados, df_departamentos, on = 'DepartamentoID', how = 'outer')

Unnamed: 0,EmpleadoID,Nombre,DepartamentoID,Departamento
0,1.0,John,101,HR
1,2.0,Anna,102,IT
2,3.0,Peter,103,Marketing
3,4.0,Maria,104,
4,,,105,Data Science


### 3.5. Concatenación de datasets

**Concatenación vertical (añadir filas):**

In [65]:
# DataFrames de ventas de dos meses
df_enero = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [100, 150]
})
df_enero

Unnamed: 0,Producto,Ventas
0,A,100
1,B,150


In [66]:
df_febrero = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [200, 250]
})
df_febrero

Unnamed: 0,Producto,Ventas
0,A,200
1,B,250


In [67]:
pd.concat([df_enero, df_febrero], keys=['Enero', 'Febrero'])

Unnamed: 0,Unnamed: 1,Producto,Ventas
Enero,0,A,100
Enero,1,B,150
Febrero,0,A,200
Febrero,1,B,250


In [68]:
# Concatenar los DataFrames
df_ventas = pd.concat([df_enero, df_febrero], keys=['Enero', 'Febrero'])
print("\nDataFrame concatenado (vertical):")


df_ventas = df_ventas.reset_index()
df_ventas.drop('level_1', axis = 1, inplace = True)
df_ventas.rename(columns={'level_0': 'Mes'}, inplace=True)
df_ventas



DataFrame concatenado (vertical):


Unnamed: 0,Mes,Producto,Ventas
0,Enero,A,100
1,Enero,B,150
2,Febrero,A,200
3,Febrero,B,250


**Concatenación horizontal (añadir columnas):**


In [74]:
# DataFrames de características
df_caracteristicas1 = pd.DataFrame({
    'ID': [1, 2],
    'Caracteristica1': ['X', 'Y']
})
df_caracteristicas1

Unnamed: 0,ID,Caracteristica1
0,1,X
1,2,Y


In [75]:
df_caracteristicas2 = pd.DataFrame({
    'ID': [1, 2],
    'Caracteristica2': ['Z', 'W']
})
df_caracteristicas2

Unnamed: 0,ID,Caracteristica2
0,1,Z
1,2,W


In [76]:
# Establecer 'ID' como índice
df_caracteristicas1.set_index('ID', inplace=True)
df_caracteristicas2.set_index('ID', inplace=True)


In [77]:
df_caracteristicas2

Unnamed: 0_level_0,Caracteristica2
ID,Unnamed: 1_level_1
1,Z
2,W


In [80]:
# Concatenar los DataFrames
df_caracteristicas = pd.concat([df_caracteristicas1, df_caracteristicas2], axis=1)
print("\nDataFrame concatenado (horizontal):")
df_caracteristicas



DataFrame concatenado (horizontal):


Unnamed: 0_level_0,Caracteristica1,Caracteristica2
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,X,Z
2,Y,W


### 3.6. Ejercicios

**Ejercicio 1**

Tienes dos DataFrames:

- df_productos con columnas ProductoID, Producto, Categoría.
- df_precios con columnas ProductoID, Precio.

Tareas:
- Realiza un merge para obtener un DataFrame que contenga toda la información de productos y sus precios.
- Experimenta con los diferentes tipos de combinación: inner, outer, left, right.
- Analiza cómo cambia el resultado con cada tipo de combinación.


In [81]:
import pandas as pd

df_productos = pd.DataFrame({
    'ProductoID': [1, 2, 3],
    'Producto': ['A', 'B', 'C'],
    'Categoría': ['X', 'Y', 'Z']
})

df_precios = pd.DataFrame({
    'ProductoID': [2, 3, 4],
    'Precio': [10, 15, 20]
})

df_merged = pd.merge(df_productos, df_precios, on='ProductoID', how='outer')
df_merged

Unnamed: 0,ProductoID,Producto,Categoría,Precio
0,1,A,X,
1,2,B,Y,10.0
2,3,C,Z,15.0
3,4,,,20.0


In [82]:
how_list = ['left', 'right', 'inner', 'outer']

for how in how_list:
  print(f'How: {how}')
  df_prod_precios = pd.merge(df_productos, df_precios, on='ProductoID', how=how)
  print(f'Merge: \n {df_prod_precios} \n')



How: left
Merge: 
    ProductoID Producto Categoría  Precio
0           1        A         X     NaN
1           2        B         Y    10.0
2           3        C         Z    15.0 

How: right
Merge: 
    ProductoID Producto Categoría  Precio
0           2        B         Y      10
1           3        C         Z      15
2           4      NaN       NaN      20 

How: inner
Merge: 
    ProductoID Producto Categoría  Precio
0           2        B         Y      10
1           3        C         Z      15 

How: outer
Merge: 
    ProductoID Producto Categoría  Precio
0           1        A         X     NaN
1           2        B         Y    10.0
2           3        C         Z    15.0
3           4      NaN       NaN    20.0 



**Ejercicio 2**

Tienes los siguientes DataFrames:

- df_ventas_Q1 con ventas del primer trimestre.
- df_ventas_Q2 con ventas del segundo trimestre.

Ambos tienen las mismas columnas: Producto, Ventas.

Tareas:

- Concatenar los DataFrames para tener las ventas del semestre.
- Añade una clave para identificar el trimestre al que pertenece cada fila.
- Calcula las ventas totales por producto en el semestre.


In [90]:
df_ventas_Q1 = pd.DataFrame({
    'Producto': ['A', 'B', 'C'],
    'Ventas': [100, 150, 200]
})

df_ventas_Q2 = pd.DataFrame({
    'Producto': ['B', 'C', 'D'],
    'Ventas': [200, 250, 300]
})

In [98]:
df_semestre = pd.concat([df_ventas_Q1, df_ventas_Q2], keys=['Q1', 'Q2'])
df_semestre.reset_index(inplace=True)
df_semestre.rename(columns={'level_0': 'Trimestre'}, inplace=True)
df_semestre.drop('level_1', axis=1, inplace=True)
df_semestre

Unnamed: 0,Trimestre,Producto,Ventas
0,Q1,A,100
1,Q1,B,150
2,Q1,C,200
3,Q2,B,200
4,Q2,C,250
5,Q2,D,300


In [102]:
(
    df_semestre
    .groupby('Producto')
    .agg({'Ventas': 'sum'})
)

Unnamed: 0_level_0,Ventas
Producto,Unnamed: 1_level_1
A,100
B,350
C,450
D,300


**Ejercicio 3**

Supongamos que tienes dos DataFrames con índices diferentes:

- df_empleados indexado por EmpleadoID y columnas Nombre, Departamento.
- df_salarios indexado por Nombre y columna Salario.

Tareas:

- Combina estos DataFrames utilizando join para obtener un DataFrame que contenga EmpleadoID, Nombre, Departamento y Salario.
- Asegúrate de manejar correctamente los índices para que la combinación sea exitosa.
- Identifica y maneja cualquier inconsistencia en los datos (por ejemplo, nombres que no coinciden).


## 4. Agregación y Agrupamiento


### 4.1. El proceso groupby

El método groupby permite:

- Dividir: Separar el DataFrame en grupos basados en una o más claves.
- Aplicar: Calcular una función específica en cada grupo.
- Combinar: Unir los resultados en una estructura de datos.


### 4.2. Funciones de agregación

- Sumatorias: sum()
- Promedios: mean()
- Conteos: count()
- Valores extremos: min(), max()
- Medidas de dispersión: std(), var()



**Ejemplo:**

In [105]:
# prompt: read titanic data from url github

titanic_url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
titanic = pd.read_csv(titanic_url)
print(titanic.head())

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


In [106]:
titanic.shape

(891, 12)

In [109]:
titanic.isnull().sum()/titanic.shape[0]

Unnamed: 0,0
PassengerId,0.0
Survived,0.0
Pclass,0.0
Name,0.0
Sex,0.0
Age,0.198653
SibSp,0.0
Parch,0.0
Ticket,0.0
Fare,0.0


In [115]:
titanic.groupby("Sex").count()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,over18
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
female,314,314,314,314,261,314,314,314,314,97,312,314
male,577,577,577,577,453,577,577,577,577,107,577,577


In [110]:
titanic['over18'] = titanic['Age'].apply(lambda x: '>= 18' if x >= 18 else '< 18')

titanic.groupby(['Sex', 'over18']).agg({'PassengerId': 'count',
                            'Age': 'mean',
                            'Fare': 'mean',
                            'Survived': 'mean'})



Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Age,Fare,Survived
Sex,over18,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,< 18,108,9.236364,31.024153,0.685185
female,>= 18,206,32.902913,51.534244,0.771845
male,< 18,182,8.856379,22.52422,0.214286
male,>= 18,395,33.937975,26.906022,0.177215


In [111]:
titanic.groupby(['Sex', 'Pclass']).agg({'PassengerId': 'count',
                            'Age': 'mean',
                            'Fare': 'mean',
                            'Survived': 'mean'})


Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Age,Fare,Survived
Sex,Pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,1,94,34.611765,106.125798,0.968085
female,2,76,28.722973,21.970121,0.921053
female,3,144,21.75,16.11881,0.5
male,1,122,41.281386,67.226127,0.368852
male,2,108,30.740707,19.741782,0.157407
male,3,347,26.507589,12.661633,0.135447


In [112]:
pd.crosstab(titanic['Sex'], titanic['Pclass'], normalize='all')

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.105499,0.085297,0.161616
male,0.136925,0.121212,0.38945


In [113]:
pd.pivot_table(titanic, index = 'Sex', columns = 'Pclass', values = 'Survived', aggfunc = 'mean')

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [116]:
pd.pivot_table(titanic, index = 'Pclass', columns = 'over18', values = 'Fare', aggfunc = 'mean')

over18,< 18,>= 18
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,74.131345,86.574115
2,20.129903,20.782833
3,17.06581,11.05636


In [117]:
#Embarked

titanic.groupby('Embarked').agg({'Fare': 'mean',
                                 'Survived': 'mean'})


Unnamed: 0_level_0,Fare,Survived
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,59.954144,0.553571
Q,13.27603,0.38961
S,27.079812,0.336957


In [120]:
# DataFrame de ventas
df_ventas = pd.DataFrame({
    'Región': ['Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur'],
    'Ventas': [100, 150, 200, 130, 120, 170],
    'Ganancia': [20, 30, 50, 25, 22, 35]
})

# Agrupar por 'Región' y calcular la suma de 'Ventas' y 'Ganancia'
agrupado = df_ventas.groupby('Región').agg({'Ventas': 'sum', 'Ganancia': 'sum'})
print("\nAgregación por región:")
print(agrupado)



Agregación por región:
        Ventas  Ganancia
Región                  
Este       200        50
Norte      220        42
Oeste      130        25
Sur        320        65


### 4.3. Agrupamiento por múltiples claves

**Ejemplo:**

In [121]:
# Agregar una columna 'Tipo' para demostrar agrupamiento múltiple
df_ventas['Tipo'] = ['Minorista', 'Mayorista', 'Minorista', 'Minorista', 'Mayorista', 'Minorista']

# Agrupar por 'Región' y 'Tipo' y calcular el promedio de 'Ventas'
agrupado_multiple = df_ventas.groupby(['Región', 'Tipo']).mean()
print("\nAgrupación por región y tipo:")
print(agrupado_multiple)



Agrupación por región y tipo:
                  Ventas  Ganancia
Región Tipo                       
Este   Minorista   200.0      50.0
Norte  Mayorista   120.0      22.0
       Minorista   100.0      20.0
Oeste  Minorista   130.0      25.0
Sur    Mayorista   150.0      30.0
       Minorista   170.0      35.0


### 4.4. Operaciones de transformación

Las transformaciones aplican una función a cada grupo y devuelven un objeto del mismo tamaño que el grupo original.

**Ejemplo:**

In [122]:
# Calcular la diferencia de cada venta respecto al promedio de su región
df_ventas['PromedioVentasRegión'] = df_ventas.groupby('Región')['Ventas'].transform('mean')
df_ventas['DiferenciaVentas'] = df_ventas['Ventas'] - df_ventas['PromedioVentasRegión']
print("\nDataFrame con transformaciones:")
print(df_ventas)



DataFrame con transformaciones:
  Región  Ventas  Ganancia       Tipo  PromedioVentasRegión  DiferenciaVentas
0  Norte     100        20  Minorista                 110.0             -10.0
1    Sur     150        30  Mayorista                 160.0             -10.0
2   Este     200        50  Minorista                 200.0               0.0
3  Oeste     130        25  Minorista                 130.0               0.0
4  Norte     120        22  Mayorista                 110.0              10.0
5    Sur     170        35  Minorista                 160.0              10.0


### 4.5. Ejercicios

**Ejercicio 1**

Usando el DataFrame df_ventas:

- Agrupa los datos por Región y calcula la media y suma de Ventas y Ganancia.
- Ordena los resultados de mayor a menor en función de la suma de Ventas.
- Visualiza los resultados utilizando un gráfico de barras.


**Ejercicio 2**

Tienes un DataFrame df_estudiantes con las columnas Clase, Género, Puntuación.

- Calcula la puntuación media por clase y género.
- Encuentra la puntuación máxima y mínima por clase.
- Normaliza las puntuaciones de cada estudiante restando la media de su clase.


**Ejercicio 3**

Con el DataFrame de ventas df_ventas, crea una función personalizada que calcule el rango intercuartílico (IQR) de las ventas por región.

- Define una función que calcule el IQR.
- Utiliza groupby() y agg() para aplicar esta función.
- Interpreta los resultados.

---

# Gracias por completar este laboratorio!

---