<a href="https://colab.research.google.com/github/raultyv/Tareas/blob/main/07_manipulaci_n_de_datos_con_pandas_LAB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://www.ctic.uni.edu.pe/wp-content/uploads/2022/04/588px-x-348px-web-1.png" alt="HTML5 Icon" width="900" height="350" >


# **Manipulación de Datos con Pandas**


**Objetivo**

El objetivo de este laboratorio es capacitar al estudiante con las herramientas y técnicas esenciales para la manipulación de datos utilizando la biblioteca Pandas. Al final del laboratorio, el estudiante será capaz de realizar operaciones básicas y avanzadas en conjuntos de datos, combinarlos, agruparlos y extraer información útil para el análisis.

**Contenido**

1. <a href="#item31">Introducción a Pandas</a>
2. <a href="#item31">Operaciones Básicas con DataFrames</a>
3. <a href="#item31">Combinación de Datasets</a>
4. <a href="#item31">Agregación y Agrupamiento</a>

</font>
</div>


---

# 1. Introducción a Pandas



## 1.1. ¿Qué es Pandas?

Pandas es una biblioteca de código abierto para el lenguaje de programación Python, que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Es fundamental en el campo de la ciencia de datos y el análisis de datos.

**Características clave de Pandas:**

- Estructuras de datos flexibles: Series y DataFrames para datos unidimensionales y bidimensionales.
- Indexación potente: Permite acceso y manipulación eficientes de datos.
- Herramientas de limpieza y preparación de datos: Funciones para manejar datos faltantes, duplicados, y más.
- Integración con otras bibliotecas: Se complementa bien con NumPy, Matplotlib, y otras.



## 1.2. Estructuras de datos en Pandas

**Series:** Estructura unidimensional similar a una columna en una tabla.

In [None]:
import pandas as pd

# Crear una Serie
s = pd.Series([1, 3, 5, 7, 9])
print(s)


0    1
1    3
2    5
3    7
4    9
dtype: int64


**DataFrame:** Estructura bidimensional, similar a una hoja de cálculo con filas y columnas.


In [None]:
# Crear un DataFrame
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 45, 34],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)
print(df)


   Nombre  Edad     Ciudad
0     Ana    23     Madrid
1    Luis    45  Barcelona
2  Carlos    34   Valencia


## 1.3. Importación y exploración inicial de datos

Importar datos desde un archivo CSV:


In [2]:
# archivo 'datos.csv'
import pandas as pd
from google.colab import files

uploaded = files.upload()

# Ahora, esta línea debería funcionar sin problemas de codificación
df = pd.read_csv('datos_v2.csv',encoding='latin1')



Saving datos_v2.csv to datos_v2.csv


**Exploración inicial:**

Ver las primeras filas:

In [5]:
print(df.head())  # Muestra las primeras 5 filas

  DNI_NIÑO;ANEMIA;GENERO;PESO_NACIDO;TALLA_NACIDO;DUR_EMB_PARTO;EDAD_MADRE;CONDICION_PARTO;LACTANCIA_PRECOZ;Nivel_Intruccion_Madre;NUM_EMBAR_MADRE;Estado_Civil;Prov_Madre;VIF;SUPLEMENTACION_GEST;ANEMIA_GEST;AUMENTO_PESO_GEST
0    91660415;NO;0;3370;51;39;26;1;1;8;1;1;2;0;0;0;0                                                                                                                                                                            
1    91660603;SI;0;2700;47;38;40;1;1;3;3;1;3;0;0;0;0                                                                                                                                                                            
2    91660650;NO;0;3615;52;39;37;2;0;3;3;1;5;0;0;0;0                                                                                                                                                                            
3    91660904;NO;0;3240;48;39;34;1;1;3;4;1;1;0;0;0;0                                                

Resumen de información:

In [3]:
print(df.info())  # Información sobre tipos de datos y valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8723 entries, 0 to 8722
Data columns (total 1 columns):
 #   Column                                                                                                                                                                                                                          Non-Null Count  Dtype 
---  ------                                                                                                                                                                                                                          --------------  ----- 
 0   DNI_NIÑO;ANEMIA;GENERO;PESO_NACIDO;TALLA_NACIDO;DUR_EMB_PARTO;EDAD_MADRE;CONDICION_PARTO;LACTANCIA_PRECOZ;Nivel_Intruccion_Madre;NUM_EMBAR_MADRE;Estado_Civil;Prov_Madre;VIF;SUPLEMENTACION_GEST;ANEMIA_GEST;AUMENTO_PESO_GEST  8723 non-null   object
dtypes: object(1)
memory usage: 68.3+ KB
None


Estadísticas descriptivas:

In [None]:
print(df.describe())  # Estadísticas básicas de las columnas numéricas

##2. Operaciones Básicas con DataFrames



###2.1. Acceso a datos

**Conceptos clave:**

- Acceso a columnas y filas.
- Uso de loc (basado en etiquetas) y iloc (basado en posiciones).


**Ejemplo:**

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
    'Edad': [23, 45, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(data)

In [None]:
# Acceder a una columna
edades = df['Edad']
print("Edades:")
print(edades)

In [None]:

# Acceder a múltiples columnas
nombre_ciudad = df[['Nombre', 'Ciudad']]
print("\nNombre y Ciudad:")
print(nombre_ciudad)

In [None]:
# Acceder a una fila por etiqueta
fila_ana = df.loc[0]
print("\nFila de Ana:")
print(fila_ana)

In [None]:
# Acceder a una fila por posición
fila_primera = df.iloc[0]
print("\nPrimera fila:")
print(fila_primera)


### 2.2. Selección y filtrado

Conceptos clave:

- Filtrado condicional.
- Uso de operadores lógicos (&, |, ~).

**Ejemplo:**

In [None]:
# Filtrar por condición
mayores_30 = df[df['Edad'] > 30]
print("\nPersonas mayores de 30 años:")
print(mayores_30)

In [None]:
# Filtrar por múltiples condiciones
madrid_mayor_25 = df[(df['Ciudad'] == 'Madrid') & (df['Edad'] > 25)]
print("\nPersonas de Madrid mayores de 25 años:")
print(madrid_mayor_25)

In [None]:
# Uso de isin para múltiples valores
ciudades = df[df['Ciudad'].isin(['Madrid', 'Valencia'])]
print("\nPersonas de Madrid o Valencia:")
print(ciudades)

### 2.3. Ordenamiento de datos

**Conceptos clave:**

- Ordenar por una o varias columnas.
- Orden ascendente (ascending=True) y descendente (ascending=False).

**Ejemplo:**

In [1]:
# Ordenar por edad ascendente
df_ordenado_edad = df.sort_values(by='Edad')
print("\nDataFrame ordenado por edad (ascendente):")
print(df_ordenado_edad)


NameError: name 'df' is not defined

In [None]:

# Ordenar por edad descendente
df_ordenado_edad_desc = df.sort_values(by='Edad', ascending=False)
print("\nDataFrame ordenado por edad (descendente):")
print(df_ordenado_edad_desc)


In [None]:

# Ordenar por ciudad y luego por edad
df_ordenado_ciudad_edad = df.sort_values(by=['Ciudad', 'Edad'])
print("\nDataFrame ordenado por ciudad y edad:")
print(df_ordenado_ciudad_edad)


### 2.4. Modificación y eliminación de datos

**Conceptos clave:**

- Añadir y modificar columnas.
- Eliminar filas y columnas.

**Ejemplo:**

In [None]:
# Añadir una nueva columna
df['Puntaje'] = [88, 92, 79, 85]
print("\nDataFrame con nueva columna 'Puntaje':")
print(df)


In [None]:
# Modificar valores
df.loc[df['Nombre'] == 'Ana', 'Edad'] = 24
print("\nDataFrame después de modificar la edad de Ana:")
print(df)


In [None]:
# Eliminar una columna
df_sin_puntaje = df.drop('Puntaje', axis=1)
print("\nDataFrame sin la columna 'Puntaje':")
print(df_sin_puntaje)


In [None]:
# Eliminar una fila
df_sin_fila = df.drop(2)  # Eliminar la fila con índice 2
print("\nDataFrame sin la fila de Carlos:")
print(df_sin_fila)

In [10]:
import pandas as pd
from google.colab import files
uploaded = files.upload()

# Ahora, esta línea debería funcionar sin problemas de codificación
df = pd.read_csv('datos_v2.csv',sep=";",encoding='latin1')

print("Nombres de las columnas después de cargar con delimitador ';':")
print(df.columns)
print("\nPrimeras 5 filas del DataFrame:")
print(df.head())

condicion_no_anemia = (df['ANEMIA'] == 0)
condicion_edad_madre = (df['EDAD_MADRE'] > 35)
df_filtrado = df[condicion_no_anemia & condicion_edad_madre]

# 2. Contar la frecuencia de cada 'CONDICION_PARTO' en el DataFrame filtrado
#    y ordenarlas de mayor a menor.
conteo_condicion_parto = df_filtrado['CONDICION_PARTO'].value_counts()

# 3. Mostrar el resultado ordenado
print("\nConteo de 'CONDICION_PARTO' para mujeres sin anemia y madres > 35 años (ordenado de mayor a menor):")
print(conteo_condicion_parto)

Saving datos_v2.csv to datos_v2 (3).csv
Nombres de las columnas después de cargar con delimitador ';':
Index(['DNI_NIÑO', 'ANEMIA', 'GENERO', 'PESO_NACIDO', 'TALLA_NACIDO',
       'DUR_EMB_PARTO', 'EDAD_MADRE', 'CONDICION_PARTO', 'LACTANCIA_PRECOZ',
       'Nivel_Intruccion_Madre', 'NUM_EMBAR_MADRE', 'Estado_Civil',
       'Prov_Madre', 'VIF', 'SUPLEMENTACION_GEST', 'ANEMIA_GEST',
       'AUMENTO_PESO_GEST'],
      dtype='object')

Primeras 5 filas del DataFrame:
   DNI_NIÑO ANEMIA  GENERO  PESO_NACIDO  TALLA_NACIDO  DUR_EMB_PARTO  \
0  91660415     NO       0         3370            51             39   
1  91660603     SI       0         2700            47             38   
2  91660650     NO       0         3615            52             39   
3  91660904     NO       0         3240            48             39   
4  91661106     NO       0         3365            51             40   

   EDAD_MADRE  CONDICION_PARTO  LACTANCIA_PRECOZ  Nivel_Intruccion_Madre  \
0          26          

### 2.5. Manejo de datos faltantes

**Conceptos clave:**

- Identificar y tratar valores nulos (NaN).
- Métodos para eliminar o imputar datos faltantes.

**Ejemplo:**

In [None]:
# Introducir valores faltantes
df_con_nan = df.copy()
df_con_nan.loc[1, 'Edad'] = None
print("\nDataFrame con valor faltante:")
print(df_con_nan)


In [None]:
# Identificar valores faltantes
print("\nValores faltantes en 'Edad':")
print(df_con_nan['Edad'].isnull())

In [None]:

# Eliminar filas con valores faltantes
df_sin_nan = df_con_nan.dropna()
print("\nDataFrame sin filas con valores faltantes:")
print(df_sin_nan)

In [None]:
# Imputar valores faltantes
df_imputado = df_con_nan.fillna({'Edad': df_con_nan['Edad'].mean()})
print("\nDataFrame con valores faltantes imputados:")
print(df_imputado)


###2.6. Tamaño y resumen de datos

**Conceptos clave:**

- Obtener el número de filas y columnas.
- Resumen estadístico de los datos.

**Ejemplo:**

In [11]:
# Obtener el número de filas y columnas
filas, columnas = df.shape
print(f"\nEl DataFrame tiene {filas} filas y {columnas} columnas.")



El DataFrame tiene 8723 filas y 17 columnas.


In [12]:

# Listar las columnas
print("\nColumnas del DataFrame:")
print(df.columns)


Columnas del DataFrame:
Index(['DNI_NIÑO', 'ANEMIA', 'GENERO', 'PESO_NACIDO', 'TALLA_NACIDO',
       'DUR_EMB_PARTO', 'EDAD_MADRE', 'CONDICION_PARTO', 'LACTANCIA_PRECOZ',
       'Nivel_Intruccion_Madre', 'NUM_EMBAR_MADRE', 'Estado_Civil',
       'Prov_Madre', 'VIF', 'SUPLEMENTACION_GEST', 'ANEMIA_GEST',
       'AUMENTO_PESO_GEST'],
      dtype='object')


In [13]:
# Resumen estadístico
print("\nResumen estadístico:")
print(df.describe())


Resumen estadístico:
           DNI_NIÑO       GENERO  PESO_NACIDO  TALLA_NACIDO  DUR_EMB_PARTO  \
count  8.723000e+03  8723.000000  8723.000000   8723.000000    8723.000000   
mean   9.242271e+07     0.488364  3231.073713     48.852574      38.819214   
std    4.035455e+05     0.499893   468.367938      2.193004       1.445085   
min    9.166042e+07     0.000000   925.000000     28.000000      25.000000   
25%    9.210013e+07     0.000000  2965.000000     48.000000      38.000000   
50%    9.244617e+07     0.000000  3240.000000     49.000000      39.000000   
75%    9.276510e+07     1.000000  3530.000000     50.000000      40.000000   
max    9.311067e+07     1.000000  5470.000000     59.000000      42.000000   

        EDAD_MADRE  CONDICION_PARTO  LACTANCIA_PRECOZ  Nivel_Intruccion_Madre  \
count  8723.000000      8723.000000       8723.000000             8723.000000   
mean     28.706179         1.265734          0.760977                5.947151   
std       6.542419         0.443

### 2.7. Ejercicios



**Ejercicio 1**

Crea un DataFrame con la siguiente información:

- Nombre: 'Juan', 'Laura', 'Pedro', 'Carmen', 'Luis'
- Departamento: 'Ventas', 'Marketing', 'Ventas', 'Finanzas', 'Marketing'
- Salario: 50000, 60000, 55000, 65000, 62000

Tareas:

- Accede a la columna de salarios.
- Filtra los empleados del departamento de 'Marketing'.
- Ordena el DataFrame por salario de manera descendente.
- Añade una nueva columna 'Bono' que sea el 10% del salario.
- Calcula el salario total (salario + bono) y añade una columna 'SalarioTotal'.


In [19]:
import pandas as pd

# 1. Crea un DataFrame con la siguiente información:
data = {
    'Nombre': ['Juan', 'Laura', 'Pedro', 'Carmen', 'Luis'],
    'Departamento': ['Ventas', 'Marketing', 'Ventas', 'Finanzas', 'Marketing'],
    'Salario': [50000, 60000, 55000, 65000, 62000]
}

df_ejercicio1 = pd.DataFrame(data)
print("DataFrame Inicial:")
print(df_ejercicio1)
print("-" * 30)
# Accede a la columna de salarios.
print("\nAccediendo a la columna 'Salario':")
print(df_ejercicio1['Salario'])
print("-" * 30)
# Filtra los empleados del departamento de 'Marketing'.
df_marketing = df_ejercicio1[df_ejercicio1['Departamento'] == 'Marketing']
print("\nEmpleados del departamento de 'Marketing':")
print(df_marketing)
print("-" * 30)
# Ordena el DataFrame por salario de manera descendente.
df_ordenado = df_ejercicio1.sort_values(by='Salario', ascending=False)
print("\nDataFrame ordenado por 'Salario' de forma descendente:")
print(df_ordenado)
print("-" * 30)
# Añade una nueva columna 'Bono' que sea el 10% del salario.
df_ejercicio1['Bono'] = df_ejercicio1['Salario'] * 0.10
print("\nDataFrame con la nueva columna 'Bono':")
print(df_ejercicio1)
print("-" * 30)
# Calcula el salario total (salario + bono) y añade una columna 'SalarioTotal'.
df_ejercicio1['SalarioTotal'] = df_ejercicio1['Salario'] + df_ejercicio1['Bono']
print("\nDataFrame con la nueva columna 'SalarioTotal':")
print(df_ejercicio1)
print("-" * 30)

DataFrame Inicial:
   Nombre Departamento  Salario
0    Juan       Ventas    50000
1   Laura    Marketing    60000
2   Pedro       Ventas    55000
3  Carmen     Finanzas    65000
4    Luis    Marketing    62000
------------------------------

Accediendo a la columna 'Salario':
0    50000
1    60000
2    55000
3    65000
4    62000
Name: Salario, dtype: int64
------------------------------

Empleados del departamento de 'Marketing':
  Nombre Departamento  Salario
1  Laura    Marketing    60000
4   Luis    Marketing    62000
------------------------------

DataFrame ordenado por 'Salario' de forma descendente:
   Nombre Departamento  Salario
3  Carmen     Finanzas    65000
4    Luis    Marketing    62000
1   Laura    Marketing    60000
2   Pedro       Ventas    55000
0    Juan       Ventas    50000
------------------------------

DataFrame con la nueva columna 'Bono':
   Nombre Departamento  Salario    Bono
0    Juan       Ventas    50000  5000.0
1   Laura    Marketing    60000  6000.0
2

**Ejercicio 2**

Utilizando el DataFrame del ejercicio anterior:

- Modifica el salario de 'Juan' a 52000.
- Elimina el empleado 'Pedro' del DataFrame.
- Identifica si hay datos faltantes en el DataFrame.
- Si hay datos faltantes, imputa con el valor promedio de la columna correspondiente.




In [25]:
df_ejercicio2 = pd.DataFrame(data)
df_ejercicio2.loc[df_ejercicio2['Nombre'] == 'Juan', 'Salario'] = 52000
df_ejercicio2['Bono'] = df_ejercicio2['Salario'] * 0.10
df_ejercicio2['SalarioTotal'] = df_ejercicio2['Salario'] + df_ejercicio2['Bono']


print("\n1. DataFrame después de modificar el salario de 'Juan':")
print(df_ejercicio2)
print("-" * 40)

df_ejercicio2.drop(df_ejercicio2[df_ejercicio2['Nombre'] == 'Pedro'].index, inplace=True)

print("\n2. DataFrame después de eliminar a 'Pedro':")
print(df_ejercicio2)
print("-" * 40)

# 3. Identifica si hay datos faltantes en el DataFrame.
print("\n3. Datos faltantes en el DataFrame (True = faltante):")
print(df_ejercicio2.isnull())

print("\nConteo de datos faltantes por columna:")
print(df_ejercicio2.isnull().sum())
print("-" * 40)

# Imputar valores faltantes en columnas numéricas con la media
for col in ['Salario', 'Bono', 'SalarioTotal']:
    if col in df_ejercicio2.columns and df_ejercicio2[col].isnull().any():
        col_mean = df_ejercicio2[col].mean()
        df_ejercicio2[col].fillna(col_mean, inplace=True)
        print(f"Columna '{col}' imputada con la media: {col_mean:.2f}")

# Para 'Departamento' (o cualquier columna no numérica), la media no aplica.
# Si el requisito fuera imputar con la moda para columnas categóricas, sería:
if 'Departamento' in df_ejercicio2.columns and df_ejercicio2['Departamento'].isnull().any():
    most_frequent_department = df_ejercicio2['Departamento'].mode()[0]
    df_ejercicio2['Departamento'].fillna(most_frequent_department, inplace=True)
    print(f"Columna 'Departamento' imputada con la moda: '{most_frequent_department}'")



1. DataFrame después de modificar el salario de 'Juan':
   Nombre Departamento  Salario    Bono  SalarioTotal
0    Juan       Ventas    52000  5200.0       57200.0
1   Laura    Marketing    60000  6000.0       66000.0
2   Pedro       Ventas    55000  5500.0       60500.0
3  Carmen     Finanzas    65000  6500.0       71500.0
4    Luis    Marketing    62000  6200.0       68200.0
----------------------------------------

2. DataFrame después de eliminar a 'Pedro':
   Nombre Departamento  Salario    Bono  SalarioTotal
0    Juan       Ventas    52000  5200.0       57200.0
1   Laura    Marketing    60000  6000.0       66000.0
3  Carmen     Finanzas    65000  6500.0       71500.0
4    Luis    Marketing    62000  6200.0       68200.0
----------------------------------------

3. Datos faltantes en el DataFrame (True = faltante):
   Nombre  Departamento  Salario   Bono  SalarioTotal
0   False         False    False  False         False
1   False         False    False  False         False
3   F

**Ejercicio 3**

Crea un DataFrame con datos de ventas:

- Producto: 'Producto A', 'Producto B', 'Producto C', 'Producto D'
- Ventas Enero: 150, 200, 140, 170
- Ventas Febrero: 180, None, 160, 190

Tareas:

- Calcula el total de ventas por producto sumando 'Ventas Enero' y 'Ventas Febrero'.
- Identifica los productos con datos faltantes en 'Ventas Febrero'.
- Imputa los valores faltantes con el promedio de 'Ventas Febrero'.
- Ordena el DataFrame por total de ventas de manera ascendente.

In [33]:
import pandas as pd
import numpy as np # Necesario para np.nan

# 1. Crea un DataFrame con datos de ventas:
data_ventas = {
    'Producto': ['Producto A', 'Producto B', 'Producto C', 'Producto D'],
    'Ventas Enero': [150, 200, 140, 170],
    'Ventas Febrero': [180, None, 160, 190] # Usamos None para representar el dato faltante
}

# Pandas convertirá None a NaN (Not a Number) automáticamente en columnas numéricas
df_ventas = pd.DataFrame(data_ventas)
print("DataFrame de Ventas Inicial:")
print(df_ventas)
print("-" * 40)

df_ventas['Total Ventas'] = df_ventas['Ventas Enero'] + df_ventas['Ventas Febrero']
print("\n1. DataFrame con la columna 'Total Ventas':")
print(df_ventas)
print("-" * 40)

productos_faltantes = df_ventas[df_ventas['Ventas Febrero'].isnull()]
print("\n2. Productos con datos faltantes en 'Ventas Febrero':")
print(productos_faltantes)
print("-" * 40)

# 3. Imputa los valores faltantes con el promedio de 'Ventas Febrero'.
# Calculamos la media de 'Ventas Febrero', ignorando los NaN existentes.
mean_ventas_febrero = df_ventas['Ventas Febrero'].mean()

# Rellenamos los valores NaN en 'Ventas Febrero' con la media calculada.
df_ventas['Ventas Febrero'].fillna(mean_ventas_febrero, inplace=True)

# Es importante recalcular 'Total Ventas' después de la imputación si ya la calculamos antes
# ya que el valor de 'Ventas Febrero' ha cambiado para algunos productos.
df_ventas['Total Ventas'] = df_ventas['Ventas Enero'] + df_ventas['Ventas Febrero']
print(f"\n3. DataFrame después de imputar 'Ventas Febrero' con el promedio ({mean_ventas_febrero:.2f}):")
print(df_ventas)
print("\nVerificación de datos faltantes en 'Ventas Febrero' después de imputación:")
print(df_ventas['Ventas Febrero'].isnull().sum())
print("-" * 40)

# 4. Ordena el DataFrame por total de ventas de manera ascendente.
df_ventas_ordenado = df_ventas.sort_values(by='Total Ventas', ascending=True)

print("\n4. DataFrame ordenado por 'Total Ventas' de forma ascendente:")
print(df_ventas_ordenado)
print("-" * 40)

DataFrame de Ventas Inicial:
     Producto  Ventas Enero  Ventas Febrero
0  Producto A           150           180.0
1  Producto B           200             NaN
2  Producto C           140           160.0
3  Producto D           170           190.0
----------------------------------------

1. DataFrame con la columna 'Total Ventas':
     Producto  Ventas Enero  Ventas Febrero  Total Ventas
0  Producto A           150           180.0         330.0
1  Producto B           200             NaN           NaN
2  Producto C           140           160.0         300.0
3  Producto D           170           190.0         360.0
----------------------------------------

2. Productos con datos faltantes en 'Ventas Febrero':
     Producto  Ventas Enero  Ventas Febrero  Total Ventas
1  Producto B           200             NaN           NaN
----------------------------------------

3. DataFrame después de imputar 'Ventas Febrero' con el promedio (176.67):
     Producto  Ventas Enero  Ventas Febrero  T

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_ventas['Ventas Febrero'].fillna(mean_ventas_febrero, inplace=True)


## 3. Combinación de Datasets


### 3.1. Métodos de combinación: merge, join, concat

Pandas ofrece varias funciones para combinar y fusionar DataFrames:

- **pd.merge:** Combina DataFrames basándose en una o más claves comunes; similar a las uniones (joins) de SQL.
- **pd.DataFrame.join:** Combina DataFrames basándose en los índices.
- **pd.concat:** Une DataFrames a lo largo de un eje (filas o columnas).


### 3.2. Combinación uno a uno

**Ejemplo:**

In [34]:
import pandas as pd

# DataFrame de empleados
df_empleados = pd.DataFrame({
    'EmpleadoID': [1, 2, 3, 4],
    'Nombre': ['John', 'Anna', 'Peter', 'Maria'],
    'DepartamentoID': [101, 102, 103, 104]
})



In [35]:
# DataFrame de departamentos
df_departamentos = pd.DataFrame({
    'DepartamentoID': [101, 102, 103],
    'Departamento': ['HR', 'IT', 'Marketing']
})


In [36]:
df_empleados.head()

Unnamed: 0,EmpleadoID,Nombre,DepartamentoID
0,1,John,101
1,2,Anna,102
2,3,Peter,103
3,4,Maria,104


In [37]:
df_departamentos.head()

Unnamed: 0,DepartamentoID,Departamento
0,101,HR
1,102,IT
2,103,Marketing


In [38]:
pd.merge(df_empleados, df_departamentos, on = 'DepartamentoID', how = 'left')

Unnamed: 0,EmpleadoID,Nombre,DepartamentoID,Departamento
0,1,John,101,HR
1,2,Anna,102,IT
2,3,Peter,103,Marketing
3,4,Maria,104,


In [None]:

# Combinar los DataFrames
df_combined = pd.merge(df_empleados, df_departamentos, on='DepartamentoID')
print("\nDataFrame combinado (uno a uno):")
df_combined



DataFrame combinado (uno a uno):


Unnamed: 0,EmpleadoID,Nombre,DepartamentoID,Departamento
0,1,John,101,HR
1,2,Anna,102,IT
2,3,Peter,103,Marketing


### 3.3. Combinación muchos a uno

**Ejemplo:**

In [None]:
# DataFrame de pedidos
df_pedidos = pd.DataFrame({
    'PedidoID': [1001, 1002, 1003, 1004],
    'ClienteID': [1, 1, 2, 3],
    'Monto': [250, 150, 400, 130]
})
df_pedidos

Unnamed: 0,PedidoID,ClienteID,Monto
0,1001,1,250
1,1002,1,150
2,1003,2,400
3,1004,3,130


In [None]:
# DataFrame de clientes
df_clientes = pd.DataFrame({
    'ClienteID': [1, 2, 3],
    'Cliente': ['Alice', 'Bob', 'Charlie']
})

df_clientes

Unnamed: 0,ClienteID,Cliente
0,1,Alice
1,2,Bob
2,3,Charlie


In [None]:



# Combinar los DataFrames
df_pedidos_clientes = pd.merge(df_pedidos, df_clientes, on='ClienteID', how = 'left')
print("\nDataFrame combinado (muchos a uno):")
df_pedidos_clientes



DataFrame combinado (muchos a uno):


Unnamed: 0,PedidoID,ClienteID,Monto,Cliente
0,1001,1,250,Alice
1,1002,1,150,Alice
2,1003,2,400,Bob
3,1004,3,130,Charlie


### 3.4. Combinación muchos a muchos

**Ejemplo:**


In [None]:
# DataFrame de estudiantes
df_estudiantes = pd.DataFrame({
    'EstudianteID': [1, 2, 3],
    'Nombre': ['Laura', 'Kevin', 'Sophie']})

df_estudiantes

Unnamed: 0,EstudianteID,Nombre
0,1,Laura
1,2,Kevin
2,3,Sophie


In [None]:

# DataFrame de cursos
df_cursos = pd.DataFrame({
    'CursoID': [101, 102],
    'Curso': ['Matemáticas', 'Ciencias']
})

df_cursos

Unnamed: 0,CursoID,Curso
0,101,Matemáticas
1,102,Ciencias


In [None]:
# DataFrame de inscripciones
df_inscripciones = pd.DataFrame({
    'EstudianteID': [1, 1, 2, 3, 3],
    'CursoID': [101, 102, 101, 101, 102]
})

df_inscripciones

Unnamed: 0,EstudianteID,CursoID
0,1,101
1,1,102
2,2,101
3,3,101
4,3,102


In [None]:

df_inscripciones_temp  = pd.merge(df_estudiantes, df_inscripciones, on='EstudianteID', how='right')
df_inscripciones_final = pd.merge(df_inscripciones_temp, df_cursos, on='CursoID', how='left')
df_inscripciones_final


Unnamed: 0,EstudianteID,Nombre,CursoID,Curso
0,1,Laura,101,Matemáticas
1,1,Laura,102,Ciencias
2,2,Kevin,101,Matemáticas
3,3,Sophie,101,Matemáticas
4,3,Sophie,102,Ciencias


In [None]:


# Combinar los DataFrames
df_full = pd.merge(pd.merge(df_inscripciones, df_estudiantes, on=['EstudianteID', 'ID']),
                   df_cursos, on='CursoID')
print("\nDataFrame combinado (muchos a muchos):")
print(df_full)


In [None]:
import pandas as pd

# DataFrame de empleados
df_empleados = pd.DataFrame({
    'EmpleadoID': [1, 2, 3, 4],
    'Nombre': ['John', 'Anna', 'Peter', 'Maria'],
    'DepartamentoID': [101, 102, 103, 104]
})

# DataFrame de departamentos
df_departamentos = pd.DataFrame({
    'DepartamentoID': [101, 102, 103, 105],
    'Departamento': ['HR', 'IT', 'Marketing', 'Data Science']
})



In [None]:
pd.merge(df_empleados, df_departamentos, on = 'DepartamentoID', how = 'outer')

Unnamed: 0,EmpleadoID,Nombre,DepartamentoID,Departamento
0,1.0,John,101,HR
1,2.0,Anna,102,IT
2,3.0,Peter,103,Marketing
3,4.0,Maria,104,
4,,,105,Data Science


### 3.5. Concatenación de datasets

**Concatenación vertical (añadir filas):**

In [None]:
# DataFrames de ventas de dos meses
df_enero = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [100, 150]
})
df_enero

Unnamed: 0,Producto,Ventas
0,A,100
1,B,150


In [None]:
df_febrero = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [200, 250]
})
df_febrero

Unnamed: 0,Producto,Ventas
0,A,200
1,B,250


In [None]:
pd.concat([df_enero, df_febrero], keys=['Enero', 'Febrero'])

Unnamed: 0,Unnamed: 1,Producto,Ventas
Enero,0,A,100
Enero,1,B,150
Febrero,0,A,200
Febrero,1,B,250


In [None]:
# Concatenar los DataFrames
df_ventas = pd.concat([df_enero, df_febrero], keys=['Enero', 'Febrero'])
print("\nDataFrame concatenado (vertical):")


df_ventas = df_ventas.reset_index()
df_ventas.drop('level_1', axis = 1, inplace = True)
df_ventas.rename(columns={'level_0': 'Mes'}, inplace=True)
df_ventas



DataFrame concatenado (vertical):


Unnamed: 0,Mes,Producto,Ventas
0,Enero,A,100
1,Enero,B,150
2,Febrero,A,200
3,Febrero,B,250


**Concatenación horizontal (añadir columnas):**


In [45]:
# DataFrames de características
df_caracteristicas1 = pd.DataFrame({
    'ID': [1, 2],
    'Caracteristica1': ['X', 'Y']
})
df_caracteristicas1

Unnamed: 0,ID,Caracteristica1
0,1,X
1,2,Y


In [46]:
df_caracteristicas2 = pd.DataFrame({
    'ID': [1, 2],
    'Caracteristica2': ['Z', 'W']
})
df_caracteristicas2

Unnamed: 0,ID,Caracteristica2
0,1,Z
1,2,W


In [47]:
# Establecer 'ID' como índice
df_caracteristicas1.set_index('ID', inplace=True)
df_caracteristicas2.set_index('ID', inplace=True)


In [None]:
df_caracteristicas2

Unnamed: 0_level_0,Caracteristica2
ID,Unnamed: 1_level_1
1,Z
2,W


In [49]:

# Concatenar los DataFrames
df_caracteristicas = pd.concat([df_caracteristicas1, df_caracteristicas2.drop('ID',axis=1)], axis=1)
print("\nDataFrame concatenado (horizontal):")
df_caracteristicas


KeyError: "['ID'] not found in axis"

### 3.6. Ejercicios

**Ejercicio 1**

Tienes dos DataFrames:

- df_productos con columnas ProductoID, Producto, Categoría.
- df_precios con columnas ProductoID, Precio.

Tareas:
- Realiza un merge para obtener un DataFrame que contenga toda la información de productos y sus precios.
- Experimenta con los diferentes tipos de combinación: inner, outer, left, right.
- Analiza cómo cambia el resultado con cada tipo de combinación.


In [50]:
import pandas as pd

df_productos = pd.DataFrame({
    'ProductoID': [1, 2, 3],
    'Producto': ['A', 'B', 'C'],
    'Categoría': ['X', 'Y', 'Z']
})

df_precios = pd.DataFrame({
    'ProductoID': [2, 3, 4],
    'Precio': [10, 15, 20]
})

df_merged = pd.merge(df_productos, df_precios, on='ProductoID', how='outer')
df_merged

Unnamed: 0,ProductoID,Producto,Categoría,Precio
0,1,A,X,
1,2,B,Y,10.0
2,3,C,Z,15.0
3,4,,,20.0


In [51]:
how_list = ['left', 'right', 'inner', 'outer']

for how in how_list:
  print(f'How: {how}')
  df_prod_precios = pd.merge(df_productos, df_precios, on='ProductoID', how=how)
  print(f'Merge: \n {df_prod_precios} \n')



How: left
Merge: 
    ProductoID Producto Categoría  Precio
0           1        A         X     NaN
1           2        B         Y    10.0
2           3        C         Z    15.0 

How: right
Merge: 
    ProductoID Producto Categoría  Precio
0           2        B         Y      10
1           3        C         Z      15
2           4      NaN       NaN      20 

How: inner
Merge: 
    ProductoID Producto Categoría  Precio
0           2        B         Y      10
1           3        C         Z      15 

How: outer
Merge: 
    ProductoID Producto Categoría  Precio
0           1        A         X     NaN
1           2        B         Y    10.0
2           3        C         Z    15.0
3           4      NaN       NaN    20.0 



**Ejercicio 2**

Tienes los siguientes DataFrames:

- df_ventas_Q1 con ventas del primer trimestre.
- df_ventas_Q2 con ventas del segundo trimestre.

Ambos tienen las mismas columnas: Producto, Ventas.

Tareas:

- Concatenar los DataFrames para tener las ventas del semestre.
- Añade una clave para identificar el trimestre al que pertenece cada fila.
- Calcula las ventas totales por producto en el semestre.


In [52]:
import pandas as pd

# Crear el primer DataFrame: df_ventas_Q1
df_ventas_Q1 = pd.DataFrame({
    'Producto': ['A', 'B', 'C', 'D'],
    'Ventas': [100, 150, 120, 180]
})

print("DataFrame df_ventas_Q1 (Primer Trimestre):")
print(df_ventas_Q1)
print("-" * 40)

# Crear el segundo DataFrame: df_ventas_Q2
df_ventas_Q2 = pd.DataFrame({
    'Producto': ['A', 'B', 'C', 'D'],
    'Ventas': [110, 160, 130, 190]
})

print("\nDataFrame df_ventas_Q2 (Segundo Trimestre):")
print(df_ventas_Q2)
print("-" * 40)

# Tareas:

# 1. Concatenar los DataFrames para tener las ventas del semestre.
# pd.concat() une DataFrames verticalmente por defecto (añade filas).
# ignore_index=True es útil para resetear el índice del nuevo DataFrame concatenado.
df_semestre = pd.concat([df_ventas_Q1, df_ventas_Q2], ignore_index=True)

print("\n1. DataFrame concatenado (Ventas del Semestre):")
print(df_semestre)
print("-" * 40)

# 2. Añade una clave para identificar el trimestre al que pertenece cada fila.
# Lo haremos antes de la concatenación para que sea más fácil.
# Recreamos y modificamos antes de concatenar para añadir la columna 'Trimestre'.

df_ventas_Q1_indexed = df_ventas_Q1.copy() # Hacemos una copia para no modificar el original directamente
df_ventas_Q1_indexed['Trimestre'] = 'Q1'

df_ventas_Q2_indexed = df_ventas_Q2.copy()
df_ventas_Q2_indexed['Trimestre'] = 'Q2'

# Ahora concatenamos los DataFrames con la nueva columna 'Trimestre'
df_semestre_con_trimestre = pd.concat([df_ventas_Q1_indexed, df_ventas_Q2_indexed], ignore_index=True)


print("\n2. DataFrame concatenado con columna 'Trimestre':")
print(df_semestre_con_trimestre)
print("-" * 40)

# 3. Calcula las ventas totales por producto en el semestre.
# Usaremos .groupby() para agrupar por 'Producto' y luego .sum() para sumar las 'Ventas'.
ventas_totales_por_producto = df_semestre_con_trimestre.groupby('Producto')['Ventas'].sum()

print("\n3. Ventas totales por producto en el semestre:")
print(ventas_totales_por_producto)
print("-" * 40)

DataFrame df_ventas_Q1 (Primer Trimestre):
  Producto  Ventas
0        A     100
1        B     150
2        C     120
3        D     180
----------------------------------------

DataFrame df_ventas_Q2 (Segundo Trimestre):
  Producto  Ventas
0        A     110
1        B     160
2        C     130
3        D     190
----------------------------------------

1. DataFrame concatenado (Ventas del Semestre):
  Producto  Ventas
0        A     100
1        B     150
2        C     120
3        D     180
4        A     110
5        B     160
6        C     130
7        D     190
----------------------------------------

2. DataFrame concatenado con columna 'Trimestre':
  Producto  Ventas Trimestre
0        A     100        Q1
1        B     150        Q1
2        C     120        Q1
3        D     180        Q1
4        A     110        Q2
5        B     160        Q2
6        C     130        Q2
7        D     190        Q2
----------------------------------------

3. Ventas totales por pro

**Ejercicio 3**

Supongamos que tienes dos DataFrames con índices diferentes:

- df_empleados indexado por EmpleadoID y columnas Nombre, Departamento.
- df_salarios indexado por Nombre y columna Salario.

Tareas:

- Combina estos DataFrames utilizando join para obtener un DataFrame que contenga EmpleadoID, Nombre, Departamento y Salario.
- Asegúrate de manejar correctamente los índices para que la combinación sea exitosa.
- Identifica y maneja cualquier inconsistencia en los datos (por ejemplo, nombres que no coinciden).


In [53]:
import pandas as pd

# Crear el primer DataFrame: df_empleados
# Indexado por 'EmpleadoID'
df_empleados = pd.DataFrame({
    'EmpleadoID': [101, 102, 103, 104, 105],
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Departamento': ['HR', 'IT', 'Finance', 'HR', 'IT']
}).set_index('EmpleadoID') # Establecemos EmpleadoID como índice

print("DataFrame df_empleados (Indexado por EmpleadoID):")
print(df_empleados)
print("-" * 50)

# Crear el segundo DataFrame: df_salarios
# Indexado por 'Nombre'
df_salarios = pd.DataFrame({
    'Nombre': ['Alice', 'Bob', 'Charlie', 'Frank', 'Grace'], # 'Frank' y 'Grace' son inconsistencias
    'Salario': [70000, 80000, 75000, 90000, 60000]
}).set_index('Nombre') # Establecemos Nombre como índice

print("\nDataFrame df_salarios (Indexado por Nombre):")
print(df_salarios)
print("-" * 50)

# Tareas:
# 1. Combina estos DataFrames utilizando join para obtener un DataFrame que contenga
#    EmpleadoID, Nombre, Departamento y Salario.
# 2. Asegúrate de manejar correctamente los índices para que la combinación sea exitosa.
# 3. Identifica y maneja cualquier inconsistencia en los datos (por ejemplo, nombres que no coinciden).

print("\n--- Realizando la combinación con .join() ---")

# Para combinar usando .join(), uno de los DataFrames debe ser el "principal"
# y el otro se unirá a él. Los joins ocurren sobre los índices.
# Si queremos combinar df_empleados (por EmpleadoID) con df_salarios (por Nombre),
# necesitamos que el índice de al menos uno de ellos tenga la columna del otro.
# Opción 1: Resetear el índice de df_empleados y usar merge (más común cuando los índices son diferentes)
# Opción 2: Usar .join() de forma más avanzada o encadenar operaciones.

# Para combinar por 'Nombre' usando .join():
# Necesitamos que 'Nombre' sea el índice de df_empleados para poder unirlo con df_salarios.
# O, la forma más común en estos casos: resetear el índice de df_empleados y luego usar merge.

# Vamos a hacerlo de la forma más común y clara para este escenario:
# Usar merge, que es más flexible para combinar por columnas específicas,
# incluso si no son los índices de ambos DataFrames.

# Primero, resetear el índice de df_empleados para que 'EmpleadoID' vuelva a ser una columna.
# Y crear una copia de df_salarios para que 'Nombre' sea también una columna temporal si fuera necesario.
df_empleados_reset = df_empleados.reset_index()

# Ahora, combinamos usando 'Nombre' como la clave para la combinación.
# Esto es un merge, no un join directo por índice, pero es la forma más práctica
# cuando los índices de los DataFrames que quieres combinar no son la clave común.

# --- Combinación tipo 'inner' (solo nombres que coinciden en ambos) ---
print("\nCombinación INNER (usando merge por 'Nombre' - nombres que están en ambos):")
df_combinado_inner = pd.merge(df_empleados_reset, df_salarios, on='Nombre', how='inner')
print(df_combinado_inner)
print("Análisis: 'Frank' y 'Grace' de df_salarios y 'David', 'Eve' de df_empleados no aparecen.")
print("-" * 50)

# --- Combinación tipo 'outer' (todos los nombres, mostrando inconsistencias con NaN) ---
print("\nCombinación OUTER (usando merge por 'Nombre' - todos los nombres):")
df_combinado_outer = pd.merge(df_empleados_reset, df_salarios, on='Nombre', how='outer')
print(df_combinado_outer)
print("Análisis: Muestra todos los empleados y salarios. Los nombres no coincidentes ('David', 'Eve', 'Frank', 'Grace')")
print("  tienen NaN en las columnas de la tabla donde no se encontraron.")
print("-" * 50)

# --- Combinación tipo 'left' (manteniendo todos los empleados de df_empleados) ---
print("\nCombinación LEFT (usando merge por 'Nombre' - todos los empleados):")
df_combinado_left = pd.merge(df_empleados_reset, df_salarios, on='Nombre', how='left')
print(df_combinado_left)
print("Análisis: Todos los empleados originales están presentes. 'David' y 'Eve' tienen NaN en 'Salario'.")
print("-" * 50)

# --- Identificar y Manejar Inconsistencias (ej. nombres que no coinciden) ---
# Una forma de identificar inconsistencias es mirando los NaN después de un outer merge.

# Empleados en df_empleados que no tienen salario en df_salarios (después de un left merge)
empleados_sin_salario = df_combinado_left[df_combinado_left['Salario'].isnull()]
print("\nEmpleados de df_empleados sin salario (identificados vía LEFT merge):")
print(empleados_sin_salario)
print("-" * 50)

# Salarios en df_salarios que no tienen un empleado correspondiente en df_empleados (después de un right merge)
# Para esto, podemos hacer un right merge y ver quiénes tienen NaN en las columnas de df_empleados
df_right_merge_inconsistencias = pd.merge(df_empleados_reset, df_salarios, on='Nombre', how='right')
salarios_sin_empleado = df_right_merge_inconsistencias[df_right_merge_inconsistencias['Departamento'].isnull()]
print("\nSalarios en df_salarios sin empleado correspondiente (identificados vía RIGHT merge):")
print(salarios_sin_empleado)
print("-" * 50)

# **Alternativa para manejar join con índices diferentes:**
# A veces, puedes hacer un join si uno de los DataFrames tiene la columna clave en su índice
# y el otro tiene la columna clave como una columna regular.
# Por ejemplo, si quisieras hacer un join de df_empleados (indexado por EmpleadoID)
# y df_salarios si df_salarios tuviera EmpleadoID como columna regular.
# Pero en tu caso, df_salarios está indexado por 'Nombre', lo cual complica un join directo
# sin resetear índices o usar 'left_on'/'right_on' en merge.

# La forma más directa de realizar la tarea ("Combina estos DataFrames utilizando join
# para obtener un DataFrame que contenga EmpleadoID, Nombre, Departamento y Salario")
# con los DataFrames tal como están (con índices diferentes y claves en columnas)
# es precisamente con `pd.merge()`, ya que `.join()` se especializa en unir por índices.
# Si la intención era estrictamente usar `.join()`, tendríamos que manipular los índices:

# Opción de JOIN: Haciendo 'Nombre' el índice de df_empleados temporalmente para un JOIN
print("\n--- Demostración de JOIN (modificando índices temporalmente) ---")
df_empleados_indexed_by_name = df_empleados_reset.set_index('Nombre')

# Ahora podemos hacer un join donde 'Nombre' es el índice en ambos lados.
# Aquí un left join, manteniendo todos los empleados y añadiendo salarios si coinciden.
df_joined_by_name = df_empleados_indexed_by_name.join(df_salarios, how='left')
print("\nDataFrame combinado usando .join() por 'Nombre' (después de reindexar df_empleados):")
print(df_joined_by_name)
print("Análisis: Es similar al left merge por 'Nombre'.")
print("-" * 50)

# Resetear el índice si queremos 'Nombre' y 'EmpleadoID' como columnas de nuevo
df_final_join = df_joined_by_name.reset_index()
print("\nDataFrame final después de .join() y reset_index():")
print(df_final_join)
print("-" * 50)

DataFrame df_empleados (Indexado por EmpleadoID):
             Nombre Departamento
EmpleadoID                      
101           Alice           HR
102             Bob           IT
103         Charlie      Finance
104           David           HR
105             Eve           IT
--------------------------------------------------

DataFrame df_salarios (Indexado por Nombre):
         Salario
Nombre          
Alice      70000
Bob        80000
Charlie    75000
Frank      90000
Grace      60000
--------------------------------------------------

--- Realizando la combinación con .join() ---

Combinación INNER (usando merge por 'Nombre' - nombres que están en ambos):
   EmpleadoID   Nombre Departamento  Salario
0         101    Alice           HR    70000
1         102      Bob           IT    80000
2         103  Charlie      Finance    75000
Análisis: 'Frank' y 'Grace' de df_salarios y 'David', 'Eve' de df_empleados no aparecen.
--------------------------------------------------

Combina

## 4. Agregación y Agrupamiento


### 4.1. El proceso groupby

El método groupby permite:

- Dividir: Separar el DataFrame en grupos basados en una o más claves.
- Aplicar: Calcular una función específica en cada grupo.
- Combinar: Unir los resultados en una estructura de datos.


### 4.2. Funciones de agregación

- Sumatorias: sum()
- Promedios: mean()
- Conteos: count()
- Valores extremos: min(), max()
- Medidas de dispersión: std(), var()



**Ejemplo:**

In [56]:
import pandas as pd
from google.colab import files
uploaded = files.upload()

# Ahora, esta línea debería funcionar sin problemas de codificación
titanic = pd.read_csv('train_titanic.csv',sep=",",encoding='latin1')

Saving train_titanic.csv to train_titanic (1).csv


In [62]:
#titanic = pd.read_csv('titanic.csv')
titanic.head()
titanic.shape
titanic.dtypes
titanic.isnull().sum()/len(titanic)

Unnamed: 0,0
PassengerId,0.0
Survived,0.0
Pclass,0.0
Name,0.0
Sex,0.0
Age,0.198653
SibSp,0.0
Parch,0.0
Ticket,0.0
Fare,0.0


In [64]:
titanic.groupby('Sex').agg({'PassengerId': 'count',
                            'Age': 'mean',
                            'Fare': 'mean',
                            'Survived': 'mean'})

Unnamed: 0_level_0,PassengerId,Age,Fare,Survived
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,314,27.915709,44.479818,0.742038
male,577,30.726645,25.523893,0.188908


In [65]:
titanic['over18'] = titanic['Age'].apply(lambda x: '>= 18' if x >= 18 else '< 18')

titanic.groupby(['Sex', 'over18']).agg({'PassengerId': 'count',
                            'Age': 'mean',
                            'Fare': 'mean',
                            'Survived': 'mean'})



Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Age,Fare,Survived
Sex,over18,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,< 18,108,9.236364,31.024153,0.685185
female,>= 18,206,32.902913,51.534244,0.771845
male,< 18,182,8.856379,22.52422,0.214286
male,>= 18,395,33.937975,26.906022,0.177215


In [66]:
titanic.groupby(['Sex', 'Pclass']).agg({'PassengerId': 'count',
                            'Age': 'mean',
                            'Fare': 'mean',
                            'Survived': 'mean'})


Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Age,Fare,Survived
Sex,Pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,1,94,34.611765,106.125798,0.968085
female,2,76,28.722973,21.970121,0.921053
female,3,144,21.75,16.11881,0.5
male,1,122,41.281386,67.226127,0.368852
male,2,108,30.740707,19.741782,0.157407
male,3,347,26.507589,12.661633,0.135447


In [None]:
pd.crosstab(titanic['Sex'], titanic['Pclass'], normalize='all')

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.105499,0.085297,0.161616
male,0.136925,0.121212,0.38945


In [None]:
pd.pivot_table(titanic, index = 'Sex', columns = 'Pclass', values = 'Survived', aggfunc = 'mean')

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [None]:
pd.pivot_table(titanic, index = 'Pclass', columns = 'over18', values = 'Fare', aggfunc = 'mean')

over18,< 18,>= 18
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,74.131345,86.574115
2,20.129903,20.782833
3,17.06581,11.05636


In [None]:
#Embarked

titanic.groupby('Embarked').agg({'Fare': 'mean',
                                 'Survived': 'mean'})


Unnamed: 0_level_0,Fare,Survived
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,59.954144,0.553571
Q,13.27603,0.38961
S,27.079812,0.336957


In [None]:
import seaborn as sns

sns.lineplot()



In [None]:
# DataFrame de ventas
df_ventas = pd.DataFrame({
    'Región': ['Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur'],
    'Ventas': [100, 150, 200, 130, 120, 170],
    'Ganancia': [20, 30, 50, 25, 22, 35]
})

# Agrupar por 'Región' y calcular la suma de 'Ventas' y 'Ganancia'
agrupado = df_ventas.groupby('Región').agg({'Ventas': 'sum', 'Ganancia': 'sum'})
print("\nAgregación por región:")
print(agrupado)


### 4.3. Agrupamiento por múltiples claves

**Ejemplo:**

In [None]:
# Agregar una columna 'Tipo' para demostrar agrupamiento múltiple
df_ventas['Tipo'] = ['Minorista', 'Mayorista', 'Minorista', 'Minorista', 'Mayorista', 'Minorista']

# Agrupar por 'Región' y 'Tipo' y calcular el promedio de 'Ventas'
agrupado_multiple = df_ventas.groupby(['Región', 'Tipo']).mean()
print("\nAgrupación por región y tipo:")
print(agrupado_multiple)


### 4.4. Operaciones de transformación

Las transformaciones aplican una función a cada grupo y devuelven un objeto del mismo tamaño que el grupo original.

**Ejemplo:**

In [None]:
# Calcular la diferencia de cada venta respecto al promedio de su región
df_ventas['PromedioVentasRegión'] = df_ventas.groupby('Región')['Ventas'].transform('mean')
df_ventas['DiferenciaVentas'] = df_ventas['Ventas'] - df_ventas['PromedioVentasRegión']
print("\nDataFrame con transformaciones:")
print(df_ventas)


### 4.5. Ejercicios

**Ejercicio 1**

Usando el DataFrame df_ventas:

- Agrupa los datos por Región y calcula la media y suma de Ventas y Ganancia.
- Ordena los resultados de mayor a menor en función de la suma de Ventas.
- Visualiza los resultados utilizando un gráfico de barras.


**Ejercicio 2**

Tienes un DataFrame df_estudiantes con las columnas Clase, Género, Puntuación.

- Calcula la puntuación media por clase y género.
- Encuentra la puntuación máxima y mínima por clase.
- Normaliza las puntuaciones de cada estudiante restando la media de su clase.


**Ejercicio 3**

Con el DataFrame de ventas df_ventas, crea una función personalizada que calcule el rango intercuartílico (IQR) de las ventas por región.

- Define una función que calcule el IQR.
- Utiliza groupby() y agg() para aplicar esta función.
- Interpreta los resultados.

---

# Gracias por completar este laboratorio!

---

In [None]:
# Create a dummy 'datos.csv' file for demonstration purposes
data = {
    'columna1': [1, 2, 3, 4, 5],
    'columna2': ['A', 'B', 'C', 'D', 'E'],
    'columna3': [10.1, 20.2, 30.3, 40.4, 50.5]
}
dummy_df = pd.DataFrame(data)
dummy_df.to_csv('datos.csv', index=False)
print("Created dummy 'datos.csv' file.")