<a href="https://colab.research.google.com/github/ConsueloFarias/proyecto-final-consuelo-v2/blob/main/clasesCoder/clase-3/Pandas_Introduction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Pandas - Fundamentos para Principiantes

**Objetivo:** Aprender los conceptos básicos de la librería Pandas en Python para la manipulación y análisis de datos.

**¿Qué es Pandas?**
Pandas es una librería de Python fundamental para la ciencia de datos y el análisis. Proporciona estructuras de datos de alto rendimiento y fáciles de usar (como las Series y los DataFrames) y herramientas para el análisis de datos. Esencialmente, te permite trabajar con datos tabulares (como hojas de cálculo o tablas SQL) de forma muy eficiente y flexible en Python.

**¿Por qué usar Pandas?**
*   Carga, limpieza y transformación de datos sencilla.
*   Manejo eficiente de grandes conjuntos de datos.
*   Herramientas potentes para seleccionar, filtrar y agrupar datos.
*   Manejo integrado de datos faltantes.
*   Buena integración con otras librerías como NumPy, Matplotlib y Scikit-learn.

In [None]:
# Importar Pandas
# Es una convención importar pandas con el alias 'pd'
import pandas as pd
import numpy as np # Lo importamos también, ya que Pandas se basa en NumPy y a veces es útil

## 1. Estructuras de Datos Principales: Series y DataFrames

Pandas tiene dos estructuras de datos principales:

*   **`Series`**: Un array unidimensional etiquetado (similar a una columna en una hoja de cálculo o un diccionario). Puede contener cualquier tipo de dato (enteros, strings, flotantes, objetos de Python, etc.). Tiene un *índice* que etiqueta cada elemento.
*   **`DataFrame`**: Una estructura de datos bidimensional etiquetada con columnas de tipos potencialmente diferentes (similar a una hoja de cálculo, una tabla SQL o un diccionario de Series). Es la estructura de datos más utilizada en Pandas.

In [None]:
# Creando una Serie desde una lista
# Pandas crea un índice numérico por defecto (0, 1, 2...)
s_lista = pd.Series([10, 20, 30, 40, 50])
print("Serie desde lista:")
print(s_lista)
print("\nÍndice de la serie:", s_lista.index)
print("Valores de la serie:", s_lista.values)

Serie desde lista:
0    10
1    20
2    30
3    40
4    50
dtype: int64

Índice de la serie: RangeIndex(start=0, stop=5, step=1)
Valores de la serie: [10 20 30 40 50]


In [None]:
# Creando una Serie con índice personalizado
s_indices = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print("\nSerie con índice personalizado:")
print(s_indices)
print("\nAcceder a un elemento por índice:", s_indices['b'])


Serie con índice personalizado:
a    10
b    20
c    30
dtype: int64

Acceder a un elemento por índice: 20


In [None]:
# Creando una Serie desde un diccionario
# Las claves del diccionario se convierten en el índice
s_dict = pd.Series({'Juan': 25, 'Ana': 30, 'Pedro': 22})
print("\nSerie desde diccionario:")
print(s_dict)
print("\nEdad de Ana:", s_dict['Ana'])


Serie desde diccionario:
Juan     25
Ana      30
Pedro    22
dtype: int64

Edad de Ana: 30


In [None]:
# Creando un DataFrame desde un diccionario de listas
# Cada clave del diccionario será una columna, y las listas los valores de esa columna.
# ¡Importante! Todas las listas deben tener la misma longitud.
data = {
    'Nombre': ['Juan', 'Ana', 'Pedro', 'Maria'],
    'Edad': [25, 30, 22, 35],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Madrid']
}
df = pd.DataFrame(data)

print("DataFrame desde diccionario de listas:")
df

DataFrame desde diccionario de listas:


Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,30,Barcelona
2,Pedro,22,Valencia
3,Maria,35,Madrid


In [None]:
# Creando un DataFrame con índice personalizado
df_indice = pd.DataFrame(data, index=['p1', 'p2', 'p3', 'p4'])
print("\nDataFrame con índice personalizado:")
df_indice


DataFrame con índice personalizado:


Unnamed: 0,Nombre,Edad,Ciudad
p1,Juan,25,Madrid
p2,Ana,30,Barcelona
p3,Pedro,22,Valencia
p4,Maria,35,Madrid


## 2. Cargando Datos desde Archivos

Una de las tareas más comunes es cargar datos desde archivos externos, como CSV (Comma Separated Values).

In [None]:
# Creando un archivo CSV de ejemplo (solo para este notebook)
# En un caso real, usarías un archivo existente.
csv_data = """Nombre,Edad,Ciudad,Puntuacion
Carlos,28,Sevilla,85
Lucia,34,Bilbao,92
Miguel,21,Madrid,78
Sofia,45,Barcelona,88
"""

#csv_data = "https://raw.githubusercontent.com/Juanchoalric/test_dataset/refs/heads/main/ventas_tienda.csv"

# Guardar los datos en un archivo temporal dentro de Colab
with open('datos_ejemplo.csv', 'w') as f:
    f.write(csv_data)

print("Archivo 'datos_ejemplo.csv' creado.")

Archivo 'datos_ejemplo.csv' creado.


In [None]:
# Leyendo datos desde el archivo CSV
df_csv = pd.read_csv("datos_ejemplo.csv")

print("\nDataFrame cargado desde CSV:")
df_csv


DataFrame cargado desde CSV:


Unnamed: 0,Nombre,Edad,Ciudad,Puntuacion
0,Carlos,28,Sevilla,85
1,Lucia,34,Bilbao,92
2,Miguel,21,Madrid,78
3,Sofia,45,Barcelona,88


## 3. Exploración Básica del DataFrame

Una vez cargados los datos, queremos empezar a entenderlos.

In [None]:
# Ver las primeras filas (por defecto 5)
print("Primeras filas (head):")
df_csv.head(10)

Primeras filas (head):


Unnamed: 0,id_venta,fecha_venta,id_producto,nombre_producto,categoria_producto,cantidad,precio_unitario,total_venta,id_cliente,nombre_cliente
0,1,2024-08-01,101,Laptop Dell XPS,Electrónica,1,1200.0,1200.0,1001,Juan Pérez
1,2,2024-08-01,102,Samsung Galaxy S21,Electrónica,2,800.0,1600.0,1002,María López
2,3,2024-08-02,103,Cafetera Nespresso,Electrodomésticos,1,150.0,150.0,1003,Carlos Gómez
3,4,2024-08-02,104,Camiseta Nike,Ropa,3,25.0,75.0,1004,Ana Torres
4,5,2024-08-03,105,Bicicleta Trek,Deportes,1,450.0,450.0,1005,Luis Fernández
5,6,2024-08-03,101,Laptop Dell XPS,Electrónica,1,1200.0,1200.0,1001,Juan Pérez


In [None]:
# Ver las últimas filas (por defecto 5)
print("\nÚltimas filas (tail):")
df_csv.tail(2) # Mostrar las últimas 3


Últimas filas (tail):


Unnamed: 0,id_venta,fecha_venta,id_producto,nombre_producto,categoria_producto,cantidad,precio_unitario,total_venta,id_cliente,nombre_cliente
4,5,2024-08-03,105,Bicicleta Trek,Deportes,1,450.0,450.0,1005,Luis Fernández
5,6,2024-08-03,101,Laptop Dell XPS,Electrónica,1,1200.0,1200.0,1001,Juan Pérez


In [None]:
# Obtener información general del DataFrame
# Muestra tipos de datos por columna, valores no nulos y uso de memoria.
print("\nInformación del DataFrame (info):")
df_csv.info()


Información del DataFrame (info):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id_venta            6 non-null      int64  
 1   fecha_venta         6 non-null      object 
 2   id_producto         6 non-null      int64  
 3   nombre_producto     6 non-null      object 
 4   categoria_producto  6 non-null      object 
 5   cantidad            6 non-null      int64  
 6   precio_unitario     6 non-null      float64
 7   total_venta         6 non-null      float64
 8   id_cliente          6 non-null      int64  
 9   nombre_cliente      6 non-null      object 
dtypes: float64(2), int64(4), object(4)
memory usage: 612.0+ bytes


In [None]:
# Obtener estadísticas descriptivas básicas
# Para columnas numéricas: count, mean, std, min, max, percentiles.
print("\nEstadísticas descriptivas (describe):")
print(df_csv.describe())


Estadísticas descriptivas (describe):
       id_venta  id_producto  cantidad  precio_unitario  total_venta  \
count  6.000000     6.000000   6.00000         6.000000     6.000000   
mean   3.500000   102.666667   1.50000       637.500000   779.166667   
std    1.870829     1.632993   0.83666       511.309593   636.870604   
min    1.000000   101.000000   1.00000        25.000000    75.000000   
25%    2.250000   101.250000   1.00000       225.000000   225.000000   
50%    3.500000   102.500000   1.00000       625.000000   825.000000   
75%    4.750000   103.750000   1.75000      1100.000000  1200.000000   
max    6.000000   105.000000   3.00000      1200.000000  1600.000000   

        id_cliente  
count     6.000000  
mean   1002.666667  
std       1.632993  
min    1001.000000  
25%    1001.250000  
50%    1002.500000  
75%    1003.750000  
max    1005.000000  


In [None]:
# Obtener las dimensiones (filas, columnas)
print("\nDimensiones del DataFrame (shape):")
df_csv.shape


Dimensiones del DataFrame (shape):


(6, 10)

In [None]:
# Obtener los nombres de las columnas
print("\nNombres de las columnas (columns):")
df_csv.columns


Nombres de las columnas (columns):


Index(['id_venta', 'fecha_venta', 'id_producto', 'nombre_producto',
       'categoria_producto', 'cantidad', 'precio_unitario', 'total_venta',
       'id_cliente', 'nombre_cliente'],
      dtype='object')

In [None]:
# Obtener los tipos de datos de cada columna
print("\nTipos de datos (dtypes):")
df_csv.dtypes


Tipos de datos (dtypes):


Unnamed: 0,0
Nombre,object
Edad,int64
Ciudad,object
Puntuacion,int64


## 4. Selección y Filtrado de Datos

Cómo acceder a partes específicas de tu DataFrame.

### 4.1. Seleccionar Columnas

In [None]:
df_csv

Unnamed: 0,Nombre,Edad,Ciudad,Puntuacion
0,Carlos,28,Sevilla,85
1,Lucia,34,Bilbao,92
2,Miguel,21,Madrid,78
3,Sofia,45,Barcelona,88


In [None]:
# Celda 16: Seleccionar una sola columna (devuelve una Serie)
nombres = df_csv['Nombre']
print("Seleccionar la columna 'Nombre' (como Serie):")
print(nombres)
print(type(nombres))

Seleccionar la columna 'Nombre' (como Serie):
0    Carlos
1     Lucia
2    Miguel
3     Sofia
Name: Nombre, dtype: object
<class 'pandas.core.series.Series'>


In [None]:
# Seleccionar una sola columna (devuelve un DataFrame)
nombres_df = df_csv[['Nombre']] # Nota los dobles corchetes [[]]
print("\nSeleccionar la columna 'Nombre' (como DataFrame):")
print(nombres_df)
print(type(nombres_df))


Seleccionar la columna 'Nombre' (como DataFrame):
   Nombre
0  Carlos
1   Lucia
2  Miguel
3   Sofia
<class 'pandas.core.frame.DataFrame'>


In [None]:
# Seleccionar múltiples columnas
seleccion_cols = df_csv[['Nombre', 'Puntuacion']]
print("\nSeleccionar las columnas 'Nombre' y 'Puntuacion':")
seleccion_cols


Seleccionar las columnas 'Nombre' y 'Puntuacion':


Unnamed: 0,Nombre,Puntuacion
0,Carlos,85
1,Lucia,92
2,Miguel,78
3,Sofia,88


### 4.2. Seleccionar Filas

In [None]:
# Seleccionar filas por posición usando .iloc (integer location)
# Selecciona la primera fila (índice 0)
print("Primera fila (iloc[0]):")
print(df_csv.iloc[0])

# Selecciona las filas en las posiciones 1 y 2
print("\nFilas en posición 1 y 2 (iloc[1:3]):") # Recordar que el final no es inclusivo
print(df_csv.iloc[1:3])

Primera fila (iloc[0]):
Nombre         Carlos
Edad               28
Ciudad        Sevilla
Puntuacion         85
Name: 0, dtype: object

Filas en posición 1 y 2 (iloc[1:3]):
   Nombre  Edad  Ciudad  Puntuacion
1   Lucia    34  Bilbao          92
2  Miguel    21  Madrid          78


In [None]:
df_indice

Unnamed: 0,Nombre,Edad,Ciudad
p1,Juan,25,Madrid
p2,Ana,30,Barcelona
p3,Pedro,22,Valencia
p4,Maria,35,Madrid


In [None]:
# Seleccionar filas por etiqueta/índice usando .loc (location)
# Si el índice es el numérico por defecto (0, 1, 2...), .loc se comporta similar a .iloc para números.
# Usemos el DataFrame con índice personalizado para verlo mejor:
print("DataFrame original con índice personalizado:")
print(df_indice)

# Seleccionar la fila con etiqueta 'p2'
print("\nFila con etiqueta 'p2' (loc['p2']):")
print(df_indice.loc['p2'])

# Seleccionar filas con etiquetas 'p1' y 'p3'
print("\nFilas con etiquetas 'p1' y 'p3' (loc[['p1', 'p3']]):")
print(df_indice.loc[['p1', 'p3']])

DataFrame original con índice personalizado:
   Nombre  Edad     Ciudad
p1   Juan    25     Madrid
p2    Ana    30  Barcelona
p3  Pedro    22   Valencia
p4  Maria    35     Madrid

Fila con etiqueta 'p2' (loc['p2']):
Nombre          Ana
Edad             30
Ciudad    Barcelona
Name: p2, dtype: object

Filas con etiquetas 'p1' y 'p3' (loc[['p1', 'p3']]):
   Nombre  Edad    Ciudad
p1   Juan    25    Madrid
p3  Pedro    22  Valencia


### 4.3. Seleccionar Filas y Columnas (Subconjuntos)


In [None]:
# Usando .loc[etiquetas_fila, etiquetas_columna]
# Seleccionar Edad y Ciudad de las filas 'p1' y 'p4'
print("Edad y Ciudad de filas 'p1' y 'p4' (loc):")
print(df_indice.loc[['p1', 'p4'], ['Edad', 'Ciudad']])

Edad y Ciudad de filas 'p1' y 'p4' (loc):
    Edad  Ciudad
p1    25  Madrid
p4    35  Madrid


In [None]:
# Celda 22: Usando .iloc[posiciones_fila, posiciones_columna]
# Seleccionar las primeras 2 filas (pos 0, 1) y las columnas en pos 0 y 2 (Nombre, Ciudad)
print("\nPrimeras 2 filas, columnas en pos 0 y 2 (iloc):")
print(df_csv.iloc[0:2, [0, 2]])


Primeras 2 filas, columnas en pos 0 y 2 (iloc):
   Nombre   Ciudad
0  Carlos  Sevilla
1   Lucia   Bilbao


### 4.4. Filtrado Condicional (Boolean Indexing)
Esta es una de las formas más potentes de seleccionar datos.

In [None]:
# Crear una condición (devuelve una Serie de booleanos)
condicion_edad = df_csv['Edad'] > 30
print("Condición: Edad > 30")
print(condicion_edad)

Condición: Edad > 30
0    False
1     True
2    False
3     True
Name: Edad, dtype: bool


In [None]:
# Aplicar la condición al DataFrame para filtrar filas
print("\nPersonas con Edad > 30:")
print(df_csv[condicion_edad])

# Se puede hacer directamente:
print("\nPersonas con Edad > 30 (directo):")
print(df_csv[df_csv['Edad'] > 30])


Personas con Edad > 30:
  Nombre  Edad     Ciudad  Puntuacion
1  Lucia    34     Bilbao          92
3  Sofia    45  Barcelona          88

Personas con Edad > 30 (directo):
  Nombre  Edad     Ciudad  Puntuacion
1  Lucia    34     Bilbao          92
3  Sofia    45  Barcelona          88


In [None]:
# Combinar múltiples condiciones
# & : AND (y)
# | : OR (o)
# ~ : NOT (no)
# ¡Importante! Usar paréntesis para agrupar condiciones.

print("\nPersonas de Madrid Y con Puntuación > 80:")
print(df_csv[(df_csv['Ciudad'] == 'Madrid') & (df_csv['Puntuacion'] > 80)])

print("\nPersonas de Barcelona O de Bilbao:")
print(df_csv[(df_csv['Ciudad'] == 'Barcelona') | (df_csv['Ciudad'] == 'Bilbao')])

# Otra forma para múltiples OR sobre la misma columna: isin()
print("\nPersonas de Barcelona O de Bilbao (usando isin):")
print(df_csv[df_csv['Ciudad'].isin(['Barcelona', 'Bilbao'])])


Personas de Madrid Y con Puntuación > 80:
Empty DataFrame
Columns: [Nombre, Edad, Ciudad, Puntuacion]
Index: []

Personas de Barcelona O de Bilbao:
  Nombre  Edad     Ciudad  Puntuacion
1  Lucia    34     Bilbao          92
3  Sofia    45  Barcelona          88

Personas de Barcelona O de Bilbao (usando isin):
  Nombre  Edad     Ciudad  Puntuacion
1  Lucia    34     Bilbao          92
3  Sofia    45  Barcelona          88


## 5. Operaciones Básicas

In [None]:
# Añadir una nueva columna
# Por ejemplo, una puntuación ajustada sumando 5 puntos
df_csv['Puntuacion_Ajustada'] = df_csv['Puntuacion'] + 5
print("DataFrame con nueva columna 'Puntuacion_Ajustada':")
print(df_csv)

DataFrame con nueva columna 'Puntuacion_Ajustada':
   Nombre  Edad     Ciudad  Puntuacion  Puntuacion_Ajustada
0  Carlos    28    Sevilla          85                   90
1   Lucia    34     Bilbao          92                   97
2  Miguel    21     Madrid          78                   83
3   Sofia    45  Barcelona          88                   93


In [None]:
# Modificar una columna existente
# Convertir nombres a mayúsculas
df_csv['Nombre'] = df_csv['Nombre'].str.upper()
print("\nDataFrame con nombres en mayúsculas:")
print(df_csv)


DataFrame con nombres en mayúsculas:
   Nombre  Edad     Ciudad  Puntuacion  Puntuacion_Ajustada
0  CARLOS    28    Sevilla          85                   90
1   LUCIA    34     Bilbao          92                   97
2  MIGUEL    21     Madrid          78                   83
3   SOFIA    45  Barcelona          88                   93


In [None]:
# Eliminar una columna
# axis=1 indica que queremos eliminar una columna (axis=0 sería una fila)
# inplace=True modificaría el DataFrame original directamente. Por defecto es False (devuelve una copia).
df_sin_ajuste = df_csv.drop('Puntuacion_Ajustada', axis=1)
print("\nDataFrame sin la columna 'Puntuacion_Ajustada' (copia):")
print(df_sin_ajuste)
print("\nDataFrame original (no ha cambiado):")
print(df_csv) # La columna sigue aquí

# Para eliminarla del original:
df_csv.drop('Puntuacion_Ajustada', axis=1, inplace=True)
print("\nDataFrame original (después de drop con inplace=True):")
print(df_csv)


DataFrame sin la columna 'Puntuacion_Ajustada' (copia):
   Nombre  Edad     Ciudad  Puntuacion
0  CARLOS    28    Sevilla          85
1   LUCIA    34     Bilbao          92
2  MIGUEL    21     Madrid          78
3   SOFIA    45  Barcelona          88

DataFrame original (no ha cambiado):
   Nombre  Edad     Ciudad  Puntuacion  Puntuacion_Ajustada
0  CARLOS    28    Sevilla          85                   90
1   LUCIA    34     Bilbao          92                   97
2  MIGUEL    21     Madrid          78                   83
3   SOFIA    45  Barcelona          88                   93

DataFrame original (después de drop con inplace=True):
   Nombre  Edad     Ciudad  Puntuacion
0  CARLOS    28    Sevilla          85
1   LUCIA    34     Bilbao          92
2  MIGUEL    21     Madrid          78
3   SOFIA    45  Barcelona          88


## 6. Manejo Básico de Datos Faltantes (NaN)

Los datos del mundo real a menudo tienen valores faltantes (representados como `NaN` - Not a Number en Pandas).

In [None]:
# Añadir algunos NaN para el ejemplo
# Creamos una copia para no modificar el original directamente ahora
df_nan = df_csv.copy()
df_nan.loc[1, 'Puntuacion'] = np.nan # Poner NaN en fila 1, columna Puntuacion
df_nan.loc[3, 'Ciudad'] = np.nan    # Poner NaN en fila 3, columna Ciudad
df_nan.loc[0, 'Edad'] = np.nan      # Poner NaN en fila 0, columna Edad
print("DataFrame con valores NaN:")
print(df_nan)

DataFrame con valores NaN:
   Nombre  Edad   Ciudad  Puntuacion
0  CARLOS   NaN  Sevilla        85.0
1   LUCIA  34.0   Bilbao         NaN
2  MIGUEL  21.0   Madrid        78.0
3   SOFIA  45.0      NaN        88.0


In [None]:
# Detectar valores NaN
# isnull() devuelve un DataFrame booleano (True si es NaN)
print("\nDetectar NaN (isnull):")
print(df_nan.isnull())

# Contar NaN por columna
print("\nContar NaN por columna (isnull().sum()):")
print(df_nan.isnull().sum())


Detectar NaN (isnull):
   Nombre   Edad  Ciudad  Puntuacion
0   False   True   False       False
1   False  False   False        True
2   False  False   False       False
3   False  False    True       False

Contar NaN por columna (isnull().sum()):
Nombre        0
Edad          1
Ciudad        1
Puntuacion    1
dtype: int64


In [None]:
# Eliminar filas con NaN
# dropna() elimina filas (por defecto) que contengan al menos un NaN
df_sin_nan_filas = df_nan.dropna()
print("\nDataFrame después de dropna() (eliminar filas con NaN):")
print(df_sin_nan_filas)


DataFrame después de dropna() (eliminar filas con NaN):
   Nombre  Edad  Ciudad  Puntuacion
2  MIGUEL  21.0  Madrid        78.0


In [None]:
# Rellenar valores NaN
# fillna() permite reemplazar NaN con un valor específico
# Rellenar todos los NaN con 0
df_relleno_0 = df_nan.fillna(0)
print("\nDataFrame rellenando NaN con 0:")
print(df_relleno_0)

# Rellenar NaN de forma selectiva por columna
# Por ejemplo, rellenar la Edad faltante con la media de Edad
media_edad = df_nan['Edad'].mean()
print(f"\nMedia de edad (ignorando NaN): {media_edad:.2f}")

df_relleno_media = df_nan.copy() # Copia para no afectar df_nan
df_relleno_media['Edad'].fillna(media_edad, inplace=True)
print("\nDataFrame rellenando Edad NaN con la media:")
print(df_relleno_media)

# Rellenar Puntuacion con 0 y Ciudad con 'Desconocida'
valores_relleno = {'Puntuacion': 0, 'Ciudad': 'Desconocida'}
df_relleno_selectivo = df_nan.fillna(value=valores_relleno)
print("\nDataFrame rellenando Puntuacion con 0 y Ciudad con 'Desconocida':")
print(df_relleno_selectivo)


DataFrame rellenando NaN con 0:
   Nombre  Edad   Ciudad  Puntuacion
0  CARLOS   0.0  Sevilla        85.0
1   LUCIA  34.0   Bilbao         0.0
2  MIGUEL  21.0   Madrid        78.0
3   SOFIA  45.0        0        88.0

Media de edad (ignorando NaN): 33.33

DataFrame rellenando Edad NaN con la media:
   Nombre       Edad   Ciudad  Puntuacion
0  CARLOS  33.333333  Sevilla        85.0
1   LUCIA  34.000000   Bilbao         NaN
2  MIGUEL  21.000000   Madrid        78.0
3   SOFIA  45.000000      NaN        88.0

DataFrame rellenando Puntuacion con 0 y Ciudad con 'Desconocida':
   Nombre  Edad       Ciudad  Puntuacion
0  CARLOS   NaN      Sevilla        85.0
1   LUCIA  34.0       Bilbao         0.0
2  MIGUEL  21.0       Madrid        78.0
3   SOFIA  45.0  Desconocida        88.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_relleno_media['Edad'].fillna(media_edad, inplace=True)


### Melt method

In [None]:
data_wide = {
    'Nombre': ['Ana', 'Luis', 'Maria'],
    'Prueba1': [8, 6, 9],
    'Prueba2': [7, 8, 9],
    'Prueba3': [9, 7, 8]
}
df_wide = pd.DataFrame(data_wide)

In [None]:
df_wide

Unnamed: 0,Nombre,Prueba1,Prueba2,Prueba3
0,Ana,8,7,9
1,Luis,6,8,7
2,Maria,9,9,8


In [None]:
# 2. Aplicar .melt() para transformar a Formato Largo
df_long = df_wide.melt(
    id_vars=['Nombre'],                 # Columna(s) que NO se derriten (identificadores)
    value_vars=['Prueba1', 'Prueba2', 'Prueba3'], # Columnas que SÍ se derriten. Si omites value_vars, derrite todas menos id_vars
    var_name='Tipo de Prueba',          # Nombre para la nueva columna de variables
    value_name='Puntuacion'             # Nombre para la nueva columna de valores
)

In [None]:
df_long

Unnamed: 0,Nombre,Tipo de Prueba,Puntuacion
0,Ana,Prueba1,8
1,Luis,Prueba1,6
2,Maria,Prueba1,9
3,Ana,Prueba2,7
4,Luis,Prueba2,8
5,Maria,Prueba2,9
6,Ana,Prueba3,9
7,Luis,Prueba3,7
8,Maria,Prueba3,8
