## 2. DataFrames en Pandas

### ¿Qué es un DataFrame?
Un DataFrame es una estructura de datos bidimensional con filas y columnas etiquetadas. Es como una tabla de Excel o una base de datos.

In [1]:
import pandas as pd
import numpy as np

print(F"Versión instalada de pandas = {pd.__version__}")
print(F"Versión instalada de numpy = {np.__version__}")

Versión instalada de pandas = 2.2.2
Versión instalada de numpy = 1.26.4


In [2]:
# Crear DataFrame desde un diccionario
datos_estudiantes = {
    'Nombre': ['Ana', 'Juan', 'María', 'Carlos', 'Lucía'],
    'Edad': [20, 22, 19, 21, 23],
    'Calificación': [85, 90, 78, 88, 92],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Bilbao']
}
df_estudiantes = pd.DataFrame(datos_estudiantes)
print("DataFrame desde diccionario:")
print(df_estudiantes)
print()

DataFrame desde diccionario:
   Nombre  Edad  Calificación     Ciudad
0     Ana    20            85     Madrid
1    Juan    22            90  Barcelona
2   María    19            78   Valencia
3  Carlos    21            88    Sevilla
4   Lucía    23            92     Bilbao



In [3]:
# Crear DataFrame desde listas
nombres = ['Pedro', 'Laura', 'Miguel']
edades = [25, 28, 30]
salarios = [3000, 3500, 4000]
df_empleados = pd.DataFrame({
    'Nombre': nombres,
    'Edad': edades,
    'Salario': salarios
})
print("DataFrame desde listas:")
print(df_empleados)
print()

DataFrame desde listas:
   Nombre  Edad  Salario
0   Pedro    25     3000
1   Laura    28     3500
2  Miguel    30     4000



### Información básica del DataFrame

In [4]:
print("Información del DataFrame:")
print(f"Forma (filas, columnas): {df_estudiantes.shape}")
print(f"Columnas: {list(df_estudiantes.columns)}")
print(f"Índice: {list(df_estudiantes.index)}")
print()

Información del DataFrame:
Forma (filas, columnas): (5, 4)
Columnas: ['Nombre', 'Edad', 'Calificación', 'Ciudad']
Índice: [0, 1, 2, 3, 4]



In [5]:
# Información detallada
print("Información detallada:")
df_estudiantes.info()
print()

# Primeras y últimas filas
print("Primeras 3 filas:")
print(df_estudiantes.head(3))
print()
print("Últimas 2 filas:")
print(df_estudiantes.tail(2))
print()

Información detallada:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Nombre        5 non-null      object
 1   Edad          5 non-null      int64 
 2   Calificación  5 non-null      int64 
 3   Ciudad        5 non-null      object
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes

Primeras 3 filas:
  Nombre  Edad  Calificación     Ciudad
0    Ana    20            85     Madrid
1   Juan    22            90  Barcelona
2  María    19            78   Valencia

Últimas 2 filas:
   Nombre  Edad  Calificación   Ciudad
3  Carlos    21            88  Sevilla
4   Lucía    23            92   Bilbao



### Acceso a datos en DataFrame


In [6]:
# Seleccionar una columna (retorna Series)
print("Columna 'Nombre':")
print(df_estudiantes['Nombre'])
print(type(df_estudiantes['Nombre']))
print()

Columna 'Nombre':
0       Ana
1      Juan
2     María
3    Carlos
4     Lucía
Name: Nombre, dtype: object
<class 'pandas.core.series.Series'>



In [7]:
# Seleccionar múltiples columnas (retorna DataFrame)
print("Columnas 'Nombre' y 'Calificación':")
print(df_estudiantes[['Nombre', 'Calificación']])
print()

Columnas 'Nombre' y 'Calificación':
   Nombre  Calificación
0     Ana            85
1    Juan            90
2   María            78
3  Carlos            88
4   Lucía            92



In [8]:
# Seleccionar filas por índice
print("Primera fila:")
print(df_estudiantes.iloc[0])
print()
print("Filas 1 a 3:")
print(df_estudiantes.iloc[1:4])
print()

Primera fila:
Nombre             Ana
Edad                20
Calificación        85
Ciudad          Madrid
Name: 0, dtype: object

Filas 1 a 3:
   Nombre  Edad  Calificación     Ciudad
1    Juan    22            90  Barcelona
2   María    19            78   Valencia
3  Carlos    21            88    Sevilla



In [9]:
# Seleccionar por etiqueta con loc
print("Fila con índice 2:")
print(df_estudiantes.loc[2])
print()

Fila con índice 2:
Nombre             María
Edad                  19
Calificación          78
Ciudad          Valencia
Name: 2, dtype: object



In [10]:
# Seleccionar valor específico
print("Calificación del primer estudiante:", df_estudiantes.iloc[0]['Calificación'])
print("Edad de María:", df_estudiantes.loc[2, 'Edad'])
print()

Calificación del primer estudiante: 85
Edad de María: 19



### Filtrado de DataFrames

In [11]:
# Filtrar por condición simple
print("Estudiantes mayores de 20 años:")
print(df_estudiantes[df_estudiantes['Edad'] > 20])
print()

# Filtrar por múltiples condiciones
print("Estudiantes mayores de 20 años con calificación mayor a 85:")
print(df_estudiantes[(df_estudiantes['Edad'] > 20) & (df_estudiantes['Calificación'] > 85)])
print()

# Filtrar por valores específicos
ciudades_interes = ['Madrid', 'Barcelona']
print("Estudiantes de Madrid o Barcelona:")
print(df_estudiantes[df_estudiantes['Ciudad'].isin(ciudades_interes)])
print()

Estudiantes mayores de 20 años:
   Nombre  Edad  Calificación     Ciudad
1    Juan    22            90  Barcelona
3  Carlos    21            88    Sevilla
4   Lucía    23            92     Bilbao

Estudiantes mayores de 20 años con calificación mayor a 85:
   Nombre  Edad  Calificación     Ciudad
1    Juan    22            90  Barcelona
3  Carlos    21            88    Sevilla
4   Lucía    23            92     Bilbao

Estudiantes de Madrid o Barcelona:
  Nombre  Edad  Calificación     Ciudad
0    Ana    20            85     Madrid
1   Juan    22            90  Barcelona



### Operaciones con columnas

In [12]:
# Crear nueva columna
df_estudiantes['Aprobado'] = df_estudiantes['Calificación'] >= 80
print("DataFrame con nueva columna 'Aprobado':")
print(df_estudiantes)
print()

# Operaciones matemáticas en columnas
df_estudiantes['Calificación_Normalizada'] = df_estudiantes['Calificación'] / 100
print("Calificaciones normalizadas:")
print(df_estudiantes[['Nombre', 'Calificación', 'Calificación_Normalizada']])
print()

# Eliminar columna
df_temp = df_estudiantes.drop('Calificación_Normalizada', axis=1)
print("DataFrame sin la columna 'Calificación_Normalizada':")
print(df_temp)
print()

DataFrame con nueva columna 'Aprobado':
   Nombre  Edad  Calificación     Ciudad  Aprobado
0     Ana    20            85     Madrid      True
1    Juan    22            90  Barcelona      True
2   María    19            78   Valencia     False
3  Carlos    21            88    Sevilla      True
4   Lucía    23            92     Bilbao      True

Calificaciones normalizadas:
   Nombre  Calificación  Calificación_Normalizada
0     Ana            85                      0.85
1    Juan            90                      0.90
2   María            78                      0.78
3  Carlos            88                      0.88
4   Lucía            92                      0.92

DataFrame sin la columna 'Calificación_Normalizada':
   Nombre  Edad  Calificación     Ciudad  Aprobado
0     Ana    20            85     Madrid      True
1    Juan    22            90  Barcelona      True
2   María    19            78   Valencia     False
3  Carlos    21            88    Sevilla      True
4   Lucía    23

### Estadísticas descriptivas

In [13]:
print("Estadísticas descriptivas:")
print(df_estudiantes.describe())
print()

# Estadísticas por columna
print("Promedio de calificaciones:", df_estudiantes['Calificación'].mean())
print("Edad máxima:", df_estudiantes['Edad'].max())
print("Edad mínima:", df_estudiantes['Edad'].min())
print()

Estadísticas descriptivas:
            Edad  Calificación  Calificación_Normalizada
count   5.000000      5.000000                  5.000000
mean   21.000000     86.600000                  0.866000
std     1.581139      5.458938                  0.054589
min    19.000000     78.000000                  0.780000
25%    20.000000     85.000000                  0.850000
50%    21.000000     88.000000                  0.880000
75%    22.000000     90.000000                  0.900000
max    23.000000     92.000000                  0.920000

Promedio de calificaciones: 86.6
Edad máxima: 23
Edad mínima: 19



### Agrupación de datos

In [14]:
print("Promedio de calificación por ciudad:")
print(df_estudiantes.groupby('Ciudad')['Calificación'].mean())
print()

print("Estadísticas por estado de aprobación:")
print(df_estudiantes.groupby('Aprobado').agg({
    'Edad': 'mean',
    'Calificación': ['mean', 'count']
}))
print()

Promedio de calificación por ciudad:
Ciudad
Barcelona    90.0
Bilbao       92.0
Madrid       85.0
Sevilla      88.0
Valencia     78.0
Name: Calificación, dtype: float64

Estadísticas por estado de aprobación:
          Edad Calificación      
          mean         mean count
Aprobado                         
False     19.0        78.00     1
True      21.5        88.75     4



### Ordenamiento

In [15]:
print("Ordenar por calificación (ascendente):")
print(df_estudiantes.sort_values('Calificación'))
print()

print("Ordenar por edad (descendente):")
print(df_estudiantes.sort_values('Edad', ascending=False))
print()

Ordenar por calificación (ascendente):
   Nombre  Edad  Calificación     Ciudad  Aprobado  Calificación_Normalizada
2   María    19            78   Valencia     False                      0.78
0     Ana    20            85     Madrid      True                      0.85
3  Carlos    21            88    Sevilla      True                      0.88
1    Juan    22            90  Barcelona      True                      0.90
4   Lucía    23            92     Bilbao      True                      0.92

Ordenar por edad (descendente):
   Nombre  Edad  Calificación     Ciudad  Aprobado  Calificación_Normalizada
4   Lucía    23            92     Bilbao      True                      0.92
1    Juan    22            90  Barcelona      True                      0.90
3  Carlos    21            88    Sevilla      True                      0.88
0     Ana    20            85     Madrid      True                      0.85
2   María    19            78   Valencia     False                      0.78



### Manejo de valores nulos


In [16]:
# Crear DataFrame con valores nulos para demostrar
datos_con_nulos = {
    'A': [1, 2, None, 4],
    'B': [5, None, 7, 8],
    'C': [9, 10, 11, None]
}
df_nulos = pd.DataFrame(datos_con_nulos)
print("DataFrame con valores nulos:")
print(df_nulos)
print()

DataFrame con valores nulos:
     A    B     C
0  1.0  5.0   9.0
1  2.0  NaN  10.0
2  NaN  7.0  11.0
3  4.0  8.0   NaN



In [17]:
# Detectar valores nulos
print("¿Hay valores nulos?")
print(df_nulos.isnull())
print()
print("Cantidad de valores nulos por columna:")
print(df_nulos.isnull().sum())
print()

¿Hay valores nulos?
       A      B      C
0  False  False  False
1  False   True  False
2   True  False  False
3  False  False   True

Cantidad de valores nulos por columna:
A    1
B    1
C    1
dtype: int64



In [18]:
# Eliminar filas con valores nulos
print("DataFrame sin filas con valores nulos:")
print(df_nulos.dropna())
print()

DataFrame sin filas con valores nulos:
     A    B    C
0  1.0  5.0  9.0



In [19]:
# Rellenar valores nulos
print("DataFrame con valores nulos rellenados con 0:")
print(df_nulos.fillna(0))
print()

DataFrame con valores nulos rellenados con 0:
     A    B     C
0  1.0  5.0   9.0
1  2.0  0.0  10.0
2  0.0  7.0  11.0
3  4.0  8.0   0.0



### Operaciones entre DataFrames


In [20]:
# Crear segundo DataFrame para demostrar operaciones
datos_notas = {
    'Nombre': ['Ana', 'Juan', 'María', 'Carlos'],
    'Matemáticas': [90, 85, 88, 92],
    'Historia': [78, 82, 90, 86]
}
df_notas = pd.DataFrame(datos_notas)
print("Segundo DataFrame (notas por materia):")
print(df_notas)
print()

Segundo DataFrame (notas por materia):
   Nombre  Matemáticas  Historia
0     Ana           90        78
1    Juan           85        82
2   María           88        90
3  Carlos           92        86



In [21]:
# Unir DataFrames
df_unido = pd.merge(df_estudiantes, df_notas, on='Nombre', how='inner')
print("DataFrames unidos:")
print(df_unido[['Nombre', 'Edad', 'Calificación', 'Matemáticas', 'Historia']])
print()

DataFrames unidos:
   Nombre  Edad  Calificación  Matemáticas  Historia
0     Ana    20            85           90        78
1    Juan    22            90           85        82
2   María    19            78           88        90
3  Carlos    21            88           92        86



### Métodos útiles adicionales

In [22]:
# Aplicar función a columna
df_estudiantes['Nombre_Mayusculas'] = df_estudiantes['Nombre'].str.upper()
print("Nombres en mayúsculas:")
print(df_estudiantes[['Nombre', 'Nombre_Mayusculas']])
print()

# Contar valores únicos
print("Valores únicos en la columna 'Ciudad':")
print(df_estudiantes['Ciudad'].value_counts())
print()

# Verificar duplicados
print("¿Hay filas duplicadas?:", df_estudiantes.duplicated().any())
print()

Nombres en mayúsculas:
   Nombre Nombre_Mayusculas
0     Ana               ANA
1    Juan              JUAN
2   María             MARÍA
3  Carlos            CARLOS
4   Lucía             LUCÍA

Valores únicos en la columna 'Ciudad':
Ciudad
Madrid       1
Barcelona    1
Valencia     1
Sevilla      1
Bilbao       1
Name: count, dtype: int64

¿Hay filas duplicadas?: False

