### DataFrame en Pandas

Un DataFrame es una estructura de datos bidimensional con filas y columnas etiquetadas. Es como una tabla de Excel o una base de datos.

In [1]:
import pandas as pd
import numpy as np

print(F"Versión instalada de pandas = {pd.__version__}")
print(F"Versión instalada de numpy = {np.__version__}")

Versión instalada de pandas = 2.2.2
Versión instalada de numpy = 1.26.4


In [2]:
# Crear DataFrame desde un diccionario
datos_estudiantes = {
    'Nombre': ['Francisco', 'Danitza', 'Isidora', 'Nicolás', 'Mateo'],
    'Edad': [31, 29, 25, 23, 13],
    'Calificación': [91, 85, 87, 74, 95],
    'Ciudad': ['Santiago', 'Puerto Varas', 'Osorno', 'Valdivia', 'Temuco']
}
df_estudiantes = pd.DataFrame(datos_estudiantes)
print("DataFrame desde diccionario:")
print(df_estudiantes)
print()

DataFrame desde diccionario:
      Nombre  Edad  Calificación        Ciudad
0  Francisco    31            91      Santiago
1    Danitza    29            85  Puerto Varas
2    Isidora    25            87        Osorno
3    Nicolás    23            74      Valdivia
4      Mateo    13            95        Temuco



In [3]:
# Crear DataFrame desde listas
nombres = ['Antonia', 'Luisa', 'Carmen']
edades = [25, 28, 30]
salarios = [3000, 3500, 4000]
df_empleados = pd.DataFrame({
    'Nombre': nombres,
    'Edad': edades,
    'Salario': salarios
})
print("DataFrame desde listas:")
print(df_empleados)
print()

DataFrame desde listas:
    Nombre  Edad  Salario
0  Antonia    25     3000
1    Luisa    28     3500
2   Carmen    30     4000



**Información básica del DataFrame**

In [4]:
print("Información del DataFrame:")
print(f"Forma (filas, columnas): {df_estudiantes.shape}")
print(f"Columnas: {list(df_estudiantes.columns)}")
print(f"Índice: {list(df_estudiantes.index)}")
print()

Información del DataFrame:
Forma (filas, columnas): (5, 4)
Columnas: ['Nombre', 'Edad', 'Calificación', 'Ciudad']
Índice: [0, 1, 2, 3, 4]



In [5]:
# Información detallada
print("Información detallada:")
df_estudiantes.info()
print()

# Primeras y últimas filas
print("Primeras 3 filas:")
print(df_estudiantes.head(3))
print()
print("Últimas 2 filas:")
print(df_estudiantes.tail(2))
print()

Información detallada:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Nombre        5 non-null      object
 1   Edad          5 non-null      int64 
 2   Calificación  5 non-null      int64 
 3   Ciudad        5 non-null      object
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes

Primeras 3 filas:
      Nombre  Edad  Calificación        Ciudad
0  Francisco    31            91      Santiago
1    Danitza    29            85  Puerto Varas
2    Isidora    25            87        Osorno

Últimas 2 filas:
    Nombre  Edad  Calificación    Ciudad
3  Nicolás    23            74  Valdivia
4    Mateo    13            95    Temuco



**Acceso a datos en DataFrame**

In [6]:
# Seleccionar una columna (retorna Series)
print("Columna 'Nombre':")
print(df_estudiantes['Nombre'])
print(type(df_estudiantes['Nombre']))
print()

Columna 'Nombre':
0    Francisco
1      Danitza
2      Isidora
3      Nicolás
4        Mateo
Name: Nombre, dtype: object
<class 'pandas.core.series.Series'>



In [7]:
# Seleccionar múltiples columnas (retorna DataFrame)
print("Columnas 'Nombre' y 'Calificación':")
print(df_estudiantes[['Nombre', 'Calificación']])
print()

Columnas 'Nombre' y 'Calificación':
      Nombre  Calificación
0  Francisco            91
1    Danitza            85
2    Isidora            87
3    Nicolás            74
4      Mateo            95



In [8]:
# Seleccionar filas por índice
print("Primera fila:")
print(df_estudiantes.iloc[0])
print()
print("Filas 1 a 3:")
print(df_estudiantes.iloc[1:4])
print()

Primera fila:
Nombre          Francisco
Edad                   31
Calificación           91
Ciudad           Santiago
Name: 0, dtype: object

Filas 1 a 3:
    Nombre  Edad  Calificación        Ciudad
1  Danitza    29            85  Puerto Varas
2  Isidora    25            87        Osorno
3  Nicolás    23            74      Valdivia



In [9]:
# Seleccionar por etiqueta con loc
print("Fila con índice 2:")
print(df_estudiantes.loc[2])
print()

Fila con índice 2:
Nombre          Isidora
Edad                 25
Calificación         87
Ciudad           Osorno
Name: 2, dtype: object



In [10]:
# Seleccionar valor específico
print("Calificación del primer estudiante:", df_estudiantes.iloc[0]['Calificación'])
print("Edad de María:", df_estudiantes.loc[2, 'Edad'])
print()

Calificación del primer estudiante: 91
Edad de María: 25



**Filtrado de DataFrame**

In [11]:
# Filtrar por condición simple
print("Estudiantes mayores de 20 años:")
print(df_estudiantes[df_estudiantes['Edad'] > 20])
print()

# Filtrar por múltiples condiciones
print("Estudiantes mayores de 20 años con calificación mayor a 85:")
print(df_estudiantes[(df_estudiantes['Edad'] > 20) & (df_estudiantes['Calificación'] > 85)])
print()

# Filtrar por valores específicos
ciudades_interes = ['Madrid', 'Barcelona']
print("Estudiantes de Madrid o Barcelona:")
print(df_estudiantes[df_estudiantes['Ciudad'].isin(ciudades_interes)])
print()

Estudiantes mayores de 20 años:
      Nombre  Edad  Calificación        Ciudad
0  Francisco    31            91      Santiago
1    Danitza    29            85  Puerto Varas
2    Isidora    25            87        Osorno
3    Nicolás    23            74      Valdivia

Estudiantes mayores de 20 años con calificación mayor a 85:
      Nombre  Edad  Calificación    Ciudad
0  Francisco    31            91  Santiago
2    Isidora    25            87    Osorno

Estudiantes de Madrid o Barcelona:
Empty DataFrame
Columns: [Nombre, Edad, Calificación, Ciudad]
Index: []



In [12]:
# Crear nueva columna
df_estudiantes['Aprobado'] = df_estudiantes['Calificación'] >= 80
print("DataFrame con nueva columna 'Aprobado':")
print(df_estudiantes)
print()

# Operaciones matemáticas en columnas
df_estudiantes['Calificación_Normalizada'] = df_estudiantes['Calificación'] / 100
print("Calificaciones normalizadas:")
print(df_estudiantes[['Nombre', 'Calificación', 'Calificación_Normalizada']])
print()

# Eliminar columna
df_temp = df_estudiantes.drop('Calificación_Normalizada', axis=1)
print("DataFrame sin la columna 'Calificación_Normalizada':")
print(df_temp)
print()

DataFrame con nueva columna 'Aprobado':
      Nombre  Edad  Calificación        Ciudad  Aprobado
0  Francisco    31            91      Santiago      True
1    Danitza    29            85  Puerto Varas      True
2    Isidora    25            87        Osorno      True
3    Nicolás    23            74      Valdivia     False
4      Mateo    13            95        Temuco      True

Calificaciones normalizadas:
      Nombre  Calificación  Calificación_Normalizada
0  Francisco            91                      0.91
1    Danitza            85                      0.85
2    Isidora            87                      0.87
3    Nicolás            74                      0.74
4      Mateo            95                      0.95

DataFrame sin la columna 'Calificación_Normalizada':
      Nombre  Edad  Calificación        Ciudad  Aprobado
0  Francisco    31            91      Santiago      True
1    Danitza    29            85  Puerto Varas      True
2    Isidora    25            87        Osorn

**Estadísticas descriptivas**

In [13]:
print("Estadísticas descriptivas:")
print(df_estudiantes.describe())
print()

# Estadísticas por columna
print("Promedio de calificaciones:", df_estudiantes['Calificación'].mean())
print("Edad máxima:", df_estudiantes['Edad'].max())
print("Edad mínima:", df_estudiantes['Edad'].min())
print()

Estadísticas descriptivas:
            Edad  Calificación  Calificación_Normalizada
count   5.000000      5.000000                  5.000000
mean   24.200000     86.400000                  0.864000
std     7.014271      7.924645                  0.079246
min    13.000000     74.000000                  0.740000
25%    23.000000     85.000000                  0.850000
50%    25.000000     87.000000                  0.870000
75%    29.000000     91.000000                  0.910000
max    31.000000     95.000000                  0.950000

Promedio de calificaciones: 86.4
Edad máxima: 31
Edad mínima: 13



**Agrupación de datos**

In [14]:
print("Promedio de calificación por ciudad:")
print(df_estudiantes.groupby('Ciudad')['Calificación'].mean())
print()

print("Estadísticas por estado de aprobación:")
print(df_estudiantes.groupby('Aprobado').agg({
    'Edad': 'mean',
    'Calificación': ['mean', 'count']
}))
print()

Promedio de calificación por ciudad:
Ciudad
Osorno          87.0
Puerto Varas    85.0
Santiago        91.0
Temuco          95.0
Valdivia        74.0
Name: Calificación, dtype: float64

Estadísticas por estado de aprobación:
          Edad Calificación      
          mean         mean count
Aprobado                         
False     23.0         74.0     1
True      24.5         89.5     4



**Ordenamiento**

In [15]:
print("Ordenar por calificación (ascendente):")
print(df_estudiantes.sort_values('Calificación'))
print()

print("Ordenar por edad (descendente):")
print(df_estudiantes.sort_values('Edad', ascending=False))
print()

Ordenar por calificación (ascendente):
      Nombre  Edad  Calificación        Ciudad  Aprobado  \
3    Nicolás    23            74      Valdivia     False   
1    Danitza    29            85  Puerto Varas      True   
2    Isidora    25            87        Osorno      True   
0  Francisco    31            91      Santiago      True   
4      Mateo    13            95        Temuco      True   

   Calificación_Normalizada  
3                      0.74  
1                      0.85  
2                      0.87  
0                      0.91  
4                      0.95  

Ordenar por edad (descendente):
      Nombre  Edad  Calificación        Ciudad  Aprobado  \
0  Francisco    31            91      Santiago      True   
1    Danitza    29            85  Puerto Varas      True   
2    Isidora    25            87        Osorno      True   
3    Nicolás    23            74      Valdivia     False   
4      Mateo    13            95        Temuco      True   

   Calificación_Normalizad

**Manejo de valores nulos**

In [16]:
# Crear DataFrame con valores nulos para demostrar
datos_con_nulos = {
    'A': [1, 2, None, 4],
    'B': [5, None, 7, 8],
    'C': [9, 10, 11, None]
}
df_nulos = pd.DataFrame(datos_con_nulos)
print("DataFrame con valores nulos:")
print(df_nulos)
print()

DataFrame con valores nulos:
     A    B     C
0  1.0  5.0   9.0
1  2.0  NaN  10.0
2  NaN  7.0  11.0
3  4.0  8.0   NaN



In [17]:
# Detectar valores nulos
print("¿Hay valores nulos?")
print(df_nulos.isnull())
print()
print("Cantidad de valores nulos por columna:")
print(df_nulos.isnull().sum())
print()

¿Hay valores nulos?
       A      B      C
0  False  False  False
1  False   True  False
2   True  False  False
3  False  False   True

Cantidad de valores nulos por columna:
A    1
B    1
C    1
dtype: int64



In [18]:
# Eliminar filas con valores nulos
print("DataFrame sin filas con valores nulos:")
print(df_nulos.dropna())
print()

DataFrame sin filas con valores nulos:
     A    B    C
0  1.0  5.0  9.0



In [19]:

# Rellenar valores nulos
print("DataFrame con valores nulos rellenados con 0:")
print(df_nulos.fillna(0))
print()

DataFrame con valores nulos rellenados con 0:
     A    B     C
0  1.0  5.0   9.0
1  2.0  0.0  10.0
2  0.0  7.0  11.0
3  4.0  8.0   0.0



**Operaciones entre DataFrame**

In [27]:
# Crear segundo DataFrame para demostrar operaciones
datos_notas = {
    'Nombre': ['Francisco', 'Danitza', 'Isidora', 'Nicolás', 'Mateo'],
    'Matemáticas': [90, 85, 88, 92, 94],
    'Historia': [78, 82, 90, 86, 93]
}
df_notas = pd.DataFrame(datos_notas)
print("Segundo DataFrame (notas por materia):")
print(df_notas)
print()

Segundo DataFrame (notas por materia):
      Nombre  Matemáticas  Historia
0  Francisco           90        78
1    Danitza           85        82
2    Isidora           88        90
3    Nicolás           92        86
4      Mateo           94        93



In [28]:
# Unir DataFrames
df_unido = pd.merge(df_estudiantes, df_notas, on='Nombre', how='inner')
print("DataFrames unidos:")
print(df_unido[['Nombre', 'Edad', 'Calificación', 'Matemáticas', 'Historia']])
print()

DataFrames unidos:
      Nombre  Edad  Calificación  Matemáticas  Historia
0  Francisco    31            91           90        78
1    Danitza    29            85           85        82
2    Isidora    25            87           88        90
3    Nicolás    23            74           92        86
4      Mateo    13            95           94        93



**Métodos útiles adicionales**

In [29]:
# Aplicar función a columna
df_estudiantes['Nombre_Mayusculas'] = df_estudiantes['Nombre'].str.upper()
print("Nombres en mayúsculas:")
print(df_estudiantes[['Nombre', 'Nombre_Mayusculas']])
print()

# Contar valores únicos
print("Valores únicos en la columna 'Ciudad':")
print(df_estudiantes['Ciudad'].value_counts())
print()

# Verificar duplicados
print("¿Hay filas duplicadas?:", df_estudiantes.duplicated().any())
print()

Nombres en mayúsculas:
      Nombre Nombre_Mayusculas
0  Francisco         FRANCISCO
1    Danitza           DANITZA
2    Isidora           ISIDORA
3    Nicolás           NICOLÁS
4      Mateo             MATEO

Valores únicos en la columna 'Ciudad':
Ciudad
Santiago        1
Puerto Varas    1
Osorno          1
Valdivia        1
Temuco          1
Name: count, dtype: int64

¿Hay filas duplicadas?: False

