**Crear un DataFrame desde un diccionario**

Ejercicio: Crea un DataFrame con los siguientes datos de estudiantes y sus notas en dos asignaturas.

In [None]:
import pandas as pd

# Datos de estudiantes
data = {
    'Estudiante': ['Juan', 'María', 'Pedro', 'Ana'],
    'Matemáticas': [8, 9, 6, 7],
    'Lengua': [7, 9, 8, 6]
}

# Crear DataFrame
df = pd.DataFrame(data)
print(df)


  Estudiante  Matemáticas  Lengua
0       Juan            8       7
1      María            9       9
2      Pedro            6       8
3        Ana            7       6


**Acceder a columnas y filas**

Ejercicio: Usa el DataFrame anterior y muestra solo las notas de Matemáticas y el nombre del estudiante que tiene la nota más alta en esta asignatura.

In [None]:
# Nota más alta en Matemáticas
mejor_alumno = df.loc[df['Matemáticas'].idxmax()]

# Mostrar el nombre del estudiante y la nota
print(mejor_alumno[['Estudiante', 'Matemáticas']])

Estudiante     María
Matemáticas        9
Name: 1, dtype: object


**Filtrar datos**

Ejercicio: Filtra los estudiantes que tengan una nota mayor o igual a 8 en Lengua.

In [None]:
# Filtrar estudiantes con nota >= 8 en Lengua
estudiantes_buenos = df[df['Lengua'] >= 8]
print(estudiantes_buenos)


  Estudiante  Matemáticas  Lengua
1      María            9       9
2      Pedro            6       8


**Agregar una nueva columna**

Ejercicio: Agrega una columna Promedio que sea el promedio de las dos asignaturas (Matemáticas y Lengua).

In [None]:
# Crear nueva columna 'Promedio'
df['Promedio'] = df[['Matemáticas', 'Lengua']].mean(axis=1)
print(df)


  Estudiante  Matemáticas  Lengua  Promedio
0       Juan            8       7       7.5
1      María            9       9       9.0
2      Pedro            6       8       7.0
3        Ana            7       6       6.5


**Agrupar datos**

Ejercicio: Si tuviéramos datos de diferentes cursos, puedes agrupar por curso y obtener la nota promedio en cada asignatura.

In [None]:
import pandas as pd

# Crear DataFrame con curso
data_con_curso = {
    'Estudiante': ['Juan', 'María', 'Pedro', 'Ana', 'Luis'],
    'Curso': ['A', 'A', 'B', 'B', 'A'],
    'Matemáticas': [8, 9, 6, 7, 8],
    'Lengua': [7, 9, 8, 6, 8]
}
df_curso = pd.DataFrame(data_con_curso)

# Agrupar por curso y calcular el promedio por asignatura solo para las columnas numéricas
promedios_curso = df_curso.groupby('Curso').agg({
    'Matemáticas': 'mean',
    'Lengua': 'mean'
})

# Mostrar los promedios por curso
print(promedios_curso)





       Matemáticas  Lengua
Curso                     
A         8.333333     8.0
B         6.500000     7.0


**Ordenar los datos**

Ejercicio: Ordena el DataFrame de estudiantes por el promedio de mayor a menor.

In [None]:
# Ordenar por Promedio de mayor a menor
df_sorted = df.sort_values(by='Promedio', ascending=False)
print(df_sorted)


  Estudiante  Matemáticas  Lengua  Promedio
1      María            9       9       9.0
0       Juan            8       7       7.5
2      Pedro            6       8       7.0
3        Ana            7       6       6.5


**Eliminar columnas**

Ejercicio: Elimina la columna Lengua del DataFrame.

In [None]:
# Eliminar la columna 'Lengua'
df_sin_lengua = df.drop(columns=['Lengua'])
print(df_sin_lengua)


  Estudiante  Matemáticas  Promedio
0       Juan            8       7.5
1      María            9       9.0
2      Pedro            6       7.0
3        Ana            7       6.5


**Manejar valores nulos**

Ejercicio: Añade un valor nulo (NaN) en alguna columna y muestra cómo manejarlo, por ejemplo, rellenándolo con un valor específico.

In [None]:
import numpy as np

# Añadir un NaN en el DataFrame
df.loc[2, 'Matemáticas'] = np.nan

# Rellenar los NaN con el valor 0
df_llenado = df.fillna(0)
print(df_llenado)


  Estudiante  Matemáticas  Lengua  Promedio
0       Juan          8.0       7       7.5
1      María          9.0       9       9.0
2      Pedro          0.0       8       7.0
3        Ana          7.0       6       6.5


**Operaciones de conjunto**

Ejercicio: Usa el método merge para combinar dos DataFrames. Supón que tienes datos de estudiantes y sus cursos, y otro DataFrame con las notas finales.

In [None]:
# Datos de estudiantes y cursos
data_estudiantes = {
    'Estudiante': ['Juan', 'María', 'Pedro', 'Ana'],
    'Curso': ['A', 'A', 'B', 'B']
}
df_estudiantes = pd.DataFrame(data_estudiantes)

# Datos de notas finales
data_notas = {
    'Estudiante': ['Juan', 'María', 'Pedro', 'Ana'],
    'Nota_Final': [7, 9, 6, 8]
}
df_notas = pd.DataFrame(data_notas)

# Unir los dos DataFrames por la columna 'Estudiante'
df_combinado = pd.merge(df_estudiantes, df_notas, on='Estudiante')
print(df_combinado)


  Estudiante Curso  Nota_Final
0       Juan     A           7
1      María     A           9
2      Pedro     B           6
3        Ana     B           8


** Generar un archivo CSV**

Generamos un archivo CSV con datos de estudiantes, sus asignaturas y notas.


In [None]:
import pandas as pd

# Crear datos ficticios de estudiantes, asignaturas y notas
data = {
    'Estudiante': ['Juan', 'María', 'Pedro', 'Ana', 'Luis', 'Sofía', 'Carlos', 'Elena'],
    'Curso': ['A', 'A', 'B', 'B', 'A', 'A', 'B', 'B'],
    'Matemáticas': [8, 9, 6, 7, 8, 9, 5, 6],
    'Lengua': [7, 9, 8, 6, 8, 7, 6, 7],
    'Ciencias': [6, 8, 7, 5, 6, 8, 4, 6]
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Guardar el DataFrame en un archivo CSV
df.to_csv('estudiantes.csv', index=False) #se genera en la raiz del colab
print("Archivo 'estudiantes.csv' generado exitosamente.")


Archivo 'estudiantes.csv' generado exitosamente.


**Leer el archivo CSV y mostrar los primeros 5 registros.**

Ejercicio: Lee el archivo estudiantes.csv y muestra las primeras 5 filas del DataFrame.

In [None]:
import pandas as pd

# Leer el archivo CSV
df = pd.read_csv('/content/estudiantes.csv')

# Mostrar las primeras 5 filas
print(df.head())


  Estudiante Curso  Matemáticas  Lengua  Ciencias
0       Juan     A            8       7         6
1      María     A            9       9         8
2      Pedro     B            6       8         7
3        Ana     B            7       6         5
4       Luis     A            8       8         6


**Filtrar estudiantes con notas mayores o iguales a 8 en todas las asignaturas.**

Ejercicio: Filtra los estudiantes que tengan una nota mayor o igual a 8 en todas las asignaturas (Matemáticas, Lengua y Ciencias).

In [None]:
# Filtrar estudiantes con notas >= 8 en todas las asignaturas
df_buenos = df[(df['Matemáticas'] >= 8) & (df['Lengua'] >= 8) & (df['Ciencias'] >= 8)]
print(df_buenos)

  Estudiante Curso  Matemáticas  Lengua  Ciencias
1      María     A            9       9         8


**Calcular el promedio de cada estudiante.**

Ejercicio: Añadir una nueva columna Promedio que sea el promedio de las tres asignaturas para cada estudiante, muestra el promedio a dos digitos.

In [None]:
# Calcular el promedio por estudiante
df['Promedio'] = df[['Matemáticas', 'Lengua', 'Ciencias']].mean(axis=1)

# Redondear la columna "Promedio" a 2 decimales
df['Promedio'] = df['Promedio'].round(2)

# Mostrar el DataFrame con el nuevo promedio
print(df[['Estudiante', 'Promedio']])


  Estudiante  Promedio
0       Juan      7.00
1      María      8.67
2      Pedro      7.00
3        Ana      6.00
4       Luis      7.33
5      Sofía      8.00
6     Carlos      5.00
7      Elena      6.33


**Obtener el estudiante con el promedio más alto.**

Ejercicio: Encuentra el estudiante con el promedio más alto y muestra su nombre y su promedio.

In [None]:
# Estudiante con el promedio más alto
mejor_estudiante = df.loc[df['Promedio'].idxmax()]

# Mostrar el resultado
print(f"El estudiante con el promedio más alto es {mejor_estudiante['Estudiante']} con un promedio de {mejor_estudiante['Promedio']:.2f}.")


El estudiante con el promedio más alto es María con un promedio de 8.67.


**Agrupar los estudiantes por curso y calcular el promedio por curso.**

Ejercicio: Agrupa a los estudiantes por su curso y calcula el promedio de las asignaturas para cada curso.

In [None]:

# Asegurarnos de que las columnas de notas son numéricas (si hay algún error en el tipo de dato, convertimos a numérico)
df[['Matemáticas', 'Lengua', 'Ciencias']] = df[['Matemáticas', 'Lengua', 'Ciencias']].apply(pd.to_numeric, errors='coerce')

# Agrupar por 'Curso' y calcular el promedio por asignatura
promedios_curso = df.groupby('Curso')[['Matemáticas', 'Lengua', 'Ciencias']].mean()

# Mostrar los promedios por curso
print(promedios_curso)



       Matemáticas  Lengua  Ciencias
Curso                               
A              8.5    7.75       7.0
B              6.0    6.75       5.5


**Ordenar a los estudiantes por su promedio de mayor a menor.**

Ejercicio: Ordena los estudiantes por su promedio de mayor a menor.

In [None]:
# Ordenar el DataFrame por el promedio de mayor a menor
df_ordenado = df.sort_values(by='Promedio', ascending=False)

# Mostrar el DataFrame ordenado
print(df_ordenado[['Estudiante', 'Promedio']])


  Estudiante  Promedio
1      María      8.67
5      Sofía      8.00
4       Luis      7.33
0       Juan      7.00
2      Pedro      7.00
7      Elena      6.33
3        Ana      6.00
6     Carlos      5.00


**Contar cuántos estudiantes hay por cada curso.**

Ejercicio: Cuenta cuántos estudiantes hay en cada curso.

In [None]:
# Contar el número de estudiantes por curso
conteo_cursos = df['Curso'].value_counts()

# Mostrar el conteo por curso
print(conteo_cursos)


Curso
A    4
B    4
Name: count, dtype: int64


**Encontrar estudiantes con alguna asignatura reprobada (nota menor a 5).**

Ejercicio: Filtra los estudiantes que tengan al menos una asignatura con una nota menor a 5.

In [None]:
# Filtrar estudiantes con alguna asignatura reprobada
estudiantes_reprobados = df[(df['Matemáticas'] < 5) | (df['Lengua'] < 5) | (df['Ciencias'] < 5)]

# Mostrar los estudiantes reprobados
print(estudiantes_reprobados[['Estudiante', 'Matemáticas', 'Lengua', 'Ciencias']])


  Estudiante  Matemáticas  Lengua  Ciencias
6     Carlos            5       6         4


**Guardar un nuevo archivo CSV con los estudiantes que tienen un promedio mayor a 7.**

Ejercicio: Filtra los estudiantes que tienen un promedio mayor a 7 y guarda ese nuevo DataFrame en un archivo CSV llamado estudiantes_promedio_alto.csv.

In [None]:
# Filtrar estudiantes con promedio mayor a 7
df_promedio_alto = df[df['Promedio'] > 7]

# Guardar en un nuevo archivo CSV
df_promedio_alto.to_csv('estudiantes_promedio_alto.csv', index=False)

print("Archivo 'estudiantes_promedio_alto.csv' generado exitosamente.")


Archivo 'estudiantes_promedio_alto.csv' generado exitosamente.
