## Modelo de Examen Practico - TLP3 - Python para Ciencia de Datos

### Se importan las librerias necesarias para resolver el ejercicio:

- pandas
- numpy
- matplotlib
- sqlite3


In [15]:
import pandas as pd
import numpy as np
import sqlite3
import matplotlib.pyplot as plt

## 1. Importacion del dataset

### Se carga el archivo `datasets_calificaciones.csv` en un DataFrame.


In [28]:
df = pd.read_csv('./datasets_calificaciones.csv')
df.head()

Unnamed: 0,estudiante,Materia,Parcial 1,Parcial 2,Final,Asistencia
0,ana pérez,matematicas,8.0,7.5,9.0,95%
1,carlos lópez,fisica,6.2,7.0,,88%
2,maría gómez,quimica,9.0,8.8,9.5,100%
3,pedro rodríguez,historia,7.5,6.0,7.0,75
4,laura vargas,matematicas,,9.2,8.5,92%


# 2. Exploracion de los datos

### Se utilizan metodos de pandas para explorar la estructura y contenido del dataframe


In [29]:
print(f'1-info basica del dataframe:  {df.info()}\n' )
print(f'2-estadisticas basicas del dataframe:  {df.describe(include="all")}\n' )
print(f'3-dimension del dataframe:  {df.shape}\n' )
print(f'4-nombres de las columnas:  {df.columns}\n' )
print(f'5-tipos de datos:  {df.dtypes}\n' )
print(f'6-valores nulos:  {df.isnull().sum()}\n' )

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   estudiante  100 non-null    object
 1   Materia     100 non-null    object
 2   Parcial 1   95 non-null     object
 3   Parcial 2   90 non-null     object
 4   Final       89 non-null     object
 5   Asistencia  100 non-null    object
dtypes: object(6)
memory usage: 4.8+ KB
1-info basica del dataframe:  None

2-estadisticas basicas del dataframe:            estudiante      Materia Parcial 1 Parcial 2 Final Asistencia
count            100          100        95        90    89        100
unique            96            7        49        45    46         35
top     joaquín ruiz  matematicas                 7.5   9.5        99%
freq               2           25         7         5     4          5

3-dimension del dataframe:  (100, 6)

4-nombres de las columnas:  Index(['estudiante', 'Materia', 'Parcial

# 3. limpieza de datos

- se reemplazan strings vacios
- se convierten 'calificaciones' a tipo numerico
- se limpia y convierte 'asistencia' quitando el '%' y convirtiendo a tipo numerico.
- se corrigen asistencias > 100%
- los NaN restantes serán reemplazados por la media de cada columna

- se verifica la limpieza con info y isnull.sum de nuevo para confirmar


In [38]:
# reemplazar strings vacios
df = df.replace(' ', np.nan)

# se definen grupos de colums
calif_cols = ['Parcial 1', 'Parcial 2', 'Final']
asist_col = 'Asistencia'
# columnas de texto
text_cols = ['estudiante', 'Materia']
# columnas numericas
num_cols = calif_cols + [asist_col]

# convertir calificaciones a numerico
for col in calif_cols:
    df[col] = pd.to_numeric(df[col], errors='coerce')

# limpiar asistencias
df[asist_col] = df[asist_col].astype(str).str.replace('%', '', regex=False)
df[asist_col] = pd.to_numeric(df[asist_col], errors='coerce')
df.loc[df[asist_col] > 100, asist_col] = 100

# reemplazar valores faltantes por la media
for col in num_cols:
    mean = df[col].mean()
    df[col].fillna(mean)

#normalizar texto a 'title'
for col in text_cols:
    df[col] = df[col].str.title()

print(f'verificacion de limpieza:  ' )
print(f'info:  {df.info()}' )
print(f'valores nulos por columna:  {df.isnull().sum()}' )
print(f'head: {df.head()}')

verificacion de limpieza:  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   estudiante  100 non-null    object 
 1   Materia     100 non-null    object 
 2   Parcial 1   100 non-null    float64
 3   Parcial 2   100 non-null    float64
 4   Final       100 non-null    float64
 5   Asistencia  100 non-null    int64  
dtypes: float64(3), int64(1), object(2)
memory usage: 4.8+ KB
info:  None
valores nulos por columna:  estudiante    0
Materia       0
Parcial 1     0
Parcial 2     0
Final         0
Asistencia    0
dtype: int64
head:         estudiante      Materia  Parcial 1  Parcial 2     Final  Asistencia
0        Ana Pérez  Matematicas   8.000000        7.5  9.000000          95
1     Carlos López       Fisica   6.200000        7.0  7.894118          88
2      María Gómez      Quimica   9.000000        8.8  9.500000         100
3  Pedro Rodríguez  

In [37]:
df.tail()

Unnamed: 0,estudiante,Materia,Parcial 1,Parcial 2,Final,Asistencia
95,josefina torres,historia,7.4,6.8,7.2,81
96,bautista vargas,matematicas,8.7,7.830682,8.5,92
97,emma soto,fisica,6.6,7.0,6.4,83
98,mateo díaz,quimica,9.5,9.7,7.894118,98
99,sofía fernández,historia,7.1,7.6,7.5,87


In [16]:
print(f'shape: {df.shape}')
print(f'columns: {df.columns}')

print(f'dtypes: {df.dtypes}')

shape: (100, 6)
columns: Index(['estudiante', 'Materia', 'Parcial 1', 'Parcial 2', 'Final',
       'Asistencia'],
      dtype='object')
dtypes: estudiante    object
Materia       object
Parcial 1     object
Parcial 2     object
Final         object
Asistencia    object
dtype: object


In [None]:
#contar valores nulos por columna
df.isnull().sum()

estudiante     0
Materia        0
Parcial 1      5
Parcial 2     10
Final         11
Asistencia     0
dtype: int64

In [24]:
for col in ['Parcial 1', 'Parcial 2', 'Final']:
    empty_strings = df[col].apply(lambda x: isinstance(x, str) and x.strip() == '').sum()
    print(f"  {col}: {empty_strings}")

  Parcial 1: 7
  Parcial 2: 2
  Final: 4


In [None]:
df.replace(' ', np.nan, inplace=True)

calif_cols = ['Parcial 1', 'Parcial 2', 'Final']
asist_col = 'Asistencia'
text_cols = ['estudiante', 'Materia']

# convert calificaciones a num
for col in calif_cols:
    df[col] = pd.to_numeric(df[col], errors='coerce')

# limpiar asistencia
df[asist_col] = df[asist_col].astype(str).str.replace('%', '', regex=False)
df[asist_col] = pd.to_numeric(df[asist_col], errors='coerce')

# corregir asistencia > 100
df.loc[df[asist_col] > 100, asist_col] = 100

# rellenar NaN con la mediana en columnas numéricas
num_cols = calif_cols + [asist_col]
for col in num_cols:
    df[col].fillna(df[col].median(), inplace=True)

# poner nombres en formato título
for col in text_cols:
    df[col] = df[col].str.title()

print("\ninfo después de limpiar:")
df.info()
print("\nnulos después de limpiar:")
print(df.isnull().sum())
print("\ndatos limpios:")
print(df.head())

In [25]:
print("\nEstadísticas descriptivas:")
print(df[num_cols].describe())

print("\nMedia por materia:")
print(df.groupby('Materia')[num_cols].mean())


Estadísticas descriptivas:


NameError: name 'num_cols' is not defined