# Preprocesamiento de datos

In [2]:
import pandas as pd

mff = pd.read_excel('../datos/mff.xlsx')

#Repaso de limpieza de datos
mff.drop_duplicates(subset="id", keep="last", inplace=True) #Borrar datos duplicados por id
mff["id"].fillna(mff["id"].mean(), inplace=True)
mff["Nivel"].fillna(mff["Nivel"].mean(), inplace=True)
mff["Personajes"].fillna('Sin personajes', inplace=True)
mff["Precio"].fillna(mff["Precio"].mean(), inplace=True) #rellenar campos nulos por media
mff["Tier"].fillna(mff["Tier"].mode()[0], inplace=True) #rellenar campos nulos por moda
mff_sinString = mff.drop(columns=["Personajes"]) #eliminar columna de string para evitar errores con pandas
print(mff.describe())
print(mff.dtypes)
mff

              id      Nivel       Precio      Tier
count  24.000000  24.000000    24.000000  24.00000
mean   13.652174   3.285714  1785.714286   1.75000
std     8.750695   0.939142   860.629554   0.84699
min     1.000000   0.000000     0.000000   1.00000
25%     6.750000   3.000000  1750.000000   1.00000
50%    12.500000   3.285714  1750.000000   1.50000
75%    19.250000   4.000000  1785.714286   2.25000
max    29.000000   4.000000  3250.000000   3.00000
id            float64
Personajes     object
Nivel         float64
Precio        float64
Tier          float64
dtype: object


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  mff["id"].fillna(mff["id"].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  mff["Nivel"].fillna(mff["Nivel"].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are sett

Unnamed: 0,id,Personajes,Nivel,Precio,Tier
0,1.0,Knull,4.0,3250.0,3.0
1,2.0,Jean grey,4.0,2500.0,2.0
2,3.0,Miles Morles,3.0,1750.0,1.0
3,4.0,Ghost Ryder,4.0,1750.0,1.0
4,5.0,Sentry,4.0,3250.0,3.0
5,6.0,StardLord,4.0,1750.0,1.0
6,7.0,Thanos,2.0,1750.0,2.0
7,8.0,Thanos,3.0,0.0,2.0
8,9.0,Adam Wrlock,4.0,2500.0,2.0
9,10.0,Mr. Fantastico,0.0,1750.0,3.0


In [6]:

mff.to_excel('../datos/mff_limpio.xlsx', index=False) #después de limpiar los datos podemos crear un nuevo archivo excel con los nuevos datos usando la función to_excel('ruta en que queramos que se guarde el archivo/al final ponemos el nombre del archivo con la extensión de excel', index='True si queremos con indices o false si no queremos los indices del dataframe, columns=['col1', 'sirve para exportar columnas específicas en el nuevo archivo'], startrow=fila en que queremos que inicie a guardar, startcol=columna en queremos que inicie a gurdar)

#Conversión de tipo de datos de un dataframe
#Este tipo de conversiones de datos solo pueden realizarse con un dataframe con los datos limpios (sin valores nulos)

#Usar converters
df = pd.read_excel('../datos/mff_limpio.xlsx', converters={
    "Precio":float,
    "id":str, #Los tipos de datos string (cadena de texto) son considerados como objetos dentro de los dataframe
    "Nivel":int,
    "Tier":int
}) #el argumento converters recibe un diccionario donde las llaves serán las columnas que queramos cambiar el tipo de dato y el valor será el tipo de dato al qu queremos convertir a la columna
print(df.dtypes)


    

id             object
Personajes     object
Nivel           int64
Precio        float64
Tier            int64
dtype: object


In [8]:
#Usar diccionarios 

tipoDatos = {
    "id":str,
    #"Personajes":str,
    "Nivel":int,
    "Tier":int,
    "Precio":int
}

df = pd.read_excel('../datos/mff_limpio.xlsx', dtype=tipoDatos)  #Para usar los diccionarios(con el mismo formato como si usáramos converters) usamos el argumento dtype y le asignamos el diccionario con la información correspondiente para los tipos de datos

print(df.dtypes)

id            object
Personajes    object
Nivel          int32
Precio         int32
Tier           int32
dtype: object


mff["Tier"] = mff["Tier"].astype(int) #para cambiar el tipo de dato dentro de un dataframe escogemos la columna que queramos cambiar el dato y la reasignamos un nuevo tipo de dato con la función astype('tipo de dato que queramos poner')  (sprint3)

### Tipo de dato category del dataframe de pandas

Es una estructura optimizada para datos categóricos que almacena:
- Categories: Lista única de valores posibles
- Codes: Referencias numéricas a esas categorías

Ventajas principales:
- Ahorro de memoria: Hasta 90% menos memoria con datos repetidos
- Mayor velocidad: Operaciones más rápidas al trabajar con códigos numéricos
- Funcionalidad especial: Ordenamiento personalizado, mantiene categorías vacías

Ideal para:
- Estados (activo/inactivo)
- Géneros de películas
- Niveles educativos
- Colores, tallas, categorías
- Calificaciones (malo/regular/bueno/excelente)

In [9]:
#Cambiar tipo de dato a las columna tier y nivel ya que solo ocuparan datos repetidos del 1 al 4 y 1 al 3 respectivamente.

df["Tier"] = pd.Categorical(df["Tier"], categories=[1, 2, 3])
df["Nivel"] = pd.Categorical(df["Nivel"], categories=[1, 2, 3, 4])

print(df.dtypes)

id              object
Personajes      object
Nivel         category
Precio           int32
Tier          category
dtype: object


In [10]:
#Crear una copia de un dataframe

df_copia = df.copy() #creamos una nueva variable y le asignamos nuestro dataframe con la función copy() esto convertirá la nueva variable en una copia del dataframe que le asignamos

print(df.head())
print(df_copia.head())

  id    Personajes Nivel  Precio Tier
0  1         Knull     4    3250    3
1  2    Jean grey      4    2500    2
2  3  Miles Morles     3    1750    1
3  4   Ghost Ryder     4    1750    1
4  5        Sentry     4    3250    3
  id    Personajes Nivel  Precio Tier
0  1         Knull     4    3250    3
1  2    Jean grey      4    2500    2
2  3  Miles Morles     3    1750    1
3  4   Ghost Ryder     4    1750    1
4  5        Sentry     4    3250    3


In [12]:
#Trabajar con fechas 

fechas = pd.read_excel('../datos/fechas.xlsx')

print(fechas.dtypes)

fechas["Fecha-Creación"] = fechas["Fecha-Creación"].astype(str) #cambio a string para hacer la prueba de cambiar a fecha
print(fechas.dtypes)

#cambiar tipo de dato a fechas

fechas["Fecha-Creación"] = pd.to_datetime(fechas["Fecha-Creación"]) #para poner el tipo de dato de fecha a una columna se debe llamar la función to_datetima(columna dentro del dataframe que queramos cambiarle el tipo de dato a fecha), es un poco diferente a como si usáramos astype() pero la lógica es la misma ya que de igual forma se hace una reasignación para poder cambiar el tipo de dato

print(fechas.dtypes)

Cosa                      object
Fecha-Creación    datetime64[ns]
dtype: object
Cosa              object
Fecha-Creación    object
dtype: object
Cosa                      object
Fecha-Creación    datetime64[ns]
dtype: object


Manejo de fechas

In [13]:
#Cuando ya tengamos la columna con el tipo de dato para las fechas ya el pandas nos da las siguientes funcionalidades para poder acceder a la información de las fechas


#Para acceder a la información de las fechas usamos la función dt.seguido de lo que queremos acceder 
year = fechas["Fecha-Creación"].dt.year  #accedemos al año solamente
print(year)

month = fechas["Fecha-Creación"].dt.month  #accedemos al mes solamente
print(month)

day = fechas["Fecha-Creación"].dt.day  #accedemos al día solamente
print(day)

dayName = fechas["Fecha-Creación"].dt.day_name() #accedemos al nombre del día que cae en la fecha (ejemplo: el 12/12/2025 cae un viernes y así)
print(dayName)

monthName = fechas["Fecha-Creación"].dt.month_name() #accedemos al nombre del mes de la fecha
print(monthName)

0    2025
1    2025
2    2025
3    2020
Name: Fecha-Creación, dtype: int32
0    12
1     1
2    12
3     9
Name: Fecha-Creación, dtype: int32
0    12
1     1
2     5
3     3
Name: Fecha-Creación, dtype: int32
0       Friday
1    Wednesday
2       Friday
3     Thursday
Name: Fecha-Creación, dtype: object
0     December
1      January
2     December
3    September
Name: Fecha-Creación, dtype: object


In [14]:
#La función unique() nos devuelve los valores que están almacenados dentro de la variable (solo devuelve valores únicos cosa que no importa si un valor se repite solo lo va a mostrar una vez)

print(year.unique())
print(month.unique())
print(day.unique())
print(dayName.unique())
print(monthName.unique()) 

[2025 2020]
[12  1  9]
[12  1  5  3]
['Friday' 'Wednesday' 'Thursday']
['December' 'January' 'September']


In [15]:
#Calcular tiempo de fecha

#podemos crear una nueva columna dentro del dataframe simplemente invocando al dataframe y pasandole como parámetro no una columna ya existente, sino que, le pasamos como parámetro el nombre de la nueva columna que queramos crear 
#para calcular el tiempo podemos usar los operadores aritméticos
#formatos por defecto (practicamente el formato que usan en estados unidos)
#formato para las fechas ('mes-día-año') si la fecha que ingresamos es compatible (1-11-2025, lo tomará como 11 de enero y no como 1 de noviembre), si no es compatible el formato se adaptará automáticamente (27-09-2025, como no existe un noveno día del 27 mes se adapta y lo toma como 27 de septiembre)
#formato para las horas ('horas:minutos:segundos.milisegundos')
#formato combinado con fechas y horas ('día-mes-año horas:minutos:segundos.milisegundos')


fechas["Calculo-Fecha"] = fechas["Fecha-Creación"] - pd.to_datetime('today') #pusamos la función pd.to_datetime('la fecha que queremos calcular) si usamos el 'today' pandas va a tomar también la hora que falta para el siguiente día
print(fechas)
print("===============================================================")
fechas["Calculo-Fecha"] = fechas["Fecha-Creación"] - pd.to_datetime('27-09-2025') #también podemos poner la fecha exacta de la fecha que queremos calcular pero esta al no poner hora solo va a restar en formato fecha sin hora (como lo haría 'today')
print(fechas)
print("===============================================================")
fechas["Calculo-Fecha"] = fechas["Fecha-Creación"] - pd.to_datetime('today').normalize() #si no sabemos exactamente la fecha de hoy pero tampoco queremos agregar las horas al calculo ponemos la función .normalize() para hacer el calculo sin las horas 
print(fechas)
print("===============================================================")
fechas["Calculo-Fecha"] = fechas["Fecha-Creación"] - pd.to_datetime('27-09-2025 10:30:15.60') #también podemos calcular con hora específica simplemente dando un espacio y usando el formato para la hora 
print(fechas) 



         Cosa Fecha-Creación               Calculo-Fecha
0        Tier     2025-12-12     73 days 07:22:40.326081
1       Nivel     2025-01-01  -272 days +07:22:40.326081
2  Personajes     2025-12-05     66 days 07:22:40.326081
3         Etc     2020-09-03 -1853 days +07:22:40.326081
         Cosa Fecha-Creación Calculo-Fecha
0        Tier     2025-12-12       76 days
1       Nivel     2025-01-01     -269 days
2  Personajes     2025-12-05       69 days
3         Etc     2020-09-03    -1850 days
         Cosa Fecha-Creación Calculo-Fecha
0        Tier     2025-12-12       74 days
1       Nivel     2025-01-01     -271 days
2  Personajes     2025-12-05       67 days
3         Etc     2020-09-03    -1852 days
         Cosa Fecha-Creación               Calculo-Fecha
0        Tier     2025-12-12     75 days 13:29:44.400000
1       Nivel     2025-01-01  -270 days +13:29:44.400000
2  Personajes     2025-12-05     68 days 13:29:44.400000
3         Etc     2020-09-03 -1851 days +13:29:44.400000


  fechas["Calculo-Fecha"] = fechas["Fecha-Creación"] - pd.to_datetime('27-09-2025') #también podemos poner la fecha exacta de la fecha que queremos calcular pero esta al no poner hora solo va a restar en formato fecha sin hora (como lo haría 'today')
  fechas["Calculo-Fecha"] = fechas["Fecha-Creación"] - pd.to_datetime('27-09-2025 10:30:15.60') #también podemos calcular con hora específica simplemente dando un espacio y usando el formato para la hora


In [16]:
#formatos de fecha específicos

#formatos en código lo que está entre parentesis
#fechas = 'día(%d)-mes(%m)-año(%Y)'
#horas = 'hora($H)-minutos(%M)-segundos(%S).milisegundos(%f)'

#creamos una variable con el format que queremos

formato_fecha = "%d-%m-%Y"

fechas["Calculo-Fecha"] = fechas["Fecha-Creación"] - pd.to_datetime('09-11-2025')
print(fechas)
print("=============================================================")
fechas["Calculo-Fecha"] = fechas["Fecha-Creación"] - pd.to_datetime('09-11-2025', format=formato_fecha) #asignamos la variable que creamos como parametro en format
print(fechas)

         Cosa Fecha-Creación Calculo-Fecha
0        Tier     2025-12-12       92 days
1       Nivel     2025-01-01     -253 days
2  Personajes     2025-12-05       85 days
3         Etc     2020-09-03    -1834 days
         Cosa Fecha-Creación Calculo-Fecha
0        Tier     2025-12-12       33 days
1       Nivel     2025-01-01     -312 days
2  Personajes     2025-12-05       26 days
3         Etc     2020-09-03    -1893 days


transformación de variables

In [17]:
#clasificar si algo está caducado
#creamos una función de ejemplo
def caducado(fecha):
    if fecha < pd.to_datetime('today'):
        return True
    else:
        return False
    
fechas["Caducado"] = fechas["Fecha-Creación"].apply(caducado) #para aplicar función que nosotros hemos creado aparte en pandas tenemos que usar la función .apply(la función que queremos aplicar a pandas) esta función debe ser compatible a como funciona pandas para evitar errores
fechas

Unnamed: 0,Cosa,Fecha-Creación,Calculo-Fecha,Caducado
0,Tier,2025-12-12,33 days,False
1,Nivel,2025-01-01,-312 days,True
2,Personajes,2025-12-05,26 days,False
3,Etc,2020-09-03,-1893 days,True


In [18]:
#crear un archivo de excel con los nuevos datos del dataframe

fechas.to_excel('../datos/nuevo_fechas.xlsx', index=False)

## Depuración de datos

In [20]:
#Dataframe con errores

df_errores = pd.read_excel('../datos/mff.xlsx')
print(df_errores)

df_errores.loc[df_errores["Personajes"] == "Miles Morles", "Personajes"] = "Miles Morales" #cambiar un valor específico dentro de un dataframe usando .loc
print(df_errores)

      id      Personajes  Nivel  Precio  Tier
0    1.0           Knull    4.0  3250.0   3.0
1    2.0      Jean grey     4.0  2500.0   2.0
2    3.0    Miles Morles    3.0  1750.0   1.0
3    4.0     Ghost Ryder    4.0  1750.0   1.0
4    5.0          Sentry    4.0  3250.0   3.0
5    6.0       StardLord    4.0  1750.0   1.0
6    7.0          Thanos    2.0  1750.0   2.0
7    8.0          Thanos    3.0     0.0   2.0
8    9.0     Adam Wrlock    4.0  2500.0   2.0
9   10.0  Mr. Fantastico    0.0  1750.0   3.0
10  11.0     Viuda negra    4.0  1750.0   3.0
11  12.0     Viuda negra    NaN     NaN   NaN
12  13.0             NaN    NaN     NaN   NaN
13   NaN          Gamora    2.5  1750.0   1.0
14  15.0         Carnage    4.0  1750.0   1.0
15  16.0         Carnage    4.0  1750.0   1.0
16  17.0           Venom    3.0  1750.0   1.0
17  18.0           Venom    3.0     0.0   3.0
18   NaN           Venom    NaN     NaN   NaN
19   NaN              a     NaN     NaN   NaN
20   NaN             NaN    NaN   

In [21]:
df_errores.info() #identifica los tipos de datos e inconsistencias

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id          25 non-null     float64
 1   Personajes  27 non-null     object 
 2   Nivel       24 non-null     float64
 3   Precio      25 non-null     float64
 4   Tier        25 non-null     float64
dtypes: float64(4), object(1)
memory usage: 1.3+ KB


In [22]:
df_errores.isnull().sum() #suma la cantidad de valores nulos por columna

id            5
Personajes    3
Nivel         6
Precio        5
Tier          5
dtype: int64

In [23]:
df_errores.describe(include='all') #al poner include='all' como parámetros, la función describe() da más información referente al dataframe, se suman las filas unique, top y freq

Unnamed: 0,id,Personajes,Nivel,Precio,Tier
count,25.0,27,24.0,25.0,25.0
unique,,21,,,
top,,Venom,,,
freq,,3,,,
mean,14.68,,3.229167,1700.0,1.88
std,9.303763,,0.955296,1028.24689,0.881287
min,1.0,,0.0,0.0,1.0
25%,7.0,,3.0,1750.0,1.0
50%,13.0,,3.0,1750.0,2.0
75%,24.0,,4.0,1750.0,3.0


- unique: cuenta el número de valores únicos (distintos) en cada columna, no aplica para datos numéricos

- top: muestra el valor más frecuente en columnas categóricas, no aplica para datos numéricos

- freq: indica cuántas veces aparece el valor más frecuente (top), no aplica para datos numéricos

Estas métricas están diseñadas específicamente para datos categóricos.

Para datos numéricos están las métricas restantes.

### Corrección y depuración

In [24]:
#Cambiar tipo de dato

try:
    df_errores["id"] = df_errores["id"].astype(int)
except ValueError as e:
    print(e)

print(df_errores.info())

Cannot convert non-finite values (NA or inf) to integer
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id          25 non-null     float64
 1   Personajes  27 non-null     object 
 2   Nivel       24 non-null     float64
 3   Precio      25 non-null     float64
 4   Tier        25 non-null     float64
dtypes: float64(4), object(1)
memory usage: 1.3+ KB
None


In [25]:
df_errores[id] = pd.to_numeric(df_errores["id"], errors='coerce') #Si no puede hacerlo numérico lo cnvierte en Nulo con que haya un valor decimal convertirá de tipo numérico a float toda la columna para evitar inconsistencia de datos
#parametros errors = 'raise' lanza error si hay datos no numéricos
#errors = 'coerce' convierte valores no numéricos a nulos
#errors = 'ignore' devuelve la serie o dataframe original si hay errores
#estos parámetros del erros funciona con varias funciones de conversión como lo es to_datetime() también, pero referenciados a su tipo de dato

df_errores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             25 non-null     float64
 1   Personajes     27 non-null     object 
 2   Nivel          24 non-null     float64
 3   Precio         25 non-null     float64
 4   Tier           25 non-null     float64
 5   1420955652048  25 non-null     float64
dtypes: float64(5), object(1)
memory usage: 1.5+ KB


In [26]:
#Eliminar duplicados 
print(df_errores)
df_sinDuplicados = df_errores.drop_duplicates(subset=['Nivel'], keep='first') #se utiliza el método drop_duplicates(subset=['columna que aplicamos la función'], keep='el elemento que se duplica que queramos mantener(solo será uno)') para eliminar datos duplicados del dataframe
print(df_sinDuplicados)

      id      Personajes  Nivel  Precio  Tier  1420955652048
0    1.0           Knull    4.0  3250.0   3.0            1.0
1    2.0      Jean grey     4.0  2500.0   2.0            2.0
2    3.0   Miles Morales    3.0  1750.0   1.0            3.0
3    4.0     Ghost Ryder    4.0  1750.0   1.0            4.0
4    5.0          Sentry    4.0  3250.0   3.0            5.0
5    6.0       StardLord    4.0  1750.0   1.0            6.0
6    7.0          Thanos    2.0  1750.0   2.0            7.0
7    8.0          Thanos    3.0     0.0   2.0            8.0
8    9.0     Adam Wrlock    4.0  2500.0   2.0            9.0
9   10.0  Mr. Fantastico    0.0  1750.0   3.0           10.0
10  11.0     Viuda negra    4.0  1750.0   3.0           11.0
11  12.0     Viuda negra    NaN     NaN   NaN           12.0
12  13.0             NaN    NaN     NaN   NaN           13.0
13   NaN          Gamora    2.5  1750.0   1.0            NaN
14  15.0         Carnage    4.0  1750.0   1.0           15.0
15  16.0         Carnage