In [3]:
import pandas as pd



In [4]:
# Cargar datos del club
datos_cebollitas = pd.read_csv("partidos_cebollitas.csv")
datos_cebollitas.head()

Unnamed: 0,fecha_partido,equipo_local,equipo_visitante,goles_local,goles_visitante,posesion_local (%),posesion_visitante (%),tiros_arco_local,tiros_arco_visitante,estadio
0,2023-01-01,Atlético Python,Cebollitas FC,2,0,54,46,12,6,Python Arena
1,2023-01-08,NumPy City,Atlético Python,1,5,60,40,12,3,Estadio ML
2,2023-01-15,Cebollitas FC,Data United,1,0,55,45,10,7,Python Arena
3,2023-01-22,Atlético Python,Data United,2,3,57,43,3,3,Campo Pandas
4,2023-01-29,Data United,Cebollitas FC,5,3,52,48,7,12,Estadio ML


In [5]:
# Revisar información general
datos_cebollitas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   fecha_partido           100 non-null    object
 1   equipo_local            100 non-null    object
 2   equipo_visitante        100 non-null    object
 3   goles_local             100 non-null    int64 
 4   goles_visitante         100 non-null    int64 
 5   posesion_local (%)      100 non-null    int64 
 6   posesion_visitante (%)  100 non-null    int64 
 7   tiros_arco_local        100 non-null    int64 
 8   tiros_arco_visitante    100 non-null    int64 
 9   estadio                 100 non-null    object
dtypes: int64(6), object(4)
memory usage: 7.9+ KB


In [6]:
# Encontrar y manejar datos faltantes
datos_cebollitas.isnull().sum()
datos_cebollitas['goles_local'] = datos_cebollitas['goles_local'].fillna(datos_cebollitas['goles_local'].mean())
print("Valores nulos antes de imputación:")
print(datos_cebollitas.isnull().sum())

Valores nulos antes de imputación:
fecha_partido             0
equipo_local              0
equipo_visitante          0
goles_local               0
goles_visitante           0
posesion_local (%)        0
posesion_visitante (%)    0
tiros_arco_local          0
tiros_arco_visitante      0
estadio                   0
dtype: int64


In [7]:
# One-Hot Encoding para equipos
datos_preparados = pd.get_dummies(datos_cebollitas, columns=['equipo_local', 'equipo_visitante'])
datos_preparados.head()

Unnamed: 0,fecha_partido,goles_local,goles_visitante,posesion_local (%),posesion_visitante (%),tiros_arco_local,tiros_arco_visitante,estadio,equipo_local_Atlético Python,equipo_local_Cebollitas FC,equipo_local_Data United,equipo_local_NumPy City,equipo_local_Real Pandas,equipo_visitante_Atlético Python,equipo_visitante_Cebollitas FC,equipo_visitante_Data United,equipo_visitante_NumPy City,equipo_visitante_Real Pandas
0,2023-01-01,2,0,54,46,12,6,Python Arena,True,False,False,False,False,False,True,False,False,False
1,2023-01-08,1,5,60,40,12,3,Estadio ML,False,False,False,True,False,True,False,False,False,False
2,2023-01-15,1,0,55,45,10,7,Python Arena,False,True,False,False,False,False,False,True,False,False
3,2023-01-22,2,3,57,43,3,3,Campo Pandas,True,False,False,False,False,False,False,True,False,False
4,2023-01-29,5,3,52,48,7,12,Estadio ML,False,False,True,False,False,False,True,False,False,False


In [8]:
# Eliminar filas duplicadas
datos_preparados.drop_duplicates(inplace=True)

print("Filas antes de eliminar duplicados:", len(datos_preparados))
datos_preparados.drop_duplicates(inplace=True)
print("Filas después:", len(datos_preparados))


Filas antes de eliminar duplicados: 100
Filas después: 100


In [9]:
# Manejar fechas
datos_preparados['fecha_partido'] = pd.to_datetime(datos_preparados['fecha_partido'], errors='coerce')

print("Fechas inválidas (NaT) luego de la conversión:")
print(datos_preparados['fecha_partido'].isnull().sum())

Fechas inválidas (NaT) luego de la conversión:
0


In [10]:
print(datos_preparados.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 18 columns):
 #   Column                            Non-Null Count  Dtype         
---  ------                            --------------  -----         
 0   fecha_partido                     100 non-null    datetime64[ns]
 1   goles_local                       100 non-null    int64         
 2   goles_visitante                   100 non-null    int64         
 3   posesion_local (%)                100 non-null    int64         
 4   posesion_visitante (%)            100 non-null    int64         
 5   tiros_arco_local                  100 non-null    int64         
 6   tiros_arco_visitante              100 non-null    int64         
 7   estadio                           100 non-null    object        
 8   equipo_local_Atlético Python      100 non-null    bool          
 9   equipo_local_Cebollitas FC        100 non-null    bool          
 10  equipo_local_Data United          100 non-null    b

In [11]:
print("Columnas con nulos tras limpieza:")
print(datos_preparados.isnull().sum())

Columnas con nulos tras limpieza:
fecha_partido                       0
goles_local                         0
goles_visitante                     0
posesion_local (%)                  0
posesion_visitante (%)              0
tiros_arco_local                    0
tiros_arco_visitante                0
estadio                             0
equipo_local_Atlético Python        0
equipo_local_Cebollitas FC          0
equipo_local_Data United            0
equipo_local_NumPy City             0
equipo_local_Real Pandas            0
equipo_visitante_Atlético Python    0
equipo_visitante_Cebollitas FC      0
equipo_visitante_Data United        0
equipo_visitante_NumPy City         0
equipo_visitante_Real Pandas        0
dtype: int64


In [12]:
print("Vista final del dataset limpio:")
display(datos_preparados.head())

Vista final del dataset limpio:


Unnamed: 0,fecha_partido,goles_local,goles_visitante,posesion_local (%),posesion_visitante (%),tiros_arco_local,tiros_arco_visitante,estadio,equipo_local_Atlético Python,equipo_local_Cebollitas FC,equipo_local_Data United,equipo_local_NumPy City,equipo_local_Real Pandas,equipo_visitante_Atlético Python,equipo_visitante_Cebollitas FC,equipo_visitante_Data United,equipo_visitante_NumPy City,equipo_visitante_Real Pandas
0,2023-01-01,2,0,54,46,12,6,Python Arena,True,False,False,False,False,False,True,False,False,False
1,2023-01-08,1,5,60,40,12,3,Estadio ML,False,False,False,True,False,True,False,False,False,False
2,2023-01-15,1,0,55,45,10,7,Python Arena,False,True,False,False,False,False,False,True,False,False
3,2023-01-22,2,3,57,43,3,3,Campo Pandas,True,False,False,False,False,False,False,True,False,False
4,2023-01-29,5,3,52,48,7,12,Estadio ML,False,False,True,False,False,False,True,False,False,False


In [13]:
print("Shape final del dataset preparado:", datos_preparados.shape)

Shape final del dataset preparado: (100, 18)
