## Limpieza de la base de datos unida

### Importamos librerías

In [1]:
import os
import pandas as pd
import numpy as np

### Cargamos el CSV unido

In [4]:
df = pd.read_csv("../data/raw/basededatos_unida.csv")

### Vemos las filas y columnas que tiene la base de datos

In [5]:
print("Filas y columnas:", df.shape)

Filas y columnas: (51290, 28)


### Vemos las 5 primeras filas

In [6]:
df.head()

Unnamed: 0,order_id,order_date,ship_date,ship_mode,customer_name,segment,state,country,market,region,...,shipping_cost,order_priority,year,admin_name,latitud,longitud,poblacion,latitud_pais,longitud_pais,poblacion_pais
0,AG-2011-2040,1/1/2011,6/1/2011,Standard Class,Toby Braunhardt,Consumer,constantine,algeria,Africa,Africa,...,35.46,Medium,2011,constantine,36.355089,6.664344,878977.0,35.350107,3.373394,23955403.0
1,IN-2011-47883,1/1/2011,8/1/2011,Standard Class,Joseph Holt,Consumer,new south wales,australia,APAC,Oceania,...,9.72,Medium,2011,new south wales,-32.64625,150.196007,6379411.0,-30.431731,141.908912,22841412.0
2,HU-2011-1220,1/1/2011,5/1/2011,Second Class,Annie Thurman,Consumer,budapest,hungary,EMEA,EMEA,...,8.17,High,2011,budapest,47.4983,19.0408,1686222.0,47.270053,19.376444,6062404.0
3,IT-2011-3647632,1/1/2011,5/1/2011,Second Class,Eugene Moren,Home Office,stockholm,sweden,EU,North,...,4.82,High,2011,stockholm,59.3762,18.033443,1652923.0,58.789093,15.343301,6588345.0
4,IN-2011-47883,1/1/2011,8/1/2011,Standard Class,Joseph Holt,Consumer,new south wales,australia,APAC,Oceania,...,4.7,Medium,2011,new south wales,-32.64625,150.196007,6379411.0,-30.431731,141.908912,22841412.0


### Miramos los datos que tenemos

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51290 entries, 0 to 51289
Data columns (total 28 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   order_id        51290 non-null  object 
 1   order_date      51290 non-null  object 
 2   ship_date       51290 non-null  object 
 3   ship_mode       51290 non-null  object 
 4   customer_name   51290 non-null  object 
 5   segment         51290 non-null  object 
 6   state           51290 non-null  object 
 7   country         51290 non-null  object 
 8   market          51290 non-null  object 
 9   region          51290 non-null  object 
 10  product_id      51290 non-null  object 
 11  category        51290 non-null  object 
 12  sub_category    51290 non-null  object 
 13  product_name    51290 non-null  object 
 14  sales           51290 non-null  object 
 15  quantity        51290 non-null  int64  
 16  discount        51290 non-null  float64
 17  profit          51290 non-null 

### Como vemos que hay columnas de fechas como object, hay que convertirlas a tipo fecha

In [8]:
df["order_date"] = pd.to_datetime(df["order_date"], errors="coerce")
df["ship_date"] = pd.to_datetime(df["ship_date"], errors="coerce")

### Para asegurarnos de que las columnas numéricas sean números hacemos los siguiente:

In [11]:
numericas = [
    "sales", "quantity", "discount", "profit", "shipping_cost",
    "year", "latitud", "longitud", "poblacion",
    "latitud_pais", "longitud_pais", "poblacion_pais"
]
for col in numericas:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors="coerce")

### Verificación que son numéricas

In [12]:
df[numericas].dtypes

sales             float64
quantity            int64
discount          float64
profit            float64
shipping_cost     float64
year                int64
latitud           float64
longitud          float64
poblacion         float64
latitud_pais      float64
longitud_pais     float64
poblacion_pais    float64
dtype: object

In [13]:
df[numericas].describe()

Unnamed: 0,sales,quantity,discount,profit,shipping_cost,year,latitud,longitud,poblacion,latitud_pais,longitud_pais,poblacion_pais
count,48660.0,51290.0,51290.0,51290.0,51290.0,51290.0,50411.0,50411.0,50411.0,50411.0,50411.0,50411.0
mean,161.017838,3.476545,0.142908,28.64174,26.375915,2012.777208,24.218176,-4.454643,22747450.0,24.132287,-3.635975,181846600.0
std,201.092519,2.278766,0.21228,174.424113,57.296804,1.098931,25.173028,81.210149,36639180.0,24.693916,79.373108,276773000.0
min,0.0,1.0,0.0,-6599.978,0.0,2011.0,-46.23375,-122.538006,0.0,-40.629119,-99.328809,110000.0
25%,29.0,2.0,0.0,0.0,2.61,2012.0,12.6458,-81.720934,2894436.0,13.631814,-90.212717,22841410.0
50%,77.0,3.0,0.0,9.24,7.79,2013.0,31.756323,2.352214,9358852.0,33.58726,2.669519,64991490.0
75%,208.0,5.0,0.2,36.81,24.45,2014.0,42.2082,44.31352,32217900.0,39.063398,43.734588,379426700.0
max,999.0,14.0,0.85,8399.976,933.57,2014.0,62.044651,178.0178,1360846000.0,62.044651,167.738859,1360846000.0


### Revisamos los valores nulos (vacíos)

In [14]:
df.isnull().sum()

order_id              0
order_date        31223
ship_date         31456
ship_mode             0
customer_name         0
segment               0
state                 0
country               0
market                0
region                0
product_id            0
category              0
sub_category          0
product_name          0
sales              2630
quantity              0
discount              0
profit                0
shipping_cost         0
order_priority        0
year                  0
admin_name        10991
latitud             879
longitud            879
poblacion           879
latitud_pais        879
longitud_pais       879
poblacion_pais      879
dtype: int64

### Solución valores nulos

- Order_Date y ship_date

Más de 30.000 filas tienen las fechas vacías. No voy a borrar nada para poder analizar las fechas que tengo.

- Sales

2.630 filas sin valor de venta. Como no son muchas lo dejamos nulos o lo rellenamos con 0 que es lo que voy a hacer.

In [15]:
df["sales"] = df["sales"].fillna(0)

- Admin_name

10.991 valores nulos. No borro esas filas y voy a rellenar con el valor del país.

In [16]:
df["admin_name"] = df["admin_name"].fillna(df["country"])

- Latitud, logitud, población, latitud_pais, longitud_pais y poblacion_pais

879 valores nulos hay de cada columna. La solución es rellenar los nulos de estado con los del país. En el caso de que falten los del país, se deja vacío.

In [17]:
df["latitud"] = df["latitud"].fillna(df["latitud_pais"])
df["longitud"] = df["longitud"].fillna(df["longitud_pais"])
df["poblacion"] = df["poblacion"].fillna(df["poblacion_pais"])

In [18]:
df = df.drop(columns=["latitud_pais","longitud_pais","poblacion_pais"])

#### Verificamos

In [19]:
df.isnull().sum()

order_id              0
order_date        31223
ship_date         31456
ship_mode             0
customer_name         0
segment               0
state                 0
country               0
market                0
region                0
product_id            0
category              0
sub_category          0
product_name          0
sales                 0
quantity              0
discount              0
profit                0
shipping_cost         0
order_priority        0
year                  0
admin_name            0
latitud             879
longitud            879
poblacion           879
dtype: int64

Los nulos que quedan de latitud, longitud y poblacion los vamos a rellenar con el promedio general

In [20]:
df["latitud"] = df["latitud"].fillna(df["latitud"].mean())
df["longitud"] = df["longitud"].fillna(df["longitud"].mean())
df["poblacion"] = df["poblacion"].fillna(df["poblacion"].mean())

#### Volvemos a verificar

In [21]:
df.isnull().sum()

order_id              0
order_date        31223
ship_date         31456
ship_mode             0
customer_name         0
segment               0
state                 0
country               0
market                0
region                0
product_id            0
category              0
sub_category          0
product_name          0
sales                 0
quantity              0
discount              0
profit                0
shipping_cost         0
order_priority        0
year                  0
admin_name            0
latitud               0
longitud              0
poblacion             0
dtype: int64

Ya tendríamos resuelto el tema de los valores nulos.

### Eliminamos duplicados

In [22]:
print("Duplicados:", df.duplicated().sum())

Duplicados: 0


Hay 0 duplicados, lo cual garantiza que vamos a usar una base de datos lista para su análisis.

### Revisamos los errores fuera de rango

El descuento (discount) siempre debe de estar entre 0 y 1.

In [25]:
df.loc[df["discount"] < 0, "discount"] = 0
df.loc[df["discount"] > 1, "discount"] = 1

Y el coste de envío (shipping_cost) no debe de ser negativo.

In [26]:
df.loc[df["shipping_cost"] < 0, "shipping_cost"] = 0

Ya habríamos acabado con la fase de limpieza ya que ya no hay columnas duplicadas, las fechas tienen el formato correcto, y hemos resuelto del problema de los valores nulos.

### Finalmente guardamos de nuevo el CSV limpio

In [27]:
df.to_csv("../data/output/basededatos_limpia.csv", index=False)
print("Archivo limpio guardado correctamente.")

Archivo limpio guardado correctamente.
