In [181]:
import pandas as pd
from datetime import datetime
import numpy as np

#file_price = 'preciosEESS_es'
file_price = 'embarcacionesPrecios_es'
df = pd.read_excel(file_price + '.xls', skiprows=3)

# Agregar una columna "Tipo estación"
df['Tipo estación'] = 'Terrestre' if file_price == 'preciosEESS_es' else 'Puerto'

df.head()  # Mostramos las primeras filas del DataFrame

Unnamed: 0,Provincia,Municipio,Localidad,Código postal,Dirección,Longitud,Latitud,Precio gasolina 95 E5,Precio gasolina 95 E10,Precio gasóleo A,Precio gasóleo B,Precio gasóleo de uso marítimo,Rótulo,Tipo venta,Rem.,Horario,Tipo estación
0,ALICANTE,ALTEA,ALTEA,3590,"PUERTO DEPORTIVO LUIS CAMPOMANES, S/N - PARTID...",-3833,38629556,1680.0,,1550.0,,,,Suministro a barcos deportivos o de recreo,dm,M-D: 10:00-18:00,Puerto
1,ALICANTE,CALPE/CALP,CALPE,3710,EXPLANADA DEL PUERTO PESQUERO S/N,69162,38637313,,,,802200.0,,COFRADIA DE PESCADORES DE CALPE,Mixto,dm,L-V: 08:00-13:30 y 15:30-19:30; S: 09:00-13:00,Puerto
2,ALICANTE,DÉNIA,DENIA,3700,PUERTO PESQUERO DE DENIA S/N,113056,38843611,,,,,640000.0,NO HAY,Suministro a pesqueros,dm,L-V: 08:00-13:00 y 16:30-19:30,Puerto
3,ALICANTE,DÉNIA,DENIA,3700,DARSENA DE BABOR S/N PUERTO DE DENIA,119139,38567556,1669.0,,1509.0,,,MARINA DE DENIA S.A,Suministro a barcos deportivos o de recreo,dm,L-D: 24H,Puerto
4,ALICANTE,GUARDAMAR DEL SEGURA,GUARDAMAR DEL SEGURA,3140,AVDA. DEL PUERTO.219,-646278,38109000,,,,,735000.0,MARINA DE LAS DUNAS (REPSOL),Mixto,dm,L-D: 07:00-22:00,Puerto


In [182]:
df.info() # Información general sobre el DataFrame (tipos de datos, valores nulos, etc.)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 131 entries, 0 to 130
Data columns (total 17 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   Provincia                       131 non-null    object
 1   Municipio                       131 non-null    object
 2   Localidad                       131 non-null    object
 3   Código postal                   131 non-null    int64 
 4   Dirección                       131 non-null    object
 5   Longitud                        124 non-null    object
 6   Latitud                         124 non-null    object
 7   Precio gasolina 95 E5           78 non-null     object
 8   Precio gasolina 95 E10          1 non-null      object
 9   Precio gasóleo A                82 non-null     object
 10  Precio gasóleo B                73 non-null     object
 11  Precio gasóleo de uso marítimo  9 non-null      object
 12  Rótulo                          127 non-null    ob

In [183]:
# Cuenta los duplicados
for column in df.columns:
  num_duplicates = df.duplicated(subset=[column]).sum()
  print(f"La columna '{column}' tiene {num_duplicates} elementos duplicados.")

La columna 'Provincia' tiene 111 elementos duplicados.
La columna 'Municipio' tiene 23 elementos duplicados.
La columna 'Localidad' tiene 16 elementos duplicados.
La columna 'Código postal' tiene 13 elementos duplicados.
La columna 'Dirección' tiene 30 elementos duplicados.
La columna 'Longitud' tiene 6 elementos duplicados.
La columna 'Latitud' tiene 6 elementos duplicados.
La columna 'Precio gasolina 95 E5' tiene 74 elementos duplicados.
La columna 'Precio gasolina 95 E10' tiene 129 elementos duplicados.
La columna 'Precio gasóleo A' tiene 70 elementos duplicados.
La columna 'Precio gasóleo B' tiene 94 elementos duplicados.
La columna 'Precio gasóleo de uso marítimo' tiene 121 elementos duplicados.
La columna 'Rótulo' tiene 75 elementos duplicados.
La columna 'Tipo venta' tiene 128 elementos duplicados.
La columna 'Rem.' tiene 129 elementos duplicados.
La columna 'Horario' tiene 83 elementos duplicados.
La columna 'Tipo estación' tiene 130 elementos duplicados.


In [184]:
# Convertirmos la columna 'Código postal' a cadena de texto (string)
df['Código postal'] = df['Código postal'].astype(str)
# Asegurarse de que la columna 'Código postal' tenga una longitud de 5 dígitos
df['Código postal'] = df['Código postal'].str.zfill(5)

# Quitamos columnas
df = df.drop('% bioalcohol', axis=1, errors='ignore')
df = df.drop('% éster metílico', axis=1, errors='ignore')
df = df.drop('Tipo venta', axis=1)
df = df.drop('Rem.', axis=1)
df = df.drop('Tipo servicio', axis=1, errors='ignore')

In [185]:
# Selecciona las columnas que contienen "Precio" en su nombre
price_columns = [col for col in df.columns if 'Precio' in col]
# Itera sobre las columnas de precio y reemplaza las comas por puntos y convierte a float
for column in price_columns:
    df[column] = df[column].astype(str).str.replace(',', '.').astype(float)

# Lista de columnas a verificar
columns_to_check = [
    'Margen',
    'Precio gasolina 95 E5 Premium',
    'Precio gasolina 98 E5',
    'Precio gasolina 98 E10',
    'Precio gasóleo Premium',
    'Precio gasóleo C',
    'Precio bioetanol',
    'Precio biodiésel',
    'Precio gases licuados del petróleo',
    'Precio gas natural comprimido',
    'Precio gas natural licuado',
    'Precio hidrógeno'
]
for column in columns_to_check:
    if column not in df.columns:
        df[column] = np.nan


# Convertirmos la columna Longitud y Latitud a numérica, cambiando la coma como separador decimal
df['Longitud'] = pd.to_numeric(df['Longitud'].str.replace(',', '.'), errors='coerce')
df['Latitud'] = pd.to_numeric(df['Latitud'].str.replace(',', '.'), errors='coerce')

# Convertirmos Toma de datos en datetime
df['Toma de datos'] = pd.to_datetime(df['Toma de datos'], errors='coerce') if 'Toma de datos' in df.columns else datetime.now().strftime('%Y-%m-%d %H:%M:%S')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 131 entries, 0 to 130
Data columns (total 28 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Provincia                           131 non-null    object 
 1   Municipio                           131 non-null    object 
 2   Localidad                           131 non-null    object 
 3   Código postal                       131 non-null    object 
 4   Dirección                           131 non-null    object 
 5   Longitud                            124 non-null    float64
 6   Latitud                             124 non-null    float64
 7   Precio gasolina 95 E5               78 non-null     float64
 8   Precio gasolina 95 E10              1 non-null      float64
 9   Precio gasóleo A                    82 non-null     float64
 10  Precio gasóleo B                    73 non-null     float64
 11  Precio gasóleo de uso marítimo      9 non-nul

In [186]:
df.head()

Unnamed: 0,Provincia,Municipio,Localidad,Código postal,Dirección,Longitud,Latitud,Precio gasolina 95 E5,Precio gasolina 95 E10,Precio gasóleo A,...,Precio gasolina 98 E10,Precio gasóleo Premium,Precio gasóleo C,Precio bioetanol,Precio biodiésel,Precio gases licuados del petróleo,Precio gas natural comprimido,Precio gas natural licuado,Precio hidrógeno,Toma de datos
0,ALICANTE,ALTEA,ALTEA,3590,"PUERTO DEPORTIVO LUIS CAMPOMANES, S/N - PARTID...",-0.003833,38.629556,1.68,,1.55,...,,,,,,,,,,2024-11-23 16:39:19
1,ALICANTE,CALPE/CALP,CALPE,3710,EXPLANADA DEL PUERTO PESQUERO S/N,0.069162,38.637313,,,,...,,,,,,,,,,2024-11-23 16:39:19
2,ALICANTE,DÉNIA,DENIA,3700,PUERTO PESQUERO DE DENIA S/N,0.113056,38.843611,,,,...,,,,,,,,,,2024-11-23 16:39:19
3,ALICANTE,DÉNIA,DENIA,3700,DARSENA DE BABOR S/N PUERTO DE DENIA,0.119139,38.567556,1.669,,1.509,...,,,,,,,,,,2024-11-23 16:39:19
4,ALICANTE,GUARDAMAR DEL SEGURA,GUARDAMAR DEL SEGURA,3140,AVDA. DEL PUERTO.219,-0.646278,38.109,,,,...,,,,,,,,,,2024-11-23 16:39:19


In [187]:
df.isnull().sum()  # Número de valores nulos por columna

Unnamed: 0,0
Provincia,0
Municipio,0
Localidad,0
Código postal,0
Dirección,0
Longitud,7
Latitud,7
Precio gasolina 95 E5,53
Precio gasolina 95 E10,130
Precio gasóleo A,49


In [188]:
df.describe()  # Estadísticas descriptivas de las columnas numéricas


Unnamed: 0,Longitud,Latitud,Precio gasolina 95 E5,Precio gasolina 95 E10,Precio gasóleo A,Precio gasóleo B,Precio gasóleo de uso marítimo,Margen,Precio gasolina 95 E5 Premium,Precio gasolina 98 E5,Precio gasolina 98 E10,Precio gasóleo Premium,Precio gasóleo C,Precio bioetanol,Precio biodiésel,Precio gases licuados del petróleo,Precio gas natural comprimido,Precio gas natural licuado,Precio hidrógeno
count,124.0,124.0,78.0,1.0,82.0,73.0,9.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,-3.506868,39.773314,1.592692,1.636,1.493427,703.084932,899.777778,,,,,,,,,,,,
std,5.660443,4.147796,0.155482,,0.139393,64.364534,361.211426,,,,,,,,,,,,
min,-17.767333,27.746944,1.186,1.636,1.11,607.0,617.0,,,,,,,,,,,,
25%,-8.640199,38.635374,1.52475,1.636,1.453,666.0,673.0,,,,,,,,,,,,
50%,-1.85804,40.665611,1.6295,1.636,1.522,690.0,700.0,,,,,,,,,,,,
75%,0.961241,42.73518,1.68,1.636,1.575,720.0,1039.0,,,,,,,,,,,,
max,4.12975,43.737749,1.852,1.636,1.82,1029.0,1540.0,,,,,,,,,,,,


In [189]:
# ordenamos columnas
df = df.reindex(columns=[
    'Provincia',
    'Municipio',
    'Localidad',
    'Código postal',
    'Dirección',
    'Margen',
    'Longitud',
    'Latitud',
    'Toma de datos',
    'Precio gasolina 95 E5',
    'Precio gasolina 95 E10',
    'Precio gasolina 95 E5 Premium',
    'Precio gasolina 98 E5',
    'Precio gasolina 98 E10',
    'Precio gasóleo A',
    'Precio gasóleo Premium',
    'Precio gasóleo B',
    'Precio gasóleo C',
    'Precio bioetanol',
    'Precio biodiésel',
    'Precio gases licuados del petróleo',
    'Precio gas natural comprimido',
    'Precio gas natural licuado',
    'Precio hidrógeno',
    'Rótulo',
    'Horario',
    'Tipo estación'
], fill_value=pd.NA)


In [190]:
# prompt: si el valor de la columna Tipo estación es "Puerto", dividimos entre 1000 el valor que tenga la columna  "Precio gasóleo B"

# Dividir entre 1000 la columna "Precio gasóleo B" si "Tipo estación" es "Puerto"
df.loc[df['Tipo estación'] == 'Puerto', 'Precio gasóleo B'] = df.loc[df['Tipo estación'] == 'Puerto', 'Precio gasóleo B'] / 1000

In [191]:
# prompt: Guarda en un fichero csv 1000 registros

# Seleccionar las primeras 1000 filas del DataFrame
#df_1000 = df.head(1000)

# Guardar el DataFrame en un archivo CSV
#df_1000.to_csv('primeras_1000_filas.csv', index=False, encoding='utf-8')

In [192]:
# Guardar el DataFrame completo en un archivo CSV
df.to_csv(file_price + '.csv', index=False, encoding='utf-8')