In [1]:
# UOC - Visualització de dades
# PRA2 
# Preparació de dades
# @author: José V. Grimalt
# 2022-01-15

# import packages
import re
import collections
import pandas as pd
from datetime import datetime, timedelta

# paràmetres
file_municipis = "municipios_pob_2022-01-01.csv"  # dades de població dels municipis
file_fieldnames = "dades-camps.csv"               # informació dels camps del fitxer de matriculacions
file_txt1 = "export_mensual_mat_202210.txt"       # fitxer de matriculacions


In [45]:
# definició de funció per llevar accents

def remove_accents(word):
    "Removes common accent characters, upper form. Uses: regex."
    new_word = word.upper()
    new_word = re.sub(r'[àáÀÁ]', 'A', new_word)
    new_word = re.sub(r'[èéÈÉ]', 'E', new_word)
    new_word = re.sub(r'[ìíïÌÍÏ]', 'I', new_word)
    new_word = re.sub(r'[òóÒÓ]', 'O', new_word)
    new_word = re.sub(r'[ùúüÙÚÜ]', 'U', new_word)
    new_word = re.sub(r'[\-\']', ' ', new_word)
    return new_word

def last_day_of_month(input_date):
    "Return last day of month from given date"
    next_month = input_date.replace(day=28) + timedelta(days=4)
    return next_month - timedelta(days=next_month.day)


In [53]:
# càrrega de dades de municipis
municipis = pd.read_csv(file_municipis, index_col=0).reset_index()
print(municipis.info())
municipis


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 415 entries, 0 to 414
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Numero              415 non-null    int64 
 1   Nombre              415 non-null    object
 2   Municipio           415 non-null    object
 3   Población           415 non-null    int64 
 4   Provincia           415 non-null    object
 5   Comunidad autónoma  415 non-null    object
dtypes: int64(2), object(4)
memory usage: 19.6+ KB
None


Unnamed: 0,Numero,Nombre,Municipio,Población,Provincia,Comunidad autónoma
0,1,Madrid,Madrid,3280782,Madrid,Comunidad de Madrid
1,2,Barcelona,Barcelona,1636193,Barcelona,Cataluña
2,3,Valencia,Valencia,792492,Valencia,Comunidad Valenciana
3,4,Sevilla,Sevilla,681998,Sevilla,Andalucía
4,5,Zaragoza,Zaragoza,673010,Zaragoza,Aragón
...,...,...,...,...,...,...
410,411,Lalín,Lalín,20199,Pontevedra,Galicia
411,412,Puzol,Puzol,20191,Valencia,Comunidad Valenciana
412,413,San Quirico de Tarrasa,San Quirico de Tarrasa,20180,Barcelona,Cataluña
413,414,Bañolas,Bañolas,20168,Gerona,Cataluña


In [52]:
# càrrega de dades sobre els camps
fields = pd.read_csv(file_fieldnames, index_col=0).reset_index()
fields


Unnamed: 0,Campo,Longitud,Descripción,Tipo,Formato
0,FEC_MATRICULA,8,Fecha de matriculación del vehículos,CHAR(8),DATE. Formato: DDMMYYYY
1,COD_CLASE_MAT,1,Código de clase de matrícula,CHAR(1),(Ver anexo I)
2,FEC_TRAMITACION,8,"Fecha de tramitación, que se corresponde con l...",CHAR(8),DATE. Formato: DDMMYYYY
3,MARCA_ITV,30,Descripción de la marca del vehículo,CHAR(30),
4,MODELO_ITV,22,Modelo del vehículo,CHAR(22),
...,...,...,...,...,...
64,CONTRASEÑA_HOMOLOGACION_ITV,25,Contraseña de homologación.,CHAR(25),
65,ECO_INNOVACION_ITV,1,"S= SI, N= NO. A la espera de definir por UE, h...",CHAR(1),
66,REDUCCION_ECO_ITV,4,"A la espera de definir por UE, hasta entonces ...",CHAR(4),
67,CODIGO_ECO_ITV,25,"A la espera de definir por UE, hasta entonces ...",CHAR(25),


In [54]:
# càrrega de dades brutes
widths = list(fields.Longitud)
raw_data = pd.read_fwf(file_txt1, skiprows=1, names=fields.Campo, widths=widths, encoding='latin-1', )
raw_data

Unnamed: 0,FEC_MATRICULA,COD_CLASE_MAT,FEC_TRAMITACION,MARCA_ITV,MODELO_ITV,COD_PROCEDENCIA_ITV,BASTIDOR_ITV,COD_TIPO,COD_PROPULSION_ITV,CILINDRADA_ITV,...,VERSIÓN_VEHÍCULO_BASE,DISTANCIA_EJES_12_ITV,VIA_ANTERIOR_ITV,VIA_POSTERIOR_ITV,TIPO_ALIMENTACION_ITV,CONTRASEÑA_HOMOLOGACION_ITV,ECO_INNOVACION_ITV,REDUCCION_ECO_ITV,CODIGO_ECO_ITV,FEC_PROCESO
0,3102022,0,,LEXUS,LEXUS UX250H,3,JTHY65BHX02133899,40,0.0,1987,...,,2640,1560,1580,M,,S,,E6 37,3102022
1,3102022,6,,MICROCAR,M.GO,3,VJR84LLDA10021191,92,1.0,498,...,,1978,1341,1334,M,,,,,3102022
2,3102022,7,2122022.0,TOYOTA,AVENSIS,0,SB153CBN00E033182,40,1.0,1975,...,,0,0,0,M,,N,,,3102022
3,3102022,0,,KIA,SPORTAGE,3,U5YPX81HDNL042433,40,0.0,1598,...,,2680,1615,1622,M,,,,,3102022
4,3102022,0,,FIAT,PANDA,3,ZFABF5BJ2N3G83233,40,0.0,999,...,,2300,1409,1407,M,,N,0.0,,3102022
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114038,31102022,0,,BMW,C 400 GT,3,WB40C6101NS900135,50,0.0,350,...,,1565,0,0,M,,,,,31102022
114039,31102022,0,,KIA,NIRO,1,KNACP811FP5010834,40,2.0,0,...,,2720,1571,1581,M,,,,,31102022
114040,31102022,0,,VOLVO,XC60,3,YV1UZK5V3P1244148,40,1.0,1969,...,,2865,1653,1657,M,,S,,E5 32,31102022
114041,31102022,0,,BMW,218D,3,WBA31AM0307L60264,40,1.0,1995,...,,2670,1589,1587,M,,S,,E24 28 29,31102022


In [61]:
# Selecció de camps
fields = [
    "MARCA_ITV", "MODELO_ITV", "COD_TIPO", "COD_PROPULSION_ITV", 
    "LOCALIDAD_VEHICULO", "COD_PROVINCIA_VEH", "MUNICIPIO", 
    "CLAVE_TRAMITE", "IND_NUEVO_USADO", 
    "PERSONA_FISICA_JURIDICA", "RENTING", 
    "CO2_ITV", "CATEGORÍA_VEHÍCULO_ELÉCTRICO", "AUTONOMÍA_VEHÍCULO_ELÉCTRICO", 
    "FEC_PROCESO", "FEC_MATRICULA", "FEC_TRAMITACION",
]
df = raw_data[fields].copy(deep=True)
df

Unnamed: 0,MARCA_ITV,MODELO_ITV,COD_TIPO,COD_PROPULSION_ITV,LOCALIDAD_VEHICULO,COD_PROVINCIA_VEH,MUNICIPIO,CLAVE_TRAMITE,IND_NUEVO_USADO,PERSONA_FISICA_JURIDICA,RENTING,CO2_ITV,CATEGORÍA_VEHÍCULO_ELÉCTRICO,AUTONOMÍA_VEHÍCULO_ELÉCTRICO,FEC_PROCESO,FEC_MATRICULA,FEC_TRAMITACION
0,LEXUS,LEXUS UX250H,40,0.0,BRUNETE,M,BRUNETE,1,N,X,S,120.0,HEV,0.0,3102022,3102022,
1,MICROCAR,M.GO,92,1.0,SAN PEDRO DEL ROMERAL,S,SAN PEDRO ROMERAL,1,N,D,N,100.0,,0.0,3102022,3102022,
2,TOYOTA,AVENSIS,40,1.0,ALTSASU/ALSASUA,,ALSASUA,5,U,D,N,,,0.0,3102022,3102022,2122022.0
3,KIA,SPORTAGE,40,0.0,COLMENAR DEL ARROYO,M,COLMENAR DEL ARROYO,1,N,X,S,25.0,PHEV,7000.0,3102022,3102022,
4,FIAT,PANDA,40,0.0,NAVACERRADA,M,NAVACERRADA,1,U,X,N,109.0,,0.0,3102022,3102022,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114038,BMW,C 400 GT,50,0.0,BECERRIL DE LA SIERRA,M,BECERRIL DE SIERRA,1,N,X,N,81.0,,0.0,31102022,31102022,
114039,KIA,NIRO,40,2.0,PALMAS DE GRAN CANARIA (,GC,LAS PALMAS G C,1,N,X,N,,BEV,46000.0,31102022,31102022,
114040,VOLVO,XC60,40,1.0,COLMENAR DEL ARROYO,M,COLMENAR DEL ARROYO,1,N,X,S,159.0,HEV,0.0,31102022,31102022,
114041,BMW,218D,40,1.0,SIMANCAS,VA,SIMANCAS,1,N,D,N,130.0,,0.0,31102022,31102022,


In [62]:
# transformar camp de data: FEC_PROCESO 
date_fields = ["FEC_PROCESO", "FEC_MATRICULA", "FEC_TRAMITACION", ]
df.loc[:, date_fields].isna().sum()


FEC_PROCESO             0
FEC_MATRICULA           0
FEC_TRAMITACION    109366
dtype: int64

In [None]:
for field in date_fields:
    df[field] = pd.to_datetime(df.loc[:, field], format="%d%m%Y", errors='coerce')
df[date_fields]


In [8]:
# camp FEC_PROCESO -> FECHA, PERIODO
for field in date_fields:
    print(field, df.loc[:, [field]].isna().sum())
df["PERIODO"] = df["FEC_PROCESO"].dt.strftime('%Y-%m')
df["FECHA"] = df["FEC_PROCESO"].map(last_day_of_month)
df[["FECHA", "PERIODO"]]


FEC_PROCESO FEC_PROCESO    0
dtype: int64


Unnamed: 0,FECHA,PERIODO
0,2022-10-31,2022-10
1,2022-10-31,2022-10
2,2022-10-31,2022-10
3,2022-10-31,2022-10
4,2022-10-31,2022-10
...,...,...
114038,2022-10-31,2022-10
114039,2022-10-31,2022-10
114040,2022-10-31,2022-10
114041,2022-10-31,2022-10


In [9]:
# camp COD_TIPO -> TIPO_VEHICULO

dict_tipo = {
    "0": "CAMION",
    "1": "CAMION ARTICULADO",
    "2": "FURGONETA/TODOTERR.",
    "3": "AUTOBUS",
    "4": "TURISMO",
    "5": "MOTOCICLETA/QUAD",
    "6": "COCHE DIVERS.FUNCIONAL",
    "7": "MAQUINARIA",
    "8": "TRACTOR",
    "9": "CICLOMOTOR",
    "E": "EXTRANJERO",
    "R": "REMOLQ./MAQUIN. AGRÍCOLA",
    "S": "SEMIREMOLQUE",
}

field_old = "COD_TIPO"
field_new = "TIPO_VEHÍCULO"
print(df.groupby([field_old,])[field_old].count())

df[field_new] = df[field_old].str[0]
print(df.groupby([field_new,])[field_new].count())


COD_TIPO
0     126
00     41
01     38
02    634
03    295
     ... 
S7    819
SA      7
SC      3
SD     82
SH    442
Name: COD_TIPO, Length: 74, dtype: int64
TIPO_VEHÍCULO
0     3874
1      280
2     8795
3      259
4    75021
5    14903
6        1
7     1627
8     3256
9     1646
R     1018
S     1946
Name: TIPO_VEHÍCULO, dtype: int64


In [10]:
# filtrem: sols camions, bus, furgonetes, motocicletes, ciclomotors i turismes (<7 o 9)
# df = df[(df[field_new] < '7') | (df[field_new] =='9')]

# filtrem: sols camions, bus, furgonetes i turismes (<5)
df = df[(df[field_new] < '5')]
print(df.groupby([field_new,])[field_new].count())


TIPO_VEHÍCULO
0     3874
1      280
2     8795
3      259
4    75021
Name: TIPO_VEHÍCULO, dtype: int64


In [11]:
# fem la substitució:
df = df.replace({field_new: dict_tipo})
print(df.groupby([field_new,])[field_new].count())


TIPO_VEHÍCULO
AUTOBUS                  259
CAMION                  3874
CAMION ARTICULADO        280
FURGONETA/TODOTERR.     8795
TURISMO                75021
Name: TIPO_VEHÍCULO, dtype: int64


In [12]:
# camp COD_PROPULSION_ITV

dict_propulsion = {
    "0": "Gasolina",
    "1": "Diesel",
    "2": "Eléctrico",
    "3": "Otros",
    "4": "Butano",
    "5": "Solar",
    "6": "GLP", # "Gas Licuado de Petróleo",
    "7": "GNC", # Gas Natural Comprimido",
    "8": "GNL", # "Gas Natural Licuado",
    "9": "Hidrógeno",
    "A": "Biometano",
    "B": "Etanol",
    "C": "Biodiesel",
    "99": None,
}

field_old = "COD_PROPULSION_ITV"
field_new = "PROPULSIÓN"
print(df.groupby([field_old,])[field_old].count())

# tractament de nulls
df[field_new] = df[field_old].fillna(99).astype(int).astype(str)
#
df[field_new] = df[field_new].map(dict_propulsion)
print(df[field_new])
print(df.groupby(field_new)[field_new].count())


COD_PROPULSION_ITV
0.0    51922
1.0    31433
2.0     3290
3.0        1
6.0     1029
7.0      138
8.0       10
9.0        2
Name: COD_PROPULSION_ITV, dtype: int64
0          Gasolina
2            Diesel
3          Gasolina
4          Gasolina
5            Diesel
            ...    
114037    Eléctrico
114039    Eléctrico
114040       Diesel
114041       Diesel
114042       Diesel
Name: PROPULSIÓN, Length: 88229, dtype: object
PROPULSIÓN
Diesel       31433
Eléctrico     3290
GLP           1029
GNC            138
GNL             10
Gasolina     51922
Hidrógeno        2
Otros            1
Name: PROPULSIÓN, dtype: int64


In [13]:
# camp COD_PROVINCIA_VEH

dict_provincia = {
    "A"  : "Alacant",
    "AB" : "Albacete",
    "AL" : "Almería",
    "AV" : "Ávila",
    "B"  : "Barcelona",
    "BA" : "Badajoz",
    "BI" : "Bizkaia",
    "BU" : "Burgos",
    "C"  : "Coruña (A)",
    "CA" : "Cádiz",
    "CC" : "Cáceres",
    "CE" : "Ceuta",
    "CO" : "Córdoba",
    "CR" : "Ciudad Real",
    "CS" : "Castelló",
    "CU" : "Cuenca",
    "DS" : "Desconocido",
    "EX" : "Extranjero",
    "GC" : "Palmas (Las)",
    "GI" : "Girona",
    "GR" : "Granada",
    "GU" : "Guadalajara",
    "H"  : "Huelva",
    "HU" : "Huesca",
    "J"  : "Jaén",
    "L"  : "Lleida",
    "LE" : "León",
    "LO" : "Rioja (La)",
    "LU" : "Lugo",
    "M"  : "Madrid",
    "MA" : "Málaga",
    "ML" : "Melilla",
    "MU" : "Murcia",
    "NA" : "Navarra",
    "O"  : "Asturias",
    "OU" : "Ourense",
    "P"  : "Palencia",
    "IB" : "Balears (Illes)",
    "PO" : "Pontevedra",
    "S"  : "Cantabria",
    "SA" : "Salamanca",
    "SE" : "Sevilla",
    "SG" : "Segovia",
    "SO" : "Soria",
    "SS" : "Gipuzkoa",
    "T"  : "Tarragona",
    "TE" : "Teruel",
    "TF" : "Santa Cruz de Tenerife",
    "TO" : "Toledo",
    "V"  : "València",
    "VA" : "Valladolid",
    "VI" : "Araba",
    "Z"  : "Zaragoza",
    "ZA" : "Zamora",
}

field_old = "COD_PROVINCIA_VEH"
field_new = "PROVINCIA"
print("NA:", df[field_old].isna().sum())
print(df.groupby([field_old,])[field_old].count())
df[field_new] = df[field_old].map(dict_provincia)
print(df[field_new])
print("NA:", df[field_new].isna().sum())
print(df.groupby(field_new)[field_new].count())


NA: 807
COD_PROVINCIA_VEH
A      3561
AB      561
AL      951
AV      148
B      7872
BA      620
BI     1214
BU      444
C      1248
CA     1570
CC      363
CE       91
CO      690
CR      397
CS     1380
CU      171
GC     2811
GI     1227
GR     1029
GU      335
H       498
HU      288
IB     1984
J       483
L       621
LE      426
LO      384
LU      448
M     34113
MA     2803
ML      161
MU     2132
O      1053
OU      304
P       155
PO     1045
S       722
SA      289
SE     2051
SG      160
SO      102
SS      724
T      1281
TE      158
TF     1659
TO     1131
V      3376
VA      602
VI      409
Z      1025
ZA      152
Name: COD_PROVINCIA_VEH, dtype: int64
0               Madrid
2                  NaN
3               Madrid
4               Madrid
5              Granada
              ...     
114037    Palmas (Las)
114039    Palmas (Las)
114040          Madrid
114041      Valladolid
114042         Sevilla
Name: PROVINCIA, Length: 88229, dtype: object
NA: 807
PROVINCIA
Alacant

In [14]:
# camp LOCALIDAD_VEHICULO
field = "LOCALIDAD_VEHICULO"
poblacions = df.groupby([field,])[field].count().sort_values(ascending=False)
print("Municipis amb més de X matriculacions:")
for x in [5000, 2000, 1000, 500, 100, 50, 40, 30, 20, 10, 5]:
    print(x, len(poblacions[poblacions > x]))
    
print("Municipis amb menys de 100 matriculacions:", len(poblacions[poblacions < 100]))
print("Municipis amb menys de   5 matriculacions:", len(poblacions[poblacions < 5]))
poblacions


Municipis amb més de X matriculacions:
5000 0
2000 6
1000 13
500 22
100 104
50 209
40 251
30 338
20 501
10 891
5 1441
Municipis amb menys de 100 matriculacions: 5818
Municipis amb menys de   5 matriculacions: 4272


LOCALIDAD_VEHICULO
COLMENAR DEL ARROYO    4428
MADRID                 3845
ALCOBENDAS             3445
MAJADAHONDA            2765
ROBLEDO DE CHAVELA     2632
                       ... 
LAS NIEVES                1
LAS PALAS                 1
LASARTE                   1
LASTRA, LA                1
MANDIN                    1
Name: LOCALIDAD_VEHICULO, Length: 5924, dtype: int64

In [15]:
# comprovació municipis en MUNICIPIO

# for municipi in municipis.Municipio:
for municipi in municipis.Municipio[0:151]:
    pobs = len(df[df["MUNICIPIO"] == remove_accents(municipi)])
    if not pobs:
        print(municipi, pobs)


In [16]:
# Nou camp: POBLACIÓN
# sols registrarem dades de les 151 localitats amb major població

dict_municipis = collections.defaultdict(lambda: 'Otros')
dict_municipis.update(
    {remove_accents(x[0]): x[1] 
     for x in municipis.loc[0:151, ["Municipio", "Nombre"]].values}
)

field_old = "MUNICIPIO"
field_new = "POBLACIÓN"
print(df.groupby([field_old,])[field_old].count())
df[field_new] = df[field_old].map(dict_municipis)
print(df[field_new])
print(df.groupby(field_new)[field_new].count())


MUNICIPIO
A BOLA         1
A CAÑIZA       7
A CORUÑA     199
A ESTRADA     11
A GUARDA       8
            ... 
ZUIA           1
ZUJAR          2
ZUMAIA         2
ZUMARRAGA      2
ZURGENA        4
Name: MUNICIPIO, Length: 3808, dtype: int64
0                              Otros
2                              Otros
3                              Otros
4                              Otros
5                              Otros
                     ...            
114037    Las Palmas de Gran Canaria
114039    Las Palmas de Gran Canaria
114040                         Otros
114041                         Otros
114042                         Otros
Name: POBLACIÓN, Length: 88229, dtype: object
POBLACIÓN
Adeje                  120
Albacete               392
Alcalá de Guadaíra     100
Alcalá de Henares      236
Alcobendas            3455
                      ... 
Vitoria-Gasteiz        329
Vélez-Málaga            95
Zamora                  63
Zaragoza               737
Ávila                   71

In [17]:
# camp CLAVE_TRAMITE
dict_tramite = {
    "1": "Matriculación ordinaria", 
    "2": "Transferencia", 
    "3": "Baja definitiva", 
    "4": "Baja definitiva Plan Renove", 
    "5": "Rematriculación", 
    "6": "Baja temporal", 
    "7": "Baja definitiva Exportación/Tránsito comunitario", 
    "8": "Matriculación vehículo especial", 
    "9": "Matriculación temporal", 
    "A": "Prorroga matricula temporal", 
    "B": "Matrícula temporal a definitiva", 
}

# 1 Matriculación ordinaria y de ciclomotores
# 5 Rematriculación
# 9 Matriculación temporal
# B Paso de matrícula temporal a definitiva

field_old = "CLAVE_TRAMITE"
field_new = "TRAMITE"
print(df.groupby([field_old,])[field_old].count())


CLAVE_TRAMITE
1    86329
5      384
9      618
B      898
Name: CLAVE_TRAMITE, dtype: int64


In [18]:
# Filtre: es quedem sols amb "Matriculación ordinaria" i "Paso de matrícula temporal a definitiva"
df = df[(df[field_old]=='1') | (df[field_old]=='B')]

# Valor per al nou camp:
df[field_new] = df[field_old].map(dict_tramite)
print(df[field_new])
print(df.groupby(field_new)[field_new].count())


0         Matriculación ordinaria
3         Matriculación ordinaria
4         Matriculación ordinaria
5         Matriculación ordinaria
7         Matriculación ordinaria
                   ...           
114037    Matriculación ordinaria
114039    Matriculación ordinaria
114040    Matriculación ordinaria
114041    Matriculación ordinaria
114042    Matriculación ordinaria
Name: TRAMITE, Length: 87227, dtype: object
TRAMITE
Matriculación ordinaria            86329
Matrícula temporal a definitiva      898
Name: TRAMITE, dtype: int64


In [19]:
# camp IND_NUEVO_USADO
# N nuevo
# U usado
dict_nuevousado = {"N": "Nuevo", "U": "Usado"}

field_old = "IND_NUEVO_USADO"
field_new = "NUEVO_USADO"
print(df.groupby([field_old,])[field_old].count())
df[field_new] = df[field_old].map(dict_nuevousado)
print(df[field_new])
print(df.groupby(field_new)[field_new].count())


IND_NUEVO_USADO
N    76865
U    10362
Name: IND_NUEVO_USADO, dtype: int64
0         Nuevo
3         Nuevo
4         Usado
5         Usado
7         Nuevo
          ...  
114037    Nuevo
114039    Nuevo
114040    Nuevo
114041    Nuevo
114042    Nuevo
Name: NUEVO_USADO, Length: 87227, dtype: object
NUEVO_USADO
Nuevo    76865
Usado    10362
Name: NUEVO_USADO, dtype: int64


In [20]:
# camp PERSONA_FISICA_JURIDICA
# D persona física
# X persona jurídica
dict_persona = {"D": "Particular", "X": "Empresa"}

field_old = "PERSONA_FISICA_JURIDICA"
field_new = "PROPIETARIO"
print(df.groupby([field_old,])[field_old].count())
df[field_new] = df[field_old].map(dict_persona)
print(df[field_new])
print(df.groupby(field_new)[field_new].count())


PERSONA_FISICA_JURIDICA
D    40887
X    46340
Name: PERSONA_FISICA_JURIDICA, dtype: int64
0            Empresa
3            Empresa
4            Empresa
5         Particular
7            Empresa
             ...    
114037       Empresa
114039       Empresa
114040       Empresa
114041    Particular
114042       Empresa
Name: PROPIETARIO, Length: 87227, dtype: object
PROPIETARIO
Empresa       46340
Particular    40887
Name: PROPIETARIO, dtype: int64


In [21]:
# camp CO2_ITV
field = "CO2_ITV"
print(df.groupby([field,])[field].count())

print(
    "\nTotales:",
    df.groupby("PROPULSIÓN")["PROPULSIÓN"].count(),
    "\nValores nulos Co2:", 
    df[df["CO2_ITV"].isna() == True].groupby("PROPULSIÓN")["PROPULSIÓN"].count(),
    "\nTotales:",
    df.groupby("TIPO_VEHÍCULO")["TIPO_VEHÍCULO"].count(),
    "\nValores nulos Co2:", 
    df[df["CO2_ITV"].isna() == True].groupby("TIPO_VEHÍCULO")["TIPO_VEHÍCULO"].count(),
)


CO2_ITV
1.0      96
4.0       1
10.0     30
12.0     11
13.0     12
         ..
449.0     1
455.0     1
464.0     1
543.0     1
999.0     2
Name: CO2_ITV, Length: 351, dtype: int64

Totales: PROPULSIÓN
Diesel       31161
Eléctrico     3289
GLP           1028
GNC            138
GNL             10
Gasolina     51598
Hidrógeno        2
Otros            1
Name: PROPULSIÓN, dtype: int64 
Valores nulos Co2: PROPULSIÓN
Diesel       1315
Eléctrico    3219
GLP             3
GNC           105
GNL             9
Gasolina      210
Hidrógeno       2
Name: PROPULSIÓN, dtype: int64 
Totales: TIPO_VEHÍCULO
AUTOBUS                  247
CAMION                  3702
CAMION ARTICULADO        277
FURGONETA/TODOTERR.     8745
TURISMO                74256
Name: TIPO_VEHÍCULO, dtype: int64 
Valores nulos Co2: TIPO_VEHÍCULO
AUTOBUS                 240
CAMION                  949
CAMION ARTICULADO       234
FURGONETA/TODOTERR.     353
TURISMO                3087
Name: TIPO_VEHÍCULO, dtype: int64


In [22]:
# nou camp EMISIONES : sí (tenim registre CO2), no (no tenim)
# després podem posar a 0 el valors CO2 per als que no tenim emissions

df["REG_EMISIONES"] = df["CO2_ITV"].isna()
df["REG_EMISIONES"] = df["REG_EMISIONES"].map({True: "NO", False:"SÍ"})
print(df.groupby("REG_EMISIONES")["CO2_ITV"].sum())
df["CO2_ITV"] = df["CO2_ITV"].fillna(0)


REG_EMISIONES
NO           0.0
SÍ    10977154.0
Name: CO2_ITV, dtype: float64


In [23]:
# camp RENTING
# N no
# S sí 
dict_renting = {"N": "NO", "S": "SI"}

field = "RENTING"
print(
    "\nTotales:", df.groupby([field,])[field].count(),
    "\nValorsNuls:", df["RENTING"].isna().sum()
)
df[field] = df[field].map(dict_renting)
print(
    df[field], 
    df.groupby(field)[field].count()
)



Totales: RENTING
N    65901
S    21325
Name: RENTING, dtype: int64 
ValorsNuls: 1
0         SI
3         SI
4         NO
5         NO
7         NO
          ..
114037    NO
114039    NO
114040    SI
114041    NO
114042    NO
Name: RENTING, Length: 87227, dtype: object RENTING
NO    65901
SI    21325
Name: RENTING, dtype: int64


In [24]:
# camp CATEGORÍA_VEHÍCULO_ELÉCTRICO
# PHEV Eléctrico Enchufable
# REEV Eléctrico de Autonomía Extendida
# HEV Eléctrico Híbrido
# BEV Eléctrico de Batería

field_old = "CATEGORÍA_VEHÍCULO_ELÉCTRICO"
field_new = "TIPO_ELECTRICO"
df = df.rename(columns={field_old: field_new})
df.groupby([field_new,])[field_new].count()


TIPO_ELECTRICO
BEV      3219
HEV     21069
PHEV     4085
REEV       22
Name: TIPO_ELECTRICO, dtype: int64

In [25]:
# camp AUTONOMÍA_VEHÍCULO_ELÉCTRICO  -> per a convertir a km. cal / 100

field = "AUTONOMÍA_VEHÍCULO_ELÉCTRICO"

df.groupby([field,])[field].count()
print(
    df.loc[:, "AUTONOMÍA_VEHÍCULO_ELÉCTRICO"].describe(),
    df.groupby("AUTONOMÍA_VEHÍCULO_ELÉCTRICO")["AUTONOMÍA_VEHÍCULO_ELÉCTRICO"].count()
)

df[field] = df[field].fillna("000000")
df[df[field].str[-2:] != "00"][field]
if (df[field].dtypes == object):
    df[field] = df[field].str[:-2]
    df[field] = pd.to_numeric(df[field], errors='coerce').fillna(0)
else: 
    df[field] = df[field].fillna(0) / 100
    df[field] = df[field] / 100
# int:  df[field] = df[field].fillna(0)
# int:  df["AUTONOMÍA_VEHÍCULO_ELÉCTRICO"] = df["AUTONOMÍA_VEHÍCULO_ELÉCTRICO"] / 100


count     87227.000000
mean       1711.192062
std        8137.179895
min           0.000000
25%           0.000000
50%           0.000000
75%           0.000000
max      867900.000000
Name: AUTONOMÍA_VEHÍCULO_ELÉCTRICO, dtype: float64 AUTONOMÍA_VEHÍCULO_ELÉCTRICO
0.0         79914
840.0           1
1600.0          1
1900.0          1
3000.0          2
            ...  
70300.0         1
70900.0         1
71700.0         1
72100.0         1
867900.0        1
Name: AUTONOMÍA_VEHÍCULO_ELÉCTRICO, Length: 414, dtype: int64


In [26]:
# Elimminem outlayers (autonomía > 2000km)
print(df[df["AUTONOMÍA_VEHÍCULO_ELÉCTRICO"] > 2000].loc[:, ["MARCA_ITV", "MODELO_ITV", "AUTONOMÍA_VEHÍCULO_ELÉCTRICO"]])
df = df[df["AUTONOMÍA_VEHÍCULO_ELÉCTRICO"] < 2000]
print(df[df["AUTONOMÍA_VEHÍCULO_ELÉCTRICO"] > 2000].loc[:, ["MARCA_ITV", "MODELO_ITV", "AUTONOMÍA_VEHÍCULO_ELÉCTRICO"]])

      MARCA_ITV MODELO_ITV  AUTONOMÍA_VEHÍCULO_ELÉCTRICO
10539      FIAT        500                        8679.0
Empty DataFrame
Columns: [MARCA_ITV, MODELO_ITV, AUTONOMÍA_VEHÍCULO_ELÉCTRICO]
Index: []


In [27]:
df = df.rename(columns = {
    "TIPO_VEHÍCULO": "VEHÍCULO",
    "MARCA_ITV": "MARCA",
    "MODELO_ITV": "MODELO",
    "CO2_ITV": "CO2",
    "TIPO_ELECTRICO": "ELÉCTRICO",
    "AUTONOMÍA_VEHÍCULO_ELÉCTRICO": "AUTONOMÍA",
})
df.columns, len(df)


(Index(['MARCA', 'MODELO', 'COD_TIPO', 'COD_PROPULSION_ITV',
        'LOCALIDAD_VEHICULO', 'COD_PROVINCIA_VEH', 'MUNICIPIO', 'CLAVE_TRAMITE',
        'IND_NUEVO_USADO', 'PERSONA_FISICA_JURIDICA', 'RENTING', 'CO2',
        'ELÉCTRICO', 'AUTONOMÍA', 'FEC_PROCESO', 'PERIODO', 'FECHA', 'VEHÍCULO',
        'PROPULSIÓN', 'PROVINCIA', 'POBLACIÓN', 'TRAMITE', 'NUEVO_USADO',
        'PROPIETARIO', 'REG_EMISIONES'],
       dtype='object'),
 87226)

In [28]:
camps = [
    'FECHA', 'PERIODO', 'PROVINCIA', 'POBLACIÓN', 
    'VEHÍCULO', 'MARCA', 'MODELO', 'PROPULSIÓN', 
    'REG_EMISIONES', 'CO2', 'ELÉCTRICO', 'AUTONOMÍA', 
    'PROPIETARIO', 'NUEVO_USADO', 'RENTING', 
]
df = df.loc[:, camps]
df

Unnamed: 0,FECHA,PERIODO,PROVINCIA,POBLACIÓN,VEHÍCULO,MARCA,MODELO,PROPULSIÓN,REG_EMISIONES,CO2,ELÉCTRICO,AUTONOMÍA,PROPIETARIO,NUEVO_USADO,RENTING
0,2022-10-31,2022-10,Madrid,Otros,TURISMO,LEXUS,LEXUS UX250H,Gasolina,SÍ,120.0,HEV,0.0,Empresa,Nuevo,SI
3,2022-10-31,2022-10,Madrid,Otros,TURISMO,KIA,SPORTAGE,Gasolina,SÍ,25.0,PHEV,70.0,Empresa,Nuevo,SI
4,2022-10-31,2022-10,Madrid,Otros,TURISMO,FIAT,PANDA,Gasolina,SÍ,109.0,,0.0,Empresa,Usado,NO
5,2022-10-31,2022-10,Granada,Otros,TURISMO,CITROEN,BERLINGO,Diesel,SÍ,135.0,,0.0,Particular,Usado,NO
7,2022-10-31,2022-10,Madrid,Otros,CAMION ARTICULADO,CAYVOL,35C14N,GNC,NO,0.0,,0.0,Empresa,Nuevo,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114037,2022-10-31,2022-10,Palmas (Las),Las Palmas de Gran Canaria,TURISMO,KIA,NIRO,Eléctrico,NO,0.0,BEV,460.0,Empresa,Nuevo,NO
114039,2022-10-31,2022-10,Palmas (Las),Las Palmas de Gran Canaria,TURISMO,KIA,NIRO,Eléctrico,NO,0.0,BEV,460.0,Empresa,Nuevo,NO
114040,2022-10-31,2022-10,Madrid,Otros,TURISMO,VOLVO,XC60,Diesel,SÍ,159.0,HEV,0.0,Empresa,Nuevo,SI
114041,2022-10-31,2022-10,Valladolid,Otros,TURISMO,BMW,218D,Diesel,SÍ,130.0,,0.0,Particular,Nuevo,NO


In [29]:
# Comprovació de valors nuls
print(
    df.isna().sum(),
    "\nTotal:", len(df)
)


FECHA                0
PERIODO              0
PROVINCIA          799
POBLACIÓN            0
VEHÍCULO             0
MARCA                0
MODELO               6
PROPULSIÓN           0
REG_EMISIONES        0
CO2                  0
ELÉCTRICO        58832
AUTONOMÍA            0
PROPIETARIO          0
NUEVO_USADO          0
RENTING              1
dtype: int64 
Total: 87226


In [30]:
# tractament de valors nuls:
for field in ["MARCA", "MODELO", "ELÉCTRICO", "PROVINCIA", "RENTING", ]:
    df[field] = df[field].fillna("[N/D]")
print(
    df.isna().sum(),
    "\nTotal:", len(df)
)


FECHA            0
PERIODO          0
PROVINCIA        0
POBLACIÓN        0
VEHÍCULO         0
MARCA            0
MODELO           0
PROPULSIÓN       0
REG_EMISIONES    0
CO2              0
ELÉCTRICO        0
AUTONOMÍA        0
PROPIETARIO      0
NUEVO_USADO      0
RENTING          0
dtype: int64 
Total: 87226


In [33]:
# Camps PROPULSIÓN / ELÉCTRICO --> MOTOR / COMBUSTIBLE / TECONOLOGIA
dict_motor_combustible = {
    ("Diesel", "HEV"):     ("Combustión", "Diesel",    "HEV"),
    ("Diesel", "PHEV"):    ("Eléctrico",  "Diesel",    "PHEV"),
    ("Diesel", "REEV"):    ("Combustión", "Diesel",    "REEV"),
    ("Diesel", "[N/D]"):   ("Combustión", "Diesel",    "Diesel"),
    ("Gasolina", "HEV"):   ("Combustión", "Gasolina",  "HEV"),
    ("Gasolina", "PHEV"):  ("Eléctrico",  "Gasolina",  "PHEV"),
    ("Gasolina", "REEV"):  ("Combustión", "Gasolina",  "REEV"),
    ("Gasolina", "[N/D]"): ("Combustión", "Gasolina",  "Gasolina"),
    ("GLP", "HEV"):        ("Combustión", "GLP",       "HEV"),
    ("GLP", "PHEV"):       ("Eléctrico",  "GLP",       "PHEV"),
    ("GLP", "REEV"):       ("Combustión", "GLP",       "REEV"),
    ("GLP", "[N/D]"):      ("Combustión", "GLP",       "GLP"),
    ("GNC", "HEV"):        ("Combustión", "GNC",       "HEV"),
    ("GNC", "PHEV"):       ("Eléctrico",  "GNC",       "PHEV"),
    ("GNC", "REEV"):       ("Combustión", "GNC",       "REEV"),
    ("GNC", "[N/D]"):      ("Combustión", "GNC",       "GNC"),
    ("GNL", "HEV"):        ("Combustión", "GNL",       "HEV"),
    ("GNL", "PHEV"):       ("Eléctrico",  "GNL",       "PHEV"),
    ("GNL", "REEV"):       ("Combustión", "GNL",       "REEV"),
    ("GNL", "[N/D]"):      ("Combustión", "GNL",       "GNL"),
    ("Eléctrico", "BEV"):  ("Eléctrico",  "Eléctrico", "BEV"),
    ("Eléctrico", "HEV"):  ("Combustión", "Gasolina",  "HEV"),
    ("Eléctrico", "PHEV"): ("Eléctrico",  "Gasolina",  "PHEV"),
    ("Eléctrico", "REEV"): ("Eléctrico",  "Gasolina",  "REEV"),
    ("Eléctrico", "[N/D]"):("Eléctrico",  "Eléctrico", "Eléctrico"),
    ("Hidrógeno", "HEV"):  ("Combustión", "Hidrógeno",     "HEV"),
    ("Hidrógeno", "PHEV"): ("Eléctrico",  "Hidrógeno",     "PHEV"),
    ("Hidrógeno", "REEV"): ("Combustión", "Hidrógeno",     "REEV"),
    ("Hidrógeno", "[N/D]"):("Combustión", "Hidrógeno",     "Hidrógeno"),
    ("Otros", "HEV"):      ("Combustión", "Otros",     "HEV"),
    ("Otros", "PHEV"):     ("Eléctrico",  "Otros",     "PHEV"),
    ("Otros", "REEV"):     ("Combustión", "Otros",     "REEV"),
    ("Otros", "[N/D]"):    ("Combustión", "Otros",     "Gasolina"),
}

df2 = df.groupby(["PROPULSIÓN", "ELÉCTRICO"])[["RENTING"]].count().reset_index()
list(zip(df2["PROPULSIÓN"], df2["ELÉCTRICO"]))
df2["test"] = list(zip(df2["PROPULSIÓN"], df2["ELÉCTRICO"]))
df2["prova"] = df2["test"].map(dict_motor_combustible)
df2["MOTOR"] = df2["prova"].str[0]
df2["COMBUSTIBLE"] = df2["prova"].str[1]
df2["TECONOLOGIA"] = df2["prova"].str[2]
df2

Unnamed: 0,PROPULSIÓN,ELÉCTRICO,RENTING,test,prova,MOTOR,COMBUSTIBLE,TECONOLOGIA
0,Diesel,HEV,2862,"(Diesel, HEV)","(Combustión, Diesel, HEV)",Combustión,Diesel,HEV
1,Diesel,PHEV,150,"(Diesel, PHEV)","(Eléctrico, Diesel, PHEV)",Eléctrico,Diesel,PHEV
2,Diesel,[N/D],28149,"(Diesel, [N/D])","(Combustión, Diesel, Diesel)",Combustión,Diesel,Diesel
3,Eléctrico,BEV,3218,"(Eléctrico, BEV)","(Eléctrico, Eléctrico, BEV)",Eléctrico,Eléctrico,BEV
4,Eléctrico,HEV,31,"(Eléctrico, HEV)","(Combustión, Gasolina, HEV)",Combustión,Gasolina,HEV
5,Eléctrico,PHEV,23,"(Eléctrico, PHEV)","(Eléctrico, Gasolina, PHEV)",Eléctrico,Gasolina,PHEV
6,Eléctrico,REEV,7,"(Eléctrico, REEV)","(Eléctrico, Gasolina, REEV)",Eléctrico,Gasolina,REEV
7,Eléctrico,[N/D],9,"(Eléctrico, [N/D])","(Eléctrico, Eléctrico, Eléctrico)",Eléctrico,Eléctrico,Eléctrico
8,GLP,HEV,1,"(GLP, HEV)","(Combustión, GLP, HEV)",Combustión,GLP,HEV
9,GLP,PHEV,1,"(GLP, PHEV)","(Eléctrico, GLP, PHEV)",Eléctrico,GLP,PHEV


In [34]:
# Camps transformació: PROPULSIÓN / ELÉCTRICO --> MOTOR / COMBUSTIBLE / TECONOLOGIA

df["input"] = list(zip(df["PROPULSIÓN"], df["ELÉCTRICO"]))
df["output"] = df["input"].map(dict_motor_combustible)
df["MOTOR"] = df["output"].str[0]
df["COMBUSTIBLE"] = df["output"].str[1]
df["TECONOLOGIA"] = df["output"].str[2]
df = df.drop(columns=["input", "output"])
df

Unnamed: 0,FECHA,PERIODO,PROVINCIA,POBLACIÓN,VEHÍCULO,MARCA,MODELO,PROPULSIÓN,REG_EMISIONES,CO2,ELÉCTRICO,AUTONOMÍA,PROPIETARIO,NUEVO_USADO,RENTING,MOTOR,COMBUSTIBLE,TECONOLOGIA
0,2022-10-31,2022-10,Madrid,Otros,TURISMO,LEXUS,LEXUS UX250H,Gasolina,SÍ,120.0,HEV,0.0,Empresa,Nuevo,SI,Combustión,Gasolina,HEV
3,2022-10-31,2022-10,Madrid,Otros,TURISMO,KIA,SPORTAGE,Gasolina,SÍ,25.0,PHEV,70.0,Empresa,Nuevo,SI,Eléctrico,Gasolina,PHEV
4,2022-10-31,2022-10,Madrid,Otros,TURISMO,FIAT,PANDA,Gasolina,SÍ,109.0,[N/D],0.0,Empresa,Usado,NO,Combustión,Gasolina,Gasolina
5,2022-10-31,2022-10,Granada,Otros,TURISMO,CITROEN,BERLINGO,Diesel,SÍ,135.0,[N/D],0.0,Particular,Usado,NO,Combustión,Diesel,Diesel
7,2022-10-31,2022-10,Madrid,Otros,CAMION ARTICULADO,CAYVOL,35C14N,GNC,NO,0.0,[N/D],0.0,Empresa,Nuevo,NO,Combustión,GNC,GNC
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114037,2022-10-31,2022-10,Palmas (Las),Las Palmas de Gran Canaria,TURISMO,KIA,NIRO,Eléctrico,NO,0.0,BEV,460.0,Empresa,Nuevo,NO,Eléctrico,Eléctrico,BEV
114039,2022-10-31,2022-10,Palmas (Las),Las Palmas de Gran Canaria,TURISMO,KIA,NIRO,Eléctrico,NO,0.0,BEV,460.0,Empresa,Nuevo,NO,Eléctrico,Eléctrico,BEV
114040,2022-10-31,2022-10,Madrid,Otros,TURISMO,VOLVO,XC60,Diesel,SÍ,159.0,HEV,0.0,Empresa,Nuevo,SI,Combustión,Diesel,HEV
114041,2022-10-31,2022-10,Valladolid,Otros,TURISMO,BMW,218D,Diesel,SÍ,130.0,[N/D],0.0,Particular,Nuevo,NO,Combustión,Diesel,Diesel


In [35]:
#df = df.drop(columns=["CANTIDAD"])
df["CANTIDAD"] = 1


In [43]:
agrupar = [
    'FECHA', 'PERIODO', 'PROVINCIA', 'POBLACIÓN', 
    'VEHÍCULO', 'MARCA', 'MODELO', 'REG_EMISIONES', 'CO2',
    'MOTOR', 'COMBUSTIBLE', 'TECONOLOGIA', 'AUTONOMÍA', 
    'PROPIETARIO', 'NUEVO_USADO', 'RENTING', 
]

agrupar = [
    'FECHA', 'PERIODO', 'PROVINCIA', 'POBLACIÓN', 
    'VEHÍCULO', 'MOTOR', 'COMBUSTIBLE', 'TECONOLOGIA',
    'REG_EMISIONES',  
]
dades = df.groupby(agrupar)[["CO2", "CANTIDAD"]].sum().reset_index()
total =  dades["CANTIDAD"].sum()
dades["%"] = dades["CANTIDAD"] / total * 100
print(
    "\nTotal registres:", len(dades),
    "\nTotal vehicles:", dades["CANTIDAD"].sum(),
)


# dades[dades["ELÉCTRICO"]=="BEV"].groupby("MARCA")["CANTIDAD"].sum()
dades_agrupades = dades.groupby(['FECHA', 'PERIODO', 'VEHÍCULO', 'MOTOR', 'COMBUSTIBLE', 'TECONOLOGIA', 'REG_EMISIONES', ])[["CO2", "CANTIDAD", "%"]].sum().reset_index()
print(
    "\nGrups per vehícles:\n", dades.groupby(['VEHÍCULO', 'MOTOR', 'COMBUSTIBLE', 'TECONOLOGIA', ])[["CANTIDAD", "%"]].sum().reset_index(),
    "\nGrups per combustible:\n", dades.groupby(['COMBUSTIBLE', 'MOTOR', ])[["CANTIDAD", "%"]].sum().reset_index(),
    "\nGrups per tecnología:\n", dades.groupby(['TECONOLOGIA', 'COMBUSTIBLE', ])[["CO2", "CANTIDAD", "%"]].sum().reset_index(),
)
dades



Total registres: 2881 
Total vehicles: 87226

Grups per vehícles:
                VEHÍCULO       MOTOR COMBUSTIBLE TECONOLOGIA  CANTIDAD  \
0               AUTOBUS  Combustión      Diesel      Diesel       172   
1               AUTOBUS  Combustión      Diesel         HEV        34   
2               AUTOBUS  Combustión         GNC         GNC        30   
3               AUTOBUS   Eléctrico   Eléctrico         BEV        11   
4                CAMION  Combustión      Diesel      Diesel      3310   
5                CAMION  Combustión      Diesel         HEV       101   
6                CAMION  Combustión         GLP         GLP         5   
7                CAMION  Combustión         GNC         GNC        30   
8                CAMION  Combustión         GNL         GNL         9   
9                CAMION  Combustión    Gasolina    Gasolina       153   
10               CAMION  Combustión    Gasolina        REEV         7   
11               CAMION   Eléctrico   Eléctrico         

Unnamed: 0,FECHA,PERIODO,PROVINCIA,POBLACIÓN,VEHÍCULO,MOTOR,COMBUSTIBLE,TECONOLOGIA,REG_EMISIONES,CO2,CANTIDAD,%
0,2022-10-31,2022-10,Alacant,Alcoy,TURISMO,Combustión,Diesel,Diesel,SÍ,445.0,4,0.004586
1,2022-10-31,2022-10,Alacant,Alcoy,TURISMO,Combustión,Diesel,HEV,SÍ,153.0,1,0.001146
2,2022-10-31,2022-10,Alacant,Alcoy,TURISMO,Combustión,GLP,GLP,SÍ,224.0,2,0.002293
3,2022-10-31,2022-10,Alacant,Alcoy,TURISMO,Combustión,Gasolina,Gasolina,SÍ,2847.0,22,0.025222
4,2022-10-31,2022-10,Alacant,Alcoy,TURISMO,Combustión,Gasolina,HEV,SÍ,1650.0,13,0.014904
...,...,...,...,...,...,...,...,...,...,...,...,...
2876,2022-10-31,2022-10,Ávila,Ávila,TURISMO,Combustión,GNC,GNC,SÍ,121.0,1,0.001146
2877,2022-10-31,2022-10,Ávila,Ávila,TURISMO,Combustión,Gasolina,Gasolina,SÍ,3021.0,22,0.025222
2878,2022-10-31,2022-10,Ávila,Ávila,TURISMO,Combustión,Gasolina,HEV,SÍ,2884.0,23,0.026368
2879,2022-10-31,2022-10,Ávila,Ávila,TURISMO,Eléctrico,Eléctrico,BEV,NO,0.0,4,0.004586


In [None]:
# exportar a CSV
dades.to_csv("output.csv", sep=";")
