In [1]:
import pandas as pd
import numpy as np
df = pd.read_csv('TaxiFlota.csv' , encoding = 'latin-1', sep = ";")
df.head(10)

Unnamed: 0,Código,Matrícula,Fecha Matriculación,Marca,Modelo,Tipo,Variante,Clasificación medioambiental,Combustible,Cilindrada,Potencia,Número de Plazas,Fecha inicio de prestación del servicio de taxi,Eurotaxi,Régimen Especial de Eurotaxi,Fecha inicio Régimen Especial Eurotaxi,Fecha fin Régimen Especial Eurotaxi,Fecha
0,1020144,2239DTJ,13/12/2005,SKODA,OCTAVIA,,,,DIESEL,0,12.0,,16/12/2005,NO,NO,,,30/07/2018
1,550040,8901GJP,21/11/2008,SKODA,OCTAVIA,,,,DIESEL,0,12.0,,11/12/2008,NO,NO,,,30/07/2018
2,550016,6364FVW,14/12/2007,SEAT,TOLEDO,,,,DIESEL,0,12.0,,18/11/2008,NO,NO,,,30/07/2018
3,550115,4249GST,08/01/2010,SKODA,OCTAVIA,,,,DIESEL,0,12.0,,14/01/2010,NO,NO,,,30/07/2018
4,550142,1561GVY,27/04/2010,SKODA,OCTAVIA,,,,DIESEL,0,12.0,,01/03/2010,NO,NO,,,30/07/2018
5,550214,6296HBZ,28/02/2011,SKODA,OCTAVIA,1Z,AACAYCX01/NFM5,,DIESEL,0,11.64,,03/08/2012,NO,NO,,,30/07/2018
6,550241,9097GYH,16/08/2010,VOLKSWAGEN,PASSAT,3C,AACBBBX0/FM6FM6*******,,DIESEL,0,13.0,,10/01/2013,NO,NO,,,30/07/2018
7,550244,3091HJM,29/02/2012,PEUGEOT,508,8,8D9HRB/PS,,DIESEL,0,82.0,,23/08/2013,NO,NO,,,30/07/2018
8,1198109,0800GZC,18/10/2010,CHEVROLET,EPICA,KLAL,LV3/134,B,DIESEL,1991,110.0,5.0,25/10/2010,NO,NO,,,30/07/2018
9,1196804,7686GYS,23/09/2010,CHEVROLET,EPICA,KLAL,LV1/111,C,GASOLINA TRANSFORMADO GLP,1993,105.0,5.0,04/10/2010,NO,NO,,,30/07/2018


In [2]:
# 1. Renombrar columnas 
# 1.1 Cambiar los títulos a minúsculas

df.columns = df.columns.str.lower()
df

# 1.2 Sustituir espacios por "_"
df.columns = df.columns.str.replace(' ','_')

# 1.3 Quitar tildes
df.columns = df.columns.str.replace("á", "a").str.replace("é", "e").str.replace("í", "i").str.replace("ó", "o").str.replace("ú", "u")

# 1.4 Renombrar manualmente las columnas con nombres más cortos
df = df.rename(columns= {'numero_de_plazas':'numero_plazas',
                   'fecha_inicio_de_prestacion_del_servicio_de_taxi':'fecha_inicio', 
                   'regimen_especial_de_eurotaxi':'regimen_eurotaxi', 
                   'fecha_inicio_regimen_especial_eurotaxi':'fecha_inicio_eurotaxi', 
                   'fecha_fin_regimen_especial_eurotaxi':'fecha_fin_eurotaxi'})

# 1.5 Comprobar nombre de columnas
df.columns

Index(['codigo', 'matricula', 'fecha_matriculacion', 'marca', 'modelo', 'tipo',
       'variante', 'clasificacion_medioambiental', 'combustible', 'cilindrada',
       'potencia', 'numero_plazas', 'fecha_inicio', 'eurotaxi',
       'regimen_eurotaxi', 'fecha_inicio_eurotaxi', 'fecha_fin_eurotaxi',
       'fecha'],
      dtype='object')

In [3]:
# 2. Convertir variables
# 2.1 Inspeccionar el tipo de variables
df.dtypes

codigo                            int64
matricula                        object
fecha_matriculacion              object
marca                            object
modelo                           object
tipo                             object
variante                         object
clasificacion_medioambiental     object
combustible                      object
cilindrada                        int64
potencia                        float64
numero_plazas                    object
fecha_inicio                     object
eurotaxi                         object
regimen_eurotaxi                 object
fecha_inicio_eurotaxi            object
fecha_fin_eurotaxi               object
fecha                            object
dtype: object

In [4]:
## 2.2 Identificar las variables a cambiar
# codigo -> object
df.codigo = df.codigo.astype('object')
# matricula - > OK

In [5]:
# fecha_matriculación -> date

from datetime import date, datetime
import re
formato = '%d/%m/%Y'

def parsea_fecha(fecha):
    try:
        a = datetime.strptime(fecha,formato)
        return a
    except:
        return None

df.fecha_matriculacion = df.fecha_matriculacion.apply(parsea_fecha)

In [6]:
# marca -> OK
# modelo -> OK
# tipo -> OK
# variante -> OK
# clasificacion_medioambiental -> category
df["clasificacion_medioambiental"] = pd.Categorical(df["clasificacion_medioambiental"], ["0", "Eco", "C", "B"])
df["clasificacion_medioambiental"].head()

0    NaN
1    NaN
2    NaN
3    NaN
4    NaN
Name: clasificacion_medioambiental, dtype: category
Categories (4, object): [0, Eco, C, B]

In [7]:
# combustible -> OK
# cilindrada -> OK
# potencia -> float

def a_numero(numero):
    try:
        a = pd.to_numeric(numero)
        return a
    except:
        return None

df.potencia = df.potencia.apply(a_numero)
df.head()

Unnamed: 0,codigo,matricula,fecha_matriculacion,marca,modelo,tipo,variante,clasificacion_medioambiental,combustible,cilindrada,potencia,numero_plazas,fecha_inicio,eurotaxi,regimen_eurotaxi,fecha_inicio_eurotaxi,fecha_fin_eurotaxi,fecha
0,1020144,2239DTJ,2005-12-13,SKODA,OCTAVIA,,,,DIESEL,0,12.0,,16/12/2005,NO,NO,,,30/07/2018
1,550040,8901GJP,2008-11-21,SKODA,OCTAVIA,,,,DIESEL,0,12.0,,11/12/2008,NO,NO,,,30/07/2018
2,550016,6364FVW,2007-12-14,SEAT,TOLEDO,,,,DIESEL,0,12.0,,18/11/2008,NO,NO,,,30/07/2018
3,550115,4249GST,2010-01-08,SKODA,OCTAVIA,,,,DIESEL,0,12.0,,14/01/2010,NO,NO,,,30/07/2018
4,550142,1561GVY,2010-04-27,SKODA,OCTAVIA,,,,DIESEL,0,12.0,,01/03/2010,NO,NO,,,30/07/2018


In [8]:
# numero_plazas -> int

# num_plazas se puede crear una nueva columna que ponga el número de plazas para mobilidad reducida y
# luego añadir una columna con numero de plazas contando una posible ampliación, 
#dejando el valor por defecto en caso de que no se pueda ampliar
df.numero_plazas = df.numero_plazas.astype('object')
df.numero_plazas.value_counts(dropna=False)

5                           45515
7                             551
de 5+1PMR a 7 plazas (*)      250
6                             192
9                             164
5 + 1 PMR                     117
de 5+1PMR a 9 plazas (*)       66
8                              39
NaN                            24
5+2PMR                          6
5+1PMR                          6
7+1PMR                          3
de 6+1PMR a 9 plazas (*)        3
de 6+1PMR a 8 plazas (*)        3
de 5+1PMR a 8 plazas (*)        3
Name: numero_plazas, dtype: int64

Creamos tres columnas nuevas partiendo de la columna 'número de plazas' para clarificar la información
- Número de plazas
- Plazas de movilidad reducida
- Plazas ampliables en caso de ser posible


In [11]:
def primera_columna(fila):
    try:
        if len(re.findall('[0-9]+',fila)) == 3:
            a,b,c = re.findall('[0-9]+',fila)
        elif len(re.findall('[0-9]+',fila)) == 2:
            a,b = re.findall('[0-9]+',fila)
        elif len(re.findall('[0-9]+',fila)) == 1:
            a = re.findall('[0-9]+',fila)[0]
        else:
            a = '5'
        return int(a)
    except:
        return 5
    
def segunda_columna(fila):
    try:
        if len(re.findall('[0-9]+',fila)) == 3:
            a,b,c = re.findall('[0-9]+',fila)
        elif len(re.findall('[0-9]+',fila)) == 2:
            a,b = re.findall('[0-9]+',fila)
        elif len(re.findall('[0-9]+',fila)) == 1:
            a.append('0')
            a,b = re.findall('[0-9]+',fila)

        else:
            b = '0'
        return int(b)
    except:
        return 0
def tercera_columna(fila):
    try:
        if len(re.findall('[0-9]+',fila)) == 3:
            a,b,c = re.findall('[0-9]+',fila)
        elif len(re.findall('[0-9]+',fila)) == 2:
            a,b = re.findall('[0-9]+',fila)
            c = a
        elif len(re.findall('[0-9]+',fila)) == 1:
            a = re.findall('[0-9]+',fila)[0]
            c = a
        else:
            c = a
        return int(c)
    except:
        return primera_columna(fila)




df['num_plazas'] = df.numero_plazas.apply(primera_columna)
df['num_plazas_movilidad_reducida'] = df.numero_plazas.apply(segunda_columna)
df['num_plazas_ampliables'] = df.numero_plazas.apply(tercera_columna)
df.head()


Unnamed: 0,codigo,matricula,fecha_matriculacion,marca,modelo,tipo,variante,clasificacion_medioambiental,combustible,cilindrada,...,numero_plazas,fecha_inicio,eurotaxi,regimen_eurotaxi,fecha_inicio_eurotaxi,fecha_fin_eurotaxi,fecha,num_plazas,num_plazas_movilidad_reducida,num_plazas_ampliables
0,1020144,2239DTJ,2005-12-13,SKODA,OCTAVIA,,,,DIESEL,0,...,,16/12/2005,NO,NO,,,30/07/2018,5,0,5
1,550040,8901GJP,2008-11-21,SKODA,OCTAVIA,,,,DIESEL,0,...,,11/12/2008,NO,NO,,,30/07/2018,5,0,5
2,550016,6364FVW,2007-12-14,SEAT,TOLEDO,,,,DIESEL,0,...,,18/11/2008,NO,NO,,,30/07/2018,5,0,5
3,550115,4249GST,2010-01-08,SKODA,OCTAVIA,,,,DIESEL,0,...,,14/01/2010,NO,NO,,,30/07/2018,5,0,5
4,550142,1561GVY,2010-04-27,SKODA,OCTAVIA,,,,DIESEL,0,...,,01/03/2010,NO,NO,,,30/07/2018,5,0,5


In [12]:
# fecha_inicio -> date
df.fecha_inicio = df.fecha_inicio.apply(parsea_fecha)

In [13]:
# eurotaxi -> obj
df.eurotaxi = df.eurotaxi.replace('SI', '1')
df.eurotaxi = df.eurotaxi.replace('NO', '0')

In [14]:
# regimen_eurotaxi -> obj
df.regimen_eurotaxi = df.regimen_eurotaxi.replace('SI','1')
df.regimen_eurotaxi = df.regimen_eurotaxi.replace('NO','0')

In [15]:
# fecha_inicio_eurotaxi -> date
df.fecha_inicio_eurotaxi= df.fecha_inicio_eurotaxi.apply(parsea_fecha)

In [16]:
# fecha_fin_eurotaxi -> date
df.fecha_fin_eurotaxi = df.fecha_fin_eurotaxi.apply(parsea_fecha)

In [17]:
# fecha -> date
df.fecha = df.fecha.apply(parsea_fecha)

In [18]:
#eliminamos columnas inservibles y ordenamos por fecha de matriculación
df = df.drop(['tipo','variante','fecha_inicio_eurotaxi','fecha_fin_eurotaxi','fecha'],axis=1)
df = df.sort_values(by='fecha_matriculacion')
df.head()

Unnamed: 0,codigo,matricula,fecha_matriculacion,marca,modelo,clasificacion_medioambiental,combustible,cilindrada,potencia,numero_plazas,fecha_inicio,eurotaxi,regimen_eurotaxi,num_plazas,num_plazas_movilidad_reducida,num_plazas_ampliables
0,1020144,2239DTJ,2005-12-13,SKODA,OCTAVIA,,DIESEL,0,12.0,,2005-12-16,0,0,5,0,5
15646,1020144,2239DTJ,2005-12-13,SKODA,OCTAVIA,,DIESEL,0,12.0,,2005-12-16,0,0,5,0,5
31294,1020144,2239DTJ,2005-12-13,SKODA,OCTAVIA,,DIESEL,0,12.0,,2005-12-16,0,0,5,0,5
39451,1067525,8924FKG,2007-01-08,SKODA,OCTAVIA 1.9 TDI 5v man (2005),B,DIESEL,1896,77.0,5.0,2007-01-10,0,0,5,0,5
23654,1067525,8924FKG,2007-01-08,SKODA,OCTAVIA 1.9 TDI 5v man (2005),B,DIESEL,1896,77.0,5.0,2007-01-10,0,0,5,0,5


In [19]:
# 2.3 Confirmar cambios
df.dtypes


codigo                                   object
matricula                                object
fecha_matriculacion              datetime64[ns]
marca                                    object
modelo                                   object
clasificacion_medioambiental           category
combustible                              object
cilindrada                                int64
potencia                                float64
numero_plazas                            object
fecha_inicio                     datetime64[ns]
eurotaxi                                 object
regimen_eurotaxi                         object
num_plazas                                int64
num_plazas_movilidad_reducida             int64
num_plazas_ampliables                     int64
dtype: object

In [20]:

df_2 = pd.read_csv('TaxiModelos.csv' , encoding = 'latin-1', sep = ";")
df_2.head(10)


Unnamed: 0,Marca,Modelo,Tipo,Contraseña de Homologación,Variante,Versión,Parte Fija Vin,Combustible,Eurotaxi,Cilindrada,Potencia,Tipo de Cambio,Nº Plazas,Mampara s/n,Comercializado s/n,Clasificación D.G.T.
0,CITROEN,CITROEN C-ELYSEE eco-glv,FE-CO1,e9*NKS*10152*00,FE14,FE14C1,VF7DDNFP0,GLP / GASOLINA,NO,1587,85.0,MANUAL 5V,5,SI,NO,ECO
1,CITROEN,CITROEN C-ELYSEE eco-glv,FE-CO1/1,e9*NKS*10153*00,FE14C,FE14C1C,VF7DDNFP0,GLP / GASOLINA,NO,1587,85.0,MANUAL 5V,5,SI,NO,ECO
2,CITROEN,CITROEN C-ELYSEE eco-glv,FE-CO2,e9*NKS*10331*00,FE15,FE15C1,VF7DDNFP6,GLP / GASOLINA,NO,1587,85.0,MANUAL 5V,5,SI,NO,ECO
3,CITROEN,CITROEN C-ELYSEE eco-glv,FECO2/1,e9*NKS*10332*00,FE15C,FE15C1C,VF7DDNFP6,GLP / GASOLINA,NO,1587,85.0,MANUAL 5V,5,SI,NO,ECO
4,CITROEN,CITROEN C-ELYSEE eco-glv,F,e9*KS07/46*6445*00,FECE,M/1,VF7DDNFP6,GLP / GASOLINA,NO,1587,85.0,MANUAL 5V,5,SI,SI,ECO
5,CITROEN,CITROEN C-ELYSEE eco-glv,F,e9*KS07/46*6445*00,FECE,M,VF7DDNFP6,GLP / GASOLINA,NO,1587,85.0,MANUAL 5V,5,SI,SI,ECO
6,CITROEN,CITROEN C-ELYSEE eco-glv,F,e9*KS07/46*6445,FECE,M/1,VF7DDNFP6,GLP / GASOLINA,NO,1587,85.0,MANUAL 5V,5,SI,SI,ECO
7,CITROEN,CITROEN C-ELYSEE eco-glv,F,e9*KS07/46*6445,FECE,M,VF7DDNFP6,GLP / GASOLINA,NO,1587,85.0,MANUAL 5V,5,SI,SI,ECO
8,DACIA,LODGY,SD,e2*2001/116*0314,JSDNV,JSDNV5,UU1JSDNV5,GLP / GASOLINA,NO,1598,75.0,MANUAL 6V,5,NO,NO,ECO
9,DACIA,LODGY,SD,e2*2001/116*0314,JSDJ3,JSDJ35,UU1JSDJ35,GLP / GASOLINA,NO,1598,60.5,MANUAL 6V,5,NO,NO,ECO


In [None]:
# 1. Renombrar columnas 
# 1.1 Cambiar los tÌtulos a min˙sculas

df_2.columns = df_2.columns.str.lower()

# 1.2 Sustituir espacios por "_"
df_2.columns = df_2.columns.str.replace(' ','_')


# 1.3 Quitar tildes
df_2.columns = df_2.columns.str.replace("á", "a").str.replace("é", "e").str.replace("í", "i").str.replace("ó", "o").str.replace("ú", "u").str.replace("ñ", "n")

# 1.4 Renombrar manualmente las columnas con nombres m·s largos
df_2 = df_2.rename(columns= {'contrasena_de_homologacion':'constrasena_homologacion',
                   'tipo_de_cambio':'tipo_cambio', 
                   'n∫_plazas':'n_plazas', 
                   'mampara_s/n':'mampara', 
                   'comercializado_s/n':'comercializado',
                   'clasificacion_d.g.t.':'clasificacion_dgt'})

# 1.5 Comprobar nombre de columnas
df_2.columns

In [None]:
# 2. Convertir variables
# 2.1 Inspeccionar el tipo de variables
df_2.dtypes

In [None]:
# 2.2 Identificar las variables a cambiar

# marca -> OK

# modelo -> OK

# tipo -> OK

# contrasena_homologacion -> OK

# variante -> OK

# version -> OK

# parte_fija_vin -> OK

# combustible -> OK

In [None]:
# eurotaxi -> OK (cambiar si y no por 1 y 0)
df_2.eurotaxi = df_2.eurotaxi.replace('SI','1')
df_2.eurotaxi = df_2.eurotaxi.replace('NO','0')

In [None]:
# cilindrada -> OK

# potencia -> OK

# tipo_cambio -> OK

# n_plazas -> cambiar


In [None]:
# mampara -> OK (cambiar si y no por 1 y 0)
df_2.mampara = df_2.mampara.replace('SI','1')
df_2.mampara = df_2.mampara.replace('NO','0')

In [None]:
# comercializado -> OK (cambiar si y no por 1 y 0)
df_2.comercializado = df_2.comercializado.replace('SI','1')
df_2.comercializado = df_2.comercializado.replace('NO','0')

In [None]:
# clasificacion_medioambiental -> category
df_2["clasificacion_dgt"] = pd.Categorical(df_2["clasificacion_dgt"], ["0", "Eco", "C", "B"])
df_2.clasificacion_dgt.head()

In [None]:
# 2.3 Confirmar cambios
df_2.dtypes

In [None]:
import seaborn as sns
from matplotlib import rcParams
import matplotlib.pyplot as plt

rcParams['figure.figsize'] = 14, 10
sns.set_context('talk')


In [None]:
#distribución cilindrada
out = sns.distplot(df.cilindrada)

In [None]:
#distribución de la potencia 
df.potencia.fillna(df.potencia.mean(),inplace=True)
sns.distplot(df.potencia)

In [None]:
grafico1 = sns.scatterplot(x='cilindrada', y='potencia', data=df).set_title('Relación entre cilindrada y potencia')

In [None]:
grafico2 = sns.scatterplot(x='cilindrada', y='potencia', data=df, hue = 'clasificacion_medioambiental',legend='brief', hue_order= ['0', 'ECO', 'B', 'C'], palette="Greens").set_title('Relación entre cilindrada y potencia clasificado por cuanto contamina')

In [None]:
out = sns.countplot(x='marca', hue='combustible', data=df)
plt.xticks(rotation=45)

In [None]:
out = sns.pairplot(df, hue='clasificacion_medioambiental')