### EDA - auto+mpg - Parte I

In [None]:
# Exemplo EDA sobre o dataset de datos de coches
# https://www.datafied.world/eda-on-mpg-data-using-seaborn-192

In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# 'mpg' é un coñecido dataset con datos de automóbiles que se encontra como exemplo na libraría 'seaborn'
# Tamén dispoñible no UCI: Machine Learning Repository
# https://archive.ics.uci.edu/ml/datasets/auto+mpg

# O repositorio proporciona a seguinte información:
# Attribute Information:

# 1. mpg: continuous
# 2. cylinders: multi-valued discrete
# 3. displacement: continuous
# 4. horsepower: continuous
# 5. weight: continuous
# 6. acceleration: continuous
# 7. model year: multi-valued discrete
# 8. origin: multi-valued discrete
# 9. car name: string (unique for each instance)

In [None]:
df = sns.load_dataset('mpg')

In [None]:
# Fases do EDA
# 1. Preprocesar os datos
# 2. EDA sobre atributos categóricos: analizar distribución e relacións con outros categóricos
# 3. EDA sobre atributos numéricos: analizar distribució e relacións con outros numéricos
# 4. Análise da relación entre categóricos e numéricos

In [None]:
# PREPROCESADO DOS DATOS

In [None]:
# Unha ollada aos datos

df.head()

In [None]:
# Tamaño do dataset? Filas? Atributos?
df.shape

In [None]:
# Listar todas as columnas
columns = list(df.columns)
columns

In [None]:
# Consultar os tipos de datos, se hai valores nulos..
df.info()

In [None]:
# Creamos dúas listas diferentes:
# - nomes das columnas categóricas
# - nomes das columnas numéricas 
# Isto facilitará o tratamento das diferentes variables por separado

cats = list(df.select_dtypes(include=['object']).columns)
nums = list(df.select_dtypes(exclude=['object']).columns)
print(f'Variables categóricas: {cats}')
print(f'Variables numéricas: {nums}')

In [None]:
# Consultamos o número de valores diferentes en cada columna
df.nunique(axis=0)

In [None]:
# cylinders e model_year teñen moi pouca variabilidade -> ten sentido facelos categóricos
# Movémolos á lista de variables categóricas

In [None]:
cats.extend(['cylinders','model_year'])
nums.remove('cylinders')
nums.remove('model_year')
print(f'Variables categóricas: {cats}')
print(f'Variables numéricas: {nums}')

In [None]:
# búsqueda de nans - TRATAMENTO DE MISSING VALUES
df.isna().sum()
# df.isnull().sum() <- isnull() é un alias de isna()

In [None]:
# mostrar as liñas que teñen nan
df[df.horsepower.isnull()]

In [None]:
# mais xeralmente
df[df.isnull().any(axis=1)]

In [None]:
# proporción de nans
6 / len(df)

In [None]:
# A porcentaxe é baixa (un 1,5%), logo podemos machacar esas liñas
df.dropna(inplace=True)
df.reset_index(inplace=True)

In [None]:
df.shape

In [None]:

# df = df[~df.isnull().any(axis=1)]
# df.reset_index(inplace=True)
# df.drop('index', inplace=True, axis=1)

In [None]:
# TRATAMENTO DE DUPLICADOS

In [None]:
# Buscar filas duplicadas
print(f'Total de filas duplicadas: {df.duplicated().sum()}')

In [None]:
# No caso de que houbese duplicados (que non hai), eliminamos
df.drop_duplicates(inplace=True)
df.shape

In [None]:
# df = df[~df.duplicated()]
# df.shape

In [None]:
# Podemos agrupar as variables por tipo por comodidade (recolocar as columnas)
# bloque categóticas vs bloque numéricas
df = pd.concat((df[cats], df[nums]), axis=1)
df.head()

In [None]:
num_rows, num_cols = df.shape

In [None]:
# Pode ser unha boa idea gardar os datos unha vez limpos e preprocesados
df.to_csv('mpg_cleaned.csv',index=False)

In [None]:
# ANÁLISE DOS VALORES CATEGÓRICOS

# Despois da limpeza dos datos procedemos á análise das variables categóricas

In [None]:
df = pd.read_csv('mpg_cleaned.csv')

In [None]:
print(f'categorical variables: {cats}')

In [None]:
# Creamos un novo dataframe só coas variables categóricas

#df_cat = df.loc[:, 'origin':'model_year']
df_cat= df[cats]
df_cat.head()

In [None]:
# limpeza de columnas tipo string, eliminando espazos extra (por precaución)
# Ollo a: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
for col in ['origin', 'name']:
    df_cat[col] = df_cat[col].apply(lambda x: ' '.join(x.split()))

In [None]:
# Pode ser útil crear niveis categóricos para algunhas variables (p.ex: mpg)
# Axudará á hora de crear algúns gráficos e ademais facilita a comprensión
# Engadimos unha nova variable categórica

In [None]:
df_cat['mpg_level'] = df['mpg'].apply(lambda x: 'low' if x<17 else 'high' if x>29 else 'medium')
cats.append('mpg_level')
print(f'Variables categóricas:  {cats}')

In [None]:
# Botar unha ollada aos valores das categorías
print(f"Categorías en origin: {pd.unique(df_cat['origin'])}")
print(f"Categorías en cylinders: {pd.unique(df_cat['cylinders'])}")
print(f"Categorías en model_year: {pd.unique(df_cat['model_year'])}")

In [None]:
# Análise da distribución 
#
# Queremos ver como se distribúen os datos e sacar algunha información das gráficas

In [None]:
# Countplot pode ser unha boa opción para ver como se distribúen os datos nas variables categóricas
sns.set_theme(style='darkgrid')

# Distribución de "orixe"
sns.countplot(data=df_cat,x='origin')

In [None]:
# A maioría dos datos son de coches estadounidenses

In [None]:
# Distribución de "cilindros"
sns.countplot(data=df_cat,x='cylinders')

In [None]:
# O mais común son coches con motores de 4 ciclindros. As versións de 3 e 5 son anecdóticas.

In [None]:
# Distribución dos datos segundo "model_year"
sns.countplot(data=df_cat,x='model_year')

In [None]:
# Distribución de "mpg_level"
sns.countplot(data=df_cat,x='mpg_level')

In [None]:
# Pode ter sentido ordenar as barras en función de importancia

In [None]:
plt.figure(figsize=(15,5))
ax = plt.subplot(1,2,1)
ax.set_title('Orde temporal')
sns.countplot(data=df_cat,x='model_year')
ax = plt.subplot(1,2,2)
ax.set_title('Orde de relevancia')
sns.countplot(data=df_cat,x='model_year',order=df_cat.model_year.value_counts().index)

In [None]:
# Podemos agrupar as gráficas

In [None]:
fig = plt.figure(1, (14, 8))

for i,cat in enumerate(df_cat.drop(['name'], axis=1).columns):
    ax = plt.subplot(2,2,i+1)
    sns.countplot(data=df_cat,x=cat, order=df_cat[cat].value_counts().index)
    ax.set_xlabel(None)
    ax.set_title(f'Distribution of {cat}')
    plt.tight_layout()

plt.show()

In [None]:
# Cálculo da proporción das clases dominantes en relación co resto da súa categoría
for i,cat in enumerate(df_cat.drop(['name'], axis=1).columns):
    val_counts = df_cat[cat].value_counts()
    dominant_frac = val_counts.iloc[0] / num_rows
    print(f'`{val_counts.index[0]}` contribúe por si sóa nun {round(dominant_frac * 100, 2)}% de {cat}')

In [None]:
# Funcionamento de value_counts
# df_cat.cylinders.value_counts()

In [None]:
# NOVA INFORMACIÓN EXTRAÍDA DA ANÁLISE  -- Insights

# - Orixe desequilibrado en favor de usa, maior que a suma dos competidores
# - Cilindros desequilibrado en favor de 4
# - mpg_level (que fixemos categórica) desequilibrio en favor de medium (que é un rango maior)
# - model_year -> equilibrado

In [None]:
# analizar os nomes dos modelos 'name'
print(f'Número de categorías diferentes en  `name`: {df_cat.name.nunique()}')
print(f"\nListaxe de categorías en `name`:\n\n {df_cat.name.unique()}")

In [None]:
# Os nomes inclúen a marca!

# Podemos extraer a marca/compañía de `name` , coa intención de crear unha nova categoría 
df_cat['car_company'] = df_cat['name'].apply(lambda x: x.split()[0])

# Eliminamos a Compañía e deixamos só o modelo
df_cat['car_name'] = df_cat['name'].apply(lambda x: ' '.join(x.split()[1:]))
df_cat.drop('name', axis=1, inplace=True)

cats.extend(['car_company', 'car_name'])
cats.remove('name')

print(f'Variables categóricas:  {cats}')
df_cat.head()

In [None]:
# Investigamos as categorías en `car_company`
print(f'Número de categorías en `car_company`: {df_cat.car_company.nunique()}')
print(f"\nListaxe de categorías en `car_company`:\n\n {df_cat.car_company.unique()}")

In [None]:
# Agora xa podemos analizar a distribución dos datos en función da marca/compañía
fig = plt.figure(1, (18, 4))

ax1 = plt.subplot(1,1,1)
sns.countplot(data=df_cat,x='car_company', order=df_cat['car_company'].value_counts().index)
ax1.set_xticklabels(ax1.get_xticklabels(), rotation=75)

plt.show()

In [None]:
df_cat.car_company.value_counts()[:2]

In [None]:
# NOVA INFORMACIÓN EXTRAÍDA DA ANÁLISE  -- Insights

# - car_name ten demasiadas categorías, practicamente unha por liña, polo que non nos daría ningunha información útil
# - creamos unha nova variable 'car_company' para as marcas dos coches, reducindo en gran medida o número de categorías
# - a distribución de car_company non é uniforme e poucas compañías abarcan a maior parte dos modelos de coche

In [None]:
# CONCLUSIÓNS

# * Todos os atributos categóricos (excepto model_year) están moi desbalanceados e lonxe da distribución uniforme.
# * En todos os datos concéntranse en poucas categorías

In [None]:
# Recordamos o índice:

# Fases do EDA
# 1. Preprocesar os datos
# 2. EDA sobre atributos categóricos: analizar distribución e relacións con outros categóricos
# 3. EDA sobre atributos numéricos: analizar distribució e relacións con outros numéricos
# 4. Análise da relación entre categóricos e numéricos

# Seguiríamos no punto 2, na parte de buscar relacións entre variable categóricas

In [None]:
import itertools
combos = itertools.combinations(['origin', 'cylinders', 'mpg_level'], 2)

fig = plt.figure(1, (18, 8))

i = 0
for pair in combos:
#     i+=1
#     ax = plt.subplot(2,3,i)
#     sns.countplot(x=pair[0], hue=pair[1], data=df_cat)
#     ax.set_xlabel(None)
#     ax.set_title(f'{pair[0]} bifurcated by {pair[1]}')
#     plt.tight_layout()

    i+=1
    ax = plt.subplot(2,3,i)
    sns.countplot(x=pair[1], hue=pair[0], data=df_cat)
    ax.set_xlabel(None)
    ax.set_title(f'{pair[1]} bifurcated by {pair[0]}')
    plt.tight_layout()


In [None]:
# CONCLUSIÓNS - Insights

# Pode apreciarse o desvalanceo das categorías

**Cilindros por orixe**
- Xapón é a única orixe con vehículos de 3 cilindros
- Europa é a única orixe con vehículos de 5 cilindros
- USA é a única con vehículos de 8 cilindros
- Todas as orixes teñen vehículos de 4 cilindros mais ou menos na mesma proporción xa que é o máis común
- Toas as orixes teñen vechículos de 6 cindros, aínda que USA ten mais, pois é a que ten maior número de coches en total

**mpg_level por orixe**
- Xapón non ten vehículos de baixo mpg_level, Europa apenas e practicamente todos os dese nivel son de USA
- USA ten a maioría dos vehículos con nivel medio

**mpg_level por cilindros**
- Vehículos con baixo mpg_level teñen 6 ou 8 cilindros, principalmente 8
- Case todos os vehículos de alto mpg_level son de 4 cilindros


**Análise de cruzado das tres variables**

In [None]:
sns.catplot(x='mpg_level', hue='cylinders', col='origin', data=df_cat, kind='count')
plt.show()

**Insights**
- Xapón non ten vehículos con log mpg_level e a maioría teñen un high mpg_level, con 4 cilindros
- En Europa case todos os coches teñen mpg_level medio ou alto e son de 4 cilindros
- USA ten poucos coches con mpg_level alto en comparación con outras zonas, a pesar de que a maior parte dos datos son de USA

**Conclusións**
- Xapón sería a zona que ten maior proporción de coches cun alto mpg_level
- Parece que a medida que o número de cilindros aumenta o mpg_level diminúe (é dicir, consumen máis os coches de maior cilindrada)

#### Análise de 'model_year'

In [None]:
fig = plt.figure(1, (18,4))
sns.countplot(x='model_year', hue='mpg_level', data=df_cat)
sns.relplot(x='model_year', y='mpg', data=df)
plt.show()

**Insights**
- A medida que avanzan os anos baixa o número de modelos con low level (é dicir, coches de alto consumo) a ta que desaparecen no ano 79
- A medida que avanzan os anos medra o número de modelos con high level
- Non houbo cambios significativos na produción de modelos con medium level
- No scatter plot vese unha tendencia de aumento do nivel mpg a medida que pasan os anos

In [None]:
fig = plt.figure(1, (18,4))
sns.countplot(x='model_year', hue='cylinders', data=df_cat)
plt.show()

**Insights**
- A medida que pasan os anos descende o número de coches de 8 e 6 cilindros
- A medida que pasan os anos aumentan o número de coches con menos cilindros
- Os 4 cilindros impóñense como estándar coa maioría de modelos fabricados

In [None]:
fig = plt.figure(1, (18,4))
sns.countplot(x='model_year', hue='origin', data=df_cat)
plt.show()

**Insights**
- Nos primeiros anos USA domina o mercado con ampla diferenza
- A medida que pasan os anos, especialmente a partir do 80, Europa e Xapón aumentan a súa produción ante unha caída moi pronunciada de USA

#### Análise de 'car_company'

In [None]:
# Como vimos anteriormente, os modelos concéntranse en poucas marcas
fig = plt.figure(1, (18, 4))

ax1 = plt.subplot(1,1,1)
sns.countplot(data=df_cat,x='car_company', order=df_cat['car_company'].value_counts().index)
ax1.set_xticklabels(ax1.get_xticklabels(), rotation=75)

plt.show()

In [None]:
#Seleccionamos só un subconxunto das marcas con mais modelos
top_car_companies = df_cat.car_company.value_counts()[:15].index
top_car_companies

In [None]:
df_cat_top_comp = df_cat[df_cat.car_company.isin(top_car_companies)]
df_cat_top_comp.shape

In [None]:
fig = plt.figure(1, (18,12))

for i,cat in enumerate(['mpg_level', 'origin', 'cylinders']):
    ax = plt.subplot(3,1,i+1)
    sns.countplot(x='car_company', hue=cat, data=df_cat_top_comp)
    ax.set_xticklabels(ax.get_xticklabels(), rotation=75)
    plt.tight_layout()

**Insights**
- As compañías con máis modelos teñen vehículos con todos os niveis de consumo mentres que as compañías que teñen pouca producción céntranse nos modelos de alto ou medio consumo.
- A maoiría das empresas con máis producción son USA, e esa é unha das razóns polas que predominan os coches estadounidenses no dataset
- As compañías top céntranse en vechiculos con 4, 6 e 8 cilindros mentres que o resto céntranse en modelos de menos cilindros

In [None]:
# Ate este punto chega a análise das variables categórigas. Todos os atributos son de interese, excepto 'car_name'
# que podemos eliminar do dataset.
# A reducción de características é unha parte do proceso, eliminar os datos que non nos aportan información.

In [None]:
# Preparamos o dataframe para almacenalo antes de pasar ao seguinte punto da análise
df = pd.concat((df_cat.loc[:, 'origin':'car_company'], df.loc[:, 'mpg':'acceleration']), axis=1)
df.head()

In [None]:
# Gardamos os cambios a un novo ficheiro
df.to_csv('mpg_cated.csv', index=False)