# Objetivo y tareas a realizar
---
Algunos de los aspectos que se valorarán: 
- descripción de los datos (categóricos, nominales, vacíos, rangos de tiempo, etc.),
- transformaciones de datos realizadas (identificación y procesamiento de atributos o registros no existentes, normalización), 
- exploración de variables (rango de valores, dispersión, tendencia central con media o mediana, histograma), 
- medidas de correlación entre variables, 
- filtrar y graficar los datos correctamente.

1. Introduccion
   - Contexto
   - Objectivo: Que queremos predecir y porques
    
2. Cargar el *dataset precio_carb*  con Pandas
    
3. Realizar una **exploracion estadistica descriptiva** de los datos con Panda
   - Descripcion de las variables.
   - Correlacion 
   - Valores unicos ( Unique) , mas frecuentes ( top ) , frecuencia de valor mas comun (freq).
   - Inspeccion de balanceo varibales categoricas.
  
4. EDAS (Exploratory Data Analisys)   
   - Detectar valores nulos.
   - Corregir valores nulos.
   - Corregir tipos de datos.
   - Eliminar duplicados.
   - Identificar Outliers y tratarlos.
  
5. Visualizacion 
   - Univariante
   - Bivariante
   - Multivariante
  
6. Modelado
   - Probar *varios* modelos de Scikit Learn , para predecir la columna tip del dataset
   - Escalar las colu,nas numericas
   - Particionar los datos con *train_test_split*
   - Ver el mejor modelo

## 1. Indroduccion

Disponemos de un Data Set con los registro de los precio de los carburantes en las gasolinera de España y otras caracteristicas utiles.

## 2. Cargar el dataset

- Copiamos los datos en formato csv y lo colocamos en un nuevo archivo en el directorio (precio_carb.csv) 
- Importamos Pandas
- Leemos un primer muestro de 20 filas aleatoria, para visualizar el dataframe, sobretodo ver el Header.

In [3]:
import pandas as pd

df = pd.read_csv('precio_carb.csv')
print(df.sample(n=5))
print(df.head())

            Provincia       Municipio                 Localidad  \
1633  BALEARS (ILLES)       LLUCMAJOR                 LLUCMAJOR   
2785           BURGOS     FRANDOVÍNEZ               FRANDOVINEZ   
536          ALICANTE          PETRER                    PETRER   
8982       PONTEVEDRA            VIGO                      VIGO   
9853          SEVILLA  RINCONADA (LA)  SAN JOSE DE LA RINCONADA   

      Código postal                          Dirección Precio gasolina 95 E5  \
1633           7620  CARRETERA PALMA-PORTOPETRO KM. 23                 1,674   
2785           9230              AUTOVIA A-62 KM. 16,7                 1,579   
536            3610         AVENIDA DEL GUIRNEY, 2 BIS                 1,549   
8982          36216          AVENIDA GALICIA-TEIS, 165                 1,529   
9853          41300             CALLE MIGUEL SERVET, 2                 1,349   

     Precio gasóleo A Tipo venta Tipo servicio                Rótulo  
1633            1,629          P           Na

### Tipos de datos
- Averiguar tipos de datos, tamaño, etc

In [4]:
print(
    f"Numero de filas y columnas:{df.shape}\n"
    f"Numero total de elementos : {df.size}\n "
    )
print(df.dtypes.to_frame(name="Tipos de datos"))

Numero de filas y columnas:(11865, 10)
Numero total de elementos : 118650
 
                      Tipos de datos
Provincia                        str
Municipio                        str
Localidad                        str
Código postal                  int64
Dirección                        str
Precio gasolina 95 E5            str
Precio gasóleo A                 str
Tipo venta                       str
Tipo servicio                    str
Rótulo                           str


- tenemos variables con tipos erroneos

### No nulos

In [5]:
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 11865 entries, 0 to 11864
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype
---  ------                 --------------  -----
 0   Provincia              11865 non-null  str  
 1   Municipio              11865 non-null  str  
 2   Localidad              11865 non-null  str  
 3   Código postal          11865 non-null  int64
 4   Dirección              11865 non-null  str  
 5   Precio gasolina 95 E5  10702 non-null  str  
 6   Precio gasóleo A       11498 non-null  str  
 7   Tipo venta             11865 non-null  str  
 8   Tipo servicio          10803 non-null  str  
 9   Rótulo                 11865 non-null  str  
dtypes: int64(1), str(9)
memory usage: 927.1 KB


- las columnas Precio gasolina / Precio gasoleo / Tipo Servicio presentan datos faltante

- la serie Precio Gasolina y Precio Gasoleo se definen como string
  cambiamos a tipo float.

#### Ver nombres de las columnas

In [6]:
print(df.columns.tolist())

['Provincia', 'Municipio', 'Localidad', 'Código postal', 'Dirección', 'Precio gasolina 95 E5', 'Precio gasóleo A', 'Tipo venta', 'Tipo servicio', 'Rótulo']


#### Remplazar tipo de datos
- los valores de las columans Precio Gasolina y Precio Gasoleo utilizan la , en vez de . y panda lo reconoce como string.
- utilizamos 

In [7]:
cols = ['Precio gasolina 95 E5', 'Precio gasóleo A']
for c in cols:
    ## astype convierte los valores de la columna a tipo string 
    ## es necesario porque .str.repalace solo funciona con texto
    ## reemplaza todas las , por . 
    ## regex=false indica qeu no se esta usando una expresion regular 

    df[c]=df[c].astype(str).str.replace(',','.', regex=False) 

    ## errors = coerce  indica que si encuentra algo que no lo puede convertir lo convierte a NaN
    df[c]=pd.to_numeric(df[c], errors='coerce')

print(df.dtypes.to_frame(name="Tipos de datos"))

                      Tipos de datos
Provincia                        str
Municipio                        str
Localidad                        str
Código postal                  int64
Dirección                        str
Precio gasolina 95 E5        float64
Precio gasóleo A             float64
Tipo venta                       str
Tipo servicio                    str
Rótulo                           str


#### Descripcion estadisticos principales

In [8]:
print(df.describe())

       Código postal  Precio gasolina 95 E5  Precio gasóleo A
count   11865.000000           10702.000000      11498.000000
mean    25413.898272               1.532225          1.480451
std     14476.124512               0.097820          0.107933
min      1002.000000               1.037000          1.037000
25%     12006.000000               1.469000          1.397000
50%     27246.000000               1.559000          1.519000
75%     38002.000000               1.599000          1.569000
max     52006.000000               2.299000          2.259000


- en estos datos podemos ver que la media (mean) y la mediana (50%) son practicamente pareciddos en las variables Precio Gasolina y Gasoleo 
  por lo tanto no hay practicamente asimetria y los outlier que podemos deducir ( min y max respecto a mediana) no estan afectando mucho a la distribucion. 

#### Rangos intercuartilico  IQR

In [20]:
for columna in ['Precio gasolina 95 E5', 'Precio gasolina 95 E5']:
    q1 = df[columna].quantile(0.25)
    q3 = df[columna].quantile(0.75)
    iqr = q3 - q1

    limite_inferior = q1 - 1.5 * iqr
    limite_superior = q3 + 1.5 * iqr

    print(f"\n{columna}")
    print(f"IQR: {iqr}")
    print(f"Límites: [{limite_inferior}, {limite_superior}]")


Precio gasolina 95 E5
IQR: 0.1299999999999999
Límites: [1.2740000000000002, 1.7939999999999998]

Precio gasolina 95 E5
IQR: 0.1299999999999999
Límites: [1.2740000000000002, 1.7939999999999998]


#### Moda
- describimos la frecuencia para las columnas de [ Provincia, TipoVenta , Tipo Servicio]

In [None]:
df_moda = pd.DataFrame({    
    'Moda_Provincia': df['Provincia'].mode(),                      
    'Moda_Tipo Venta': df['Tipo venta'].mode(),
    'Moda_Tipo Servicio': df['Tipo servicio'].mode()
})

df_moda

Unnamed: 0,Provincia,Tipo Venta,Tipo Servicio
0,MADRID,P,A


In [None]:
def moda_y_total(col): 
    moda = col.mode()[0]
    total = col.value_counts()[moda] 
    return pd.Series({'Moda': moda, 'Total': total}) 

df_resumen = pd.DataFrame({ 
    'Provincia': moda_y_total(df['Provincia']),
      'Tipo Venta': moda_y_total(df['Tipo venta']), 
      'Tipo Servicio': moda_y_total(df['Tipo servicio']) }).T 

df_resumen

Unnamed: 0,Moda,Total
Provincia,MADRID,852
Tipo Venta,P,11105
Tipo Servicio,A,8098


#### Columnas con nulos
- solo columnas con nulos

In [None]:
# creamos un nuevo df donde ponemos un dicionario indicando la columna y la funcion

df_nulos = pd.DataFrame({    
    'nulos': df.isna().sum(),                        # mustra la suma de los nulos contenidos en las columnas 
    'porcentaje': (df.isna().mean() * 100).round(2)  # muestra el porcentaje con dos decimales
})

df_nulos = df_nulos[df_nulos['nulos'] > 0]

df_nulos


Unnamed: 0,nulos,porcentaje
Precio gasolina 95 E5,1163,9.8
Precio gasóleo A,367,3.1
Tipo servicio,1062,9.0
