In [2]:
import psycopg2
import yaml
import pandas as pd
import seaborn as sns
import plotly.express as px
import matplotlib.pyplot as plt

# 7. Analisis con Pandas

**1. Ocupa la función get_db_conn() a través de la cuál obtenemos una conexión a la BD (postgres) con psycopg2 leyendo del archivo credentials.yaml (utilizando la función read_yaml()) las credenciales de acceso a la BD.**

In [1]:
def read_yaml_file(yaml_file):
    """ load yaml cofigurations """

    config = None
    try:
        with open(yaml_file, 'r') as f:
            config = yaml.safe_load(f)
    except:
        raise FileNotFoundError('Couldnt load the file')

    return config
def get_db_conn(creds_file):
    """ Get an authenticated psycopg db connection, given a credentials file"""
    creds = read_yaml_file(creds_file)['db']

    connection = psycopg2.connect(
        user=creds['user'],
        password=creds['pass'],
        host=creds['host'],
        port=creds['port'],
        database=creds['db']
    )

    return connection

db_conn = get_db_conn("./conf/local/credentials.yaml")

FileNotFoundError: Couldnt load the file

**2. Genera un query sql en donde obtengas el id_estacion, nombre, longitud, latitud, regular, preimum, diesel de todos los precios. <- Necesitarás un inner join.**

In [4]:
query="SELECT e.id_estacion, e.nombre, e.longitud, e.latitud, p.regular, p.premium, p.diesel FROM raw.estaciones e INNER JOIN raw.precios p on e.id_estacion = p.estacion_servicio;"
data = pd.read_sql(query, db_conn)

NameError: name 'db_conn' is not defined

**En vista de que no me puedo conectar a la base de datos de postgres lo hare a manita**

In [5]:
precios=pd.read_csv("precios.csv")
estaciones=pd.read_csv("estaciones.csv")
print(estaciones.head())
print(precios.head())

   id_estacion                                    nombre   latitud   longitud
0        23062              servicios plazas ap sa de cv  19.27859  -99.54836
1        20769                humberto de la cruz murias  16.68978  -93.71970
2        23063  servicios ecologicos mar caribe sa de cv  21.16699  -86.84862
3        23064             super servicio toloxasa de cv  19.04457  -98.37003
4        23065                   topgas j ortiz sa de cv  21.02812 -101.86280
   estacion_servicio  regular  premium  diesel
0               8775    19.97    22.47     NaN
1               8831    20.69    21.76   21.70
2              26541    15.89      NaN   19.09
3               3348    20.49    22.19     NaN
4               3969    20.76    22.57   22.77


In [6]:
data=pd.merge(precios,estaciones,left_on='estacion_servicio',right_on='id_estacion')
data

Unnamed: 0,estacion_servicio,regular,premium,diesel,id_estacion,nombre,latitud,longitud
0,8775,19.97,22.47,,8775,servicio automotriz xolasa de cv,19.39430,-99.14134
1,8831,20.69,21.76,21.70,8831,operadora la sabana sa de cv,16.83010,-99.75737
2,26541,15.89,,19.09,26541,combustibles de orientesa de cv,26.07270,-98.29295
3,3348,20.49,22.19,,3348,gasolineria valencianasa de cv,19.47174,-99.05446
4,3969,20.76,22.57,22.77,3969,comercializadora nandalumi sa de cv,16.77555,-93.10127
...,...,...,...,...,...,...,...,...
12649,11896,20.99,22.99,21.99,11896,gasolinera pirekua sa de cv,19.49753,-101.60020
12650,11897,20.74,22.90,,11897,servicio norte 45 sa de cv,19.49570,-99.15932
12651,11898,19.59,21.99,,11898,servicio lutronsa de cv,19.54331,-99.02317
12652,14539,19.81,20.80,20.10,14539,autoservicio anvales sa de cv,28.59577,-105.99860


## En Pandas

**Utilizando shape**


In [7]:
# cuantas observaciones tienes?
print("Se tienen " + str(data.shape[0]) + " observaciones")

Se tienen 12654 observaciones


**Utilizando is.na():**

In [8]:
# cuantas estaciones no tienen gasolina regular?
print(data['regular'].isna().sum())

64


In [9]:
# cuantas estaciones no tienen gasolina premium?
print(data['premium'].isna().sum())

901


In [10]:
# cuantas estaciones no tienen gasolina diesel?
print(data['diesel'].isna().sum())

3239


In [11]:
# cuantas estaciones solo tienen gasolina regular?
print(data[(data['premium'].isna()) & (data["diesel"].isna())].id_estacion.count())

123


In [12]:
# cuantas estaciones solo tienen gasolina regular y premium?
print(data[(data['regular'].notna()) & (data["premium"].notna()) & (data["diesel"].isna())].id_estacion.count())

3114


In [13]:
# cuantas estaciones solo tienen gasolina regual y diesel?
print(data[(data['regular'].notna()) & (data["diesel"].notna()) & (data["premium"].isna())].id_estacion.count())

718


In [14]:
# que estaciones (nombre) dieron gasolina premium "gratis" de acuerdo a los datos?
print('Segun los datos las siguientes estaciones dieron gasolina "gratis":')
print(data[data['premium']==0.0].nombre)

Segun los datos las siguientes estaciones dieron gasolina "gratis":
2246     comercializadora nlibjasa de cv  e09020
8433     comercializadora nlibjasa de cv  e09020
8570     comercializadora nlibjasa de cv  e09020
10744    comercializadora nlibjasa de cv  e09020
Name: nombre, dtype: object


In [15]:
# cuantas estaciones de gasolina venden de los 3 tipos de gasolina?
aux=data[['diesel', 'premium', 'regular']].dropna() 
print(str(aux.shape[0])+" estaciones venden de los 3 tipos de gasolina")

8635 estaciones venden de los 3 tipos de gasolina


**1. En caso que tus columnas  latitud  y  longitud  no cumplan con el formato de coordenadas geoespaciales: latitud debe
estar en una escala del 10 al 99 y longitud debe estar en el rango de 99 al 120; tendrás que convertirlas a ese rango**

A falta de especificacion con la palabra convertir, interpretare que si una latitud o longitud tiene un valor mayor al posible, lo bajare al valor maximo posible, de forma analoga, para valores menores de los posibles, los subire al valor minimo posible

In [16]:
lat=[]
for element in data["latitud"]:
    raw=str(element).replace("-", "")
    if not 10 < element:
        lat.append(element := 10)
    elif not element < 99:
        lat.append(element := 99)
    else:
        lat.append(element)
data["lat"]=pd.Series(lat, name="lat")
data["lat"]=pd.to_numeric(data["lat"])

In [18]:
lon=[]
for element in data["longitud"]:
    raw=str(element).replace("-", "")
    if not 99 < element:
        lon.append(element := 99)
    elif not element < 120:
        lon.append(element := 120)
    else:
        lon.append(element)
data["lon"]=pd.Series(lon, name="lon")
data["lon"]=pd.to_numeric(data["lon"])

In [19]:
# Eliminamos las columnas previas
data.drop(["latitud", "longitud"], axis=1, inplace=True)

In [20]:
#Genera un  describe() . Interpreta el significado de cada métrica en el  describe  para las columnas  regular, premium, diesel
data.describe()

Unnamed: 0,estacion_servicio,regular,premium,diesel,id_estacion,lat,lon
count,12654.0,12590.0,11753.0,9415.0,12654.0,12654.0,12654.0
mean,10042.227912,20.176058,22.204994,21.638612,10042.227912,22.352391,99.005136
std,6521.712131,1.337807,1.449679,1.214127,6521.712131,4.219054,0.224785
min,2039.0,11.71,0.0,0.0,2039.0,10.0,99.0
25%,5338.25,19.75,21.88,21.15,5338.25,19.39365,99.0
50%,8509.5,20.29,22.45,21.76,8509.5,20.683395,99.0
75%,12314.5,20.99,22.99,22.29,12314.5,25.545897,99.0
max,27600.0,25.05,26.06,29.29,27600.0,99.0,120.0


**Interpretacion:**

**count:** notamos que tenemos muchas mas estaciones que venden gasolina regular que premium y a su vez mas premium que diesel

**mean:** vemos que en promedio la gasolina premium es mas cara que la diesel y a su vez la diesel es mas cara que la regular

**std:** la desviacion estandar es una medida de variabilidad que nos permite ver cuanto fluctua un dato, en este caso el precio de cada gasolinera. Podemos ver que el que tiene mayor std es la gasolina premium, seguida de la regular y finalmente la diesel, lo cual es curioso porque la diesel a pesar de tener ciertos outliers como lo de venderla "gratis", esto probablemente se deba a subsidios del gobierno y la estabilidad producida por la naturaleza de las maquinas que la usan, como maquinaria pesada y traileres. Por otro lado la premium al no estar ligada a ningun bien esencial puede fluctuar mucho mas conforme a la ley de la oferta y la demanda

**min:** vemos que la gasolina premium y diesel tienen entradas en 0 pesos, lo cual significa que en se dio "gratis" a diferencia de la regular que siempre tuvo un costo 

**cuartiles:**
todos tienen la particularidad de que el mayor precio siempre es el de premium seguido de diesel y despues regular

**25%:** vemos que el mayor es el premium, seguido de diesel y despues regular, lo cual nos dice que un cuarto de las gasolineras dieron precios menores a estos

**50%:** analogo al de 25 notamos que un medio de las gasolineras dieron precios menores a estos, siendo el mayor la gasolina premium, seguida de diesel y finalmente regular

**75%:** analogo al de 25 y 50 notamos que un tres cuartos de las gasolineras dieron precios menores a estos, siendo el mayor la gasolina premium, seguida de diesel y finalmente regular

**max:** vemos que si bien en promedio la gasolina premium es mas cara que la diesel, en cierto momento, el precio de la gasolina diesel supero el maximo de precios de la gasolina premium, a su vez vemos que el precio maximo de la gasolina regular es menor a los dos anteriores


In [22]:
#Cuál es la estación de gasolina -nombre y coordenadas- con el precio más caro de gasolina regular
data[data["regular"]==data.regular.max()][["nombre", "lon", "lat"]]

Unnamed: 0,nombre,lon,lat
712,combustibles aja sa de cv,99.0,19.06049
3193,combustibles resurgimiento sa de cv,99.0,19.04007
4587,combustibles jv sa de cv,99.0,19.03503


In [24]:
#Cuál es la estación de gasolina -nombre y coordenadas- con el precio más caro de gasolina premium
data[data["premium"]==data.premium.max()][["nombre", "lon", "lat"]]

Unnamed: 0,nombre,lon,lat
712,combustibles aja sa de cv,-98.21723,19.06049
3193,combustibles resurgimiento sa de cv,-98.18135,19.04007
4587,combustibles jv sa de cv,-98.1857,19.03503


In [26]:
#Cuál es la estación de gasolina -nombre y coordenadas- con el precio más caro de gasolina diesel
data[data["diesel"]==data.diesel.max()][["nombre", "lon", "lat"]]

Unnamed: 0,nombre,lon,lat
11189,surtilago gasolineriassa de cv,-101.2121,19.7268


In [27]:
#Cuál es la estación de gasolina -nombre y coordenadas- con el precio más barato de gasolina regular
data[data["regular"]==data.regular.min()][["nombre", "lon", "lat"]]

Unnamed: 0,nombre,lon,lat
4905,energeticos del valle sa de cv,-98.08273,25.98355


In [28]:
#Cuál es la estación de gasolina -nombre y coordenadas- con el precio más barato de gasolina premium
data[data["premium"]==data.premium.min()][["nombre", "lon", "lat"]]

Unnamed: 0,nombre,lon,lat
2246,comercializadora nlibjasa de cv e09020,-97.4374,25.83686
8433,comercializadora nlibjasa de cv e09020,-97.5022,25.71633
8570,comercializadora nlibjasa de cv e09020,-97.4365,25.78265
10744,comercializadora nlibjasa de cv e09020,-97.55154,25.87252


In [31]:
#Cuál es la estación de gasolina -nombre y coordenadas- con el precio más barato de gasolina diesel
data[data["diesel"]==data.premium.min()][["nombre", "lon", "lat"]]

Unnamed: 0,nombre,lon,lat
1971,bp estaciones y servicios energeticossa de cv,-117.0545,32.366


**1. Debido a que estamos en CDMX -> verifica las latitudes y longitudes posibles de la CDMX <-, ¿a qué estación de gasolina -nombre y coordenadas- deberíamos ir a llenar el tanque para cada tipo de gasolina? (no importa la distancia)**

asumiendo que la que nos conviene es la mas barata

In [26]:
# gasolineras en cdmx
gas_en_cdmx=data[(19.05 < data["lat"]) & (data["lat"] < 19.6) & (98.95 < data["lon"]) & (data["lon"] < 99.36)]

In [27]:
# regular en cdmx
gas_en_cdmx[gas_en_cdmx.regular == gas_en_cdmx.regular.min()][["nombre", "lat", "lon"]]

Unnamed: 0,nombre,lat,lon
9550,mega gasolineras sa de cv,19.40282,99.0


In [28]:
# premium en cdmx
gas_en_cdmx[gas_en_cdmx.premium == gas_en_cdmx.premium.min()][["nombre", "lat", "lon"]]

Unnamed: 0,nombre,lat,lon
336,miguel angel cuatepitzi juarez,19.25383,99.0
499,oil services tres sa de cv,19.33812,99.0
9874,miguel angel cuatepitzi juarez,19.21232,99.0


In [31]:
# diesel en cdmx
gas_en_cdmx[gas_en_cdmx.diesel == gas_en_cdmx.diesel.min()][["nombre", "lat", "lon"]]

Unnamed: 0,nombre,lat,lon
7905,multiservicios pova sa de cv,19.48043,99.0


**De este subconjunto, genera un data frame que nos diga ¿cuántas estaciones de gasolina venden cada tipo de gasolina? Toma el tipo de gasolina como independiente, es decir, una estación puede vender de las 3 gasolinas, en este caso aparacerá en cada conteo, tanto para el regular como para el premium como para el diesel.**

In [32]:
# cuantas estaciones de gasolina venden regular?
gas_en_cdmx.regular.notna().sum()

1899

In [33]:
# cuantas estaciones de gasolina venden premium?
gas_en_cdmx.premium.notna().sum()

1829

In [34]:
# cuantas estaciones de gasolina venden diesel?
gas_en_cdmx.diesel.notna().sum()

1375

**1. Genera un nuevo data frame que junte las columnas regular, premium, diesel en dos nuevas columnas: tipo_gasolina y precio, la primera se llena con el tipo de gasolina: regular, premium, diesel y la segunda con el valor correspondiente al precio.**

In [35]:
data_tipo_gasolina = data.melt(id_vars='id_estacion', value_vars=["regular", "premium", "diesel"], var_name="tipo_gasolina", value_name="precio")
data_tipo_gasolina

Unnamed: 0,id_estacion,tipo_gasolina,precio
0,8775,regular,19.97
1,8831,regular,20.69
2,26541,regular,15.89
3,3348,regular,20.49
4,3969,regular,20.76
...,...,...,...
37957,11896,diesel,21.99
37958,11897,diesel,
37959,11898,diesel,
37960,14539,diesel,20.10


In [36]:
# Utilizando shape, cuantas observaciones tienes?
print("Se tienen " + str(data_tipo_gasolina.shape[0]) + " observaciones")

Se tienen 37962 observaciones


In [37]:
#Genera un describe(). Interpreta el significado de cada métrica en el describe 
#para la columna precio. ¿Cómo cambian las estadísticas?
data_tipo_gasolina.describe()

Unnamed: 0,id_estacion,precio
count,37962.0,33758.0
mean,10042.227912,21.290343
std,6521.540329,1.611937
min,2039.0,0.0
25%,5338.0,20.42
50%,8509.5,21.5
75%,12315.0,22.39
max,27600.0,29.29


**Interpretacion:**

**count:** tenemos mas entradas de ids que de precios, lo cual nos dice que hay algunos NA

**mean:** ahora tenemos el promedio de todas los precios de todos los tipos de gasolina, el cual se acerca al de diesel naturalmente porque esta en entre los otros dos

**std:** vemos ahora la std de todas las gasolinas, la cual es bastante mayor que cualquiera de ellas individualmente, esto probablemente debido a que por naturaleza de los precios de cada tipo de gasolina, la discrepancia entre estas es mayor 

**min:** el menor como es de esperarse es gratis, pues el de premium y diesel fue tambien gratis

**cuartiles:** los cuartiles parece como si se hubiese tomado un promedio de los cuartiles de cada uno de los tipos de gasolina

**max:** el mayor es como era de esperarse el mayor entre los maximos de cada tipo de gasolina