In [None]:
import pandas as pd
import json

f = open("../", "r")        #r significa read
data_json = json.load(f)
f.close()

df = pd.DataFrame.from_dict(data_json)

In [None]:
!pip install pyjokes  #ejemplo de instalación de paquete

Collecting pyjokes
  Downloading https://files.pythonhosted.org/packages/6a/0e/4a824a4fc93b9725a985fcea7115927b72f2ca6966008300a982cb869720/pyjokes-0.6.0-py2.py3-none-any.whl
Installing collected packages: pyjokes
Successfully installed pyjokes-0.6.0


# Reto 1: Series

In [None]:
import pandas as pd

ejecutivo_1 = 'Marco P.'
ejecutivo_2 = 'Jenny'
ejecutivo_3 = 'Britney Baby'
ejecutivo_4 = 'Pepe Guardabosques'
ejecutivo_5 = 'Lombardo El Destructor'

sueldos = pd.Series([1000,2000,3000,4000,2000], index= [ejecutivo_1, ejecutivo_2, ejecutivo_3, ejecutivo_4, ejecutivo_5])

In [None]:
print('== Sueldos de los principales ejecutivos de EyePoker Inc. ==\n')

print(f'{("Ejecutivo"):25} | {("Sueldo")}')
print('----------------------------------------')
print(f'{ejecutivo_1:25} | ${(sueldos.loc[ejecutivo_1])} MXN')
print(f'{ejecutivo_2:25} | ${(sueldos.loc[ejecutivo_2])} MXN')
print(f'{ejecutivo_3:25} | ${(sueldos.loc[ejecutivo_3])} MXN')
print(f'{ejecutivo_4:25} | ${(sueldos.loc[ejecutivo_4])} MXN')
print(f'{ejecutivo_5:25} | ${(sueldos.loc[ejecutivo_5])} MXN')

== Sueldos de los principales ejecutivos de EyePoker Inc. ==

Ejecutivo                 | Sueldo
----------------------------------------
Marco P.                  | $1000 MXN
Jenny                     | $2000 MXN
Britney Baby              | $3000 MXN
Pepe Guardabosques        | $4000 MXN
Lombardo El Destructor    | $2000 MXN


# Reto 2: Indexación de Series

In [None]:
import pandas as pd

gastos_mensuales = {
    'A': 15000,
    'B': 200000,
    'C': 3250000,
    'D': 120000,
    'E': 135000,
    'F': 55000,
    'G': 100000,
    'H': 25000
}

gastos_serie = pd.Series(gastos_mensuales)

gastos_serie

A      15000
B     200000
C    3250000
D     120000
E     135000
F      55000
G     100000
H      25000
dtype: int64

In [None]:
# Los gastos de la división 'D' y 'G'
gastos_D_G = gastos_serie.loc[['D','G']]

# Los gastos de la división 'A' y 'E'
gastos_A_E = gastos_serie.loc[['A','E']]

# Los gastos de la división 'B', 'F' y 'H'
gastos_B_F_H = gastos_serie.loc[['B','F','H']]

# Los gastos desde la primera división hasta la división 'E'
gastos_principio_a_E = gastos_serie.loc[:'E']

# Los gastos desde la división 'D' hasta la 'G'
gastos_D_a_G = gastos_serie.loc['D':'G'] 

# Los gastos desde la división 'C' hasta el la última división
gastos_C_a_final = gastos_serie.loc['C':]

In [None]:
def revisar_indexaciones(gastos_serie, gastos_D_G, gastos_A_E, gastos_B_F_H, gastos_principio_a_E, gastos_D_a_G, gastos_C_a_final):
    
    print(f'== Revisión de Indexaciones ==\n')
    print(f"{'Indexación':30} | {'Resultado':15} | {'Suma esperada ':15} | {'Suma recibida ':15}")
    print("-"*85)
    revisar_indexacion(gastos_serie.loc[['D', 'G']], gastos_D_G, 'División D y G')
    revisar_indexacion(gastos_serie.loc[['A', 'E']], gastos_A_E, 'División A y E')
    revisar_indexacion(gastos_serie.loc[['B', 'F', 'H']], gastos_B_F_H, 'División B, F y H')
    revisar_indexacion(gastos_serie.loc[:'E'], gastos_principio_a_E, 'Desde primera División a E')
    revisar_indexacion(gastos_serie.loc['D':'G'], gastos_D_a_G, 'División D y G')
    revisar_indexacion(gastos_serie.loc['C':], gastos_C_a_final, 'División C a última División')

def formatear_precio(precio):
    return f"${precio} MXN"
    
def revisar_indexacion(esperada, recibida, nombre):
    es_correcta = 'Correcta' if esperada.equals(recibida) else 'Incorrecta'
    suma_esperada = formatear_precio(sum(esperada))
    suma_recibida = formatear_precio(sum(recibida))
    print(f"{nombre:30} | {es_correcta:15} | {suma_esperada:15} | {suma_recibida:15}")

revisar_indexaciones(gastos_serie, gastos_D_G, gastos_A_E, gastos_B_F_H,
                         gastos_principio_a_E, gastos_D_a_G, gastos_C_a_final)

== Revisión de Indexaciones ==

Indexación                     | Resultado       | Suma esperada   | Suma recibida  
-------------------------------------------------------------------------------------
División D y G                 | Correcta        | $220000 MXN     | $220000 MXN    
División A y E                 | Correcta        | $150000 MXN     | $150000 MXN    
División B, F y H              | Correcta        | $280000 MXN     | $280000 MXN    
Desde primera División a E     | Correcta        | $3720000 MXN    | $3720000 MXN   
División D y G                 | Correcta        | $410000 MXN     | $410000 MXN    
División C a última División   | Correcta        | $3685000 MXN    | $3685000 MXN   


# Reto 3: DataFrames

In [None]:
import pandas as pd

datos_productos = {
    "nombre": ["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"],
    "precio": [10000, 5500, 3500, 750, 15500, 12250, 23000],
    "peso": [1.2, 1.5, 2.3, 5.5, 3.4, 2.4, 8.8],
    "capacidad de destrucción retinal": [3, 7, 6, 8, 9, 2, 10],
    "disponible": [True, False, True, True, False, False, True]
}

indice = [1, 2, 3, 4, 5, 6, 7]

In [None]:
df_productos = pd.DataFrame(datos_productos, indice)
df_productos

Unnamed: 0,nombre,precio,peso,capacidad de destrucción retinal,disponible
1,Pokemaster,10000,1.2,3,True
2,Cegatron,5500,1.5,7,False
3,Pikame Mucho,3500,2.3,6,True
4,Lazarillo de Tormes,750,5.5,8,True
5,Stevie Wonder,15500,3.4,9,False
6,Needle,12250,2.4,2,False
7,El AyMeDuele,23000,8.8,10,True


In [None]:
# Quiero un DataFrame que contenga los productos "Pikame Mucho" y "Stevie Wonder"
pm_sw = df_productos.loc[[3, 5]]

# Quiero un DataFrame que contenga desde el producto #4 hasta el último
p4_final = df_productos.loc[4:]

# Quiero un DataFrame que contenga los productos "El AyMeDuele", "Lazarillo de Tormes" y "Needle"
amd_lt_n = df_productos.loc[[7,4,6]]

# Quiero un DataFrame que contenga desde el primer producto hasta el producto #5
primer_p5 = df_productos.loc[:5]

# Quiero un DataFrame que contenga los productos "Pikame Mucho" y "Lazarillo de Tormes", pero sólo con las columnas "nombre", "precio" y "peso"
pm_lt_pp = df_productos.loc[[3,4],["nombre","precio","peso"]]

# Quiero un DataFrame que contenga todos los productos pero con sólo las columnas 'nombre', 'precio' y 'capacidad de destrucción retinal'
t_pcdr = df_productos.loc[:,["nombre","precio","capacidad de destrucción retinal"]]

# Quiero un DataFrame que contenga desde el producto #3 hasta el #6, pero sólo las columnas 'nombre', 'precio' y 'disponible'
p3_p6_pd = df_productos.loc[3:6,["nombre","precio","disponible"]]

In [None]:
def verificar_indexaciones(datos_productos, indice, df_productos, pm_sw, p4_final, amd_lt_n, primer_p5, pm_lt_pp, t_pcdr, p3_p6_pd):
    
    import pandas as pd
    
    df_productos_esperado = pd.DataFrame(datos_productos, index=indice)
    if not df_productos_esperado.equals(df_productos):
        print(f'df_productos ha sido creado incorrectamente ... Favor de revisar')
        return
    
    print(f'== Verificación de Indexaciones ==\n')
    verificar_indexacion(df_productos.loc[[3, 5]], pm_sw, 'DataFrame que contenga los productos "Pikame Mucho" y "Stevie Wonder"')
    verificar_indexacion(df_productos.loc[4:], p4_final, 'DataFrame que contenga desde el producto #4 hasta el último')
    verificar_indexacion(df_productos.loc[[7, 4, 6]], amd_lt_n, 'DataFrame que contenga los productos "El AyMeDuele", "Lazarillo de Tormes" y "Needle"')
    verificar_indexacion(df_productos.loc[:5], primer_p5, 'DataFrame que contenga desde el primer producto hasta el producto #5')
    verificar_indexacion(df_productos.loc[[3, 4], ['nombre', 'precio', 'peso']], pm_lt_pp, 'DataFrame que contenga los productos "Pikame Mucho" y "Lazarillo de Tormes", pero sólo con las columnas "nombre", "precio" y "peso"')
    verificar_indexacion(df_productos[['nombre', 'precio', 'capacidad de destrucción retinal']], t_pcdr, "DataFrame que contenga todos los productos pero con sólo las columnas 'nombre', 'precio' y 'capacidad de destrucción retinal'")
    verificar_indexacion(df_productos.loc[3:6, ['nombre', 'precio', 'disponible']], p3_p6_pd, "DataFrame que contenga desde el producto #3 hasta el #6, pero sólo las columnas 'nombre', 'precio' y 'disponible'")
    
def verificar_indexacion(esperada, recibida, descripcion):
    es_correcta = "Correcto" if esperada.equals(recibida) else "Incorrecto"
    respuesta = "Muchas gracias!" if es_correcta == "Correcto" else "Favor de revisar"
    print(f"\n- Descripción de pedido: {descripcion}")
    print(f"El pedido es {es_correcta} ... {respuesta}")

verificar_indexaciones(datos_productos, indice, df_productos, pm_sw, p4_final, amd_lt_n, primer_p5, pm_lt_pp, t_pcdr, p3_p6_pd)

== Verificación de Indexaciones ==


- Descripción de pedido: DataFrame que contenga los productos "Pikame Mucho" y "Stevie Wonder"
El pedido es Correcto ... Muchas gracias!

- Descripción de pedido: DataFrame que contenga desde el producto #4 hasta el último
El pedido es Correcto ... Muchas gracias!

- Descripción de pedido: DataFrame que contenga los productos "El AyMeDuele", "Lazarillo de Tormes" y "Needle"
El pedido es Correcto ... Muchas gracias!

- Descripción de pedido: DataFrame que contenga desde el primer producto hasta el producto #5
El pedido es Correcto ... Muchas gracias!

- Descripción de pedido: DataFrame que contenga los productos "Pikame Mucho" y "Lazarillo de Tormes", pero sólo con las columnas "nombre", "precio" y "peso"
El pedido es Correcto ... Muchas gracias!

- Descripción de pedido: DataFrame que contenga todos los productos pero con sólo las columnas 'nombre', 'precio' y 'capacidad de destrucción retinal'
El pedido es Correcto ... Muchas gracias!

- Descripció

# Reto 4: Manipulación de Columnas

In [None]:
import pandas as pd

datos_productos = {
    "nombre": ["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"],
    "precio": [10000, 5500, 3500, 750, 15500, 12250, 23000],
    "peso": [1.2, 1.5, 2.3, 5.5, 3.4, 2.4, 8.8],
    "capacidad de destrucción retinal": [3, 7, 6, 8, 9, 2, 10],
    "disponible": [True, False, True, True, False, False, True]
}

indice = [1, 2, 3, 4, 5, 6, 7]

df_productos = pd.DataFrame(datos_productos,indice)

In [None]:
# Agrega por favor una nueva columna a `df_productos_mas_columna_nueva` con el nombre de columna "nivel de dolor"
columna_nueva = [4, 7, 6, 8, 9, 7, 3]
df_productos_mas_columna_nueva = df_productos.copy()
df_productos_mas_columna_nueva["nivel de dolor"] = pd.Series(columna_nueva)

# Cambia por favor el `DataFrame` `df_productos_descuento` cambiando la columna `precio` por la información contenida en `precios_descuento`
precios_descuento = [8000, 4000, 2000, 500, 14000, 10000, 15000]
df_productos_descuento = df_productos.copy()
df_productos_descuento["precio"] = pd.Series(precios_descuento)

# Elimina por favor las columnas "precio" y "peso" de `df_productos` y asigna el resultado a `df_productos_sin_precio_ni_peso`
df_productos_sin_precio_ni_peso = df_productos.drop(columns=['precio','peso'])

In [None]:
def verificar_modificaciones(datos_productos, indice, df_productos, columna_nueva, df_productos_mas_columna_nueva, 
                             precios_descuento, df_productos_descuento, df_productos_sin_precio_ni_peso):
    
    import pandas as pd
    
    df_productos_esperado = pd.DataFrame(datos_productos, index=indice)
    if not df_productos_esperado.equals(df_productos):
        print(f'df_productos ha sido creado incorrectamente ... Favor de revisar')
        return
    
    print(f'== Verificación de Modificaciones ==\n')
    columna_nueva_serie = pd.Series(columna_nueva, index=indice)
    df_productos_mas_columna_nueva_2 = df_productos.copy()
    df_productos_mas_columna_nueva_2['nivel de dolor'] = columna_nueva_serie
    verificar_modificacion(df_productos_mas_columna_nueva_2, df_productos_mas_columna_nueva, 'Agrega por favor columna `columna_nueva` a `df_productos_mas_columna_nueva` con el nombre de columna "nivel de dolor"')
    
    precios_descuento_serie = pd.Series(precios_descuento, index=indice)
    df_productos_descuento_2 = df_productos.copy()
    df_productos_descuento_2['precio'] = precios_descuento_serie
    verificar_modificacion(df_productos_descuento_2, df_productos_descuento, 'Cambia por favor el `DataFrame` `df_productos_descuento` cambiando la columna `precio` por la información contenida en `precios_descuento`')
    
    df_productos_sin_precio_ni_peso_2 = df_productos.drop(columns=['precio', 'peso'])
    verificar_modificacion(df_productos_sin_precio_ni_peso_2, df_productos_sin_precio_ni_peso, 'Elimina por favor las columnas "precio" y "peso"')
    
def verificar_modificacion(esperada, recibida, descripcion):
    es_correcta = "Correcto" if esperada.equals(recibida) else "Incorrecto"
    respuesta = "Muchas gracias!" if es_correcta == "Correcto" else "Favor de revisar"
    print(f"\n- Descripción de pedido: {descripcion}")
    print(f"El pedido es {es_correcta} ... {respuesta}")

    

verificar_modificaciones(datos_productos, indice, df_productos, columna_nueva, df_productos_mas_columna_nueva, 
                             precios_descuento, df_productos_descuento, df_productos_sin_precio_ni_peso)

== Verificación de Modificaciones ==


- Descripción de pedido: Agrega por favor columna `columna_nueva` a `df_productos_mas_columna_nueva` con el nombre de columna "nivel de dolor"
El pedido es Incorrecto ... Favor de revisar

- Descripción de pedido: Cambia por favor el `DataFrame` `df_productos_descuento` cambiando la columna `precio` por la información contenida en `precios_descuento`
El pedido es Incorrecto ... Favor de revisar

- Descripción de pedido: Elimina por favor las columnas "precio" y "peso"
El pedido es Correcto ... Muchas gracias!


# Reto 5: Análisis Exploratorio de Datos

In [6]:
import pandas as pd
import json

f = open('/content/drive/MyDrive/Datasets/zomato_reviews-raw.json','r')
datajson = json.load(f)
f.close()

df = pd.DataFrame.from_dict(datajson)

In [10]:
#1. ¿Qué podemos saber de este dataset con tan sólo leer el nombre del archivo y los nombres de las columnas?
df.columns

Index(['results_found', 'restaurants', 'results_shown', 'results_start',
       'message', 'code', 'status'],
      dtype='object')

In [9]:
#2. ¿Cuál es el tamaño (forma) de nuestro DataFrame?
df.shape

(479, 7)

In [11]:
#¿Qué tipos de datos tenemos?
df.dtypes

results_found    float64
restaurants       object
results_shown    float64
results_start     object
message           object
code             float64
status            object
dtype: object