In [None]:
#Análisis exploratorio
import pandas as pd
df = pd.read_excel('ipc-julago2023.xlsx', sheet_name="1", skiprows=8)

In [None]:
df

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.info()

Explorando esta base de datos nos damos cuenta que:

Hay columnas no definidas: Unnamed.
Hay valores nulos en algunos campos.
El formato de fecha no es el adecuado.

Empezaremos el tratamiento básico

In [None]:
#Tratamiento Básico
df.columns

In [None]:
df.drop(['Año corrido'], axis=1, inplace=True)
#como no quiero trabajar con la columna 2 (variación año corrido de la inflación) la quitaré.
#axis=1 implica que el cambio se hará en una columna. axis=0 sería si el cambio fuera a una fila.
#inplace=True es para que el cambio se haga directamente en el dataframe.

In [None]:
df

In [None]:
# Eliminar todos los valores nulos del dataframe
df.dropna(inplace=True)

In [None]:
df

In [None]:
# Renombrar columnas
df.rename(columns={'Unnamed: 0': 'Fecha'}, inplace=True)
df.rename(columns={'Mensual': 'Inflación Mensual'}, inplace=True)
df.rename(columns={'Anual': 'Inflación Anual'}, inplace=True)

In [None]:
df

Ya hice el tratamiento para una parte de mi base de datos (la hoja "1", que contiene la inflación de Julio). Pero a mí me interesa realizar lo mismo para todas las hojas de mi base de datos, así que haré el mismo proceso para todas las que contiene (en este caso, julio y agosto). Esto es posible si o solo si el formato de ambos dataframes es el mismo. En caso de NO ser el mismo, tendremos que hacer un tratamiento adecuado para cada uno.

In [None]:
#Pasos
#Crear una lista con los nombres de las hojas
sheets = ['1' , '2']

In [None]:
#creo una lista vacia donde se van a almacenar las bases de datos para cada mes una vez termine el tratamiento
dfs = []


In [None]:
for sheet in sheets:
    # Leer hoja y saltar las primeras 8 filas
    df = pd.read_excel('ipc-julago2023.xlsx', sheet_name=sheet, skiprows=8)

    # Eliminar columna 'Año corrido'
    df.drop(['Año corrido'], axis=1, inplace=True)

    # Eliminar filas con valores nulos
    df.dropna(inplace=True)

   # Renombrar columnas
    df.rename(columns={'Unnamed: 0': 'Fecha'}, inplace=True)
    df.rename(columns={'Mensual': 'Inflación Mensual'}, inplace=True)
    df.rename(columns={'Anual': 'Inflación Anual'}, inplace=True)

    # Agregar DataFrame a la lista
    dfs.append(df)

#concateno los resultados y los guardo en mi lista vacia
df_final = pd.concat(dfs, ignore_index=True)
df_final

In [None]:
df_final['Diferencia'] = df_final['Inflación Anual'] - df_final['Inflación Mensual']

In [None]:
df_final

In [None]:
#variacion porcentual de precios
df_final['Variación'] = round((df_final['Inflación Anual'] 
- df_final['Inflación Mensual'])/df_final['Inflación Anual']*100 -100,2)

In [None]:
df_final

Ahora voy a graficar la variación porcentual de la inflación anual.

In [None]:
import matplotlib.pyplot as plt
# Suponiendo que tienes una columna 'Variación' en tu DataFrame df_final
variación = df_final['Variación']
# Crear un gráfico de líneas
plt.figure(figsize=(10, 6))  # Tamaño del gráfico opcional

# Graficar la variación porcentual
plt.plot(variación, marker='o', linestyle='-')

# Configurar etiquetas y título
plt.xlabel('Periodo')
plt.ylabel('Variación Porcentual')
plt.title('Variación Porcentual del IPC')

# Mostrar la gráfica
plt.grid(True)  # Mostrar una cuadrícula opcional
plt.tight_layout()  # Ajustar el diseño
plt.show()


Ahora haré otro tipo de gráficos para datos del Banco Mundial, otro de los repositorios de datos que les comenté.

In [None]:
import pandas as pd
df5=pd.read_stata('graduation_rate.dta')
#renombrar columnas
df5=df5.rename(columns={'AC20':'ACT_Composition_score','AC21':'SAT_Total_Score','AC22':'Parental_level_of_education','AC23':'Parental_income','AC24':'high_school_gpa','AC25':'collegue_gpa','AC26':'years_to_graduate'})
#explorar el dataset
#intentemos eliminar los valores nulos, con dropna de primeras no podremos, debemos cambiar algo ligeramente
df5=df5.replace('nan', None)
df5 = df5.dropna()
#convertir a tipo de números 
df5['ACT_Composition_score']=df5['ACT_Composition_score'].astype(int)
df5['SAT_Total_Score']=df5['SAT_Total_Score'].astype(int)
df5['Parental_income']=df5['Parental_income'].astype(int)
df5['high_school_gpa']=df5['high_school_gpa'].astype(float)
df5['collegue_gpa']=df5['collegue_gpa'].astype(float)
df5['years_to_graduate']=df5['years_to_graduate'].astype(int)
#Análisis
import matplotlib.pyplot as plt
plt.hist(df5['ACT_Composition_score'])
plt.title("Distribución de ACT")
plt.xlabel("ACT")
plt.ylabel("Frecuencia")
plt.show()

#summary
df5['ACT_Composition_score'].describe()
df5

#grafico de dispersion
plt.scatter(df5['high_school_gpa'], df5['ACT_Composition_score'])
plt.xlabel('high')
plt.ylabel('ACT')
plt.title('Gráfico de dispersión')
plt.show()