In [1]:
# ==================================================
# PASO 1: Básicos para empezar con datos. Listas, Diccionarios, Sets y Tuplas.
# ==================================================


# LISTAS
numbers = [10, 20, 30, 40, 50]
print("Lista:", numbers)
print("Media:", sum(numbers)/len(numbers))

# DICCIONARIOS
ages = {"Alice": 25, "Bob": 30, "Charlie": 22}
print("Diccionario:", ages)
print("Edad promedio:", sum(ages.values())/len(ages))

# SETS
fruits = ["apple", "banana", "apple", "orange"]
unique_fruits = set(fruits)
print("Conjunto único de frutas:", unique_fruits)

# TUPLAS como clave en diccionario
coords = (10, 20)
locations = {coords: "Parque"}
print("Diccionario con tupla como clave:", locations)

Lista: [10, 20, 30, 40, 50]
Media: 30.0
Diccionario: {'Alice': 25, 'Bob': 30, 'Charlie': 22}
Edad promedio: 25.666666666666668
Conjunto único de frutas: {'orange', 'banana', 'apple'}
Diccionario con tupla como clave: {(10, 20): 'Parque'}


In [17]:
#PRÁCTICA

#LISTA
numeros = [2,2,3,3,3,4,4,4,4,5,5,5,6,2,3,9,6]
print("Lista:",numeros)
print("Media:",sum(numeros)/len(numeros))

#DICCIONARIOS
asignaturas = {"Lengua": 6, "Inglés": 9, "Programación": 8}
print("Asignaturas:",asignaturas)
print("Media de Notas:", sum(asignaturas.values())/len(asignaturas))

#SETS
colores = ["rojo","rojo","amarillo","azul","azul"]
colores_unicos = set(colores)
print("colores unicos:", colores_unicos)

#TUPLAS
sabor = ("fresa","vainilla")
bebida = {sabor:"batidos"}
print("Diccionario con tupla como clave:", bebida)

Lista: [2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 2, 3, 9, 6]
Media: 4.117647058823529
Asignaturas: {'Lengua': 6, 'Inglés': 9, 'Programación': 8}
Media de Notas: 7.666666666666667
colores unicos: {'amarillo', 'rojo', 'azul'}
Diccionario con tupla como clave: {('fresa', 'vainilla'): 'batidos'}


In [24]:
# ==================================================
# PASO 2: DataFrame con pandas y numpy
# ==================================================

# Importamos pandas y numpy para trabjar en este ejercicio

import pandas as pd
import numpy as np

# Vamos a trabajar con los siguientes datos que es un diccionario de listas.
data = {
    "id": range(1, 11),
    "categoria": ["A","B","A","A","B","C","B","A","C","B"],
    "valor": [10, 20, 30, None, 50, 60, 70, 80, 90, 100]
}

#Convertimos nuestro diccionario de listas en un conjunto de datos, donde cada clave será una columna.
df = pd.DataFrame(data)
df_raw = pd.DataFrame(data)

# ==================================================
# Paso 2.2: Explorar datos
# ==================================================

#Ahora, con df.Head(), vemos los primeros 5 registros de nuestra tabla.
df.head()
#Para obtener información general del dataframe
df.info()

#Para obtener estadísticas descriptivas de la columna "valor"
df["valor"].describe()

# ==================================================
# Paso 2.3: Limpiar datos (rellenar valores nulos)
# ==================================================

#Para revisar los valores nulos por columna
df.isna().sum()

#Rellenamos el valor nulo de la columna valor con la mediana
df["valor"] = df["valor"].fillna(df["valor"].median())

#Revisamos de nuevo los valores nulos
df.isna().sum()

#Mostramos el dataframe para ver
df.head(10)

# ==================================================
# Paso 2.4: Crear columna derivada 'valor_log'
# ==================================================

#Creamos una columna derivada para hacer logarirmo de valor. Esto sirve cuando tenemos dataframes con datos muy sesgados, por ejemplo que vayan de 0 a 1millon, y la diferencia entre ellos en graficos no se vea tan aplastatant y resulta mas fácil el analisis.
df["valor_log"] = np.log1p(df["valor"])

#Mostramos el dataframe actualizado
df

# ==================================================
# Paso 2.5: Agrupar por categoría y calcular métricas
# ==================================================

#Vamos a agrupar por categoria y luego calcular la media de los valores de cada categoria y contar cuantos registros tienen cada categoría. Y lo metemos en un nuevo dataframa llamado "agrupados".
agrupados = df.groupby("categoria").agg({"valor":["mean","count"]})

#Mostramos el datafram
agrupados

# ==================================================
# Paso 2.6: Filtrar filas según condición
# ==================================================

#Vamos a filtrar por una condición y esa filtración la guardamos en un nuevo dataframe.
df_filtrado = df[df["valor"]> 50]

#Mostramos el dataframe de filtrado
df_filtrado

# ==================================================
# Paso 2.7: Guardar DataFrame en CSV y Parquet
# ==================================================

#Ahora, guardamos el dataframe sucio tanto en un archivo CSV como PARQET con el index en false para que no nos muestre la columna por defecto de indices.
df_raw.to_csv("../DATA/RAW_DATA/01_basico_datos_sucios.csv", index = False)
df_raw.to_parquet("../DATA/RAW_DATA/01_basico_datos_sucios.parquet", engine = "pyarrow", index = False) #especificamos el engine si tenemos más de libreria para gestionar archivos parquet. En este caso, tenemos pyarrow y fastparquet instalados en el entorno.
#Ahora igual pero con los datos limpios.
df.to_csv("../DATA/CLEAN_DATA/01_basico_datos_limpios.csv", index = False)
df.to_parquet("../DATA/CLEAN_DATA/01_basico_datos_limpios.parquet", engine = "pyarrow", index = False)
#También vamos a guardar el dataframe que creamos como consecuencia del filtrado pero antes vamos a reindexar la nueva tabla que se habrán debido desordenar.
df_filtrado.reset_index(drop = True, inplace = True) #Con esta línea conseguimos reindexar los índices de la tabla filtrada.
#Ahora la guardamos
df.to_csv("../DATA/CLEAN_DATA/01_basico_datos_limpios_filtrado_mayor_50.csv", index = False)
df.to_parquet("../DATA/CLEAN_DATA/01_basico_datos_limpios_filtrado_mayor_50.parquet", engine = "pyarrow", index = False)




<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         10 non-null     int64  
 1   categoria  10 non-null     object 
 2   valor      9 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 372.0+ bytes
