In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# Para todos los ejercicios usaremos una base de datos de diamantes. 
# Las columnas 'x', 'y' y 'z' son el tamaño del diamante.

# Con esta función se pude cargar la base de datos antes de cada ejercicio, para que un ejercicio 
# no afecte al resto

def get_dataset():
    return pd.read_csv('data/diamonds.csv')
    # return pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/diamonds.csv')
    
diamonds = get_dataset()
print(diamonds)

In [None]:
# 1. Imprima las primeras 5 filas
diamonds.head(5)

In [None]:
# 2. Imprima las primeras 5 filas, pero solamente las columnas carat, cut y price
diamonds[['carat', 'cut', 'price']].head(5)

In [None]:
# 3. Seleccione e imprima una serie
diamonds['carat']

In [None]:
# 4. Cree una nueva serie formada por 'cut' y 'color', separados por un guion
diamonds['cut'] + '-' + diamonds['color']

In [None]:
# 5. Adicione la serie anterios al dataframe diamonds como Quality-color
diamonds['Quality-color'] = diamonds['cut'] + '-' + diamonds['color']
diamonds.head(5)

In [None]:
# 6. Muestre la cantidad de filas y columnas de diamonds. Muestre el tipo de cada columna
print(diamonds.shape)
print(diamonds.dtypes)

In [None]:
# 7. Muestre la descripcion de las columnas que son objetos
print(diamonds.describe(include=['object']))

In [None]:
# 8. Renombre dos columnas del dataframe
diamonds = get_dataset()
diamonds.rename(columns={'cut':'corte', 'clarity': "claridad"}, inplace=True)
diamonds.head(5)

In [None]:
# 9. Elimine la columna 'cut'
diamonds = get_dataset()
diamonds.drop(['cut'], axis=1).head(5)

In [None]:
# 10. Elimine 3 columnas
diamonds = get_dataset()
diamonds.drop(['cut', 'clarity', 'table'], axis=1).head(4)

In [None]:
# 11. Elimine las filas de la 0 a la 29
diamonds = get_dataset()
diamonds.drop(range(30), axis=0).head(4)

In [None]:
# 12. Ordene la serie asociada a 'cut' en orden ascencente. Retorne una serie.
diamonds = get_dataset()
diamonds['cut'].sort_values(ascending=True)


In [None]:
# 13. Ordene la serie asociada con 'price' en orden descendente. Retorne una serie
diamonds['price'].sort_values(ascending=False)

In [None]:
# 14. Ordene toda la base de datos por 'carat' de forma ascencente
diamonds.sort_values(['carat'])

In [None]:
# 15. Seleccione las filas con carat de al menos 0.3
diamonds[diamonds.carat >= 0.3].head(5)

In [None]:
# 16. Obtenga una nueva serie con la suma x+y+z. Correlacionela con depth y price
diamonds['suma'] = diamonds.x+diamonds.y+diamonds.z
diamonds[['suma', 'depth', 'price']].corr()


In [None]:
# 17. Seleccione los diamantes con x>5, y>5 and z>5
diamonds[(diamonds.x > 5) & (diamonds.y > 5) & (diamonds.z > 5)].head(5)

In [None]:
# 18. Mueste los diamantes que son Premium o Ideal
diamonds[(diamonds.cut == 'Premium') | (diamonds.cut == 'Ideal')].head(5)

In [None]:
# otra solucion
diamonds[diamonds.cut.isin({'Premium', 'Ideal'})].head(5)

In [None]:
# 19. Muestre los diamantes que son Fair, Good o Premium
diamonds[diamonds.cut.isin({'Fair', 'Good', 'Premium'})].head(5)

In [None]:
# 20. Construya una cadena de caracteres con todos los nombres de las columnas, separados por coma
", ".join(d for d in diamonds.columns)

In [None]:
# 21. Similar al anterior, pero deben estar entre comillas, y el ultimo separador debe ser 'y'
comps = [f'"{d}"' for d in diamonds.columns]
", ".join(comps[:-1]) + ' y ' + comps[-1]

In [None]:
# 22. Itere por las primeras 10 filas de la base de datos, imprimiendo sus valores separados
# por ->
count = 0
for _, r in diamonds.iterrows():
    print(",".join(str(a) for a in r))
    count += 1
    if count == 10:
        break

In [None]:
# 23. Elimine todas las columnas no numéricas. 
diamonds = get_dataset()
print(diamonds.dtypes)
non_numerics = [d for d in diamonds.dtypes.index  
                if diamonds.dtypes[d] != np.float64 and 
               diamonds.dtypes[d] != np.int64]
diamonds.drop(non_numerics, axis=1).head(5)

In [None]:
# otra solucion, mas simple
diamonds.select_dtypes(['number']).head(5)

In [None]:
# 24. Calcule la media de cada columna numerica
num_features = diamonds.select_dtypes(['number'])
num_features.mean()

In [None]:
# 25. Calcule le media de cada fila (lo que no tiene mucho sentido ...)
num_features.mean(axis=1)

In [None]:
# 26. Calcule la cantidad de valores, el minimo, y el maximo precio por cada valor de 'cut' 
diamonds.groupby("cut")['price'].describe()[['count', 'min', 'max']]

In [None]:
# 27. Obtenga una serie con cuantes veces aparece cada valor de 'cut'
diamonds.groupby('cut')['carat'].count()

In [None]:
# 28. Calcule el porcentaje que aparecen los valores de 'cut'
counts = diamonds.groupby('cut')['carat'].count()
counts / sum(counts) * 100

In [None]:
# Una mas simple
print(diamonds.cut.value_counts(normalize=True) * 100)

In [None]:
# 29. Muestre los valores diferentes de 'cut'
diamonds.cut.unique()

In [None]:
# 30. Muestre un histograma de los valores de 'carat' 
diamonds.carat.hist()
plt.show()

In [None]:
# 31. Muestre un grafico de barras con la cantidad de cada valor diferente de 'cut'
diamonds.cut.value_counts().plot(kind="bar")

## Un poco de investigacion
En la base de datos de diamantes investigue:
1. Que factores son los que mas afectan el precio
2. Podria construir un modelo para predecir el precio de un nuevo diamante, dadas sus otras caracteristicas? Mientras menos atributos, mejor!

In [None]:
diamonds = get_dataset()
diamonds.head(5)