## **Pandas para Ciencia de Datos II / Analisis con Pandas (Core)**

#### **Descripción**
### **Analisis con Pandas y Kaggle (Core)**

El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

### **Instructiones**

#### **1. Preparación del Entorno**

* Asegúrate de tener instalado Pandas en tu entorno de trabajo.
* Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.

#### **2. Cargar los Datos**

* Carga el archivo CSV en un DataFrame de Pandas.
* Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

In [1]:
# Importar librerias
import pandas as pd
import numpy as np

# Cargar el dataset
path = ('../data/gold_rings.csv')
df = pd.read_csv(path)

# Visualizando los primeros 10 registros
df.head(10)

Unnamed: 0,Peso (g),Tiempo en mostrador (dias),Precio del aro (K$),Eje horizontal (cm),Tiempo de fabricacion (h),Diferencia de peso (g),Eje vertical (cm),Diferencia de precio (K$)
0,3.0,90.0,1026.54,4.84,0.86,-0.01,4.57,0.16
1,3.0,98.0,1021.25,5.37,,-0.006,5.24,0.32
2,3.0,109.0,989.09,5.75,1.12,0.003,5.34,-0.12
3,2.999,82.0,1022.43,3.9,0.83,-0.005,3.49,0.12
4,2.999,110.0,998.9,4.72,1.02,0.007,4.29,0.82
5,3.0,64.0,1032.69,3.42,0.64,-0.008,3.28,-0.36
6,3.0,69.0,973.38,2.67,0.62,-0.001,2.2,-0.11
7,3.001,94.0,971.99,6.85,0.9,0.003,6.41,0.23
8,3.001,77.0,1032.06,3.89,0.72,-0.005,3.47,0.95
9,3.0,68.0,981.47,3.43,0.64,-0.003,3.08,0.3


#### **3. Exploración Inicial de los Datos**

* Muestra las últimas 5 filas del DataFrame.
* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
* Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [2]:
# Visualizando los ultimos 5 registros
df.tail()

Unnamed: 0,Peso (g),Tiempo en mostrador (dias),Precio del aro (K$),Eje horizontal (cm),Tiempo de fabricacion (h),Diferencia de peso (g),Eje vertical (cm),Diferencia de precio (K$)
295,3.001,110.0,983.59,5.21,1.05,-0.001,4.82,-0.33
296,3.0,117.0,1008.3,4.76,1.16,0.005,4.74,0.46
297,3.0,99.0,980.11,3.35,1.01,0.002,3.41,0.34
298,3.001,138.0,1000.13,6.58,1.38,-0.005,6.67,-0.3
299,3.0,86.0,976.91,,0.87,0.005,4.04,-0.31


In [3]:
# Informacion del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Peso (g)                    299 non-null    float64
 1   Tiempo en mostrador (dias)  299 non-null    float64
 2   Precio del aro (K$)         300 non-null    float64
 3   Eje horizontal (cm)         297 non-null    float64
 4   Tiempo de fabricacion (h)   299 non-null    float64
 5   Diferencia de peso (g)      297 non-null    float64
 6   Eje vertical (cm)           299 non-null    float64
 7   Diferencia de precio (K$)   298 non-null    float64
dtypes: float64(8)
memory usage: 18.9 KB


In [4]:
# Resumen de estadisticas
df.describe()

Unnamed: 0,Peso (g),Tiempo en mostrador (dias),Precio del aro (K$),Eje horizontal (cm),Tiempo de fabricacion (h),Diferencia de peso (g),Eje vertical (cm),Diferencia de precio (K$)
count,299.0,299.0,300.0,297.0,299.0,297.0,299.0,298.0
mean,3.003318,103.371237,998.311567,5.064444,1.014448,0.003266,4.853612,0.05255
std,0.057843,22.273603,20.156371,1.253491,0.225475,0.058235,1.152074,0.482282
min,2.997,39.0,940.72,1.59,0.36,-0.013,1.65,-1.22
25%,2.999,87.5,984.025,4.19,0.865,-0.003,4.12,-0.3
50%,3.0,103.0,995.925,5.08,1.01,0.0,4.78,0.03
75%,3.001,118.0,1012.71,5.96,1.15,0.003,5.76,0.3775
max,4.0,173.0,1055.25,8.81,2.0,1.0,8.36,1.53


#### **4. Limpieza de Datos**

* Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.)
* Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
* Elimina duplicados si los hay.


#### **Identifica valore nulos**

In [5]:
# Identificar valores nulos

qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Eje horizontal (cm),297,3,1.0
Diferencia de peso (g),297,3,1.0
Diferencia de precio (K$),298,2,0.67
Peso (g),299,1,0.33
Tiempo de fabricacion (h),299,1,0.33
Tiempo en mostrador (dias),299,1,0.33
Eje vertical (cm),299,1,0.33
Precio del aro (K$),300,0,0.0


In [6]:
# Estado de los datos antes de la limpieza
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Peso (g)                    299 non-null    float64
 1   Tiempo en mostrador (dias)  299 non-null    float64
 2   Precio del aro (K$)         300 non-null    float64
 3   Eje horizontal (cm)         297 non-null    float64
 4   Tiempo de fabricacion (h)   299 non-null    float64
 5   Diferencia de peso (g)      297 non-null    float64
 6   Eje vertical (cm)           299 non-null    float64
 7   Diferencia de precio (K$)   298 non-null    float64
dtypes: float64(8)
memory usage: 18.9 KB


##### **Manejo de los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.)**

In [7]:
# Llenar valores nulos, usamps la funcion de fillna por el promedio, usando la agrupacion de columnas 

# Valores nulos para la columnas Eje horizontal (cm)
df['Eje horizontal (cm)'] = df.groupby('Peso (g)')['Eje horizontal (cm)'].transform(lambda x: x.fillna(x.mean()))
# Valores nulos para la columnas Diferencia de peso (g)
df['Diferencia de peso (g)'] = df.groupby('Peso (g)')['Diferencia de peso (g)'].transform(lambda x: x.fillna(x.mean()))
# Valores nulos para la columnas Diferencia de precio (K$)
df['Diferencia de precio (K$)'] = df.groupby('Peso (g)')['Diferencia de precio (K$)'].transform(lambda x: x.fillna(x.mean()))
# Valores nulos para la columnas Peso
df['Peso'] = df.groupby('Precio del aro (K$)')['Peso (g)'].transform(lambda x: x.fillna(x.mean()))
# Valores nulos para la columnas Tiempo de fabricacion (h)
df['Tiempo de fabricacion (h)'] = df.groupby('Peso (g)')['Tiempo de fabricacion (h)'].transform(lambda x: x.fillna(x.mean()))
# Valores nulos para la columnas Tiempo en mostrador (dias)
df['Tiempo en mostrador (dias)'] = df.groupby('Precio del aro (K$)')['Tiempo en mostrador (dias)'].transform(lambda x: x.fillna(x.mean()))
# Valores nulos para la columnas Eje vertical (cm)
df['Eje vertical (cm)'] = df.groupby('Eje horizontal (cm)')['Eje vertical (cm)'].transform(lambda x: x.fillna(x.mean()))



In [8]:
# Identificar valores nulos
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Peso (g),299,1,0.33
Tiempo en mostrador (dias),299,1,0.33
Eje horizontal (cm),299,1,0.33
Tiempo de fabricacion (h),299,1,0.33
Diferencia de peso (g),299,1,0.33
Diferencia de precio (K$),299,1,0.33
Eje vertical (cm),299,1,0.33
Peso,299,1,0.33
Precio del aro (K$),300,0,0.0


In [9]:
# Eliminar valores nulos
df = df[df['Peso (g)'].notna()]
df = df[df['Eje horizontal (cm)'].notna()]
df = df[df['Diferencia de peso (g)'].notna()]
df = df[df['Tiempo en mostrador (dias)'].notna()]

In [10]:
# Verificar si aun tenemos valores nulos
df.isnull().sum()

Peso (g)                      0
Tiempo en mostrador (dias)    0
Precio del aro (K$)           0
Eje horizontal (cm)           0
Tiempo de fabricacion (h)     0
Diferencia de peso (g)        0
Eje vertical (cm)             0
Diferencia de precio (K$)     0
Peso                          0
dtype: int64

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 298 entries, 0 to 299
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Peso (g)                    298 non-null    float64
 1   Tiempo en mostrador (dias)  298 non-null    float64
 2   Precio del aro (K$)         298 non-null    float64
 3   Eje horizontal (cm)         298 non-null    float64
 4   Tiempo de fabricacion (h)   298 non-null    float64
 5   Diferencia de peso (g)      298 non-null    float64
 6   Eje vertical (cm)           298 non-null    float64
 7   Diferencia de precio (K$)   298 non-null    float64
 8   Peso                        298 non-null    float64
dtypes: float64(9)
memory usage: 23.3 KB


In [12]:
# Estabilsidad de los datos despues de la limpieza
df.describe()

Unnamed: 0,Peso (g),Tiempo en mostrador (dias),Precio del aro (K$),Eje horizontal (cm),Tiempo de fabricacion (h),Diferencia de peso (g),Eje vertical (cm),Diferencia de precio (K$),Peso
count,298.0,298.0,298.0,298.0,298.0,298.0,298.0,298.0,298.0
mean,3.003326,103.40604,998.268389,5.068778,1.014655,0.003194,4.857718,0.056369,3.003326
std,0.057941,22.302924,20.19748,1.251168,0.225783,0.058137,1.154782,0.47725,0.057941
min,2.997,39.0,940.72,1.59,0.36,-0.013,1.65,-1.22,2.997
25%,2.999,87.25,983.935,4.19,0.8625,-0.003,4.12,-0.2975,2.999
50%,3.0,103.0,995.925,5.1,1.008578,0.0,4.785,0.03,3.0
75%,3.001,118.0,1012.68,5.9575,1.15,0.003,5.76,0.3775,3.001
max,4.0,173.0,1055.25,8.81,2.0,1.0,8.36,1.53,4.0


In [13]:
# Tipos de datos
df.dtypes

# Como los datos numericos contienen datos decimales, no hay necesidad de convertirlos

Peso (g)                      float64
Tiempo en mostrador (dias)    float64
Precio del aro (K$)           float64
Eje horizontal (cm)           float64
Tiempo de fabricacion (h)     float64
Diferencia de peso (g)        float64
Eje vertical (cm)             float64
Diferencia de precio (K$)     float64
Peso                          float64
dtype: object

In [14]:
# Identificar duplicados
duplicados = df.duplicated()
# Contar el número de duplicados
num_duplicados = duplicados.sum()
print(f"Número de registros duplicados: {num_duplicados}")

Número de registros duplicados: 0


#### **5. Transformación de Datos**

* Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
* Normaliza o estandariza columnas si es necesario.
* Clasifica los datos en categorías relevantes.

In [15]:
# Agregar una nueva columna
df['Aro Nuevo'] = np.where(df['Tiempo en mostrador (dias)'] < 50, 1, 0)

In [16]:
df['Categoría de Peso'] = pd.cut(df['Peso (g)'], 
                                  bins=[-np.inf, 3, 5, np.inf], 
                                  labels=['Liviano', 'Mediano', 'Pesado'])

In [17]:
df['Categoría de Tiempo de Fabricación'] = pd.cut(df['Tiempo de fabricacion (h)'], 
                                                  bins=[-np.inf, 5, 10, np.inf], 
                                                  labels=['Corto', 'Medio', 'Largo'])


In [18]:
# Filtrar los datos para confirmar si Aro nuevo es correcto
filtered_df = df[df['Tiempo en mostrador (dias)'] < 40]

In [19]:
# Mostrar el DataFrame filtrado con las nuevas columnas
filtered_df

Unnamed: 0,Peso (g),Tiempo en mostrador (dias),Precio del aro (K$),Eje horizontal (cm),Tiempo de fabricacion (h),Diferencia de peso (g),Eje vertical (cm),Diferencia de precio (K$),Peso,Aro Nuevo,Categoría de Peso,Categoría de Tiempo de Fabricación
86,3.0,39.0,990.54,2.69,0.36,0.006,2.3,-0.81,3.0,1,Liviano,Corto


In [20]:
df.dtypes

Peso (g)                               float64
Tiempo en mostrador (dias)             float64
Precio del aro (K$)                    float64
Eje horizontal (cm)                    float64
Tiempo de fabricacion (h)              float64
Diferencia de peso (g)                 float64
Eje vertical (cm)                      float64
Diferencia de precio (K$)              float64
Peso                                   float64
Aro Nuevo                                int64
Categoría de Peso                     category
Categoría de Tiempo de Fabricación    category
dtype: object

#### **6. Análisis de Datos**

* Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
* Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
* Utiliza el método apply para realizar operaciones más complejas y personalizadas.


In [21]:
grouped_avg_price = df.groupby(['Categoría de Peso', 'Aro Nuevo'], observed=False)['Precio del aro (K$)'].mean().reset_index()
print("Promedio de Precion por el peso y si es nuevo:")
print(grouped_avg_price)

Promedio de Precion por el peso y si es nuevo:
  Categoría de Peso  Aro Nuevo  Precio del aro (K$)
0           Liviano          0           997.308719
1           Liviano          1           988.586667
2           Mediano          0          1000.701630
3           Mediano          1                  NaN
4            Pesado          0                  NaN
5            Pesado          1                  NaN


In [22]:
agg_funcs = {
    'Peso (g)': ['mean', 'min', 'max'],
    'Tiempo en mostrador (dias)': ['mean', 'std'],
    'Precio del aro (K$)': ['sum', 'count'],
    'Tiempo de fabricacion (h)': ['min', 'max'],
    'Eje horizontal (cm)': ['mean'],
    'Eje vertical (cm)': ['mean'],
    'Diferencia de peso (g)': ['sum'],
    'Diferencia de precio (K$)': ['mean']
}

grouped_all = df.groupby(['Categoría de Peso', 'Categoría de Tiempo de Fabricación'], observed=False).agg(agg_funcs).reset_index()
print("\nMetricas agregas por categoria de peso y tiempo de fabricacion:")
grouped_all


Metricas agregas por categoria de peso y tiempo de fabricacion:


Unnamed: 0_level_0,Categoría de Peso,Categoría de Tiempo de Fabricación,Peso (g),Peso (g),Peso (g),Tiempo en mostrador (dias),Tiempo en mostrador (dias),Precio del aro (K$),Precio del aro (K$),Tiempo de fabricacion (h),Tiempo de fabricacion (h),Eje horizontal (cm),Eje vertical (cm),Diferencia de peso (g),Diferencia de precio (K$)
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,min,max,mean,std,sum,count,min,max,mean,mean,sum,mean
0,Liviano,Corto,2.999383,2.997,3.0,104.514563,23.098248,205419.43,206,0.36,1.74,5.158426,4.951893,-0.081042,0.068534
1,Liviano,Medio,,,,,,0.0,0,,,,,0.0,
2,Liviano,Largo,,,,,,0.0,0,,,,,0.0,
3,Mediano,Corto,3.012152,3.001,4.0,100.923913,20.310899,92064.55,92,0.58,2.0,4.868043,4.646848,1.033,0.02913
4,Mediano,Medio,,,,,,0.0,0,,,,,0.0,
5,Mediano,Largo,,,,,,0.0,0,,,,,0.0,
6,Pesado,Corto,,,,,,0.0,0,,,,,0.0,
7,Pesado,Medio,,,,,,0.0,0,,,,,0.0,
8,Pesado,Largo,,,,,,0.0,0,,,,,0.0,


In [26]:
# Definimos una funcion usando apply

def nueva_metrica(group):
    return pd.Series({
        'Total_Ventas': group['Precio del aro (K$)'].sum(),
        'Promedio_Peso': group['Peso (g)'].mean(),
        'Total_Dias_Mostrador': group['Tiempo en mostrador (dias)'].sum(),
        'Count_Aros': group['Aro Nuevo'].count()
    })

# Agrupa los datos por la categoría de peso y aplica la función Nueva Metrica
nuevo_grupo = df.groupby('Categoría de Peso', observed=True).apply(nueva_metrica).reset_index()

print("\nNueva Metrica, por categoria de peso:")
nuevo_grupo



Nueva Metrica, por categoria de peso:


  nuevo_grupo = df.groupby('Categoría de Peso', observed=True).apply(nueva_metrica).reset_index()


Unnamed: 0,Categoría de Peso,Total_Ventas,Promedio_Peso,Total_Dias_Mostrador,Count_Aros
0,Liviano,205419.43,2.999383,21530.0,206.0
1,Mediano,92064.55,3.012152,9285.0,92.0


#### **7. Documentación**

* Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
* Asegúrate de que el código sea legible y esté bien comentado.

1. Exploramos los datos: Verificamos los datos del DataFrame.
2. Comprobamos los tipos de datos: Convertimos los datos que requieren transformación a fechas, categorías y cadenas.
3. Verificamos duplicados y valores nulos: Tratamos los valores nulos con tecnicas de relleno con valores estadisticos y eliminacion.
4. Agregamos columnas: Agregamos columnas de Estando de Aro, y Columnas de Categoria de Peso y tiempo de fabricacion. 
6. Realizamos agrupaciones: Tiempo de fabricacion y Rango de peso
7. Creamos una funcioncion usando Apply. 