Instrucciones

    Preparación del Entorno
1- Asegúrate de tener instalado Pandas en tu entorno de trabajo.
2- Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. 
3- Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.

    Cargar los Datos
* Carga el archivo CSV en un DataFrame de Pandas.
* Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

    Exploración Inicial de los Datos
* Muestra las últimas 5 filas del DataFrame.
* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
* Genera estadísticas descriptivas del DataFrame utilizando el método describe().

Limpieza de Datos
* Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
* Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
* Elimina duplicados si los hay.

Transformación de Datos
* Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
* Normaliza o estandariza columnas si es necesario.
* Clasifica los datos en categorías relevantes.

Análisis de Datos
* Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
* Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
* Utiliza el método apply para realizar operaciones más complejas y personalizadas.

Documentación
- Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
- Asegúrate de que el código sea legible y esté bien comentado.

In [2]:
import pandas as pd
import numpy as np  

In [3]:
df = pd.read_csv('../data/Customers.csv')

# Ver las primeras 10 filas del DataFrame
df.head(10)

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,1,Male,19,15000,39,Healthcare,1,4
1,2,Male,21,35000,81,Engineer,3,3
2,3,Female,20,86000,6,Engineer,1,1
3,4,Female,23,59000,77,Lawyer,0,2
4,5,Female,31,38000,40,Entertainment,2,6
5,6,Female,22,58000,76,Artist,0,2
6,7,Female,35,31000,6,Healthcare,1,3
7,8,Female,23,84000,94,Healthcare,1,3
8,9,Male,64,97000,3,Engineer,0,3
9,10,Female,30,98000,72,Artist,1,4


In [33]:
# Muestra las últimas 5 filas del DataFrame.
df.tail(5)


Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
1995,1996,Female,71,184387,40,Artist,8,7
1996,1997,Female,91,73158,32,Doctor,7,7
1997,1998,Male,87,90961,14,Healthcare,9,2
1998,1999,Male,77,182109,4,Executive,7,2
1999,2000,Male,90,110610,52,Entertainment,5,2


In [9]:
# Utiliza el método info() para obtener información general sobre el DataFrame, 
# incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   CustomerID              2000 non-null   int64 
 1   Gender                  2000 non-null   object
 2   Age                     2000 non-null   int64 
 3   Annual Income ($)       2000 non-null   int64 
 4   Spending Score (1-100)  2000 non-null   int64 
 5   Profession              1965 non-null   object
 6   Work Experience         2000 non-null   int64 
 7   Family Size             2000 non-null   int64 
dtypes: int64(6), object(2)
memory usage: 125.1+ KB


In [10]:
# Genera estadísticas descriptivas del DataFrame utilizando el método describe().
df.describe()

Unnamed: 0,CustomerID,Age,Annual Income ($),Spending Score (1-100),Work Experience,Family Size
count,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0
mean,1000.5,48.96,110731.8215,50.9625,4.1025,3.7685
std,577.494589,28.429747,45739.536688,27.934661,3.922204,1.970749
min,1.0,0.0,0.0,0.0,0.0,1.0
25%,500.75,25.0,74572.0,28.0,1.0,2.0
50%,1000.5,48.0,110045.0,50.0,3.0,4.0
75%,1500.25,73.0,149092.75,75.0,7.0,5.0
max,2000.0,99.0,189974.0,100.0,17.0,9.0


In [12]:
# Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
# Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
#Elimina duplicados si los hay.
duplicados = df.duplicated()
print(f"Se han detectado {duplicados.sum()} registros duplicados y fueron eliminados.")
sin_duplicados = df.drop_duplicates()

Se han detectado 0 registros duplicados y fueron eliminados.


In [34]:
valores_faltantes = df.isnull().sum()
print(valores_faltantes[valores_faltantes > 0])

Profession    35
dtype: int64


In [47]:
# Se verifican datos faltantes en la columna "Profesion"
# Eso implica que no poseen una profesion fija por lo que corresponde rellenar con "none"
df['Profession'].fillna('none', inplace=True)

In [61]:
# se verifica que ya no haya datos faltantes
valores_faltantes = df.isnull().sum()
print(valores_faltantes[valores_faltantes > 0])

Series([], dtype: int64)


In [71]:
# se crea una nueva columna llamada "relacion_age_spending" que indica la relacion entre la edad y el gasto
df['relacion_age_spending'] = df['Age'] / df['Spending Score (1-100)']
print(df['relacion_age_spending'].round(2))

0        0.49
1        0.26
2        3.33
3        0.30
4        0.78
        ...  
1995     1.78
1996     2.84
1997     6.21
1998    19.25
1999     1.73
Name: relacion_age_spending, Length: 2000, dtype: float64


In [72]:
# clasificacion segun el gasto
df['gasto_clasif'] = df['Spending Score (1-100)'].apply(lambda x: 'Alto' if x > 50 else 'Bajo')
print(df['gasto_clasif'])

0       Bajo
1       Alto
2       Bajo
3       Alto
4       Bajo
        ... 
1995    Bajo
1996    Bajo
1997    Bajo
1998    Bajo
1999    Alto
Name: gasto_clasif, Length: 2000, dtype: object


In [15]:
# Análisis de Datos
# Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
# agrupar por genero(gender) y observar el spending score(Spending Score) promedio
grupo_genero = df.groupby(['Gender']).agg({'Spending Score (1-100)' : 'mean', 'Annual Income ($)' : 'mean'})
print(grupo_genero)




        Spending Score (1-100)  Annual Income ($)
Gender                                           
Female               50.974705      110553.715008
Male                 50.944717      110991.323096


In [19]:
# Aplicamos el metodo apply para ver el promedio de gasto de un determinado grupo segun su edad
df['grupo_edad'] = df['Age'].apply(lambda x: 'Joven' if x < 30 else 'Adulto' if x < 60 else 'Anciano')
grupo_edad = df.groupby(['grupo_edad']).agg({'Spending Score (1-100)' : 'mean', 'Annual Income ($)' : 'mean'})
print(grupo_edad)


            Spending Score (1-100)  Annual Income ($)
grupo_edad                                           
Adulto                   49.736677      104552.904389
Anciano                  50.258106      114463.220493
Joven                    53.204738      112534.258883
