In [6]:
import pandas as pd
import numpy as np
import random

# Configuramos la semilla para reproducibilidad
np.random.seed(42)

# Generamos los datos sintéticos
rank = np.random.randint(1, 1000, 1000)
manufacturer = np.random.choice(['Apple', 'Samsung', 'Huawei', 'Xiaomi', 'Oppo', 'Vivo', 'LG', 'Sony'], 1000)
model = np.random.choice(['iPhone', 'Galaxy', 'Mate', 'P30', 'Redmi', 'Find', 'G', 'Xperia'], 1000)
form_factor = np.random.choice(['Bar', 'Flip', 'Slide', 'Swivel', 'Foldable'], 1000)
smartphone = np.random.choice(['Yes', 'No'], 1000)
year = np.random.randint(2010, 2022, 1000)
units_sold = np.random.randint(1, 1000000, 1000)

# Creamos el DataFrame
data = pd.DataFrame({
    'Rank': rank,
    'Manufacturer': manufacturer,
    'Model': model,
    'Form Factor': form_factor,
    'Smartphone?': smartphone,
    'Year': year,
    'Units Sold (million)': units_sold / 1000000
})

# Guardamos los datos en un archivo CSV
data.to_csv('phone.csv', index=False)
print("Dataset 'phone.csv' creado con éxito")

# Limpieza de Datos

# Identificar y abordar cualquier valor duplicado
data.drop_duplicates(inplace=True)

# Identificar y abordar cualquier dato que falte en este conjunto de datos
print("Hay", data.isnull().sum().sum(), "datos que faltan en este conjunto de datos.")
# Tratamos los valores que faltan con la mediana
data.fillna(data.median(), inplace=True)

# Asegurarse de que todas las columnas coincidan con los tipos de datos enumerados en el diccionario de datos
print("Tipos de datos de cada columna:")
print(data.dtypes)

# Identificar y abordar cualquier inconsistencia en los valores categóricos
data['Manufacturer'] = data['Manufacturer'].str.title()
data['Form Factor'] = data['Form Factor'].str.title()
data['Smartphone?'] = data['Smartphone?'].str.title()

# Identificar y abordar cualquier punto de datos inapropiados o inusuales
data['Units Sold (million)'] = data['Units Sold (million)'].apply(lambda x: x if x < 100 else 100)

# Exploración de Datos

# Visualizaciones exploratorias univariantes
print(data['Units Sold (million)'].value_counts())
print("Distribución de unidades vendidas")

print(data['Manufacturer'].value_counts())
print("Distribución de fabricantes")

# Visualizaciones exploratorias multivariantes
print(data.groupby('Year')['Units Sold (million)'].mean())
print("Relación entre año y unidades vendidas")

print(data.groupby('Form Factor')['Units Sold (million)'].mean())
print("Relación entre factor de forma y unidades vendidas")

Dataset 'phone.csv' creado con éxito
Hay 0 datos que faltan en este conjunto de datos.


TypeError: Cannot convert [['Oppo' 'Oppo' 'LG' ... 'Samsung' 'LG' 'Sony']
 ['Galaxy' 'Xperia' 'G' ... 'Mate' 'Redmi' 'Redmi']
 ['Slide' 'Foldable' 'Swivel' ... 'Slide' 'Slide' 'Bar']
 ['Yes' 'Yes' 'No' ... 'Yes' 'No' 'Yes']] to numeric