# Análisis Exploratorio de Datos (EDA) - Primer Proyecto

Este notebook representa mi primer proyecto publicado en Kaggle, donde realizo un análisis exploratorio de datos (EDA) sobre un dataset obtenido de la plataforma.

El objetivo principal de este trabajo es practicar y aplicar técnicas básicas de análisis de datos con Python, utilizando bibliotecas como `pandas`, `matplotlib` y `seaborn`. A través de este análisis, busco:

- Familiarizarme con la estructura del dataset.
- Detectar valores faltantes o inconsistencias.
- Visualizar la distribución de las variables.
- Identificar posibles relaciones entre variables.

Este es un ejercicio de aprendizaje y forma parte de mi camino de formación como data scientist.

El dataset utilizado para este análisis fue obtenido de Kaggle:
Mobiles Dataset (2025), publicado por Abdul Malik.


In [1]:
#Instalamos la libreria PyDrive
!pip install -U -q PyDrive

^C
[31mERROR: Operation cancelled by user[0m[31m
[0m

In [3]:
#Esta libreria nos permite usar nuestros archivos de Google Drive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials



In [4]:
#Autentificamos y damos permisos
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

In [5]:
#Vinculamos y descargamos el archivo con nuestro dataset
downloaded = drive.CreateFile({'id':'1hR9d9ysYAgbbuB0JUDiJqJAlZ9uHBEMC'})
downloaded.GetContentFile('mobiles_dataset_2025.csv')

In [6]:
#Importamos la libreria pre instalada pandas para converitr nuestro dataset a un dataframe
import pandas as pd

df_dataset = pd.read_csv('mobiles_dataset_2025.csv', encoding='latin1')
df_dataset

Unnamed: 0,Company Name,Model Name,Mobile Weight,RAM,Front Camera,Back Camera,Processor,Battery Capacity,Screen Size,Launched Price (Pakistan),Launched Price (India),Launched Price (China),Launched Price (USA),Launched Price (Dubai),Launched Year
0,Apple,iPhone 16 128GB,174g,6GB,12MP,48MP,A17 Bionic,"3,600mAh",6.1 inches,"PKR 224,999","INR 79,999","CNY 5,799",USD 799,"AED 2,799",2024
1,Apple,iPhone 16 256GB,174g,6GB,12MP,48MP,A17 Bionic,"3,600mAh",6.1 inches,"PKR 234,999","INR 84,999","CNY 6,099",USD 849,"AED 2,999",2024
2,Apple,iPhone 16 512GB,174g,6GB,12MP,48MP,A17 Bionic,"3,600mAh",6.1 inches,"PKR 244,999","INR 89,999","CNY 6,499",USD 899,"AED 3,199",2024
3,Apple,iPhone 16 Plus 128GB,203g,6GB,12MP,48MP,A17 Bionic,"4,200mAh",6.7 inches,"PKR 249,999","INR 89,999","CNY 6,199",USD 899,"AED 3,199",2024
4,Apple,iPhone 16 Plus 256GB,203g,6GB,12MP,48MP,A17 Bionic,"4,200mAh",6.7 inches,"PKR 259,999","INR 94,999","CNY 6,499",USD 949,"AED 3,399",2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
925,Poco,Pad 5G 128GB,571g,8GB,8MP,8MP,Snapdragon 7s Gen 2,"10,000mAh",12.1 inches,"PKR 66,220","INR 23,999","CNY 2,099",USD 280,"AED 1,029",2024
926,Poco,Pad 5G 256GB,571g,8GB,8MP,8MP,Snapdragon 7s Gen 2,"10,000mAh",12.1 inches,"PKR 71,220","INR 25,999","CNY 2,299",USD 300,"AED 1,099",2024
927,Samsung,Galaxy Z Fold6 256GB,239g,12GB,"10MP, 4MP (UDC)",50MP,Snapdragon 8 Gen 3,4400mAh,7.6 inches,"PKR 604,999","INR 164,999","¥13,999","USD 1,899","AED 7,199",2024
928,Samsung,Galaxy Z Fold6 512GB,239g,12GB,"10MP, 4MP (UDC)",50MP,Snapdragon 8 Gen 3,4400mAh,7.6 inches,"PKR 544,999","INR 176,999","CNY 15,999",USD 1719,"AED 7,699",2024


In [7]:
#Observamos las columnas del dataframe
df_dataset.columns

Index(['Company Name', 'Model Name', 'Mobile Weight', 'RAM', 'Front Camera',
       'Back Camera', 'Processor', 'Battery Capacity', 'Screen Size',
       'Launched Price (Pakistan)', 'Launched Price (India)',
       'Launched Price (China)', 'Launched Price (USA)',
       'Launched Price (Dubai)', 'Launched Year'],
      dtype='object')

In [8]:
#Calculamos la longitud de esta lista
len(df_dataset.columns)

15

In [9]:
#Obtenemos el conteo de los valores totales incluidos en la Columna "Company Name"
df_dataset['Company Name'].value_counts()

Unnamed: 0_level_0,count
Company Name,Unnamed: 1_level_1
Oppo,129
Apple,97
Honor,91
Samsung,88
Vivo,86
Realme,69
Motorola,62
Infinix,56
OnePlus,53
Huawei,42


In [10]:
#Indexamos el dataframe
f = pd.DataFrame(df_dataset['Company Name'].value_counts()).reset_index()
f

Unnamed: 0,Company Name,count
0,Oppo,129
1,Apple,97
2,Honor,91
3,Samsung,88
4,Vivo,86
5,Realme,69
6,Motorola,62
7,Infinix,56
8,OnePlus,53
9,Huawei,42


In [11]:
#Realizamos una copia para no alterar nuestro dataframe original
df_dataset_2 = df_dataset.copy()

In [12]:
#Eliminamos algunas columnas que no son de utilidad
df_dataset_2.drop(columns = ['Mobile Weight', 'Front Camera',
       'Back Camera','Battery Capacity', 'Screen Size'] , inplace=True)

len(df_dataset_2.columns)

10

In [13]:
#Visualización del dataframe
df_dataset_2

Unnamed: 0,Company Name,Model Name,RAM,Processor,Launched Price (Pakistan),Launched Price (India),Launched Price (China),Launched Price (USA),Launched Price (Dubai),Launched Year
0,Apple,iPhone 16 128GB,6GB,A17 Bionic,"PKR 224,999","INR 79,999","CNY 5,799",USD 799,"AED 2,799",2024
1,Apple,iPhone 16 256GB,6GB,A17 Bionic,"PKR 234,999","INR 84,999","CNY 6,099",USD 849,"AED 2,999",2024
2,Apple,iPhone 16 512GB,6GB,A17 Bionic,"PKR 244,999","INR 89,999","CNY 6,499",USD 899,"AED 3,199",2024
3,Apple,iPhone 16 Plus 128GB,6GB,A17 Bionic,"PKR 249,999","INR 89,999","CNY 6,199",USD 899,"AED 3,199",2024
4,Apple,iPhone 16 Plus 256GB,6GB,A17 Bionic,"PKR 259,999","INR 94,999","CNY 6,499",USD 949,"AED 3,399",2024
...,...,...,...,...,...,...,...,...,...,...
925,Poco,Pad 5G 128GB,8GB,Snapdragon 7s Gen 2,"PKR 66,220","INR 23,999","CNY 2,099",USD 280,"AED 1,029",2024
926,Poco,Pad 5G 256GB,8GB,Snapdragon 7s Gen 2,"PKR 71,220","INR 25,999","CNY 2,299",USD 300,"AED 1,099",2024
927,Samsung,Galaxy Z Fold6 256GB,12GB,Snapdragon 8 Gen 3,"PKR 604,999","INR 164,999","¥13,999","USD 1,899","AED 7,199",2024
928,Samsung,Galaxy Z Fold6 512GB,12GB,Snapdragon 8 Gen 3,"PKR 544,999","INR 176,999","CNY 15,999",USD 1719,"AED 7,699",2024


In [14]:
#Creamos una lista con los paises donde fue lanzado el producto
paises = ['Pakistan', 'India', 'China', 'Dubai', 'USA']

#Creamos un bucle que nos permita extraer las 3 primeras letras de los strings, para extraer solamente la parte numérica y convertimos a flotantes.
for pais in paises:
    col = f"Launched Price ({pais})"
    df_dataset_2[col] = (
        df_dataset_2[col]
        .astype(str)
        .str.extract(r"(\d{1,3}(?:,\d{3})*)")[0]
        .str.replace(",", "", regex=True)
        .astype(float)
    )

In [15]:
df_dataset_2.describe()

Unnamed: 0,Launched Price (Pakistan),Launched Price (India),Launched Price (China),Launched Price (USA),Launched Price (Dubai),Launched Year
count,929.0,930.0,930.0,930.0,930.0,930.0
mean,125436.063509,50221.986022,3821.430108,581.669892,2183.933333,2022.193548
std,101593.522572,40919.605039,2766.076655,419.570842,1565.631642,1.86208
min,15999.0,1.0,499.0,79.0,299.0,2014.0
25%,54999.0,19999.0,1699.25,250.0,1000.0,2021.0
50%,85000.0,34999.0,2800.0,449.0,1675.0,2023.0
75%,179999.0,74900.0,5499.0,836.5,3199.0,2024.0
max,604999.0,274999.0,17999.0,2799.0,11099.0,2025.0


In [16]:
#Agrupamos las columnas "Company Name" y "Launched Year"
df_cuentas = df_dataset_2.groupby(['Company Name'])["Launched Year"].describe().reset_index()
df_cuentas

Unnamed: 0,Company Name,count,mean,std,min,25%,50%,75%,max
0,Apple,97.0,2020.876289,1.910812,2017.0,2020.0,2020.0,2022.0,2024.0
1,Google,21.0,2021.619048,1.883512,2019.0,2020.0,2022.0,2023.0,2024.0
2,Honor,91.0,2022.175824,1.338269,2020.0,2021.0,2022.0,2023.0,2024.0
3,Huawei,42.0,2022.928571,1.134661,2021.0,2022.0,2023.0,2024.0,2024.0
4,Infinix,56.0,2022.464286,1.48892,2020.0,2021.0,2023.0,2024.0,2024.0
5,Lenovo,15.0,2020.333333,1.496026,2018.0,2019.0,2021.0,2022.0,2022.0
6,Motorola,62.0,2023.290323,0.894191,2022.0,2022.0,2024.0,2024.0,2024.0
7,Nokia,11.0,2022.272727,0.786245,2021.0,2022.0,2022.0,2023.0,2023.0
8,OnePlus,53.0,2021.358491,1.819703,2017.0,2020.0,2021.0,2023.0,2024.0
9,Oppo,129.0,2022.310078,1.56524,2019.0,2021.0,2022.0,2024.0,2025.0


In [17]:
#La libreria plotly nos permite realizar una grafica de barras interactiva
import plotly.graph_objects as go

a = go.Figure(data=go.Bar(x=df_cuentas["Company Name"],y=df_cuentas["count"]))
a.update_layout(title=go.layout.Title(
        text="DISTRIBUCION DE MARCAS LIDER EN DESARROLLO DE CELULARES"))
a.show()

In [18]:
#ordenamos las filas de forma decendente en funcion de las cuentas
df_cuentas.sort_values(['count'],inplace=True,ascending=False)
df_cuentas

Unnamed: 0,Company Name,count,mean,std,min,25%,50%,75%,max
9,Oppo,129.0,2022.310078,1.56524,2019.0,2021.0,2022.0,2024.0,2025.0
0,Apple,97.0,2020.876289,1.910812,2017.0,2020.0,2020.0,2022.0,2024.0
2,Honor,91.0,2022.175824,1.338269,2020.0,2021.0,2022.0,2023.0,2024.0
13,Samsung,88.0,2021.795455,2.090807,2016.0,2021.75,2023.0,2023.0,2024.0
16,Vivo,86.0,2020.825581,2.35243,2014.0,2019.0,2021.0,2023.0,2024.0
12,Realme,69.0,2023.666667,0.868851,2021.0,2023.0,2024.0,2024.0,2025.0
6,Motorola,62.0,2023.290323,0.894191,2022.0,2022.0,2024.0,2024.0,2024.0
4,Infinix,56.0,2022.464286,1.48892,2020.0,2021.0,2023.0,2024.0,2024.0
8,OnePlus,53.0,2021.358491,1.819703,2017.0,2020.0,2021.0,2023.0,2024.0
3,Huawei,42.0,2022.928571,1.134661,2021.0,2022.0,2023.0,2024.0,2024.0


In [19]:
#Graficamos una vez mas esta vez con los valores ordenados
import plotly.graph_objects as go

a = go.Figure(data=go.Bar(x=df_cuentas["Company Name"],y=df_cuentas["count"]))
a.update_layout(title=go.layout.Title(
        text="DISTRIBUCION DE MARCAS LIDER EN DESARROLLO DE CELULARES"))
a.show()

In [20]:
#Añadimos una columna mas con el rengo intercuartil
df_cuentas["RIC"] = df_cuentas["75%"]-df_cuentas["25%"]
df_cuentas

Unnamed: 0,Company Name,count,mean,std,min,25%,50%,75%,max,RIC
9,Oppo,129.0,2022.310078,1.56524,2019.0,2021.0,2022.0,2024.0,2025.0,3.0
0,Apple,97.0,2020.876289,1.910812,2017.0,2020.0,2020.0,2022.0,2024.0,2.0
2,Honor,91.0,2022.175824,1.338269,2020.0,2021.0,2022.0,2023.0,2024.0,2.0
13,Samsung,88.0,2021.795455,2.090807,2016.0,2021.75,2023.0,2023.0,2024.0,1.25
16,Vivo,86.0,2020.825581,2.35243,2014.0,2019.0,2021.0,2023.0,2024.0,4.0
12,Realme,69.0,2023.666667,0.868851,2021.0,2023.0,2024.0,2024.0,2025.0,1.0
6,Motorola,62.0,2023.290323,0.894191,2022.0,2022.0,2024.0,2024.0,2024.0,2.0
4,Infinix,56.0,2022.464286,1.48892,2020.0,2021.0,2023.0,2024.0,2024.0,3.0
8,OnePlus,53.0,2021.358491,1.819703,2017.0,2020.0,2021.0,2023.0,2024.0,3.0
3,Huawei,42.0,2022.928571,1.134661,2021.0,2022.0,2023.0,2024.0,2024.0,2.0


In [21]:
#La libreria plotly nos permite generar distintas visualizaciones como lo son los diagramas de burbujas
import plotly.express as px

fig = px.scatter(df_cuentas, x="RIC", y="50%",
	         size="count", color="Company Name",log_y=False,log_x=False,size_max=40)

fig.update_layout(title=go.layout.Title(
        text="DISTRIBUCION INTERCUARTIL DE MARCAS LIDER EN DESARROLLO DE CELULARES"))
fig.show()

In [22]:
#Ingresamos manualmente las cordenadas de cada país con los cuales estamos trabajando
paises_coords = {
    'Pakistan': [30.3753, 69.3451],
    'India': [20.5937, 78.9629],
    'China': [35.8617, 104.1954],
    'Dubai': [25.276987, 55.296249],
    'USA': [37.0902, -95.7129]
}


# Tasas de conversión hacia USD (aproximadas, puedes actualizarlas)
conversion_rates = {
    'Pakistan': 278,   # 1 USD ≈ 278 PKR
    'India': 83,       # 1 USD ≈ 83 INR
    'China': 7.2,      # 1 USD ≈ 7.2 CNY
    'Dubai': 3.67,     # 1 USD ≈ 3.67 AED
    'USA': 1           # USD ya está en dólares
}

# Convertir precios a dólares
for pais in paises_coords:
    col = f"Launched Price ({pais})"
    df_dataset_2[f"{col} (USD)"] = df_dataset_2[col] / conversion_rates[pais]


In [23]:
#Obtenemos la media de los precios y los redondeamos a 2 cifras
precios_avg = {}
for pais in paises:
    col_usd = f"Launched Price ({pais}) (USD)"
    precios_avg[pais] = round(df_dataset_2[col_usd].mean(), 2)

In [24]:
#La librería folium nos permite crear mapas interactivos
import folium

m = folium.Map(location=[30, 0], zoom_start=2)

for pais, coords in paises_coords.items():
    precio = precios_avg[pais]
    folium.Marker(
        location=coords,
        popup=f"{pais}: ${precio}",
        tooltip=f"{pais}",
        icon=folium.Icon(color="blue", icon="info-sign")
    ).add_to(m)
m

In [25]:
#Guarda el dataframe como archivo en el Google Drive
import os

# Mount Google Drive
from google.colab import drive
drive.mount('/content/drive')

df_dataset_2.to_csv('/content/drive/My Drive/Colab Notebooks/My_first_parctice_EDA.csv', index=False)

Mounted at /content/drive


# Conclusiones y Reflexiones

Este primer acercamiento al análisis exploratorio me permitió practicar las herramientas esenciales del análisis de datos en Python. Durante el proceso:

- Exploré la estructura y contenido del dataset.
- Detecté y gestioné valores nulos o atípicos.
- Utilicé visualizaciones para comprender la distribución de variables y sus relaciones.

Aunque este análisis es introductorio, me ayudó a reforzar conceptos clave y a ganar confianza trabajando con datos reales. En futuros proyectos planeo profundizar en análisis estadístico, ingeniería de características y modelos de machine learning.

¡Gracias por leer y acompañarme en este primer paso!
