# 📊 Análisis Exploratorio de Datos con Python  

**Daniel Mauricio Cárdenas Forero**

[LinkedIn](https://www.linkedin.com/in/dcardenasf/) | [Github](https://github.com/dcardenasf)

---

**🎯 Objetivo:**

Realizar un análisis exploratorio de datos, utilizando un conjuno de datos (dataset) en ``Python``


**🧠 Introducción**
El Análisis Exploratorio de Datos (AED o EDA, por sus siglas en inglés) es una etapa fundamental dentro del proceso de ciencia de datos. Su objetivo principal es comprender la estructura, calidad y características generales de un conjunto de datos antes de aplicar modelos estadísticos o de machine learning. En este ejercicio, se utilizará Python y sus bibliotecas más comunes para realizar un análisis exploratorio completo, desde la carga de datos hasta la visualización de patrones y relaciones clave.

**🛠️ Metodología**
Para llevar a cabo el análisis exploratorio, se seguirán los siguientes pasos:

1. **Carga del dataset**
Se utilizará la biblioteca pandas para importar el conjunto de datos desde una fuente local o en línea, y así comenzar su manipulación y análisis.

2. **Revisión inicial de los datos**
Incluye una inspección general de las dimensiones del dataset, tipos de datos, valores nulos, duplicados y primeras filas para tener una visión preliminar.

3. **Limpieza de datos**
En esta etapa se tratarán valores faltantes, datos atípicos (outliers) y conversiones necesarias de tipos de datos para asegurar la calidad del análisis.

4. **Análisis univariado y estadístico descriptivo**
Se explorarán las variables de forma individual utilizando pandas, numpy y seaborn para generar métricas como la media, mediana, desviación estándar, entre otros.

5. **Análisis bivariado y multivariado**
Se analizarán las relaciones entre variables usando gráficos de dispersión, mapas de calor y análisis de correlaciones, con ayuda de matplotlib, seaborn y plotly.

6. **Visualización de datos**
Se utilizarán herramientas gráficas para identificar patrones, distribuciones, relaciones y comportamientos anómalos dentro del conjunto de datos. Esto permite obtener insights valiosos de manera visual y comprensible.

7. **Conclusiones**
Finalmente, se presentarán los hallazgos más relevantes del análisis exploratorio, destacando aspectos interesantes que podrían guiar análisis posteriores o la toma de decisiones.

## 0. Preliminares  

Vamos a realizar la carga de las librerias básicas que se van a utilizar para este ejercicio.

- pandas: Permite la carga, manipulación y limpieza eficiente de datasets tabulares.
- numpy: Complementa el análisis numérico con funciones matemáticas y estadísticas rápidas.
- matplotlib: Proporciona las herramientas básicas para generar gráficos estáticos.
- seaborn: Se basa en matplotlib, pero ofrece una forma más sencilla y atractiva de crear gráficos estadísticos.
- plotly: Permite generar visualizaciones interactivas que mejoran la exploración y comprensión de los datos.

In [1]:
import pandas as pd        # Manipulación y análisis de datos estructurados
import numpy as np         # Operaciones matemáticas y estadísticas de bajo nivel
import matplotlib.pyplot as plt  # Visualización básica de datos (gráficos de líneas, barras, etc.)
import seaborn as sns      # Visualización avanzada y estética sobre Matplotlib
import plotly.express as px # Visualización interactiva de datos

## 1. Carga del dataset.

En esta sección realizaremos un análisis exploratorio del dataset de ventas globales de videojuegos entre 1980 y 2020. Este conjunto de datos permite realizar distintos tipos de análisis enfocados en las ventas por plataforma, género y región.

A continuación, se describen las columnas disponibles en el dataset:

| Columna | Descripción |
|---|---|
|Rank| Posición del juego según las ventas totales|
|Name| Nombre del videojuego|
|Platform| Consola en la que fue publicado|
|Year| Año de lanzamiento|
|Genre | Género del videojuego |
|Publisher| Distribuidor del videojuego|
|NA_Sales| Ventas en Norteamérica (en millones)|
|EU_Sales| Ventas en Europa (en millones)|
|JP_Sales| Ventas en Japón (en millones)|
|Other_Sales| Ventas en el resto del mundo (en millones)|
|Global_Sales| Ventas totales a nivel mundial (en millones)|

*Fuente: [Video Game Sales](https://www.kaggle.com/datasets/anandshaw2001/video-game-sales?resource=download)*

In [2]:
path = "https://raw.githubusercontent.com/Dcardenasf/Portafolio/refs/heads/main/Data/Raw/vgsales.csv" # Ruta al archivo CSV
df = pd.read_csv(path)  # Cargar el archivo CSV en un DataFrame de pandas

## 2. Revisión inicial de los datos  

En esta sección realizaremos una inspección preliminar del dataset. El objetivo es comprender la estructura general de los datos y detectar posibles problemas que debamos tratar antes del análisis.

Las tareas que abordaremos son:

- Visualizar las primeras filas del dataset.

- Identificar el tipo de datos de cada columna.

- Detectar valores nulos o faltantes.

- Buscar registros duplicados.

- Revisar estadísticas descriptivas básicas para variables numéricas.

Estas acciones nos permitirán establecer una base sólida para el análisis posterior

In [3]:
df.head() # Mostrar las primeras filas del DataFrame


Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


In [4]:
df.info() # Información general del DataFrame, incluyendo el número de entradas y tipos de datos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          16598 non-null  int64  
 1   Name          16598 non-null  object 
 2   Platform      16598 non-null  object 
 3   Year          16327 non-null  float64
 4   Genre         16598 non-null  object 
 5   Publisher     16540 non-null  object 
 6   NA_Sales      16598 non-null  float64
 7   EU_Sales      16598 non-null  float64
 8   JP_Sales      16598 non-null  float64
 9   Other_Sales   16598 non-null  float64
 10  Global_Sales  16598 non-null  float64
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB


In [5]:
df.isnull().sum() # Contar los valores nulos en cada columna


Rank              0
Name              0
Platform          0
Year            271
Genre             0
Publisher        58
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64

In [6]:
df.duplicated().sum() # Comprobar si hay filas duplicadas en el DataFrame


np.int64(0)

Con base en la revisión inicial, podemos concluir que el dataset, contiene 16598 observaciones y 11 columnas con distintos tipos númericos (int64, float64) y categóricos (object).

Se identifican valores nulos en las columnas `Year` y `Publisher`; sin embargo no se encontraron valores duplicados.

Esto nos indica que será necesario tratar los valores nulos antes de continuar con el análisis exploratorio o la visualización de datos.

## 3. Limpieza de datos

Este dataset se encuentra relativamente limpio, ya que no presenta muchas inconsistencias como valores nulos masivos, registros duplicados o errores en los tipos de datos. Sin embargo, es una excelente oportunidad para realizar un ejercicio básico de limpieza de datos.

Las acciones que abordaremos en esta sección son:

- Tratar los valores nulos presentes en las columnas ``Year`` y ``Publisher``.

- Convertir tipos de columna.

- Validar las variables categóricas para identificar posibles inconsistencias o diferencias de formato, y unificarlas en caso de ser necesario.

### 3.1 Tratamiento de valores nulos

In [7]:
#Porcentaje de valores nulos

porcentaje_nulos = (df.isnull().sum() / len(df)) * 100
print("Porcentaje de valores nulos en cada columna:")
for columna, porcentaje in porcentaje_nulos.items():
    print(f"{columna}: {porcentaje:.2f}%")

Porcentaje de valores nulos en cada columna:
Rank: 0.00%
Name: 0.00%
Platform: 0.00%
Year: 1.63%
Genre: 0.00%
Publisher: 0.35%
NA_Sales: 0.00%
EU_Sales: 0.00%
JP_Sales: 0.00%
Other_Sales: 0.00%
Global_Sales: 0.00%


Para el manejo de los valores nulos, se pueden imputar o eliminar, analicemos cada uno de los casos:

In [8]:
# Valores Nulos en categorías
df_filtro_Year = df[df['Year'].isnull()]
df_filtro_Year

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
179,180,Madden NFL 2004,PS2,,Sports,Electronic Arts,4.26,0.26,0.01,0.71,5.23
377,378,FIFA Soccer 2004,PS2,,Sports,Electronic Arts,0.59,2.36,0.04,0.51,3.49
431,432,LEGO Batman: The Videogame,Wii,,Action,Warner Bros. Interactive Entertainment,1.86,1.02,0.00,0.29,3.17
470,471,wwe Smackdown vs. Raw 2006,PS2,,Fighting,,1.57,1.02,0.00,0.41,3.00
607,608,Space Invaders,2600,,Shooter,Atari,2.36,0.14,0.00,0.03,2.53
...,...,...,...,...,...,...,...,...,...,...,...
16307,16310,Freaky Flyers,GC,,Racing,Unknown,0.01,0.00,0.00,0.00,0.01
16327,16330,Inversion,PC,,Shooter,Namco Bandai Games,0.01,0.00,0.00,0.00,0.01
16366,16369,Hakuouki: Shinsengumi Kitan,PS3,,Adventure,Unknown,0.01,0.00,0.00,0.00,0.01
16427,16430,Virtua Quest,GC,,Role-Playing,Unknown,0.01,0.00,0.00,0.00,0.01


En el caso de los años, teniendo en cuenta que los datos nulos es un porcentaje muy bajo (1.63%), lo podemos remplazar por un valor "0"; aunque podriamos llegar a imputarlo por ejemplo con el año de salida de la plataforma en la que se publica.

Para los valores nulos de la columna publisher (0.35%), se reemplazan por "Unknown".

In [12]:
df = df.fillna({'Year': 0}) # Rellenar los valores nulos de la columna 'Year' con 0
df = df.fillna({'Publisher': 'Unknown'}) # Rellenar los valores nulos de la columna 'Publisher' con 'Unknown'
df.info() # Información general del DataFrame después de rellenar los valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          16598 non-null  int64  
 1   Name          16598 non-null  object 
 2   Platform      16598 non-null  object 
 3   Year          16598 non-null  float64
 4   Genre         16598 non-null  object 
 5   Publisher     16598 non-null  object 
 6   NA_Sales      16598 non-null  float64
 7   EU_Sales      16598 non-null  float64
 8   JP_Sales      16598 non-null  float64
 9   Other_Sales   16598 non-null  float64
 10  Global_Sales  16598 non-null  float64
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB


### 3.2 Cambiar los tipos de columnas

Cambiaremos la columna `YEAR` de float64 a datetime64.

In [None]:
df['Year'] = df['Year'].astype('datetime64[as]') # Convertir la columna 'Year' a tipo datetime64

In [17]:
df

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,1970-01-01,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1970-01-01,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,1970-01-01,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,1970-01-01,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
4,5,Pokemon Red/Pokemon Blue,GB,1970-01-01,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...,...,...
16593,16596,Woody Woodpecker in Crazy Castle 5,GBA,1970-01-01,Platform,Kemco,0.01,0.00,0.00,0.00,0.01
16594,16597,Men in Black II: Alien Escape,GC,1970-01-01,Shooter,Infogrames,0.01,0.00,0.00,0.00,0.01
16595,16598,SCORE International Baja 1000: The Official Game,PS2,1970-01-01,Racing,Activision,0.00,0.00,0.00,0.00,0.01
16596,16599,Know How 2,DS,1970-01-01,Puzzle,7G//AMES,0.00,0.01,0.00,0.00,0.01
