# # Sesión 1: Introducción a Data Science con Python
## Ejemplo con el dataset "Global Energy Consumption (2000-2024)"

---

### 1. Bienvenida
En esta primera sesión, exploraremos el **flujo básico** de un proyecto de Data Science:

1. Carga de datos
2. Exploración inicial (EDA)
3. Limpieza y preparación
4. Visualización básica

Usaremos como ejemplo el dataset de consumo de energía global de Kaggle.

---

### 2. Preparación del Entorno en Google Colab

Para trabajar con Google Colab:

1. Ve a [Google Colab](https://colab.research.google.com/).
2. Inicia sesión con tu cuenta de Google.
3. Crea un nuevo Notebook:  
   **Archivo** > **Nuevo cuaderno** (New Notebook).

#### 2.1 Opciones para cargar el archivo CSV

**Opción A**: Subir directamente el CSV en la sesión de Colab.  
- En la barra lateral izquierda, haz clic en el ícono de carpeta.  
- Haz clic en el ícono **Subir** y selecciona tu CSV.  
- Luego en el código, usarás la ruta relativa, por ejemplo: `"/content/global_energy_consumption.csv"`.

**Opción B**: Montar Google Drive  
- Ejecuta la siguiente celda de código y sigue las instrucciones:
```python
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#Opción B
from google.colab import drive
drive.mount('/content/drive')

# Si lo tienes en Drive, la ruta sería distinta, por ejemplo:
# ruta_csv = "/content/drive/MyDrive/Carpeta/global_energy_consumption.csv"

df = pd.read_csv(ruta_csv, encoding='utf-8')  # Ajusta el encoding si es necesario
df.head()

In [None]:
#Opción A
ruta_csv = '/content/global_energy_consumption.csv'

df = pd.read_csv(ruta_csv, encoding='utf-8')  # Ajusta el encoding si es necesario
df.head()

Unnamed: 0,Country,Year,Total Energy Consumption (TWh),Per Capita Energy Use (kWh),Renewable Energy Share (%),Fossil Fuel Dependency (%),Industrial Energy Use (%),Household Energy Use (%),Carbon Emissions (Million Tons),Energy Price Index (USD/kWh)
0,Canada,2018,9525.38,42301.43,13.7,70.47,45.18,19.96,3766.11,0.12
1,Germany,2020,7922.08,36601.38,33.63,41.95,34.32,22.27,2713.12,0.08
2,Russia,2002,6630.01,41670.2,10.82,39.32,53.66,26.44,885.98,0.26
3,Brazil,2010,8580.19,10969.58,73.24,16.71,30.55,27.6,1144.11,0.47
4,Canada,2006,848.88,32190.85,73.6,74.86,42.39,23.43,842.39,0.48


In [None]:
!pip install --upgrade pip

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#Gráficas integradas en el notebook
%matplotlib inline


Collecting pip
  Downloading pip-25.0.1-py3-none-any.whl.metadata (3.7 kB)
Downloading pip-25.0.1-py3-none-any.whl (1.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m19.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 24.1.2
    Uninstalling pip-24.1.2:
      Successfully uninstalled pip-24.1.2
Successfully installed pip-25.0.1


### Exploración inicial del dataset (EDA)

In [None]:
# 5.1 Dimensiones y primeras filas
print("Dimensiones del DataFrame: ", df.shape)
df.head()  # Muestra las primeras 5 filas

# 5.2 Información general (tipos de datos, nulos, etc.)
#df.info()

# 5.3 Descripción estadística de columnas numéricas
#df.describe()


Dimensiones del DataFrame:  (10000, 10)


Unnamed: 0,Country,Year,Total Energy Consumption (TWh),Per Capita Energy Use (kWh),Renewable Energy Share (%),Fossil Fuel Dependency (%),Industrial Energy Use (%),Household Energy Use (%),Carbon Emissions (Million Tons),Energy Price Index (USD/kWh)
0,Canada,2018,9525.38,42301.43,13.7,70.47,45.18,19.96,3766.11,0.12
1,Germany,2020,7922.08,36601.38,33.63,41.95,34.32,22.27,2713.12,0.08
2,Russia,2002,6630.01,41670.2,10.82,39.32,53.66,26.44,885.98,0.26
3,Brazil,2010,8580.19,10969.58,73.24,16.71,30.55,27.6,1144.11,0.47
4,Canada,2006,848.88,32190.85,73.6,74.86,42.39,23.43,842.39,0.48


### Limpieza de datos

In [None]:
df.isnull().sum()


Unnamed: 0,0
Country,0
Year,0
Total Energy Consumption (TWh),0
Per Capita Energy Use (kWh),0
Renewable Energy Share (%),0
Fossil Fuel Dependency (%),0
Industrial Energy Use (%),0
Household Energy Use (%),0
Carbon Emissions (Million Tons),0
Energy Price Index (USD/kWh),0


In [None]:
# Eliminar filas con nulos
df.dropna(inplace=True)

# O bien, rellenar nulos con la media de esa columna (ejemplo genérico)
# df['Energy Consumption'] = df['Energy Consumption'].fillna(df['Energy Consumption'].mean())

In [None]:
# Si existe una columna 'Year' como string y deseas convertirla a int
# df['Year'] = df['Year'].astype(int)

# O si existe una columna de fecha
# df['Date'] = pd.to_datetime(df['Date'], format='%Y-%m-%d')


### Visualización

In [None]:
plt.hist(df['Energy Consumption'], bins=20)
plt.title('Distribución de Consumo de Energía')
plt.xlabel('Consumo de Energía (unidades)')
plt.ylabel('Frecuencia')
plt.show()


In [None]:
conteo_paises = df['Country'].value_counts().head(10)  # Top 10
conteo_paises.plot(kind='bar')
plt.title('Conteo de Países (Top 10)')
plt.xlabel('País')
plt.ylabel('Número de registros')
plt.show()
