### 📊 DataFrames y Exploración de Datos

Si la `Serie` es la columna, el `DataFrame` es la tabla completa. Esta es la estructura de datos más importante y utilizada en Pandas. En este notebook, aprenderás a dar tus primeros pasos como un explorador de datos: cargar un conjunto de datos y realizar una inspección inicial para entender con qué estás trabajando.

* **2.1. Cargando Datos desde un Archivo CSV**

La mayoría de las veces, tus datos estarán en archivos. Uno de los formatos más comunes es el CSV (Comma-Separated Values). Pandas hace que cargar estos archivos sea increíblemente fácil con `pd.read_csv()`.

In [1]:
import pandas as pd

# Usaremos un dataset muy popular y amigable para empezar: "Palmer Penguins".
# Contiene mediciones de diferentes especies de pingüinos.
url = 'https://raw.githubusercontent.com/allisonhorst/palmerpenguins/main/inst/extdata/penguins.csv'

# Cargamos los datos desde la URL en un DataFrame llamado 'df'
df = pd.read_csv(url)

print("¡Dataset cargado exitosamente!")

¡Dataset cargado exitosamente!


**Parámetros útiles en `pd.read_csv()`:**
* `sep`: Especifica el separador de columnas. Por defecto es `,`, pero a veces puede ser `;` o `\t` (tabulador).
* `header`: Indica qué fila usar como encabezado (nombres de columna).
* `index_col`: Permite designar una columna como el índice del DataFrame.
* `nrows`: Útil para cargar solo una porción del archivo, ideal para datasets muy grandes.

* **2.2. Primer Vistazo: La Rutina del Explorador de Datos**

Una vez cargado el DataFrame, NUNCA empieces a analizar sin antes hacer una exploración básica. Estos comandos son tu rutina de diagnóstico.

#### **`.head()` y `.tail()`: Un Vistazo Rápido**
Muestran las primeras y últimas filas, respectivamente. Es la forma más rápida de ver cómo lucen tus datos.

In [2]:
# Muestra las primeras 5 filas por defecto
print("Primeras 5 filas del DataFrame:")
display(df.head())

# Muestra las últimas 3 filas
print("\nÚltimas 3 filas del DataFrame:")
display(df.tail(3))

Primeras 5 filas del DataFrame:


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007



Últimas 3 filas del DataFrame:


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009
343,Chinstrap,Dream,50.2,18.7,198.0,3775.0,female,2009


#### **`.shape`, `.columns` y `.dtypes`: La Estructura**
Conoce las dimensiones y los tipos de datos de tu tabla.

In [3]:
# .shape devuelve una tupla (número_de_filas, número_de_columnas)
print(f"Dimensiones del DataFrame: {df.shape}")

# .columns muestra una lista con los nombres de todas las columnas
print(f"Nombres de las columnas: {df.columns.tolist()}")

# .dtypes muestra el tipo de dato de cada columna
print("\nTipos de datos de cada columna:")
print(df.dtypes)

Dimensiones del DataFrame: (344, 8)
Nombres de las columnas: ['species', 'island', 'bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g', 'sex', 'year']

Tipos de datos de cada columna:
species               object
island                object
bill_length_mm       float64
bill_depth_mm        float64
flipper_length_mm    float64
body_mass_g          float64
sex                   object
year                   int64
dtype: object


#### **`.info()`: El Resumen Más Completo**
Este es posiblemente el comando más importante en la exploración inicial. Te da un resumen conciso de todo: número de filas, columnas, nombres de columnas, cantidad de valores no nulos y uso de memoria.

In [4]:
print("Información completa del DataFrame:")
df.info()

Información completa del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
 7   year               344 non-null    int64  
dtypes: float64(4), int64(1), object(3)
memory usage: 21.6+ KB


*Fíjate en la columna "Non-Null Count". Si un número es menor que el total de entradas (en este caso, 344), significa que esa columna tiene valores faltantes.*

#### **`.describe()`: Resumen Estadístico**
Para todas las columnas numéricas, `.describe()` calcula estadísticas descriptivas clave.

In [5]:
print("Resumen estadístico de las columnas numéricas:")
display(df.describe())

Resumen estadístico de las columnas numéricas:


Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
count,342.0,342.0,342.0,342.0,344.0
mean,43.92193,17.15117,200.915205,4201.754386,2008.02907
std,5.459584,1.974793,14.061714,801.954536,0.818356
min,32.1,13.1,172.0,2700.0,2007.0
25%,39.225,15.6,190.0,3550.0,2007.0
50%,44.45,17.3,197.0,4050.0,2008.0
75%,48.5,18.7,213.0,4750.0,2009.0
max,59.6,21.5,231.0,6300.0,2009.0


* **count:** Número de valores no nulos.
* **mean:** Promedio.
* **std:** Desviación estándar (mide la dispersión de los datos).
* **min, 25%, 50%, 75%, max:** Percentiles, que te ayudan a entender la distribución. El 50% es la mediana.

* **2.3. Selección de Datos: Haciendo Preguntas Precisas**

Ahora que conocemos la estructura, empecemos a extraer piezas específicas de nuestros datos.

#### **Selección de Columnas**

Puedes seleccionar una o varias columnas usando sus nombres.

In [6]:
# Seleccionar una sola columna (devuelve una Serie de Pandas)
especies = df['species']
print("Tipo de dato al seleccionar una columna:", type(especies))
display(especies.head())

# Seleccionar múltiples columnas (devuelve un DataFrame)
# ¡OJO! Se usan dobles corchetes [[...]]
subset = df[['species', 'island', 'body_mass_g']]
display(subset.head())

Tipo de dato al seleccionar una columna: <class 'pandas.core.series.Series'>


0    Adelie
1    Adelie
2    Adelie
3    Adelie
4    Adelie
Name: species, dtype: object

Unnamed: 0,species,island,body_mass_g
0,Adelie,Torgersen,3750.0
1,Adelie,Torgersen,3800.0
2,Adelie,Torgersen,3250.0
3,Adelie,Torgersen,
4,Adelie,Torgersen,3450.0


#### **Selección por Etiqueta (`.loc`) y Posición (`.iloc`)**
Esta es la forma más poderosa y correcta de seleccionar filas y columnas.

* `df.loc[...]`: Selecciona por **nombre** de índice y columna (etiquetas).
* `df.iloc[...]`: Selecciona por **posición** numérica (índices enteros).

In [7]:
# --- Usando .loc (por etiqueta) ---

# Seleccionar la fila con la etiqueta de índice 3
print("Fila con índice 3:")
display(df.loc[3])

# Seleccionar las filas de la 3 a la 6 y las columnas desde 'species' hasta 'sex'
print("\nSlice de filas y columnas con .loc:")
display(df.loc[3:6, 'species':'sex'])


# --- Usando .iloc (por posición) ---

# Seleccionar la cuarta fila (posición 3)
print("\nCuarta fila (posición 3):")
display(df.iloc[3])

# Seleccionar las primeras 5 filas y las primeras 3 columnas
print("\nSlice de filas y columnas con .iloc:")
display(df.iloc[0:5, 0:3]) # Nota: el final del slice (5 y 3) no se incluye

Fila con índice 3:


species                 Adelie
island               Torgersen
bill_length_mm             NaN
bill_depth_mm              NaN
flipper_length_mm          NaN
body_mass_g                NaN
sex                        NaN
year                      2007
Name: 3, dtype: object


Slice de filas y columnas con .loc:


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,male
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,female



Cuarta fila (posición 3):


species                 Adelie
island               Torgersen
bill_length_mm             NaN
bill_depth_mm              NaN
flipper_length_mm          NaN
body_mass_g                NaN
sex                        NaN
year                      2007
Name: 3, dtype: object


Slice de filas y columnas con .iloc:


Unnamed: 0,species,island,bill_length_mm
0,Adelie,Torgersen,39.1
1,Adelie,Torgersen,39.5
2,Adelie,Torgersen,40.3
3,Adelie,Torgersen,
4,Adelie,Torgersen,36.7


#### **Bonus: Acceso Rápido a un Solo Valor con `.at` e `.iat`**
Si necesitas obtener o modificar un único valor, `.at` (por etiqueta) e `.iat` (por posición) son mucho más rápidos que `.loc` e `.iloc`.

In [8]:
# Valor en la fila de índice 100 y la columna 'body_mass_g'
valor = df.at[100, 'body_mass_g']
print(f"La masa corporal del pingüino en el índice 100 es: {valor}g")

La masa corporal del pingüino en el índice 100 es: 3725.0g


* **🧠 Ejercicios Propuestos**

Ahora te toca a ti. Usaremos el famoso dataset del Titanic.

1. **Carga y Explora:**

   * Carga el dataset desde esta URL: `https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv`

   * Usa `.info()` para identificar al menos dos columnas que tengan valores nulos.

   * Usa `.describe()` para encontrar la edad promedio (`Age`) de los pasajeros.

2. **Selección de Columnas:**

   * Crea un nuevo DataFrame llamado `titanic_subset` que solo contenga las columnas `Pclass`, `Sex`, `Age`, `Fare` y `Survived`. Muestra las primeras 5 filas de este nuevo DataFrame.

3. **Selección con `.loc` e `.iloc`:**

   * Usando `iloc`, selecciona las filas de la 100 a la 105 (inclusive) y solo las columnas en las posiciones 1, 2 y 3.

   * Usando `loc`, selecciona las mismas filas (índices 100 a 105) pero esta vez selecciona las columnas por su nombre: `Sex`, `Age` y `Fare`.