In [1]:
import pandas as pd

# 1. Creamos datos de ejemplo
data = {
    'Columna 1': [10, 20, 30, 40],
    'Columna 2': ['A', 'B', 'C', 'D']
}

# 2. IMPORTANTE: Creamos el DataFrame CON un índice personalizado
#    El índice tiene las etiquetas 'a', 'b', 'c', 'd'
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd'])

print("--- DataFrame Original ---")
print(df)
print("\n")

# 3. Usamos .loc[] para seleccionar SOLO las filas 'a' y 'b'
seleccion = df.loc[["a", "b"]] # 

print("--- Filas seleccionadas ('a' y 'b') ---")
print(seleccion)

--- DataFrame Original ---
   Columna 1 Columna 2
a         10         A
b         20         B
c         30         C
d         40         D


--- Filas seleccionadas ('a' y 'b') ---
   Columna 1 Columna 2
a         10         A
b         20         B


In [4]:
import seaborn as sns
import pandas as pd  # opcional, pero útil

# Cargar el dataset titanic (requiere internet la primera vez)
df = sns.load_dataset('titanic')

# Comprobaciones rápidas
print(df.shape)       # filas, columnas
print(df.head(3))     # primeras filas
print(df.info())      # tipos y nulos


(891, 15)
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         89

In [10]:
# --- Limpieza y relleno ---
df_sin_deck = df.dropna(thresh=500, axis=1)
df_sin_edad_nan = df.dropna(subset=['age'], axis=0)
avg_age = df['age'].mean()
df['age'] = df['age'].fillna(avg_age)
median_age = df['age'].median()
df['age'] = df['age'].fillna(median_age)

# --- Histograma de ausencias (reemplaza 'absences' por la columna real si es necesario) ---
import matplotlib.pyplot as plt

# Verifica el nombre de la columna antes de graficar
if 'absences' in df.columns:
    plt.hist(df['absences'])
    plt.title("Histograma de Ausencias")
    plt.xlabel("Días de Ausencia")
    plt.ylabel("Número de Estudiantes")
    plt.grid(True)
    plt.show()
else:
    print("La columna 'absences' no existe en el dataframe. Usa el nombre correcto.")


La columna 'absences' no existe en el dataframe. Usa el nombre correcto.


In [13]:
import pandas as pd

# This assumes your notebook is in 'Notebooks and data-20251021'
# and the 'data' folder is also directly inside it.
file_path = "./Notebooks and data-20251021/data/fish/capture-fisheries-vs-aquaculture.csv" 
df = pd.read_csv(file_path)

print(df.head())
print(f"\nSuccessfully loaded data from: {file_path}")

        Entity Code  Year  Aquaculture production (metric tons)  \
0  Afghanistan  AFG  1969                                  60.0   
1  Afghanistan  AFG  1970                                  60.0   
2  Afghanistan  AFG  1971                                  60.0   
3  Afghanistan  AFG  1972                                  60.0   
4  Afghanistan  AFG  1973                                  60.0   

   Capture fisheries production (metric tons)  
0                                       400.0  
1                                       400.0  
2                                       500.0  
3                                       500.0  
4                                       500.0  

Successfully loaded data from: ./Notebooks and data-20251021/data/fish/capture-fisheries-vs-aquaculture.csv


In [14]:
# Eliminar la columna 'Code'
df = df.drop('Code', axis=1) #

# (Opcional: Verificar que 'Code' ya no está)
print("\nDataFrame después de eliminar la columna 'Code':")
print(df.head())


DataFrame después de eliminar la columna 'Code':
        Entity  Year  Aquaculture production (metric tons)  \
0  Afghanistan  1969                                  60.0   
1  Afghanistan  1970                                  60.0   
2  Afghanistan  1971                                  60.0   
3  Afghanistan  1972                                  60.0   
4  Afghanistan  1973                                  60.0   

   Capture fisheries production (metric tons)  
0                                       400.0  
1                                       400.0  
2                                       500.0  
3                                       500.0  
4                                       500.0  


In [15]:
# (Opcional: Ver cuántos NaN hay antes de reemplazar)
print("\nValores NaN por columna ANTES de reemplazar:")
print(df.isnull().sum())

# Reemplazar todos los NaN con 0
df = df.fillna(0) # 

# (Opcional: Verificar que ya no quedan NaN)
print("\nValores NaN por columna DESPUÉS de reemplazar:")
print(df.isnull().sum())


Valores NaN por columna ANTES de reemplazar:
Entity                                           0
Year                                             0
Aquaculture production (metric tons)          3017
Capture fisheries production (metric tons)     158
dtype: int64

Valores NaN por columna DESPUÉS de reemplazar:
Entity                                        0
Year                                          0
Aquaculture production (metric tons)          0
Capture fisheries production (metric tons)    0
dtype: int64


In [16]:
# (Opcional: Verificar el tipo de dato original de 'Year')
print("\nTipo de dato de 'Year' ANTES de la conversión:")
print(df.dtypes) 

# --- Conversión a datetime ---
# Usamos pd.to_datetime para convertir la columna 'Year'.
# format="%Y" le dice a Pandas que los números en 'Year' son solo años (YYYY).
# Guardamos el resultado en una NUEVA columna llamada 'new_Year'.
df['new_Year'] = pd.to_datetime(df['Year'], format="%Y") # 

# --- Establecer como Índice ---
# Usamos .set_index() para que la columna 'new_Year' sea el nuevo índice del DataFrame.
df = df.set_index('new_Year') # 

# --- Limpiar Columnas Viejas ---
# Como la información del año ya está en el índice, la columna 'Year' original ya no es necesaria.
df = df.drop('Year', axis=1) # 

# --- Ordenar el Índice ---
# Es fundamental que los datos de series temporales estén ordenados cronológicamente.
df = df.sort_index() # 

# (Opcional: Verificar los cambios)
print("\nDataFrame DESPUÉS de transformar el tiempo:")
print(df.head()) 
print("\nInformación del DataFrame con el nuevo índice:")
df.info() # Ahora deberías ver "DatetimeIndex" en lugar de "RangeIndex"


Tipo de dato de 'Year' ANTES de la conversión:
Entity                                         object
Year                                            int64
Aquaculture production (metric tons)          float64
Capture fisheries production (metric tons)    float64
dtype: object

DataFrame DESPUÉS de transformar el tiempo:
                              Entity  Aquaculture production (metric tons)  \
new_Year                                                                     
1960-01-01            Cayman Islands                                   0.0   
1960-01-01                   Bahrain                                   0.0   
1960-01-01               North Korea                                5236.0   
1960-01-01  Northern Mariana Islands                                   0.0   
1960-01-01                    Norway                                1900.0   

            Capture fisheries production (metric tons)  
new_Year                                                
1960-01-01      