Instrucciones üí°
Para completar este caso, realiza las siguientes tareas:

1. Carga de datos desde distintos archivos:
‚óã Importa un archivo CSV en un DataFrame de Pandas.
‚óã Carga un archivo Excel en otro DataFrame.
‚óã Extrae informaci√≥n de una tabla web utilizando read_html().
2. Limpieza y estructuraci√≥n de datos:
‚óã Identifica valores nulos y decide si deben ser imputados o
eliminados.
‚óã Elimina filas duplicadas si es necesario.
‚óã Verifica y ajusta los tipos de datos en columnas num√©ricas y
categ√≥ricas.

3. Transformaci√≥n y optimizaci√≥n de datos:
‚óã Selecciona las columnas m√°s relevantes para el an√°lisis.
‚óã Renombra columnas para mejorar la legibilidad.
‚óã Ordena los datos en funci√≥n de una columna clave.
4. Exportaci√≥n de datos:
‚óã Guarda el DataFrame limpio en un archivo CSV sin incluir el √≠ndice.
‚óã Exporta los datos procesados a Excel para su visualizaci√≥n.

In [1]:
import pandas as pd

In [11]:
# a) Cargar archivo CSV
df_csv = pd.read_csv("medallas.csv")  # Reemplaza con el nombre real del archivo
print("CSV cargado con √©xito")

# b) Cargar archivo Excel
df_excel = pd.read_excel("edad peces.xlsx")  # Reemplaza con el nombre real del archivo
print("Excel cargado con √©xito")

# c) Cargar tabla web (requiere conexi√≥n a internet)
url = "https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_por_poblaci%C3%B3n"  # Ejemplo
tablas = pd.read_html(url)
df_web = tablas[0]  # Usamos la primera tabla
print("Tabla web cargada con √©xito")

CSV cargado con √©xito
Excel cargado con √©xito
Tabla web cargada con √©xito


In [12]:
# 2. LIMPIEZA Y ESTRUCTURACI√ìN

# a) Identificar valores nulos en todos los DataFrames
print("\n--- Valores nulos en el archivo CSV ---")
print(df_csv.isnull().sum())

print("\n--- Valores nulos en el archivo Excel ---")
print(df_excel.isnull().sum())

print("\n--- Valores nulos en la tabla web ---")
print(df_web.isnull().sum())


--- Valores nulos en el archivo CSV ---
Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

--- Valores nulos en el archivo Excel ---
AGE    0
TL     0
PT     0
dtype: int64

--- Valores nulos en la tabla web ---
N.¬∫                                                                                                  1
Pa√≠s (o territorio dependiente)                                                                      0
Proyecci√≥n exponencial de la poblaci√≥n al 1/7/2025[7]‚Äã                                               0
Total mun- dial (%)                                                                                  0
Cambio medio anual (%)[8]‚Äã                                                                           0
Cambio absoluto anual promedio                                                                       0
Cambio medio abs. total anual (%)                                                                    0
A√±os para even- tual du- pli-

In [13]:
# Funci√≥n para mostrar ejemplos de filas con valores nulos
def mostrar_filas_con_nulos(df, nombre_df, cantidad=5):
    filas_con_nulos = df[df.isnull().any(axis=1)]
    print(f"\nüîç Ejemplos de filas con valores nulos en {nombre_df} (primeras {cantidad} filas):\n")
    print(filas_con_nulos.head(cantidad))

# Mostrar ejemplos para cada DataFrame
mostrar_filas_con_nulos(df_csv, "archivo CSV")
mostrar_filas_con_nulos(df_web, "tabla web")


üîç Ejemplos de filas con valores nulos en archivo CSV (primeras 5 filas):

   Oro  Plata  Bronce  Total        Pais
0  NaN    1.0     2.0      3   Argentina
1  NaN    2.0     2.0      4     Armenia
4  NaN    3.0     4.0      7  Azerbaijan
5  2.0    NaN     NaN      2     Bahamas
6  NaN    1.0     NaN      1     Bahrain

üîç Ejemplos de filas con valores nulos en tabla web (primeras 5 filas):

     N.¬∫ Pa√≠s (o territorio dependiente)  \
244  NaN                           Mundo   

    Proyecci√≥n exponencial de la poblaci√≥n al 1/7/2025[7]‚Äã  \
244                                      8¬†083¬†664¬†000       

    Total mun- dial (%) Cambio medio anual (%)[8]‚Äã  \
244               10000                        103   

    Cambio absoluto anual promedio Cambio medio abs. total anual (%)  \
244                     83¬†402¬†000                             10000   

    A√±os para even- tual du- pli- ca- ci√≥n[9]‚Äã  \
244                                         68   

    Censo m√°s

In [14]:
#Por el tipo de dato, solo en df_csv imputaria los nulos por 0
# Reemplazar todos los valores nulos por 0 en df_csv
df_csv.fillna(0, inplace=True)

In [15]:
print("\n‚úÖ Verificaci√≥n: valores nulos despu√©s del reemplazo en df_csv:")
print(df_csv.isnull().sum())


‚úÖ Verificaci√≥n: valores nulos despu√©s del reemplazo en df_csv:
Oro       0
Plata     0
Bronce    0
Total     0
Pais      0
dtype: int64


In [16]:
# Revisar y eliminar duplicados en df_csv
print("üîÅ Duplicados en df_csv:", df_csv.duplicated().sum())
df_csv = df_csv.drop_duplicates()

# Revisar y eliminar duplicados en df_excel
print("üîÅ Duplicados en df_excel:", df_excel.duplicated().sum())
#df_excel = df_excel.drop_duplicates()
#en df_excel, al ser una lista de peces no es necesario eliminar duplicados
# Revisar y eliminar duplicados en df_web
print("üîÅ Duplicados en df_web:", df_web.duplicated().sum())
df_web = df_web.drop_duplicates()

üîÅ Duplicados en df_csv: 0
üîÅ Duplicados en df_excel: 94
üîÅ Duplicados en df_web: 0


In [17]:
print("\nüîç Tipos de datos en df_csv:")
print(df_csv.dtypes)

print("\nüîç Tipos de datos en df_excel:")
print(df_excel.dtypes)

print("\nüîç Tipos de datos en df_web:")
print(df_web.dtypes)


üîç Tipos de datos en df_csv:
Oro       float64
Plata     float64
Bronce    float64
Total       int64
Pais       object
dtype: object

üîç Tipos de datos en df_excel:
AGE      int64
TL     float64
PT     float64
dtype: object

üîç Tipos de datos en df_web:
N.¬∫                                                                                                  object
Pa√≠s (o territorio dependiente)                                                                      object
Proyecci√≥n exponencial de la poblaci√≥n al 1/7/2025[7]‚Äã                                               object
Total mun- dial (%)                                                                                  object
Cambio medio anual (%)[8]‚Äã                                                                           object
Cambio absoluto anual promedio                                                                       object
Cambio medio abs. total anual (%)                                                  

No es necesario cambiar los tipos de columnas

In [18]:
# Selecci√≥n de columnas relevantes en df_web
columnas_relevantes_web = [
    "Pa√≠s (o territorio dependiente)",
    "Proyecci√≥n exponencial de la poblaci√≥n al 1/7/2025[7]‚Äã",
    "Cambio medio anual (%)[8]‚Äã"
]
df_web_clean = df_web[columnas_relevantes_web]

In [19]:
# Renombrar columnas
df_web_clean = df_web_clean.rename(columns={
    "Pa√≠s (o territorio dependiente)": "Pais",
    "Proyecci√≥n exponencial de la poblaci√≥n al 1/7/2025[7]‚Äã": "Poblacion_2025",
    "Cambio medio anual (%)[8]‚Äã": "Cambio_anual_pct"
})

In [23]:
# Convertir 'Poblacion_2025' a num√©rica
df_web_clean["Poblacion_2025"] = (
    df_web_clean["Poblacion_2025"]
    .replace(",", "", regex=True)
    .astype(str)
    .str.extract(r"(\d+\.?\d*)")[0]  
    .astype(float)
)

In [25]:
# Ordenar el DataFrame por poblaci√≥n
df_web_clean = df_web_clean.sort_values(by="Poblacion_2025", ascending=False)