<a href="https://colab.research.google.com/github/bernimof/TD_CsdeDatos/blob/M3_Analisis_de_Caso_Panda/AnalisisdeCaso2_Libreria_Panda_vf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Obtención de Datos desde Archivos con Pandas**

In [None]:
# Cargar Librerias
import pandas as pd
import numpy as np

## Archivo CSV: "Exportaciones de Chile - Año 2025"
Fuente: https://www.kaggle.com/datasets/cristobalbravo1/exportaciones-chilenas-2025-comercio-internacional

### 1. Carga de datos desde CSV

In [None]:
# Archivo CSV en un DataFrame de Pandas.
exportaciones = pd.read_csv("exportaciones_chile_2025.csv")

exportaciones.head(5)

Unnamed: 0,_id,Anio,Mes,Codigo producto,Producto,ID region,Region origen,Pais destino,Unidad,Volumen,USD FOB
0,1,2025,4,8081099,"Las demás manzanas frescas, las demás variedad...",9,La Araucanía,Holanda,Kilo neto,3332616000,47517182
1,2,2025,1,11082000,Inulina,16,Ñuble,Bélgica,Kilo neto,210000000,2688000
2,3,2025,4,22042165,Vino Pinot Noir con denominación de origen con...,13,Metropolitana,El Salvador,Litro,225000,25500
3,4,2025,5,8105090,Los demás kiwis frescos (desde 2012),7,Maule,India,Kilo neto,12454800000,250595520
4,5,2025,1,22042141,Vino Sauvignon Blanc con denominación de orige...,13,Metropolitana,Perú,Litro,6660000,352670


### 2. Limpieza y estructuración de datos:
- Identifica valores nulos y decide si deben ser imputados o
eliminados.
- Elimina filas duplicadas si es necesario.
- Verifica y ajusta los tipos de datos en columnas numéricas y
categóricas.

In [None]:
#  Identificar Nulos

# Forma 1:
exportaciones.info()

# Forma 2:
print("\nValores nulos en el archivo CSV:")
print(exportaciones.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68097 entries, 0 to 68096
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   _id              68097 non-null  int64 
 1   Anio             68097 non-null  int64 
 2   Mes              68097 non-null  int64 
 3   Codigo producto  68097 non-null  int64 
 4   Producto         68097 non-null  object
 5   ID region        68097 non-null  int64 
 6   Region origen    68097 non-null  object
 7   Pais destino     68097 non-null  object
 8   Unidad           68097 non-null  object
 9   Volumen          68097 non-null  object
 10  USD FOB          68097 non-null  object
dtypes: int64(5), object(6)
memory usage: 5.7+ MB

Valores nulos en el archivo CSV:
_id                0
Anio               0
Mes                0
Codigo producto    0
Producto           0
ID region          0
Region origen      0
Pais destino       0
Unidad             0
Volumen            0
USD FOB     

Por lo tanto, no existen datos nulos.

In [None]:
# Eliminar duplicados
exportaciones = exportaciones.drop_duplicates()

# Eliminar filas vacias
exportaciones = exportaciones.dropna(how='all')

In [None]:
# Verificar y ajustar tipos de datos
exportaciones.dtypes

Unnamed: 0,0
_id,int64
Anio,int64
Mes,int64
Codigo producto,int64
Producto,object
ID region,int64
Region origen,object
Pais destino,object
Unidad,object
Volumen,object


In [None]:
# Cambio Tipo de Dato en Columnas 'Volumen' y 'USD FOB' a float

exportaciones['Volumen'] = exportaciones['Volumen'].astype(str)
exportaciones['Volumen'] = exportaciones['Volumen'].str.replace('.', '')
exportaciones['Volumen'] = exportaciones['Volumen'].str.replace(',', '.')
exportaciones['Volumen'] = exportaciones['Volumen'].astype(float)

exportaciones['USD FOB'] = exportaciones['USD FOB'].astype(str)
exportaciones['USD FOB'] = exportaciones['USD FOB'].str.replace('.', '')
exportaciones['USD FOB'] = exportaciones['USD FOB'].str.replace(',', '.')
exportaciones['USD FOB'] = exportaciones['USD FOB'].astype(float)

In [None]:
# Chequeo de cambio de datos
exportaciones.dtypes

Unnamed: 0,0
_id,int64
Anio,int64
Mes,int64
Codigo producto,int64
Producto,object
ID region,int64
Region origen,object
Pais destino,object
Unidad,object
Volumen,float64


### 3. Transformación y optimización de datos:
- Selecciona las columnas más relevantes para el análisis.
- Renombra columnas para mejorar la legibilidad.
- Ordena los datos en función de una columna clave.

In [None]:
# Renombrar columnas
exportaciones.rename(columns={'Pais destino': 'Pais', 'Producto': 'Exportacion'}, inplace=True)

# Selección de las columnas más relevantes para el análisis
exportaciones_selected = exportaciones[['Pais', 'Exportacion', 'Region origen', 'USD FOB']]

# Ordenar los datos por una columna clave (pais)
exportaciones_selected = exportaciones_selected.sort_values(by='Pais', ascending=True)

exportaciones_selected.head()

Unnamed: 0,Pais,Exportacion,Region origen,USD FOB
59844,Albania,Las demás variedades de peras frescas (desde 2...,Libertador Bernardo O'Higgins,22607.84
59943,Albania,Vinos en recipientes con capacidad superior a ...,Libertador Bernardo O'Higgins,1303.63
10318,Albania,"Las demás nueces de nogal con cáscara, frescas...",Metropolitana,156712.3
10900,Albania,"Las demás nueces de nogal con cáscara, frescas...",Metropolitana,86157.0
37593,Albania,"Las demás nueces de nogal con cáscara, frescas...",Libertador Bernardo O'Higgins,44492.0


In [None]:
exportaciones_selected.tail(7)

Unnamed: 0,Pais,Exportacion,Region origen,USD FOB
22529,Zaire,"Los demás trozos y despojos de pavo, congelados",Valparaíso,54518.75
30683,Zaire,"Las demás carnes porcinas, congeladas",Libertador Bernardo O'Higgins,25291.0
58996,Zaire,"Despojos de gallo o gallina, congelados",Libertador Bernardo O'Higgins,17210.6
64236,Zaire,"Los demás trozos y despojos de pavo, congelados",Libertador Bernardo O'Higgins,30214.0
23677,Zaire,"Los demás trozos y despojos de pavo, congelados",Libertador Bernardo O'Higgins,15190.54
51222,Zaire,"Despojos de gallo o gallina, congelados",Libertador Bernardo O'Higgins,5693.06
47695,Zimbabue,"Fresas (frutillas), preparadas o conservadas, ...",Metropolitana,62379.38


### 4. Exportación de datos:
- Guarda el DataFrame limpio en un archivo CSV sin incluir el índice.
- Exporta los datos procesados a Excel para su visualización.

In [None]:
exportaciones_selected.to_csv('Exportaciones_Chile_2025_Limpio.csv', index=False)

print("\nLos datos procesados se han exportado correctamente.")


Los datos procesados se han exportado correctamente.


## Archivo Excel - "Países por Continente"
Fuente: INE.es
https://www.ine.es/daco/daco42/clasificaciones/paises_estandar.xls

A este Excel se le agregó una Hoja 2 y se trabajo con esa.

### 1. Carga de datos desde Excel

In [None]:
# Archivo Excel en otro DataFrame.
paises = pd.read_excel('paises_estandar.xlsx', sheet_name=1) # sheet_name=1 carga la segunda hoja

paises.head(5)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,,Continente,Código,País o territorio
1,,01 UNIÓN EUROPEA,102,AUSTRIA
2,,01 UNIÓN EUROPEA,103,BELGICA
3,,01 UNIÓN EUROPEA,104,BULGARIA
4,,01 UNIÓN EUROPEA,106,CHIPRE


### 2. Limpieza y estructuración de datos:
- Identifica valores nulos y decide si deben ser imputados o
eliminados.
- Elimina filas duplicadas si es necesario.
- Verifica y ajusta los tipos de datos en columnas numéricas y
categóricas.

In [None]:
# Identificar Nulos

# Forma 1:
paises.info()

# Forma 2:
print("\nValores nulos en el archivo CSV:")
print(paises.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 253 entries, 0 to 252
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  0 non-null      float64
 1   Unnamed: 1  246 non-null    object 
 2   Unnamed: 2  246 non-null    object 
 3   Unnamed: 3  246 non-null    object 
dtypes: float64(1), object(3)
memory usage: 8.0+ KB

Valores nulos en el archivo CSV:
Unnamed: 0    253
Unnamed: 1      7
Unnamed: 2      7
Unnamed: 3      7
dtype: int64


In [None]:
# Eliminar duplicados
paises = paises.drop_duplicates()

# Eliminar filas vacias
paises = paises.dropna(how='all')

# Eliminar columnas vacías
paises = paises.dropna(axis=1, how='all')

In [None]:
paises.head()

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,Continente,Código,País o territorio
1,01 UNIÓN EUROPEA,102,AUSTRIA
2,01 UNIÓN EUROPEA,103,BELGICA
3,01 UNIÓN EUROPEA,104,BULGARIA
4,01 UNIÓN EUROPEA,106,CHIPRE


In [None]:
# Chequeo de tipo de datos
paises.dtypes

Unnamed: 0,0
Unnamed: 1,object
Unnamed: 2,object
Unnamed: 3,object


Están bien, ya que no necesitamos que el código sea un número para realizar operaciones matemáticas con él.

### 3. Transformación y optimización de datos:
- Selecciona las columnas más relevantes para el análisis.
- Renombra columnas para mejorar la legibilidad.
- Ordena los datos en función de una columna clave.

In [None]:
# Elimina la fila de datos que era el encabezado
paises2 = paises.iloc[1:]

# Asigna nombres a columnas
paises2.columns = ['Continente', 'Codigo', 'Pais']

# Reinicia el índice
paises2 = paises2.reset_index(drop=True)

paises2.head()

Unnamed: 0,Continente,Codigo,Pais
0,01 UNIÓN EUROPEA,102,AUSTRIA
1,01 UNIÓN EUROPEA,103,BELGICA
2,01 UNIÓN EUROPEA,104,BULGARIA
3,01 UNIÓN EUROPEA,106,CHIPRE
4,01 UNIÓN EUROPEA,107,DINAMARCA


In [None]:
# Selección de las columnas más relevantes para el análisis
paises_selected = paises2[['Pais', 'Continente']]

# Ordenar los datos por una columna clave (pais)
paises_selected = paises_selected.sort_values(by='Pais', ascending=True)

paises_selected.head()

Unnamed: 0,Pais,Continente
172,AFGANISTAN,07 ASIA
28,ALBANIA,02 RESTO DE EUROPA
18,ALEMANIA,01 UNIÓN EUROPEA
33,ANDORRA,02 RESTO DE EUROPA
59,ANGOLA,03 AFRICA


### 4. Exportación de datos:
- Guarda el DataFrame limpio en un archivo CSV sin incluir el índice.
- Exporta los datos procesados a Excel para su visualización.

In [None]:
paises_selected.to_csv('Paises_Continentes_Limpio.csv', index=False)
paises_selected.to_excel('Paises_Continentes_Limpio.xlsx', index=False)

print("\nLos datos procesados se han exportado correctamente.")


Los datos procesados se han exportado correctamente.


## Archivo HTML - "Población por País"
Fuente: https://www.worldometers.info/es/poblacion-mundial/poblacion-por-pais/

### 1. Carga de datos desde HTML

In [None]:
# Información de una tabla web utilizando read_html().
poblacion = pd.read_html("https://www.worldometers.info/es/poblacion-mundial/poblacion-por-pais/")

cantidad_tablas = len(poblacion)
print(f"Se encontraron {cantidad_tablas} tablas en la página.")

Se encontraron 1 tablas en la página.


In [None]:
poblacion = tables[0]

poblacion.head()

Unnamed: 0,#,País (o dependencia),Población 2025,Cambio anual,Cambio neto,Densidad (Hab/Km²),Superficie terrestre (Km²),Migrantes (neto),Tasa Fec.,Edad mediana,% Población Urbana,Cuota Mundial
0,1,India,1.463.865.525,"0,89%",12.929.734,492.0,2.973.190,−495.753,194,288,"37,1%","17,78%"
1,2,China,1.416.096.094,"−0,23%",−3.225.184,151.0,9.388.211,−268.126,102,401,"67,5%","17,20%"
2,3,Estados Unidos,347.275.807,"0,54%",1.849.236,38.0,9.147.420,1.230.663,162,385,"82,8%","4,22%"
3,4,Indonesia,285.721.236,"0,79%",2.233.305,158.0,1.811.570,−39.509,21,304,"59,6%","3,47%"
4,5,Pakistán,255.219.554,"1,57%",3.950.390,331.0,770.880,−1.235.336,35,206,"34,4%","3,10%"


### 2. Limpieza y estructuración de datos:
- Identifica valores nulos y decide si deben ser imputados o
eliminados.
- Elimina filas duplicadas si es necesario.
- Verifica y ajusta los tipos de datos en columnas numéricas y
categóricas.

In [None]:
# Identificar Nulos

# Forma 1:
poblacion.info()

# Forma 2:
print("\nValores nulos en el archivo CSV:")
print(poblacion.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 233 entries, 0 to 232
Data columns (total 12 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   #                           233 non-null    int64  
 1   País (o dependencia)        233 non-null    object 
 2   Población 2025              233 non-null    object 
 3   Cambio anual                233 non-null    object 
 4   Cambio neto                 233 non-null    object 
 5   Densidad (Hab/Km²)          233 non-null    float64
 6   Superficie terrestre (Km²)  233 non-null    object 
 7   Migrantes (neto)            233 non-null    object 
 8   Tasa Fec.                   233 non-null    int64  
 9   Edad mediana                233 non-null    int64  
 10  % Población Urbana          233 non-null    object 
 11  Cuota Mundial               233 non-null    object 
dtypes: float64(1), int64(3), object(8)
memory usage: 22.0+ KB

Valores nulos en el archivo CSV:


Por lo tanto, no existen datos nulos.

In [None]:
# Eliminar duplicados
poblacion = poblacion.drop_duplicates()

# Eliminar filas vacias
poblacion = poblacion.dropna(how='all')

# Eliminar columnas vacías
poblacion = poblacion.dropna(axis=1, how='all')

In [None]:
# Chequeo de tipo de datos
poblacion.dtypes

Unnamed: 0,0
#,int64
País (o dependencia),object
Población 2025,object
Cambio anual,object
Cambio neto,object
Densidad (Hab/Km²),float64
Superficie terrestre (Km²),object
Migrantes (neto),object
Tasa Fec.,int64
Edad mediana,int64


In [None]:
# Cambio a float de dato que nos interesa a futuro

poblacion['Población 2025'] = poblacion['Población 2025'].astype(str)
poblacion['Población 2025'] = poblacion['Población 2025'].str.replace('.', '')
poblacion['Población 2025'] = poblacion['Población 2025'].str.replace(',', '.')
poblacion['Población 2025'] = poblacion['Población 2025'].astype(float)

poblacion.dtypes
poblacion.head()

Unnamed: 0,#,País (o dependencia),Población 2025,Cambio anual,Cambio neto,Densidad (Hab/Km²),Superficie terrestre (Km²),Migrantes (neto),Tasa Fec.,Edad mediana,% Población Urbana,Cuota Mundial
0,1,India,1463866000.0,"0,89%",12.929.734,492.0,2.973.190,−495.753,194,288,"37,1%","17,78%"
1,2,China,1416096000.0,"−0,23%",−3.225.184,151.0,9.388.211,−268.126,102,401,"67,5%","17,20%"
2,3,Estados Unidos,347275800.0,"0,54%",1.849.236,38.0,9.147.420,1.230.663,162,385,"82,8%","4,22%"
3,4,Indonesia,285721200.0,"0,79%",2.233.305,158.0,1.811.570,−39.509,21,304,"59,6%","3,47%"
4,5,Pakistán,255219600.0,"1,57%",3.950.390,331.0,770.880,−1.235.336,35,206,"34,4%","3,10%"


### 3. Transformación y optimización de datos:
- Selecciona las columnas más relevantes para el análisis.
- Renombra columnas para mejorar la legibilidad.
- Ordena los datos en función de una columna clave.

In [None]:
# Renombrar columnas
poblacion.rename(columns={'País (o dependencia)': 'Pais'}, inplace=True)

# Selección de las columnas más relevantes para el análisis
poblacion_selected = poblacion[['Pais', 'Población 2025']]

# Ordenar los datos por una columna clave (pais)
poblacion_selected = poblacion_selected.sort_values(by='Pais', ascending=True)

poblacion_selected.head()

Unnamed: 0,Pais,Población 2025
35,Afganistán,43844111.0
143,Albania,2771508.0
18,Alemania,84075075.0
201,Andorra,82904.0
38,Angola,39040039.0


### 4. Exportación de datos:
- Guarda el DataFrame limpio en un archivo CSV sin incluir el índice.
- Exporta los datos procesados a Excel para su visualización.

In [None]:
poblacion_selected.to_csv('Poblacion_por_Paises_Limpio.csv', index=False)
poblacion_selected.to_excel('Poblacion_por_Paises_Limpio.xlsx', index=False)

print("\nLos datos procesados se han exportado correctamente.")


Los datos procesados se han exportado correctamente.


## Conclusiones

En este Análisis de Caso, se pudo aplicar el proceso estructurado de obtención de datos completo, desde la carga, limpieza, transformación y exportación (ETL) de datos obtenidos de diferentes tipos de archivos: CSV, Excel y tabla web (HTML). La automatización de tareas de este tipo reduce errores y ahorra tiempo, lo que permite realizar un análisis más eficiente.