In [1]:
import pandas as pd
#CARGAR ARCHIVO CSV 
df_csv = pd.read_csv("datos_ventas.csv")
#Mostrar primeras filas
(df_csv.head(7))

Unnamed: 0,id_cliente,fecha,ventas,categoria
0,1,2024-01-10,15000.0,A
1,2,2024-01-12,23000.0,B
2,2,2024-01-12,23000.0,B
3,3,2024-01-15,,A
4,4,,18000.0,
5,5,2024-01-13,20000.0,B
6,6,2024-01-14,19000.0,


In [2]:
# ver cantidad de nulos Nan
df_csv.isnull().sum()

id_cliente    0
fecha         1
ventas        1
categoria     2
dtype: int64

In [3]:
# ver los índices
print(df_csv.index)

RangeIndex(start=0, stop=7, step=1)


In [4]:
#Elimino fila 4 ya que tiene dos NaN
df_csv = df_csv.drop(index=4)
(df_csv.head(7))

Unnamed: 0,id_cliente,fecha,ventas,categoria
0,1,2024-01-10,15000.0,A
1,2,2024-01-12,23000.0,B
2,2,2024-01-12,23000.0,B
3,3,2024-01-15,,A
5,5,2024-01-13,20000.0,B
6,6,2024-01-14,19000.0,


In [5]:
#Se imputan: valor de venta faltante por el promedio y categoría faltante por "Sin información"
df_csv["ventas"] = df_csv["ventas"].fillna(df_csv["ventas"].mean())
df_csv["categoria"] = df_csv["categoria"].fillna("Sin información")
df_csv.head(7)

Unnamed: 0,id_cliente,fecha,ventas,categoria
0,1,2024-01-10,15000.0,A
1,2,2024-01-12,23000.0,B
2,2,2024-01-12,23000.0,B
3,3,2024-01-15,20000.0,A
5,5,2024-01-13,20000.0,B
6,6,2024-01-14,19000.0,Sin información


In [6]:
#Eliminar duplicado identificado por id cliente
df_csv = df_csv.drop_duplicates(subset="id_cliente")
df_csv.head(7)

Unnamed: 0,id_cliente,fecha,ventas,categoria
0,1,2024-01-10,15000.0,A
1,2,2024-01-12,23000.0,B
3,3,2024-01-15,20000.0,A
5,5,2024-01-13,20000.0,B
6,6,2024-01-14,19000.0,Sin información


In [7]:
#Se realiza la conversión de tipos de datos para asegurar un análisis correcto: las ventas se transforman a formato numérico, las fechas a tipo datetime y las categorías a tipo categórico, manejando valores inválidos mediante la conversión a NaN.
df_csv["ventas"] = pd.to_numeric(df_csv["ventas"], errors="coerce")
df_csv["fecha"] = pd.to_datetime(df_csv["fecha"], errors="coerce")
df_csv["categoria"] = df_csv["categoria"].astype("category")
#Imprimo los tipos de datos que tiene cada columna 
print(df_csv.dtypes)

id_cliente             int64
fecha         datetime64[ns]
ventas               float64
categoria           category
dtype: object


In [8]:
#Transformación y optimización de datos
#Selecciona las columnas más relevantes para el análisis.
df_csv = df_csv[["id_cliente", "fecha", "ventas", "categoria"]]
#Renombra las columnas para mayor claridad y estética en los nombres.
df_csv = df_csv.rename(columns={
    "id_cliente": "Cliente_id",
    "ventas": "Monto_ventas",
    "fecha": "Fecha",
    "categoria": "Categoría"
})
df_csv.head(7)

Unnamed: 0,Cliente_id,Fecha,Monto_ventas,Categoría
0,1,2024-01-10,15000.0,A
1,2,2024-01-12,23000.0,B
3,3,2024-01-15,20000.0,A
5,5,2024-01-13,20000.0,B
6,6,2024-01-14,19000.0,Sin información


In [9]:
#Ordena los datos en función de una columna clave.
#Monto ventas
df_csv = df_csv.sort_values(by="Monto_ventas", ascending=False)
df_csv.head(7)

Unnamed: 0,Cliente_id,Fecha,Monto_ventas,Categoría
1,2,2024-01-12,23000.0,B
5,5,2024-01-13,20000.0,B
3,3,2024-01-15,20000.0,A
6,6,2024-01-14,19000.0,Sin información
0,1,2024-01-10,15000.0,A


In [10]:
#Exportación de datos limpios a nuevo archivo CSV
df_csv.to_csv("datos_ventas_limpios.csv", index=False, encoding="utf-8-sig")
#También se exportan los datos a Excel
df_csv.to_excel("datos_ventas_limpios.xlsx", index=False)

In [11]:
#CARGAR DATOS DE ARCHIVO EXCEL
import pandas as pd
df_excel = pd.read_excel("datos_clientes.xlsx")
df_excel.head()

Unnamed: 0,id_cliente,nombre,edad,region
0,1,Ana,34.0,Norte
1,2,Luis,45.0,Centro
2,3,María,,Sur
3,4,Pedro,29.0,Centro


In [12]:
#Veo la información de los datos
df_excel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  4 non-null      int64  
 1   nombre      4 non-null      object 
 2   edad        3 non-null      float64
 3   region      4 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 260.0+ bytes


In [13]:
#Veo los que contienen valores nulos
df_excel.isna().sum()

id_cliente    0
nombre        0
edad          1
region        0
dtype: int64

In [14]:
#Relleno NaN de edad cliente a Sin información
df_excel["edad"] = df_excel["edad"].fillna("Sin información")
df_excel.head()

Unnamed: 0,id_cliente,nombre,edad,region
0,1,Ana,34.0,Norte
1,2,Luis,45.0,Centro
2,3,María,Sin información,Sur
3,4,Pedro,29.0,Centro


In [15]:
#Ajustar tipos de datos
df_excel["id_cliente"] = pd.to_numeric(df_excel["id_cliente"],errors="coerce")
# Convertir edad a numérico NO se puede porque dejé uno como string
# Convertir columna de nombres a texto (string)
df_excel["nombre"] = df_excel["nombre"].astype("string")
# Convertir tipo de cliente a categórico
df_excel["region"] = df_excel["region"].astype("category")

In [16]:
#Renombrar columnas
df_excel = df_excel.rename(columns={
    "id_cliente": "Cliente_id",
    "nombre": "Nombre_cliente",
    "edad": "Edad_cliente",
    "region": "Region_cliente"
})
#Seleccionar columnas relevantes
df_excel_analisis = df_excel[["Cliente_id", "Nombre_cliente", "Edad_cliente", "Region_cliente"]
].copy()

# Ordenar por región
df_excel = df_excel.sort_values(by="Region_cliente", ascending=True)

df_excel.head()


Unnamed: 0,Cliente_id,Nombre_cliente,Edad_cliente,Region_cliente
1,2,Luis,45.0,Centro
3,4,Pedro,29.0,Centro
0,1,Ana,34.0,Norte
2,3,María,Sin información,Sur


In [17]:
#Exportación de datos limpios a nuevo archivo CSV
df_excel.to_csv("datos_clientes_limpios.csv", index=False, encoding="utf-8-sig")
#También se exportan los datos a Excel
df_excel.to_excel("datos_clientes_limpios.xlsx", index=False)

In [18]:
#Extraer datos de una tabla web
import pandas as pd
#solicitud a pagina de manera estable y controlada requests
import requests
#StringIO Convierte texto (HTML en formato string) en un objeto similar a un archivo, que puede ser leído por funciones que esperan un archivo como entrada
from io import StringIO

url = "https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_y_territorios_dependientes_por_poblaci%C3%B3n"

#Simula navegación real y hace el acceso mas estable y realista
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0 Safari/537.36",
    "Accept-Language": "es-ES,es;q=0.9"
}
#realiza solicitud y extrae el contenido HTML de la página en formato texto.
html = requests.get(url, headers=headers, timeout=30).text
#Le indico que decimal es , y miles .
df_list = pd.read_html(StringIO(html),decimal=",",thousands=".")

#seleccionamos primera tabla y crea una copia
df_web = df_list[0].copy()
df_web["Total mun- dial (%)"] = pd.to_numeric(df_web["Total mun- dial (%)"],errors="coerce") 
df_web.head(246)

Unnamed: 0,N.º,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%),Cambio medio anual (%)[8]​,Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción[9]​,"Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional",Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​,Tipo[11]​,Enlace o hipervínculo (usualmente de tipo oficial) de esta última cifra de población
0,1,India,1 417 492 000,17.55,0.90,12 692 000,15.47,78,1 417 492 000,1/07/2025,A,web.archive.org
1,2,China[12]​,1 405 557 000,17.40,-0.09,-1 390 000,-,-,1 404 890 000,31/12/2025,E,www.stats.gov.cn
2,3,Estados Unidos,342 181 000,4.24,0.61,2 084 000,2.54,114,343 208 000,24/01/2026,R,www.census.gov
3,4,Indonesia,284 447 000,3.52,1.07,3 043 000,3.71,65,284 438 782,30/06/2025,E,www.bps.go.id
4,5,Pakistán,256 204 000,3.17,2.56,6 567 000,8.00,27,241 499 431,1/03/2023,C,www.pbs.gov.pk
...,...,...,...,...,...,...,...,...,...,...,...,...
241,242,Islas Cocos (Australia),600,0.00,1.74,0,0.00,40,593,11/08/2021,C,www.citypopulation.de
242,243,Islas Ultramarinas Menores de los Estados Unidos,100,0.00,-4.96,0,0.00,-,190,1/04/2010,C,www.statoids.com
243,244,Islas Pitcairn (RU),30,0.00,-1.11,0,0.00,-,35,1/07/2023,E,www.immigration.pn
244,,Mundo,8 077 299 000,100.00,1.01,82 037 000,100.00,69,8 203 959 000,24/01/2026,R,www.worldometers.info


In [19]:
#Reviso si existen nulos
df_web.isna().sum()

N.º                                                                                                  1
País (o territorio dependiente)                                                                      0
Proyección exponencial de la población al 1/7/2025[7]​                                               0
Total mun- dial (%)                                                                                  1
Cambio medio anual (%)[8]​                                                                           0
Cambio absoluto anual promedio                                                                       0
Cambio medio abs. total anual (%)                                                                    0
Años para even- tual du- pli- ca- ción[9]​                                                           0
Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional    0
Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​   

In [20]:
#Reviso especificamente dónde está el valor nulo
df_web[df_web.isna().any(axis=1)]

Unnamed: 0,N.º,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%),Cambio medio anual (%)[8]​,Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción[9]​,"Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional",Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​,Tipo[11]​,Enlace o hipervínculo (usualmente de tipo oficial) de esta última cifra de población
244,,Mundo,8 077 299 000,100.0,1.01,82 037 000,100.00,69,8 203 959 000,24/01/2026,R,www.worldometers.info
245,N°,País (o territorio dependiente),Proyección exponencial de la población al 1/7/...,,Cambio medio anual (%),Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción,"Censo más reciente, última estimación oficial,...",Fecha de esta última cifra de población en par...,Tipo,Enlace o hipervínculo (usualmente de tipo ofic...


In [21]:
#Elimino filas con valor nulo
df_web=df_web.dropna()
#Verifico con un info que ya no existen datos nulos
df_web.info()

<class 'pandas.core.frame.DataFrame'>
Index: 244 entries, 0 to 243
Data columns (total 12 columns):
 #   Column                                                                                             Non-Null Count  Dtype  
---  ------                                                                                             --------------  -----  
 0   N.º                                                                                                244 non-null    object 
 1   País (o territorio dependiente)                                                                    244 non-null    object 
 2   Proyección exponencial de la población al 1/7/2025[7]​                                             244 non-null    object 
 3   Total mun- dial (%)                                                                                244 non-null    float64
 4   Cambio medio anual (%)[8]​                                                                         244 non-null    object 
 5  

In [22]:
# reviso los duplicados: No existen
df_web[df_web.duplicated()]

Unnamed: 0,N.º,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%),Cambio medio anual (%)[8]​,Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción[9]​,"Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional",Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​,Tipo[11]​,Enlace o hipervínculo (usualmente de tipo oficial) de esta última cifra de población


In [23]:
#Primero selecciono columnas relevantes para el análisis, creando una copia
df_web_limpia = df_web.copy()   
df_web_limpia = df_web_limpia[["País (o territorio dependiente)", "Proyección exponencial de la población al 1/7/2025[7]​","Total mun- dial (%)"]]
df_web_limpia.head(244)   

Unnamed: 0,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%)
0,India,1 417 492 000,17.55
1,China[12]​,1 405 557 000,17.40
2,Estados Unidos,342 181 000,4.24
3,Indonesia,284 447 000,3.52
4,Pakistán,256 204 000,3.17
...,...,...,...
239,Tokelau (NZ),2 000,0.00
240,Ciudad del Vaticano,1 000,0.00
241,Islas Cocos (Australia),600,0.00
242,Islas Ultramarinas Menores de los Estados Unidos,100,0.00


In [24]:
#Renombrar columnas
df_web_limpia = df_web_limpia.rename(columns={"Proyección exponencial de la población al 1/7/2025[7]​": "Proyección_exponencial_de_la_población_a_julio_2025",
    "Total mun- dial (%)": "Total _mundial(%)"})
df_web_limpia.head(244)

Unnamed: 0,País (o territorio dependiente),Proyección_exponencial_de_la_población_a_julio_2025,Total _mundial(%)
0,India,1 417 492 000,17.55
1,China[12]​,1 405 557 000,17.40
2,Estados Unidos,342 181 000,4.24
3,Indonesia,284 447 000,3.52
4,Pakistán,256 204 000,3.17
...,...,...,...
239,Tokelau (NZ),2 000,0.00
240,Ciudad del Vaticano,1 000,0.00
241,Islas Cocos (Australia),600,0.00
242,Islas Ultramarinas Menores de los Estados Unidos,100,0.00


In [25]:
# Convertir proyección a número (quita separadores y cosas no numéricas)
df_web_limpia["Proyección_exponencial_de_la_población_a_julio_2025"] = (
    df_web_limpia["Proyección_exponencial_de_la_población_a_julio_2025"]
    .astype(str)                                # fuerza a que todos los valores de la columna pais sean texto
    .str.replace(r"[^\d,.\-]", "", regex=True)  # deja solo dígitos y signos
    .str.replace(".", "", regex=False)          # por si viene con separador de miles "."
    .str.replace(",", "", regex=False)          # por si viene con separador de miles ","
)
df_web_limpia.head(244)

Unnamed: 0,País (o territorio dependiente),Proyección_exponencial_de_la_población_a_julio_2025,Total _mundial(%)
0,India,1417492000,17.55
1,China[12]​,1405557000,17.40
2,Estados Unidos,342181000,4.24
3,Indonesia,284447000,3.52
4,Pakistán,256204000,3.17
...,...,...,...
239,Tokelau (NZ),2000,0.00
240,Ciudad del Vaticano,1000,0.00
241,Islas Cocos (Australia),600,0.00
242,Islas Ultramarinas Menores de los Estados Unidos,100,0.00


In [26]:
#Ahora con menos datos se realiza un ajuste de tipos de datos
df_web_limpia["País (o territorio dependiente)"] = df_web_limpia["País (o territorio dependiente)"].astype("string")
#Cambiar proyección a dato numérico
df_web_limpia["Proyección_exponencial_de_la_población_a_julio_2025"] = pd.to_numeric(df_web_limpia["Proyección_exponencial_de_la_población_a_julio_2025"], errors="coerce") 
#% Total mundial ya fue pasado a float desde el inicio para evitar errores
#Imprimo info para ver tipos de datos
df_web_limpia.info()
df_web_limpia.head(245)


<class 'pandas.core.frame.DataFrame'>
Index: 244 entries, 0 to 243
Data columns (total 3 columns):
 #   Column                                               Non-Null Count  Dtype  
---  ------                                               --------------  -----  
 0   País (o territorio dependiente)                      244 non-null    string 
 1   Proyección_exponencial_de_la_población_a_julio_2025  244 non-null    int64  
 2   Total _mundial(%)                                    244 non-null    float64
dtypes: float64(1), int64(1), string(1)
memory usage: 7.6 KB


Unnamed: 0,País (o territorio dependiente),Proyección_exponencial_de_la_población_a_julio_2025,Total _mundial(%)
0,India,1417492000,17.55
1,China[12]​,1405557000,17.40
2,Estados Unidos,342181000,4.24
3,Indonesia,284447000,3.52
4,Pakistán,256204000,3.17
...,...,...,...
239,Tokelau (NZ),2000,0.00
240,Ciudad del Vaticano,1000,0.00
241,Islas Cocos (Australia),600,0.00
242,Islas Ultramarinas Menores de los Estados Unidos,100,0.00


In [27]:
# Ordenar por país
df_web_limpia = df_web_limpia.sort_values(by="País (o territorio dependiente)", ascending=True)
df_web_limpia.head(244)

Unnamed: 0,País (o territorio dependiente),Proyección_exponencial_de_la_población_a_julio_2025,Total _mundial(%)
41,Afganistán,36931000,0.46
145,Albania,2348000,0.03
18,Alemania,83492000,1.03
202,Andorra,88000,0.00
39,Angola,37584000,0.47
...,...,...,...
43,Yemen,34524000,0.43
159,Yibuti,1086000,0.01
61,Zambia,21688000,0.27
73,Zimbabue,15952000,0.20


In [28]:
#Exportación de datos limpios a nuevo archivo CSV
df_web_limpia.to_csv("datos_poblacion_limpios.csv", index=False, encoding="utf-8-sig")
#También se exportan los datos a Excel  
df_web_limpia.to_excel("datos_poblacion_limpios.xlsx", index=False)
