# Análisis de Caso: Obtención de Datos desde Archivos

En este trabajo se realiza la carga, exploración, limpieza y exportación de datos
utilizando la librería Pandas en Python.

## Dataset 1: Archivo Tablas Web (Poblacion por país)

Se carga un archivo CSV y se realiza una exploración inicial del dataset para
comprender su estructura y calidad de los datos.


In [40]:
import pandas as pd
import requests
import io

# 1. La URL que quieras (Wikipedia, Worldometers, etc.)
url = 'https://www.worldometers.info/world-population/population-by-country/'

# 2. El "disfraz" para que no te bloqueen
headers = {'User-Agent': 'Mozilla/5.0'}

# 3. La descarga manual
response = requests.get(url, headers=headers)

# 4. Lectura inmediata con Pandas
df = pd.read_html(io.StringIO(response.text))[0]

print(df.head())

   # Country (or dependency)  Population 2026 Yearly Change    Net Change  \
0  1                   India       1476625576         0.87%      12760051   
1  2                   China       1412914089      â0.22%  â3,182,005   
2  3           United States        349035494         0.51%       1759687   
3  4               Indonesia        287886782         0.76%       2165546   
4  5                Pakistan        259299791          1.6%       4080237   

   Density (P/KmÂ²)  Land Area (KmÂ²) Migrants (net) Fert. Rate Median Age  \
0               497           2973190     â440,456       1.93       29.2   
1               150           9388211     â232,107       1.03       40.6   
2                38           9147420        1177848       1.63       38.7   
3               159           1811570      â39,472       2.08       30.7   
4               336            770880   â1,144,738       3.44       20.8   

  Urban Pop % World Share  
0       37.6%      17.79%  
1       68.7

## Dataset 2: Archivo Excel (Ventas de Chocolate)

Se carga un archivo CSV y se realiza una exploración inicial del dataset para
comprender su estructura y calidad de los datos.


In [41]:
df_excel = pd.read_excel("Chocolate Sales.xlsx")
df_excel = df_excel.iloc[:,0].str.split(",", expand=True)
df_excel.columns = [
    "Sales Person",
    "Country",
    "Product",
    "Date",
    "Amount",
    "Price",
    "Boxes Shipped"
]

df_excel.head()


Unnamed: 0,Sales Person,Country,Product,Date,Amount,Price,Boxes Shipped
0,Jehu Rudeforth,UK,Mint Chip Choco,04/01/2022,"""$5","320.00""",180
1,Van Tuxwell,India,85% Dark Bars,01/08/2022,"""$7","896.00""",94
2,Gigi Bohling,India,Peanut Butter Cubes,07/07/2022,"""$4","501.00""",91
3,Jan Morforth,Australia,Peanut Butter Cubes,27/04/2022,"""$12","726.00""",342
4,Jehu Rudeforth,UK,Peanut Butter Cubes,24/02/2022,"""$13","685.00""",184


## Dataset 3: Archivo CSV (Titanic)

Se carga un archivo CSV y se realiza una exploración inicial del dataset para
comprender su estructura y calidad de los datos.


In [42]:
df_csv = pd.read_csv("titanic.csv")
df_csv.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.05


In [43]:
df_csv.info()
df_csv.describe()
df_csv.isnull().sum()

<class 'pandas.DataFrame'>
RangeIndex: 887 entries, 0 to 886
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Survived                 887 non-null    int64  
 1   Pclass                   887 non-null    int64  
 2   Name                     887 non-null    str    
 3   Sex                      887 non-null    str    
 4   Age                      887 non-null    float64
 5   Siblings/Spouses Aboard  887 non-null    int64  
 6   Parents/Children Aboard  887 non-null    int64  
 7   Fare                     887 non-null    float64
dtypes: float64(2), int64(4), str(2)
memory usage: 55.6 KB


Survived                   0
Pclass                     0
Name                       0
Sex                        0
Age                        0
Siblings/Spouses Aboard    0
Parents/Children Aboard    0
Fare                       0
dtype: int64

El análisis de la estructura del DataFrame mostró que no existen valores nulos ni registros duplicados. Asimismo, las columnas presentan tipos de datos adecuados para su naturaleza, por lo que no fue necesario aplicar procesos adicionales de limpieza o conversión de tipos.

In [44]:
df_transformado = df_csv[
    ['Survived', 'Pclass', 'Sex', 'Age', 'Fare']
]

Se seleccionan las columnas directamente relacionadas con el análisis de supervivencia, eliminando variables que no aportan valor analítico en esta etapa (por ejemplo, Name o relaciones familiares).

In [45]:
df_transformado = df_transformado.rename(columns={
    'Survived': 'survived',
    'Pclass': 'passenger_class',
    'Sex': 'sex',
    'Age': 'age',
    'Fare': 'fare'
})

El renombrado mejora la legibilidad del dataset y facilita su uso en análisis posteriores y visualizaciones.

In [48]:
df_transformado = df_transformado.sort_values(by='age')
print(df_transformado)

     survived  passenger_class     sex    age     fare
799         1                3    male   0.42   8.5167
751         1                2    male   0.67  14.5000
641         1                3  female   0.75  19.2583
466         1                3  female   0.75  19.2583
77          1                2    male   0.83  29.0000
..        ...              ...     ...    ...      ...
115         0                3    male  70.50   7.7500
490         0                1    male  71.00  49.5042
95          0                1    male  71.00  34.6542
847         0                3    male  74.00   7.7750
627         1                1    male  80.00  30.0000

[887 rows x 5 columns]


Se ordenan los registros del DataFrame según la columna age para facilitar el análisis. Luego, se muestra el DataFrame ordenado para verificar que el ordenamiento se haya realizado correctamente.

In [49]:
df_transformado.to_csv('titanic_limpio.csv', index=False)
df_transformado.to_excel('titanic_limpio.xlsx', index=False)

Finalmente, los datos procesados fueron exportados a formatos estándar para su posterior análisis. El DataFrame limpio se guardó en un archivo CSV sin incluir el índice, y adicionalmente se exportó a Excel para facilitar su visualización y uso por parte de otros equipos.