# Análisis de caso | Obtención de datos desde archivos

Para esta actividad asumiremos el rol de analista de datos de una empresa de consultoría, la cual trabaja con grandes volúmenes de datos de diversas fuentes. Dicha empresa ha identificado problemas en la integración y análisis de la información, por lo que nuestra tarea será diseñar un flujo de trabajo eficiente para la carga, limpieza y exportación de datos.

Las tareas a ejecutar incluyen:
- Cargar datos desde archivos **CSV, Excel y tablas web**.
- Idetificar y manejar **valores nulos y duplicados**.
- Convertir formatos y asegurarse de que las columnas contengan tipos de datos correctos.
- Exportar los datos procesados a formatos compatibles para su posterior análisis.

En particular, las tareas señaladas se desglosan de la siguiente forma:
1. **Carga de datos desde distintos archivos:**
    - Importar un archivo CSV en un Dataframe de pandas.
    - Cargar un archivo Excel en otro Dataframe.
    - Extraer información de una **tabla web** utilizando read_html().
2. **Limpieza y estructuración de datos:**
    - Identificar valores nulos y decidir si deben ser imputados o eliminados.
    - Eliminar filas duplicadas de ser necesario.
    - Verificar y ajustar los tipos de datos en columnas numéricas y categóricas.
3. **Transformación y optimización de datos:**
    - Seleccionar las columnas más relevantes para el análisis.
    - Renombrar columnas para mejorar la legibilidad.
    - Ordenar los datos en función de una columna clave.
4. **Exportación de datos:**
    - Guardar el Dataframe limpio en un **archivo CSV** sin incluir el índice.
    - Exportar los datos procesados a **Excel** para su visualización.

# Desarrollo

En primer lugar, importamos las librerías necesarias.

In [1]:
import os
import pandas as pd

A continuación, importaremos los datos que usaremos para esta sesión. Para ello, disponemos de una carpeta llamada "Datos" en la cual se han almacenado dos archivos: "titanic.xlsx", un conjunto de datos de práctica con datos sobre pasajeros del famoso titanic (puede encontrar el archivo original [aquí](https://www.kaggle.com/datasets/brendan45774/test-file?resource=download)), y el archivo "olimpiadas.csv", que contiene información sobre las medallas obtenidas por varios países en una competición de olimpiadas.

Además, importaremos la primera tabla de la página de Wikipedia [Tabla normal estándar](https://en.wikipedia.org/wiki/Standard_normal_table).

In [2]:
directorio_datos = os.path.join(".", "Datos")
url = "https://en.wikipedia.org/wiki/Standard_normal_table"

olimpiadas = df = pd.read_csv(
    os.path.join(directorio_datos, "olimpiadas.csv"),
    dtype={
        "Oro": "UInt8",
        "Plata": "UInt8",
        "Bronce": "UInt8",
        "Total": "UInt8",
        "Pais": "category",
    }
)

titanic = titanic = pd.read_excel(
    os.path.join(directorio_datos, "titanic.xlsx"),
    dtype={
        "PassengerId": "UInt16",
        "Pclass": "UInt8",
        "Name": "string",
        "Sex": "category",
        "SibSp": "UInt8",
        "Parch": "UInt8",
        "Age": "Float32",
        "Ticket": "string",
        "Fare": "Float32",
        "Cabin": "category",
        "Embarked": "category"
    }
)

p_acumulada = pd.read_html(url)[0]

In [3]:
olimpiadas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   Oro     65 non-null     UInt8   
 1   Plata   69 non-null     UInt8   
 2   Bronce  76 non-null     UInt8   
 3   Total   93 non-null     UInt8   
 4   Pais    93 non-null     category
dtypes: UInt8(4), category(1)
memory usage: 3.7 KB


In [4]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  418 non-null    UInt16  
 1   Survived     418 non-null    int64   
 2   Pclass       418 non-null    UInt8   
 3   Name         418 non-null    string  
 4   Sex          418 non-null    category
 5   Age          332 non-null    Float32 
 6   SibSp        418 non-null    UInt8   
 7   Parch        418 non-null    UInt8   
 8   Ticket       418 non-null    string  
 9   Fare         417 non-null    Float32 
 10  Cabin        91 non-null     category
 11  Embarked     418 non-null    category
dtypes: Float32(2), UInt16(1), UInt8(3), category(3), int64(1), string(2)
memory usage: 21.8 KB


In [5]:
p_acumulada.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44 entries, 0 to 43
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   z       41 non-null     object
 1   −0.00   41 non-null     object
 2   −0.01   41 non-null     object
 3   −0.02   41 non-null     object
 4   −0.03   41 non-null     object
 5   −0.04   41 non-null     object
 6   −0.05   41 non-null     object
 7   −0.06   41 non-null     object
 8   −0.07   41 non-null     object
 9   −0.08   41 non-null     object
 10  −0.09   41 non-null     object
dtypes: object(11)
memory usage: 3.9+ KB


Por lo visto anteriormente, la importación de archivos fue exitosa. Ahora determinaremos si existen valores nulos en estos DatFrames. Comenzaremos con el DataFrame olimpiadas.

In [6]:
olimpiadas.isnull().sum()

Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

In [7]:
olimpiadas.loc[olimpiadas.isnull().sum(axis=1) > 0,:].head()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
4,,3.0,4.0,7,Azerbaijan
5,2.0,,,2,Bahamas
6,,1.0,,1,Bahrain


Dado el contexto de los datos de olimpiadas, es muy probable que los lugares donde se perdieron datos sean debido a que el país en cuestión obtuvo 0 medallas de ese tipo, por lo que imutaremos este DataFrame llenando los valores perdidos con 0s.

In [8]:
olimpiadas = olimpiadas.fillna({"Oro": 0, "Plata": 0, "Bronce": 0})
olimpiadas.isnull().sum()

Oro       0
Plata     0
Bronce    0
Total     0
Pais      0
dtype: int64

A continuación, analizaremos el DataFrame del titanic.

In [9]:
titanic.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

Notamos que la columna "Cabin" casi no tiene datos, por lo que no es difícil imputar valores en esta. Se decide eliminar dicha columna. Por otro lado, la columna "Fare" tiene solo un dato perdido y es de tipo numérico, por lo que imputaremos esta columna por su media. De forma similar, imputaremos los datos perdidos en la columna "Age" por sumedia.

In [10]:
titanic = titanic.drop(columns=["Cabin"]).fillna({"Fare": titanic["Fare"].mean(), "Age": titanic["Age"].mean()})
titanic.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

Finalmente, examinaremos el DataFrame de probabilidad acumulada.

In [11]:
p_acumulada.isnull().sum()

z        3
−0.00    3
−0.01    3
−0.02    3
−0.03    3
−0.04    3
−0.05    3
−0.06    3
−0.07    3
−0.08    3
−0.09    3
dtype: int64

In [12]:
p_acumulada

Unnamed: 0,z,−0.00,−0.01,−0.02,−0.03,−0.04,−0.05,−0.06,−0.07,−0.08,−0.09
0,-3.9,0.00005,0.00005,0.00004,0.00004,0.00004,0.00004,0.00004,0.00004,0.00003,0.00003
1,-3.8,0.00007,0.00007,0.00007,0.00006,0.00006,0.00006,0.00006,0.00005,0.00005,0.00005
2,-3.7,0.00011,0.00010,0.00010,0.00010,0.00009,0.00009,0.00008,0.00008,0.00008,0.00008
3,-3.6,0.00016,0.00015,0.00015,0.00014,0.00014,0.00013,0.00013,0.00012,0.00012,0.00011
4,-3.5,0.00023,0.00022,0.00022,0.00021,0.00020,0.00019,0.00019,0.00018,0.00017,0.00017
5,-3.4,0.00034,0.00032,0.00031,0.00030,0.00029,0.00028,0.00027,0.00026,0.00025,0.00024
6,-3.3,0.00048,0.00047,0.00045,0.00043,0.00042,0.00040,0.00039,0.00038,0.00036,0.00035
7,-3.2,0.00069,0.00066,0.00064,0.00062,0.00060,0.00058,0.00056,0.00054,0.00052,0.00050
8,-3.1,0.00097,0.00094,0.00090,0.00087,0.00084,0.00082,0.00079,0.00076,0.00074,0.00071
9,-3.0,0.00135,0.00131,0.00126,0.00122,0.00118,0.00114,0.00111,0.00107,0.00104,0.00100


Notamos que las filas con datos perdidos en realidad corresponden a separación entre filas, por lo que podemos deshacernos de estas sin ningún problema. Además, nos desharemos de la última fila, que simplemente repite la información disponible en la cabecera.

In [13]:
p_acumulada = p_acumulada.dropna().drop([43])
p_acumulada.info()

<class 'pandas.core.frame.DataFrame'>
Index: 40 entries, 0 to 42
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   z       40 non-null     object
 1   −0.00   40 non-null     object
 2   −0.01   40 non-null     object
 3   −0.02   40 non-null     object
 4   −0.03   40 non-null     object
 5   −0.04   40 non-null     object
 6   −0.05   40 non-null     object
 7   −0.06   40 non-null     object
 8   −0.07   40 non-null     object
 9   −0.08   40 non-null     object
 10  −0.09   40 non-null     object
dtypes: object(11)
memory usage: 3.8+ KB


Notar que este último DatFrame tiene todas sus columnas de tipo object. Haremos los pasos necesarios para convertirlos en tipo Float.

In [14]:
p_acumulada = p_acumulada.convert_dtypes()

In [15]:
p_acumulada.info()

<class 'pandas.core.frame.DataFrame'>
Index: 40 entries, 0 to 42
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   z       40 non-null     string
 1   −0.00   40 non-null     string
 2   −0.01   40 non-null     string
 3   −0.02   40 non-null     string
 4   −0.03   40 non-null     string
 5   −0.04   40 non-null     string
 6   −0.05   40 non-null     string
 7   −0.06   40 non-null     string
 8   −0.07   40 non-null     string
 9   −0.08   40 non-null     string
 10  −0.09   40 non-null     string
dtypes: string(11)
memory usage: 3.8 KB


In [16]:
for col in p_acumulada.columns[1:]:
    p_acumulada[col] = pd.to_numeric(p_acumulada[col])

In [17]:
p_acumulada.info()

<class 'pandas.core.frame.DataFrame'>
Index: 40 entries, 0 to 42
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   z       40 non-null     string 
 1   −0.00   40 non-null     Float64
 2   −0.01   40 non-null     Float64
 3   −0.02   40 non-null     Float64
 4   −0.03   40 non-null     Float64
 5   −0.04   40 non-null     Float64
 6   −0.05   40 non-null     Float64
 7   −0.06   40 non-null     Float64
 8   −0.07   40 non-null     Float64
 9   −0.08   40 non-null     Float64
 10  −0.09   40 non-null     Float64
dtypes: Float64(10), string(1)
memory usage: 4.1 KB


Ahora procederemos a seleccionar las columnas más relevantes para el análisis y realizar algunas transformaciones para mejorar la legibilidad de los datos. De los DataFrames olimpiadas y p_acumulada, todas las columnas son importantes para el análisis, así que las dejaremos tal cual.

Por otro lado, en el DataFrame titanic hay varias columnas que parecieran no ser muy reloevantes. En particular, las columnas "PassengerID", "Embarked" y "Ticket" no aportan mucha información, por lo que las eliminaremos del DataFrame.

In [18]:
titanic = titanic.drop(columns=["PassengerId", "Embarked", "Ticket"])
titanic.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare
0,0,3,"Kelly, Mr. James",male,34.5,0,0,7.8292
1,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,7.0
2,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,9.6875
3,0,3,"Wirz, Mr. Albert",male,27.0,0,0,8.6625
4,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,12.2875


A continuación, renombraremos la columna "SibSp", que indica el número de hermanos que tiene el pasajero, por un nombre más aclarativo.

In [19]:
titanic = titanic.rename(columns={"SibSp": "NSiblings"})
titanic.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,NSiblings,Parch,Fare
0,0,3,"Kelly, Mr. James",male,34.5,0,0,7.8292
1,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,7.0
2,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,9.6875
3,0,3,"Wirz, Mr. Albert",male,27.0,0,0,8.6625
4,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,12.2875


Finalmente, ordenaremos el DataFrame por la edad de los pasajeros, de menor a mayor.

In [20]:
titanic = titanic.sort_values("Age")

In [21]:
titanic.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,NSiblings,Parch,Fare
354,1,3,"Dean, Miss. Elizabeth Gladys Millvina""""",female,0.17,1,2,20.575001
201,0,3,"Danbom, Master. Gilbert Sigvard Emanuel",male,0.33,0,2,14.4
281,0,3,"Peacock, Master. Alfred Edward",male,0.75,1,1,13.775
307,0,3,"Aks, Master. Philip Frank",male,0.83,0,1,9.35
250,1,2,"West, Miss. Barbara J",female,0.92,1,2,27.75


Para finalizar esta actividad, exportaremos los datos a archivos csv con los datos limpios, y a archivos excel para su visualización.

In [22]:
olimpiadas.to_csv(os.path.join(directorio_datos, "olimpiadas_limpio.csv"), index=False)
titanic.to_csv(os.path.join(directorio_datos, "titanic_limpio.csv"), index=False)
p_acumulada.to_csv(os.path.join(directorio_datos, "probabilidad_acumulada_limpio.csv"), index=False)

olimpiadas.to_excel(os.path.join(directorio_datos, "olimpiadas_limpio.xlsx"), index=False)
titanic.to_excel(os.path.join(directorio_datos, "titanic_limpio.xlsx"), index=False)
p_acumulada.to_excel(os.path.join(directorio_datos, "probabilidad_acumulada_limpio.xlsx"), index=False)