# Data Science Nivel 1: Análisis de Datos con Python

Ejemplo creado por:* **V. D. Betancourt**

## Capítulo 4. Análisis de Datos
La transformación o manipulación de datos, puede incluir cambiar el formato de los datos,combinar datos de diferentes
fuentes, o modificarlos de forma que sean más útiles para su análisis

### Notebook. Data Wrangling

#### Importar

In [None]:
# Importar Bibliotecas
import pandas as pd
import numpy as np


#### Carga de Datos desde GitHub

In [None]:
# Cargar dataset
import pandas as pd

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv'
df_vino = pd.read_csv(url, sep=';')


In [None]:
df_vino.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


El dataset **`winequality-red.csv`** contiene información sobre muestras de vino tinto, con variables químicas que pueden influir en la calidad del vino. El dataset contiene las siguientes columnas:

* **`fixed acidity`**: Acidez fija. Se refiere a la cantidad de ácidos tartáricos, málicos, y cítricos presentes en el vino, que son estables y no se evaporan fácilmente.

* **`volatile acidity`**: Acidez volátil. Se refiere a la cantidad de ácido acético (vinagre) en el vino, que en altas concentraciones puede llevar a un sabor desagradable.

* **`citric acid`**: Ácido cítrico.

* **`residual sugar`**: Azúcar residual. Es el azúcar que queda después de la fermentación, y los cloruros son medidos principalmente por la concentración de sal.

* **`chlorides`**: Cloruros.

* **`free sulfur dioxide`**: Dióxido de azufre libre. Se utiliza como conservante y para prevenir el crecimiento de microorganismos y la oxidación.

* **`total sulfur dioxide`**: Dióxido de azufre total. Se utiliza como conservante y para prevenir el crecimiento de microorganismos y la oxidación.

* **`density`**: Densidad. Está relacionada con su contenido alcohólico y de azúcar.

* **`pH`**: pH (potencial de hidrógeno). Indica qué tan ácido o básico es el vino en una escala de 0 a 14.

* **`sulphates`**: Sulfatos. Son aditivos que pueden contribuir al nivel de dióxido de azufre total y afectar la fermentación.

* **`alcohol`**: Alcohol.

* **`quality`**: Calidad (normalmente en una escala de 0 a 10).



Estas columnas representan diversas mediciones químicas y propiedades del vino, que pueden utilizarse para predecir la calidad percibida del mismo, representada por la columna **`quality`**.



#### Guardar Respaldo

Hacemos una copia del DataFrame original para tener un backup.

In [None]:
# Guardar respaldo
df_vino_backup = df_vino.copy()


#### Creación de Variables

Se creará una nueva variable **`alta_calidad`** que permita identificar aquellos vinos cuya calidad sea superior a la mediana.

Se obtiene la mediana de los valores en la columna **`'quality'`** del DataFrame **`df_vino`**, que representa una medida central de la calidad.

Luego, se añade una nueva columna **`'alta_calidad'`** al DataFrame **`df_vino`**. Esta columna se rellena con valores binarios (0 o 1) donde 1 indica que la calidad del vino es superior a la mediana calculada y 0 indica que es igual o inferior. Esto se logra comparando cada valor en **`'quality'`** con la mediana, y luego convirtiendo el resultado booleano (**`True`** o **`False`**) a un entero (**`1`** o **`0`**) con **`astype(int)`**.

In [None]:
import pandas as pd

# Crear una variable binaria para vinos con calidad superior a la mediana
mediana_calidad = df_vino['quality'].median()
df_vino['alta_calidad'] = (df_vino['quality'] > mediana_calidad).astype(int)

# Imprimir la mediana de la calidad para referencia
print(f"Mediana de la calidad: {mediana_calidad}\n")

# Mostrar las primeras 10 filas de las columnas 'quality' y 'alta_calidad' para verificar
print(df_vino[['quality', 'alta_calidad']].head(10))


Mediana de la calidad: 6.0

   quality  alta_calidad
0        5             0
1        5             0
2        5             0
3        6             0
4        5             0
5        5             0
6        5             0
7        7             1
8        7             1
9        5             0


Otra forma de presentar los resultados, consiste en usar **`value_counts()`** para obtener el conteo en **`alta_calidad`**:

In [None]:
# Otra forma de presentar el resultado
# Imprimir la mediana de la calidad para referencia
print(f"Mediana de la calidad: {mediana_calidad}\n")

# Distribución de los valores de 'alta_calidad'
print("\nDistribución de la variable 'alta_calidad':")
print(df_vino['alta_calidad'].value_counts())

# Obtener los conteos de 'alta_calidad'
conteos_alta_calidad = df_vino['alta_calidad'].value_counts()

# Imprimir los resultados de manera legible
print(f"\nVinos con calidad inferior a la mediana: {conteos_alta_calidad[0]}")
print(f"Vinos con calidad superior a la mediana: {conteos_alta_calidad[1]}")


Mediana de la calidad: 6.0


Distribución de la variable 'alta_calidad':
alta_calidad
0    1382
1     217
Name: count, dtype: int64

Vinos con calidad inferior a la mediana: 1382
Vinos con calidad superior a la mediana: 217


#### Agrupamiento de Datos

A continuación, se calcula el *promedio* de alcohol en el DataFrame **`df_vino`** *agrupando* los datos con **`groupby`** por la columna **`'quality'`** y aplicando la función **`mean()`** a la columna **`'alcohol'`**.

In [None]:
import pandas as pd

# Calcular el promedio de alcohol por calidad de vino
promedio_alcohol = df_vino.groupby('quality')['alcohol'].mean()
print("El promedio de alcohol por calidad de vino es:\n", promedio_alcohol)


El promedio de alcohol por calidad de vino es:
 quality
3     9.955000
4    10.265094
5     9.899706
6    10.629519
7    11.465913
8    12.094444
Name: alcohol, dtype: float64


#### Renombrar Columnas


En el siguiente código, se utiliza el método **`rename()`** para cambiar los nombres de columnas  **`'fixed acidity'`** y **`'volatile acidity'`** a **`'acidez_fija'`** y **`'acidez_volatil'`**, respectivamente.

In [None]:
# Renombrar columnas para mejorar la legibilidad
df_vino_renombrado = df_vino.rename(columns={'fixed acidity': 'acidez_fija', 'volatile acidity': 'acidez_volatil'})
print(df_vino_renombrado.columns)


Index(['acidez_fija', 'acidez_volatil', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality', 'alta_calidad'],
      dtype='object')


#### Reemplazar Valores


Se crea una nueva columna **`calidad_etiqueta`** en **`df_vino`**, asignando etiquetas textuales como **`'Baja'`**, **`'Media'`** y **`'Alta'`** a los valores numéricos de la columna **`'quality'`** mediante el método **`replace()`**.

In [None]:
# Reemplazar valores en la columna de calidad por etiquetas textuales
df_vino['calidad_etiqueta'] = df_vino['quality'].replace({3: 'Baja', 4: 'Baja', 5: 'Media', 6: 'Media', 7: 'Alta', 8: 'Alta'})
print(df_vino[['quality', 'calidad_etiqueta']].head())


   quality calidad_etiqueta
0        5            Media
1        5            Media
2        5            Media
3        6            Media
4        5            Media


Usamos **`value_counts(`**) para obtener el conteo en **`calidad_etiqueta`**:

In [None]:
# Frecuencias
print("Frecuencias de la variable:")
print(df_vino['calidad_etiqueta'].value_counts())


Frecuencias de la variable:
calidad_etiqueta
Media    1319
Alta      217
Baja       63
Name: count, dtype: int64


#### Eliminar Filas

Se obtiene el números de filas en **`df_vino`** con la función **`len()`**.

In [None]:
# Imprimir el número de filas antes de la eliminación
print(f"Número de filas antes de la eliminación: {len(df_vino)}")


Número de filas antes de la eliminación: 1599


En un nuevo DataFrame (**`df_vino_sin_baja_calidad`**), se eliminan aquellas filas que no satisfagan la condición de que la calidad (**`quality`**) sea igual o superior a 5.

In [None]:
# Eliminar filas que no cumplan que la calidad sea igual o superior a 5
df_vino_sin_baja_calidad = df_vino[df_vino['quality'] >= 5]


In [None]:
# Imprimir el número de filas después de la eliminación
print(f"Número de filas después de la eliminación: {len(df_vino_sin_baja_calidad)}")


Número de filas después de la eliminación: 1536


Luego, se usa la función **`sorted()`** para ordenar los elementos de **`valores_unicos_calidad`** (orden ascendente, por defecto).

In [None]:
# Confirmar que se han eliminado las filas adecuadas
valores_unicos_calidad = df_vino_sin_baja_calidad['quality'].unique()
print(f"Valores únicos de calidad después de la eliminación: {sorted(valores_unicos_calidad)}")


Valores únicos de calidad después de la eliminación: [5, 6, 7, 8]


#### Eliminar Filas Duplicadas

In [None]:
# Imprimir el número de filas antes de eliminar duplicados
print(f"Número de filas antes de eliminar duplicados: {len(df_vino)}")


Número de filas antes de eliminar duplicados: 1599


Se procede a eliminar las filas duplicadas del DataFrame **`df_vino`** utilizando el método **`drop_duplicates()`**, y luego se almacena el resultado en **`df_vino_unico`**.

In [None]:
# Eliminar filas duplicadas
df_vino_unico = df_vino.drop_duplicates()


In [None]:
# Imprimir el número de filas después de eliminar duplicados
print(f"Número de filas después de eliminar duplicados: {len(df_vino_unico)}")


Número de filas después de eliminar duplicados: 1359


In [None]:
# Calcular y mostrar cuántas filas estaban duplicadas
filas_duplicadas = len(df_vino) - len(df_vino_unico)
print(f"Número de filas duplicadas que se eliminaron: {filas_duplicadas}")


Número de filas duplicadas que se eliminaron: 240


#### Agrupamiento de Filas por Fecha

El siguiente código utiliza **`pd.date_range`** para generar una secuencia de **`6`** fechas diarias a partir del 1 de enero de 2023, y crea un DataFrame **`df_tiempo`** con esta secuencia de fechas y una columna **`'Valor'`** con datos numéricos.



In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo con datos de tiempo
datos_tiempo = pd.date_range('20230101', periods=6)
df_tiempo = pd.DataFrame({'Fecha': datos_tiempo, 'Valor': [1, 2, 2, 3, 3, 4]})
print(df_tiempo)


       Fecha  Valor
0 2023-01-01      1
1 2023-01-02      2
2 2023-01-03      2
3 2023-01-04      3
4 2023-01-05      3
5 2023-01-06      4


Luego, transforma la columna **`'Fecha'`** en una columna **`'Mes'`**, donde las fechas se convierten a formato de periodo mensual utilizando **`to_period('M')`**.



In [None]:
# Convertir la columna 'Fecha' a tipo periodo (mes)
df_tiempo['Mes'] = df_tiempo['Fecha'].dt.to_period('M')
#print(df_tiempo['Mes'])


Luego, se agrupa el DataFrame por la columna **`'Mes'`** y suma los valores de la columna **`'Valor'`** asociados a cada mes. Usa **`reset_index()`** para convertir el índice resultante en una columna regular, facilitando su manipulación posterior. Finalmente, se muestran los valores sumados por mes.

In [None]:
# Agrupar por 'Mes' y sumar solo las columnas numéricas
df_agrupado_por_mes = df_tiempo.groupby('Mes')['Valor'].sum().reset_index()

# Imprimir resultado
print(df_agrupado_por_mes)


       Mes  Valor
0  2023-01     15


#### Concatenar DataFrames

El siguiente código combina dos DataFrames, **`df1`** y **`df2`**, que tienen las mismas columnas **`('A', 'B', 'C', 'D')`** pero *diferentes filas* de datos.

Se utiliza **`pd.concat`** para unir **`df1`** y **`df2`** en un solo DataFrame llamado **`df_concatenado`**. El parámetro **`ignore_index=True`** se emplea para reasignar los índices en el nuevo DataFrame, asegurando que los índices sean continuos y no se repitan.


In [None]:
import pandas as pd

# Crear dos DataFrames para concatenar
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']})

print("DataFrame df1:\n", df1)
print("\nDataFrame df2:\n", df2)


DataFrame df1:
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3

DataFrame df2:
     A   B   C   D
0  A4  B4  C4  D4
1  A5  B5  C5  D5
2  A6  B6  C6  D6
3  A7  B7  C7  D7


In [None]:
# Concatenar DataFrames
df_concatenado = pd.concat([df1, df2], ignore_index=True)

print("\nDataFrame concatenado:\n", df_concatenado)



DataFrame concatenado:
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7


Ejemplo práctico con datos financieros:

A continuación, se crean dos DataFrames, **`df_transacciones_q1`** con datos de transacciones del primer trimestre y **`df_transacciones_q2`** con datos del segundo trimestre. Ambos contienen columnas para el ID de transacción, ID de cliente, monto de la transacción y fecha.

Luego, se utiliza **`pd.concat`** para combinar ambos DataFrames en **`df_transacciones_concatenadas`**. Se aplica **`ignore_index=True`** para que el DataFrame resultante tenga índices continuos y únicos, reasignando nuevos índices a todas las filas combinadas.

In [None]:
import pandas as pd

# Crear un DataFrame con transacciones del primer trimestre (q1)
df_transacciones_q1 = pd.DataFrame({
    'id_transaccion': ['T1', 'T2', 'T3', 'T4'],
    'id_cliente': ['100', '101', '102', '103'],
    'monto': [200, 150, 500, 400],
    'fecha': ['2023-01-15', '2023-02-20', '2023-03-10', '2023-03-22']
})

# Crear otro DataFrame con transacciones del segundo trimestre (q2)
df_transacciones_q2 = pd.DataFrame({
    'id_transaccion': ['T5', 'T6', 'T7', 'T8'],
    'id_cliente': ['104', '105', '106', '107'],
    'monto': [300, 450, 200, 500],
    'fecha': ['2023-04-05', '2023-05-15', '2023-06-20', '2023-06-30']
})

print("DataFrame df_transacciones_q1:\n", df_transacciones_q1)
print("\nDataFrame df_transacciones_q2:\n", df_transacciones_q2)


DataFrame df_transacciones_q1:
   id_transaccion id_cliente  monto       fecha
0             T1        100    200  2023-01-15
1             T2        101    150  2023-02-20
2             T3        102    500  2023-03-10
3             T4        103    400  2023-03-22

DataFrame df_transacciones_q2:
   id_transaccion id_cliente  monto       fecha
0             T5        104    300  2023-04-05
1             T6        105    450  2023-05-15
2             T7        106    200  2023-06-20
3             T8        107    500  2023-06-30


In [None]:
# Concatenar DataFrames
df_transacciones_concatenadas = pd.concat([df_transacciones_q1, df_transacciones_q2], ignore_index=True)

print("\nDataFrame concatenado:\n", df_transacciones_concatenadas)



DataFrame concatenado:
   id_transaccion id_cliente  monto       fecha
0             T1        100    200  2023-01-15
1             T2        101    150  2023-02-20
2             T3        102    500  2023-03-10
3             T4        103    400  2023-03-22
4             T5        104    300  2023-04-05
5             T6        105    450  2023-05-15
6             T7        106    200  2023-06-20
7             T8        107    500  2023-06-30


#### Fusionar DataFrames

Se crean a continuación, los DataFrames **`df_izquierda`** y **`df_derecha`**  con una columna común **`'key'`** que actúa como identificador, y contienen datos en las columnas **`'A'`** y **`'B'`** para el primero, y **`'C'`** y ***'D'*** para el segundo.

Luego, se utiliza **`pd.merge()`** para combinar **`df_izquierda`** y **`df_derecha`** utilizando la columna **`'key'`** como el criterio de unión. Esto resulta en un DataFrame **`df_fusionado`** donde cada fila contiene tanto los datos de **`df_izquierda`** como los de **`df_derecha`** para las claves coincidentes.

In [None]:
import pandas as pd

# Crear dos DataFrames para fusionar
df_izquierda = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                             'A': ['A0', 'A1', 'A2', 'A3'],
                             'B': ['B0', 'B1', 'B2', 'B3']})

df_derecha = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                           'C': ['C0', 'C1', 'C2', 'C3'],
                           'D': ['D0', 'D1', 'D2', 'D3']})

print("DataFrame df_izquierda:\n", df_izquierda)
print("\nDataFrame df_derecha:\n", df_derecha)


DataFrame df_izquierda:
   key   A   B
0  K0  A0  B0
1  K1  A1  B1
2  K2  A2  B2
3  K3  A3  B3

DataFrame df_derecha:
   key   C   D
0  K0  C0  D0
1  K1  C1  D1
2  K2  C2  D2
3  K3  C3  D3


In [None]:
# Fusionar DataFrames
df_fusionado = pd.merge(df_izquierda, df_derecha, on='key')

print("DataFrame fusionado:\n", df_fusionado)



DataFrame fusionado:
   key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2
3  K3  A3  B3  C3  D3


Ejemplo práctico con datos financieros:

En el siguiente fragmento de código, **`df_creditos`** contiene información de créditos con campos para el ID del crédito, ID del cliente y el monto del crédito.

**`df_clientes`** incluye datos de clientes como el ID del cliente, nombre del cliente y ciudad.

Luego, utiliza **`pd.merge()`** para fusionar **`df_creditos`** y **`df_clientes`** usando **`'id_cliente'`** como la clave común. Esto alinea los datos de créditos y clientes basándose en el ID del cliente.

In [None]:
import pandas as pd

# Crear un DataFrame con información sobre créditos
df_creditos = pd.DataFrame({
    'id_credito': ['C1', 'C2', 'C3', 'C4'],
    'id_cliente': ['100', '101', '102', '103'],
    'monto_credito': [5000, 8000, 12000, 10000]
})

# Crear otro DataFrame con información sobre los clientes
df_clientes = pd.DataFrame({
    'id_cliente': ['100', '101', '102', '103'],
    'nombre_cliente': ['Juan', 'Ana', 'Pedro', 'Luisa'],
    'ciudad': ['Ciudad A', 'Ciudad B', 'Ciudad C', 'Ciudad D']
})

print("DataFrame df_creditos:\n", df_creditos)
print("\nDataFrame df_clientes:\n", df_clientes)


DataFrame df_creditos:
   id_credito id_cliente  monto_credito
0         C1        100           5000
1         C2        101           8000
2         C3        102          12000
3         C4        103          10000

DataFrame df_clientes:
   id_cliente nombre_cliente    ciudad
0        100           Juan  Ciudad A
1        101            Ana  Ciudad B
2        102          Pedro  Ciudad C
3        103          Luisa  Ciudad D


In [None]:
# Fusionar DataFrames usando 'id_cliente' como clave
df_fusionado = pd.merge(df_creditos, df_clientes, on='id_cliente')

print("\nDataFrame fusionado:\n", df_fusionado)



DataFrame fusionado:
   id_credito id_cliente  monto_credito nombre_cliente    ciudad
0         C1        100           5000           Juan  Ciudad A
1         C2        101           8000            Ana  Ciudad B
2         C3        102          12000          Pedro  Ciudad C
3         C4        103          10000          Luisa  Ciudad D
