# Creación de DataFrames

## Procesos de Limpieza de Datos en Pandas

En el mundo del análisis de datos, la calidad de los datos es tan importante como el análisis mismo. Los datos crudos a menudo contienen errores, valores faltantes o inconsistencias que pueden afectar la precisión de los resultados.

Aquí es donde entra en juego Pandas, una biblioteca de Python ampliamente utilizada para la manipulación y análisis de datos. Pandas nos proporciona un conjunto robusto de herramientas para limpiar y preparar datos, asegurando que estén en el mejor estado posible para el análisis, tales como:

1. **Lectura de Datos:** Utilizando pd.read_csv() para importar datos desde un archivo CSV.
2. **Conversión de Tipos de Datos:** Convertir columnas, como fechas, a tipos de datos más adecuados.
3. **Eliminación de Filas o Columnas:** Retirar filas o columnas innecesarias.
4. **Imputación de Datos Faltantes:** Rellenar valores faltantes con la media, mediana, o un valor constante.
5. **Eliminación de Duplicados:** Asegurar la integridad de los datos eliminando duplicados.
6. **Filtrado de Datos:** Enfocar el análisis en subconjuntos específicos de datos.
7. **Creación de Nuevas Columnas:** Generar columnas derivadas para facilitar el análisis.

El proceso de limpieza de datos es crucial en el análisis, y Pandas nos ofrece herramientas para facilitar esa tarea. Pandas permite a los analistas transformar datos desordenados en conjuntos de datos limpios y estructurados.

Dominar las técnicas de limpieza de datos en Pandas es esencial para cualquier profesional que busque extraer valor significativo de sus datos.

In [1]:
import pandas as pd

In [2]:
file_path = "./online_retail.csv"
sales_data = pd.read_csv(file_path)
print(sales_data.head())

  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

           InvoiceDate  UnitPrice  CustomerID         Country  
0  2010-12-01 08:26:00       2.55     17850.0  United Kingdom  
1  2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
2  2010-12-01 08:26:00       2.75     17850.0  United Kingdom  
3  2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
4  2010-12-01 08:26:00       3.39     17850.0  United Kingdom  


In [3]:
import numpy as np
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

df_from_array = pd.DataFrame(data, columns=['A', 'B', 'C'])
print(df_from_array)

   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


In [4]:
data = [[1, 'Jhon', 22],
        [2, 'Ana', 24]]

df_from_list = pd.DataFrame(data, columns=['ID','Name','Age'])
print(df_from_list)

   ID  Name  Age
0   1  Jhon   22
1   2   Ana   24


In [5]:
data = [{
    'ID':1,
    'Name':'Jhon',
    'Age':22
}]

df_from_dict_list = pd.DataFrame(data)
print(df_from_dict_list)

   ID  Name  Age
0   1  Jhon   22


In [6]:
data = {
    'ID':[1,2,3],
    'Name':['Jhon','Ana','Mike'],
    'Age':[22,24,21]
}

df_from_dict = pd.DataFrame(data)
print(df_from_dict)

   ID  Name  Age
0   1  Jhon   22
1   2   Ana   24
2   3  Mike   21


In [7]:
data = {
    'ID':pd.Series([1,2,3]),
    'Name':pd.Series(['Jhon','Ana','Mike']),
    'Age':pd.Series([22,24,21])
}

df_from_series_dict = pd.DataFrame(data)
print(df_from_series_dict)

   ID  Name  Age
0   1  Jhon   22
1   2   Ana   24
2   3  Mike   21


In [None]:
# Para Google Colab
from google.colab import drive

drive.mount('/content/drive')
file_path = '/content/drive/My Drive/online_retail.csv'

sales_data = pd.read_csv(file_path)
print(sales_data.head())