<a href="https://colab.research.google.com/github/iecgerman/python-numpy-pandas/blob/master/clase14.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [41]:
# Creación de DataFrames en Pandas

"""
Pandas es una biblioteca de Python diseñada específicamente para la manipulación y el análisis de datos. Su popularidad en la comunidad de ciencia de datos se debe a su facilidad de uso, su integración con otras bibliotecas como NumPy y Matplotlib, y la capacidad de manejar grandes volúmenes de datos de manera eficiente. Python, por su parte, es un lenguaje de programación versátil y ampliamente utilizado en diversas áreas de la tecnología, lo que lo convierte en una elección natural para el análisis de datos.

¿Por qué Pandas y Python?

Facilidad de Uso: La sintaxis de Pandas es intuitiva y fácil de aprender. Permite realizar operaciones complejas de manera sencilla, lo que facilita la limpieza y manipulación de datos.
Eficiencia: Pandas está optimizado para realizar operaciones en grandes conjuntos de datos de manera rápida y eficiente.
Flexibilidad: Puede manejar diferentes tipos de datos y formatos, como CSV, Excel, JSON, SQL, entre otros.
Integración: Se integra perfectamente con otras bibliotecas de Python como NumPy, Matplotlib, y Scikit-learn, lo que permite una amplia gama de análisis y visualizaciones.
Procesos de Limpieza de Datos en Pandas

Cuando trabajamos con datos reales, es común encontrar datos faltantes, inconsistencias, y errores. Pandas proporciona una amplia gama de herramientas para limpiar y preparar los datos para el análisis. Estos son algunos de los procesos por los que pasará un archivo CSV en Pandas:

Lectura de Datos: El primer paso es leer los datos desde el archivo CSV utilizando pd.read_csv().
Conversión de Tipos de Datos: A menudo es necesario convertir tipos de datos, por ejemplo, convertir fechas de texto a objetos datetime.
Eliminación de Filas o Columnas: Es común eliminar filas o columnas innecesarias o que contienen muchos valores faltantes.
Imputación de Datos Faltantes: Los valores faltantes pueden ser imputados utilizando técnicas como el relleno con la media, mediana, o un valor constante.
Eliminación de Duplicados: Los datos duplicados pueden ser identificados y eliminados para asegurar la integridad de los datos.
Filtrado de Datos: Filtrar los datos para enfocarse en subconjuntos específicos basados en condiciones lógicas.
Creación de Nuevas Columnas: Generar nuevas columnas derivadas de las existentes para facilitar el análisis.

¿Qué es un DataFrame?

Un DataFrame es una estructura de datos bidimensional en Pandas, similar a una tabla en una base de datos o una hoja de cálculo en Excel. Está compuesto por filas y columnas, donde cada columna puede contener un tipo de dato diferente (números, cadenas, fechas, etc.). Los DataFrames son extremadamente útiles para la manipulación, análisis y visualización de datos.

A continuación, exploraremos diversas formas de crear DataFrames en Pandas, utilizando diferentes fuentes de datos:

1. Leer Datos desde un Archivo CSV

La forma más común de crear un DataFrame es leyendo datos desde un archivo CSV. Vamos a utilizar el dataset de ventas retail que hemos estado manejando. Los estudiantes también pueden descargar un dataset de las plataformas mencionadas anteriormente o de donde ellos gusten para hacer la extracción de datos. Esto les permitirá tener el proyecto de retail y otro proyecto adicional que ellos elijan.
"""

import pandas as pd

# Leer el dataset de ventas desde un archivo csv

path = '/content/online_retail.csv'
df = pd.read_csv(path)

# Mostrar las primeras filas del DataFrame

print(df.head())

  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

           InvoiceDate  UnitPrice  CustomerID         Country  
0  2010-12-01 08:26:00       2.55     17850.0  United Kingdom  
1  2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
2  2010-12-01 08:26:00       2.75     17850.0  United Kingdom  
3  2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
4  2010-12-01 08:26:00       3.39     17850.0  United Kingdom  


In [42]:
# Crear DataFrames desde Arrays de NumPy

"""
Pandas se integra perfectamente con NumPy, lo que permite crear DataFrames a partir de arrays de NumPy. Esto es útil cuando trabajamos con datos numéricos y necesitamos realizar análisis o transformaciones más complejas.
"""

import numpy as np

# Crear un array de NumPy
data = np.array([[1,2,3],[4,5,6],[7,8,9]])

# Crear un DataFrame desde el array
df_from_array = pd.DataFrame(data, columns=['A','B','C'])

#Mostrar el Dataframe
print(df_from_array)

   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


In [43]:
# Crear DataFrames desde Listas de Python

# Lista de Listas

# Crear una lista de listas
data = [[1, 'Jony', 22], [2, 'Ana', 24], [3, 'Mike', 21]]

# Crear un DataFrame desde la lista de listas
df_from_list = pd.DataFrame(data, columns=['ID', 'Nombre', 'Edad'])

#Mostrar el DataFrame
print(df_from_list)


   ID Nombre  Edad
0   1   Jony    22
1   2    Ana    24
2   3   Mike    21


In [44]:
# Lista de Diccionarios

# Crear una lista de diccionarios

data = [
    {
        'ID': 1,
        'Nombre': 'Jony',
        'Edad': 22
    },
    {
        'ID': 2,
        'Nombre': 'Ana',
        'Edad': 24
    },
    {
        'ID': 3,
        'Nombre': 'Mike',
        'Edad': 21
    }
]

# print(data)

# Crear un DataFrame desde la lista de diccionarios
df_from_dict_list = pd.DataFrame(data)

# Mostrar el DataFrame
print(df_from_dict_list)

   ID Nombre  Edad
0   1   Jony    22
1   2    Ana    24
2   3   Mike    21


In [45]:
# Crear DataFrames desde Diccionarios

# Los diccionarios de Python son una estructura de datos flexible y comúnmente utilizada para crear DataFrames.

# Diccionarios de Listas

# Crear un diccionario de listas

data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9],
    'NOMBRE': ['GERMAN', 'PAQUIRO', 'LIZANDRO', 'NOMBRE4', 'NOMBRE5', 'NOMBRE6', 'NOMBRE7', 'NOMBRE8', 'NOMBRE9'],
    'EDAD': [27, 37, 47, 48, 49, 50, 51, 52, 53]
    }

# print(data)

# Crear un DataFrame desde el diccionario de listas
df_from_dict = pd.DataFrame(data)

# Mostrar el DataFrame
print(df_from_dict)


   ID    NOMBRE  EDAD
0   1    GERMAN    27
1   2   PAQUIRO    37
2   3  LIZANDRO    47
3   4   NOMBRE4    48
4   5   NOMBRE5    49
5   6   NOMBRE6    50
6   7   NOMBRE7    51
7   8   NOMBRE8    52
8   9   NOMBRE9    53


In [46]:
# Diccionarios de Series

# Crear un diccionario de Series

data = {
    'ID': pd.Series([1,2,3]),
    'NOMBRE': pd.Series(['GERMAN', 'PAQUIRO', 'LIZANDRO']),
    'EDAD': pd.Series([27, 37, 47])
    }

# Crear un DataFrame desde el diccionario de Series
df_from_series_dict = pd.DataFrame(data)

# Mostrar el DataFrame
print(df_from_series_dict)

   ID    NOMBRE  EDAD
0   1    GERMAN    27
1   2   PAQUIRO    37
2   3  LIZANDRO    47


In [47]:
"""
 Crear DataFrames desde Archivos Excel
Pandas puede leer archivos Excel directamente y convertirlos en DataFrames.

# Leer el dataset desde un archivo Excel
file_path = "/content/online_retail.xlsx"
df_from_excel = pd.read_excel(file_path)

# Mostrar las primeras filas del DataFrame
print(df_from_excel.head())
6. Crear DataFrames desde Archivos JSON
Pandas facilita la lectura de archivos JSON que son comunes en aplicaciones web y APIs.

# Leer el dataset desde un archivo JSON
file_path = "/content/online_retail.json"
df_from_json = pd.read_json(file_path)

# Mostrar las primeras filas del DataFrame
print(df_from_json.head())
7. Crear DataFrames desde Archivos HTML
También puede extraer tablas directamente de archivos HTML o páginas web.

# Leer el dataset desde una tabla HTML
url = "https://example.com/table.html"
dfs = pd.read_html(url)

# Mostrar el primer DataFrame extraído
print(dfs[0].head())
"""


'\n Crear DataFrames desde Archivos Excel\nPandas puede leer archivos Excel directamente y convertirlos en DataFrames.\n\n# Leer el dataset desde un archivo Excel\nfile_path = "/content/online_retail.xlsx"\ndf_from_excel = pd.read_excel(file_path)\n\n# Mostrar las primeras filas del DataFrame\nprint(df_from_excel.head())\n6. Crear DataFrames desde Archivos JSON\nPandas facilita la lectura de archivos JSON que son comunes en aplicaciones web y APIs.\n\n# Leer el dataset desde un archivo JSON\nfile_path = "/content/online_retail.json"\ndf_from_json = pd.read_json(file_path)\n\n# Mostrar las primeras filas del DataFrame\nprint(df_from_json.head())\n7. Crear DataFrames desde Archivos HTML\nTambién puede extraer tablas directamente de archivos HTML o páginas web.\n\n# Leer el dataset desde una tabla HTML\nurl = "https://example.com/table.html"\ndfs = pd.read_html(url)\n\n# Mostrar el primer DataFrame extraído\nprint(dfs[0].head())\n'

In [52]:
# Uso de Google Drive para Acceder a Archivos

# Para facilitar el acceso y manejo de archivos, podemos utilizar Google Drive. Aquí se explica cómo montar Google Drive en un entorno de Google Colab:

from google.colab import drive

# montar Google Drive
drive.mount('/content/drive')

# Especificar la ruta del archivo en Google Drive
path = "/content/drive/My Drive/Diabetes-Data.csv"

# Leer el archivo CSV desde Google Drive
data = pd.read_csv(path)

# Mostrar las prrimeras 10 filas del DataFrame
print(data.head(10))

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
   Id  Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0   1            6      148             72             35        0  33.6   
1   2            1       85             66             29        0  26.6   
2   3            8      183             64              0        0  23.3   
3   4            1       89             66             23       94  28.1   
4   5            0      137             40             35      168  43.1   
5   6            5      116             74              0        0  25.6   
6   7            3       78             50             32       88  31.0   
7   8           10      115              0              0        0  35.3   
8   9            2      197             70             45      543  30.5   
9  10            8      125             96              0        0   0.0   

   DiabetesPedigreeFunction  Age  