<a href="https://colab.research.google.com/github/JuarezEmmanuel/Data-Science-Python/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Pandas y Manipulación de DataFrames

**Juarez Emmanuel**

**Objetivos**

Manipular conjuntos de datos usando Pandas para la exploración y preparación de datos en análisis. En esta sesión aprenderán a cargar datos, crear DataFrames, manipular sus columnas y realizar operaciones básicas sobre los datos utilizando el dataset de venta_llantas.xlsx

**Temario**

* ¿Qué es Pandas?
* Carga de datos
* Creación y manipulación de DataFrames
* Operaciones Básicas con Pandas
* Guardado y Exportación de Datos
* Carga de un archivo Excel en un DataFrame.
* Realizar una exploración básica de los datos utilizando las funciones más comunes de Pandas.
* Seleccionar y modificar columnas y filas dentro de un DataFrame.
* Filtrar datos según condiciones específicas.
* Guarde un DataFrame modificado en un nuevo archivo Excel para futuras manipulaciones.

## ¿Qué es Pandas?
Pandas es una biblioteca fundamental en Python diseñada específicamente para el manejo y análisis de datos estructurados, como tablas o series de tiempo. Su nombre proviene de "Panel Data", una estructura de datos que es muy común en análisis económicos, pero su uso se ha extendido a todo tipo de análisis de datos en múltiples áreas como la ciencia de datos, estadísticas, investigación y desarrollo, entre otros.

¿Por qué Pandas es clave para el análisis de datos?
* Facilidad de uso: Pandas proporciona estructuras de datos de alto nivel que son fáciles de manipular y analizar. Las operaciones comunes como filtrar, agrupar o transformar datos son más sencillas comparadas con hacerlo directamente en Python puro.
* Velocidad y eficiencia: Pandas está optimizado para realizar operaciones sobre grandes conjuntos de datos de manera eficiente.
* Integración con otras bibliotecas: Pandas funciona bien con otras bibliotecas importantes como NumPy, Matplotlib y Scikit-learn, lo que hace que sea muy útil en el flujo de trabajo de un científico de datos.
* Soporte para datos diversos: Pandas puede manejar diferentes tipos de datos, como CSV, Excel, SQL y más, facilitando la importación y exportación de datos en diferentes formatos.

**Conceptos Clave: Series y DataFrames**

* Serie: es una estructura de datos unidimensional, similar a una lista o un array de NumPy, pero con algunas características adicionales. Cada elemento en una Serie tiene una etiqueta o índice, lo que permite un acceso más eficiente a los datos. Piensa en una Serie como una columna de datos de una tabla.


In [119]:
import pandas as pd

In [120]:
# Ejemplo de serie

serie = pd.Series([10, 20, 30, 40, 80])
print(serie)

0    10
1    20
2    30
3    40
4    80
dtype: int64


* DataFrame:

Es la estructura de datos bidimensional más utilizada en Pandas. Es similar a una tabla de una hoja de cálculo o una base de datos, donde cada columna es una Serie y puede tener un tipo de dato diferente. Los DataFrames son extremadamente flexibles y nos permiten realizar operaciones como filtrar datos, agregar columnas, unir tablas, etc.

In [121]:
# Ejemplo de DataFrame

data = {'Nombre': ['Ana', 'Luiz', 'Carlos'], 'Edad': [28, 35, 19]}
df = pd.DataFrame(data)
print(df)

   Nombre  Edad
0     Ana    28
1    Luiz    35
2  Carlos    19


In [122]:
df

Unnamed: 0,Nombre,Edad
0,Ana,28
1,Luiz,35
2,Carlos,19


**Importancia de Pandas en el Análisis de Datos**

Pandas es esencial para el análisis de datos porque proporciona:

* Limpieza de Datos : La mayoría de los datos que usamos en la vida real no están en un formato limpio. Pandas permite realizar operaciones como manejar valores nulos, transformar tipos de datos, o modificar estructuras de tablas con gran facilidad.

* Manipulación de Datos : A menudo, necesitamos transformar o agregar información a nuestros datos. Con Pandas, podemos realizar tareas como:
  * Filtrar filas o columnas.
  * Aplicar funciones sobre grupos de datos.
  * Fusionar, concatenar o pivotar tablas.

* Análisis Exploratorio de Datos (EDA) : Antes de aplicar un modelo de Machine Learning o cualquier otra técnica avanzada, es fundamental entender los datos. Pandas facilita calcular estadísticas descriptivas, generar resúmenes y crear subconjuntos de datos relevantes para profundizar en el análisis.

**Conclusión**
En resumen, Pandas es una de las bibliotecas más poderosas y versátiles para el análisis de datos en Python. Desde la limpieza hasta el análisis profundo, Pandas ofrece herramientas que optimizan cada etapa del proceso de trabajo con datos. Durante este curso, profundizaremos en cómo manipular y explorar datos utilizando esta biblioteca, lo que es crucial para todo análisis de datos eficiente.

In [None]:
!pip install -U gdown
!gdown 1kFa35DYNnfLzAAMEwE7pGwa0RiZN48_n  #Carga desde enlace de drive

import pandas as pd

df = pd.read_excel('venta_llantas.xlsx')

Downloading...
From: https://drive.google.com/uc?id=1kFa35DYNnfLzAAMEwE7pGwa0RiZN48_n
To: /content/venta_llantas.xlsx
100% 10.7M/10.7M [00:00<00:00, 141MB/s]


In [None]:
# Mostrar las primeras 10 filas del DataFrame
df.head(10)

In [None]:
# Muestra la informacion Basica del DataFrame
df.info()

In [None]:
# Muestra las estadisticas descriptivas de las columnas numericas
df.describe()

In [None]:
# Seleccionar una columna por Nombre
ventas = df['Ventas']
ventas.head(5)

In [None]:
# Seleccionar varias columnas
subset = df[['IdCliente', 'Ventas', 'Cantidad']]
subset.head(15)

In [None]:
# Seleccionar filas con .iloc  ( por indice)

df.iloc[10:14]

In [None]:
df.iloc[10:11]

In [None]:
# Seleccionar Filas por etiquetas con .loc

df.loc[df['Sede'] == 'Calle 80']

In [None]:
df.loc[(df['IdCliente'] == 'C2865810') & (df['Cantidad'] >=2)]

In [None]:
df.loc[(df['Sede'] == 'Suba') | (df['Familia'] == 'LLANTA')]

In [None]:
# Seleccionar las filas con cantidad mayor o igual a 5
df['Cantidad'] >=5

In [None]:
#Seleccione las columnas "Area" y "Ventas", luego muestre las primeras 10 filas.
sub = df[['Area', 'Ventas']]
sub.head(10)

In [None]:
# Seleccionar las filas con area entre 30 y 34

df.loc[(df['Area'] == 30) | (df['Area'] == 34)]

In [None]:
# Crear una nueva columna con el total de venta
# cantidad * venta

df['TotalVentas'] = df['Cantidad'] * df['Ventas']
df.head()

In [None]:
# Modificar los valores de una columna existente

df['Cantidad'] = df['Cantidad'] * 2
df.head()

# Filtrado de datos Usando condiciones

In [None]:
# Filtrar las filas donde las ventas sean mayores a 100,000

ventas_altas = df.loc[df['Ventas'] > 100000]
ventas_altas.head()

In [None]:
# Filtrar las sedes

sedes_suba = df.loc[df['Sede'] == 'Suba']
sedes_suba.head()

# Guardado de un DataFrame a un nuevo archivo Excel

In [None]:
sedes_suba.to_excel('Modificado.xlsx', index=False)

# Archivo en la carpeta temporar de drive