<a href="https://colab.research.google.com/github/JuarezEmmanuel/Data-Science-Python/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Pandas y Manipulación de DataFrames

**Juarez Emmanuel**

**Objetivos**

Manipular conjuntos de datos usando Pandas para la exploración y preparación de datos en análisis. En esta sesión aprenderán a cargar datos, crear DataFrames, manipular sus columnas y realizar operaciones básicas sobre los datos utilizando el dataset de venta_llantas.xlsx

**Temario**

* ¿Qué es Pandas?
* Carga de datos
* Creación y manipulación de DataFrames
* Operaciones Básicas con Pandas
* Guardado y Exportación de Datos

**Logros de la Clase**


* Carga de un archivo Excel en un DataFrame.
* Realizar una exploración básica de los datos utilizando las funciones más comunes de Pandas.
* Seleccionar y modificar columnas y filas dentro de un DataFrame.
* Filtrar datos según condiciones específicas.
* Guarde un DataFrame modificado en un nuevo archivo Excel para futuras manipulaciones.

## ¿Qué es Pandas?
Pandas es una biblioteca fundamental en Python diseñada específicamente para el manejo y análisis de datos estructurados, como tablas o series de tiempo. Su nombre proviene de "Panel Data", una estructura de datos que es muy común en análisis económicos, pero su uso se ha extendido a todo tipo de análisis de datos en múltiples áreas como la ciencia de datos, estadísticas, investigación y desarrollo, entre otros.

¿Por qué Pandas es clave para el análisis de datos?
* Facilidad de uso: Pandas proporciona estructuras de datos de alto nivel que son fáciles de manipular y analizar. Las operaciones comunes como filtrar, agrupar o transformar datos son más sencillas comparadas con hacerlo directamente en Python puro.
* Velocidad y eficiencia: Pandas está optimizado para realizar operaciones sobre grandes conjuntos de datos de manera eficiente.
* Integración con otras bibliotecas: Pandas funciona bien con otras bibliotecas importantes como NumPy, Matplotlib y Scikit-learn, lo que hace que sea muy útil en el flujo de trabajo de un científico de datos.
* Soporte para datos diversos: Pandas puede manejar diferentes tipos de datos, como CSV, Excel, SQL y más, facilitando la importación y exportación de datos en diferentes formatos.

**Conceptos Clave: Series y DataFrames**

* Serie: es una estructura de datos unidimensional, similar a una lista o un array de NumPy, pero con algunas características adicionales. Cada elemento en una Serie tiene una etiqueta o índice, lo que permite un acceso más eficiente a los datos. Piensa en una Serie como una columna de datos de una tabla.


In [1]:
import pandas as pd

In [2]:
# Ejemplo de serie

serie = pd.Series([10, 20, 30, 40, 80])
print(serie)

0    10
1    20
2    30
3    40
4    80
dtype: int64


* DataFrame:

Es la estructura de datos bidimensional más utilizada en Pandas. Es similar a una tabla de una hoja de cálculo o una base de datos, donde cada columna es una Serie y puede tener un tipo de dato diferente. Los DataFrames son extremadamente flexibles y nos permiten realizar operaciones como filtrar datos, agregar columnas, unir tablas, etc.

In [5]:
# Ejemplo de DataFrame

data = {'Nombre': ['Ana', 'Luiz', 'Carlos'], 'Edad': [28, 35, 19]}
df = pd.DataFrame(data)
print(df)

   Nombre  Edad
0     Ana    28
1    Luiz    35
2  Carlos    19


In [6]:
df

Unnamed: 0,Nombre,Edad
0,Ana,28
1,Luiz,35
2,Carlos,19


**Importancia de Pandas en el Análisis de Datos**

Pandas es esencial para el análisis de datos porque proporciona:

* Limpieza de Datos : La mayoría de los datos que usamos en la vida real no están en un formato limpio. Pandas permite realizar operaciones como manejar valores nulos, transformar tipos de datos, o modificar estructuras de tablas con gran facilidad.

* Manipulación de Datos : A menudo, necesitamos transformar o agregar información a nuestros datos. Con Pandas, podemos realizar tareas como:
  * Filtrar filas o columnas.
  * Aplicar funciones sobre grupos de datos.
  * Fusionar, concatenar o pivotar tablas.

* Análisis Exploratorio de Datos (EDA) : Antes de aplicar un modelo de Machine Learning o cualquier otra técnica avanzada, es fundamental entender los datos. Pandas facilita calcular estadísticas descriptivas, generar resúmenes y crear subconjuntos de datos relevantes para profundizar en el análisis.

**Conclusión**
En resumen, Pandas es una de las bibliotecas más poderosas y versátiles para el análisis de datos en Python. Desde la limpieza hasta el análisis profundo, Pandas ofrece herramientas que optimizan cada etapa del proceso de trabajo con datos. Durante este curso, profundizaremos en cómo manipular y explorar datos utilizando esta biblioteca, lo que es crucial para todo análisis de datos eficiente.

In [9]:
!pip install -U gdown
!gdown 1kFa35DYNnfLzAAMEwE7pGwa0RiZN48_n  #Carga desde enlace de drive

import pandas as pd

df = pd.read_excel('venta_llantas.xlsx')

Downloading...
From: https://drive.google.com/uc?id=1kFa35DYNnfLzAAMEwE7pGwa0RiZN48_n
To: /content/venta_llantas.xlsx
100% 10.7M/10.7M [00:00<00:00, 235MB/s]


In [10]:
# Mostrar las primeras 10 filas del DataFrame
df.head(10)

Unnamed: 0,IdCliente,NombreCliente,Fecha,Empleado,Referencia,Descripcion,CodigoFamilia,Familia,Cantidad,Ventas,Localidad,Sede,Area
0,C1070956433,PINTO JOHN,2016-09-01,24.0,LL-2R-0038,PILOT STREET 110/80-17,101.0,LLANTA,1.0,129310.0,Puente aranda,Calle 13,35.0
1,C1032372566,CESAR CRUZ,2016-09-01,14.0,LL-TCA-0133,TOURING 175/70R13,101.0,LLANTA,2.0,181034.0,Suba,Suba,32.0
2,C2865810,PINEDA JAIME,2016-09-01,12.0,LL-TCA-0019,ENERGY XM2 185/65R14,101.0,LLANTA,1.0,193095.0,Usaquen,Santa ana,33.0
3,C11210285,VILLALBA RODRIGUEZ FABIO,2016-09-01,24.0,LL-TCA-0009,ENERGY XM2 165/65R13,101.0,LLANTA,2.0,262069.0,Puente aranda,Calle 13,35.0
4,C80755314,MOLINA RONALD,2016-09-01,14.0,LL-TCA-0132,NO UTILIZAR,101.0,LLANTA,4.0,362069.0,Suba,Suba,32.0
5,C21111935,URQUIJO MERCEDES,2016-09-01,14.0,LL-TCA-0022,ENERGY XM2 185/70R14,101.0,LLANTA,4.0,720690.0,Suba,Suba,32.0
6,C79295843,GOMEZ FRANCISCO,2016-09-01,12.0,LL-TCA-0100,PRIMACY 3 ZP 205/55R16,101.0,LLANTA,2.0,737931.0,Usaquen,Santa ana,33.0
7,C79827395,BALLEN CARLOS,2016-09-01,24.0,LL-PLB-0013,ST250 215/75R17.5 NO UTILIZAR REEM LL-PLB-0040,101.0,LLANTA,2.0,931034.0,Puente aranda,Calle 13,35.0
8,C860002175,SCHLUMBERGER SURENCO S A,2016-09-01,7.0,LL-TCC-0020,ALL TERRAIN T/A KO2 265/70R16,101.0,LLANTA,2.0,950015.0,Engativa,Ventas externas,22.0
9,C19091837,URIBE GABRIEL,2016-09-01,12.0,LL-TCA-0114,PRIMACY 3 205/60R16,101.0,LLANTA,4.0,1167069.0,Usaquen,Santa ana,33.0


In [11]:
# Muestra la informacion Basica del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 127266 entries, 0 to 127265
Data columns (total 13 columns):
 #   Column         Non-Null Count   Dtype         
---  ------         --------------   -----         
 0   IdCliente      127255 non-null  object        
 1   NombreCliente  127255 non-null  object        
 2   Fecha          127255 non-null  datetime64[ns]
 3   Empleado       127255 non-null  float64       
 4   Referencia     127255 non-null  object        
 5   Descripcion    127255 non-null  object        
 6   CodigoFamilia  127255 non-null  float64       
 7   Familia        127255 non-null  object        
 8   Cantidad       127255 non-null  float64       
 9   Ventas         127255 non-null  float64       
 10  Localidad      127255 non-null  object        
 11  Sede           127256 non-null  object        
 12  Area           127255 non-null  float64       
dtypes: datetime64[ns](1), float64(5), object(7)
memory usage: 12.6+ MB


In [12]:
# Muestra las estadisticas descriptivas de las columnas numericas
df.describe()

Unnamed: 0,Fecha,Empleado,CodigoFamilia,Cantidad,Ventas,Area
count,127255,127255.0,127255.0,127255.0,127255.0,127255.0
mean,2018-06-10 09:10:03.842678016,24.99226,105.22473,2.475872,584857.8,30.180747
min,2016-09-01 00:00:00,1.0,101.0,1.0,130.0,21.0
25%,2017-07-28 00:00:00,10.0,106.0,1.0,12605.0,31.0
50%,2018-06-07 00:00:00,14.0,106.0,1.0,29412.0,31.0
75%,2019-05-04 00:00:00,44.0,106.0,2.0,51724.0,33.0
max,2020-03-10 00:00:00,68.0,109.0,971.0,220224600.0,35.0
std,,18.593875,2.201746,11.206424,3251382.0,4.355697


In [15]:
# Seleccionar una columna por Nombre
ventas = df['Ventas']
ventas.head(5)

Unnamed: 0,Ventas
0,129310.0
1,181034.0
2,193095.0
3,262069.0
4,362069.0


In [17]:
# Seleccionar varias columnas
subset = df[['IdCliente', 'Ventas', 'Cantidad']]
subset.head(15)

Unnamed: 0,IdCliente,Ventas,Cantidad
0,C1070956433,129310.0,1.0
1,C1032372566,181034.0,2.0
2,C2865810,193095.0,1.0
3,C11210285,262069.0,2.0
4,C80755314,362069.0,4.0
5,C21111935,720690.0,4.0
6,C79295843,737931.0,2.0
7,C79827395,931034.0,2.0
8,C860002175,950015.0,2.0
9,C19091837,1167069.0,4.0


In [19]:
# Seleccionar filas con .iloc  ( por indice)

df.iloc[10:14]

Unnamed: 0,IdCliente,NombreCliente,Fecha,Empleado,Referencia,Descripcion,CodigoFamilia,Familia,Cantidad,Ventas,Localidad,Sede,Area
10,C800035276,TRANSPORTES MONTEJO SAS,2016-09-01,2.0,LL-PLC-0074,X MULTI Z 295/80R22.5,101.0,LLANTA,1.0,1324483.0,Engativa,Ventas externas,22.0
11,C900069712,MONTEJO HEAVY LIFT SA,2016-09-01,2.0,LL-PLC-0074,X MULTI Z 295/80R22.5,101.0,LLANTA,1.0,1324483.0,Engativa,Ventas externas,22.0
12,C900069712,MONTEJO HEAVY LIFT SA,2016-09-01,2.0,LL-PLC-0083,XTE2 215/75R17.5,101.0,LLANTA,2.0,1429173.0,Engativa,Ventas externas,22.0
13,C900069712,MONTEJO HEAVY LIFT SA,2016-09-01,2.0,LL-PLC-0084,XTE2 235/75R17.5,101.0,LLANTA,2.0,1668690.0,Engativa,Ventas externas,22.0


In [20]:
df.iloc[10:11]

Unnamed: 0,IdCliente,NombreCliente,Fecha,Empleado,Referencia,Descripcion,CodigoFamilia,Familia,Cantidad,Ventas,Localidad,Sede,Area
10,C800035276,TRANSPORTES MONTEJO SAS,2016-09-01,2.0,LL-PLC-0074,X MULTI Z 295/80R22.5,101.0,LLANTA,1.0,1324483.0,Engativa,Ventas externas,22.0


In [23]:
# Seleccionar Filas por etiquetas con .loc

df.loc[df['Sede'] == 'Calle 80']

Unnamed: 0,IdCliente,NombreCliente,Fecha,Empleado,Referencia,Descripcion,CodigoFamilia,Familia,Cantidad,Ventas,Localidad,Sede,Area
17,C890300225,COEXITO SAS,2016-09-01,10.0,SE-CS-2-0003,BALANCEO CAMION,106.0,SERVICIOS,1.0,2069.0,Engativa,Calle 80,31.0
33,C19193625,GEBARA NESTOR,2016-09-02,10.0,LL-TCA-0020,ENERGY XM2 185/65R15,101.0,LLANTA,1.0,216379.0,Engativa,Calle 80,31.0
35,C60346740,COLMENARES LUCY,2016-09-01,10.0,SE-CS-10-0001,CALIBRACION CON NITROGENO,106.0,SERVICIOS,1.0,5000.0,Engativa,Calle 80,31.0
40,C860524195,TRANSPORTES RINCON SA,2016-09-01,10.0,SE-CS-4-0001,REPARACION MENOR DE LLANTA (DESPINCHE ) TACO,106.0,SERVICIOS,1.0,10345.0,Engativa,Calle 80,31.0
41,C79203647,RAMIREZ CARLOS,2016-09-01,21.0,SE-GF-4-0001,REPARACION MENOR (DESPINCHE),106.0,SERVICIOS,1.0,12931.0,Engativa,Calle 80,31.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
127225,C79526865,CAMELO DUVAN,2020-03-10,44.0,SE-CS-12-0011,MANO OBRA CAMBIO LIQUIDO FRENO,106.0,SERVICIOS,1.0,37815.0,Engativa,Calle 80,31.0
127226,C79547553,JIMENEZ EDUARDO,2020-03-10,44.0,SE-CS-12-0011,MANO OBRA CAMBIO LIQUIDO FRENO,106.0,SERVICIOS,1.0,37815.0,Engativa,Calle 80,31.0
127229,C2032386257,OLATE GONZALEZ JONATHAN IRALDO,2020-03-10,44.0,SE-CS-1-0005,ALINEACION BUSETA O CAMION LIVIANO,106.0,SERVICIOS,1.0,42017.0,Engativa,Calle 80,31.0
127230,C51907365,BERNAL VACA NINFA,2020-03-10,44.0,SE-CS-1-0002,ALINEACION CAMIONETA,106.0,SERVICIOS,1.0,42017.0,Engativa,Calle 80,31.0


In [32]:
df.loc[(df['IdCliente'] == 'C2865810') & (df['Cantidad'] >=2)]

Unnamed: 0,IdCliente,NombreCliente,Fecha,Empleado,Referencia,Descripcion,CodigoFamilia,Familia,Cantidad,Ventas,Localidad,Sede,Area
32964,C2865810,PINEDA JAIME,2017-08-09,12.0,LL-TCA-0019,ENERGY XM2 185/65R14,101.0,LLANTA,2.0,381177.0,Usaquen,Santa ana,33.0


In [34]:
df.loc[(df['Sede'] == 'Suba') | (df['Familia'] == 'LLANTA')]

Unnamed: 0,IdCliente,NombreCliente,Fecha,Empleado,Referencia,Descripcion,CodigoFamilia,Familia,Cantidad,Ventas,Localidad,Sede,Area
0,C1070956433,PINTO JOHN,2016-09-01,24.0,LL-2R-0038,PILOT STREET 110/80-17,101.0,LLANTA,1.0,129310.0,Puente aranda,Calle 13,35.0
1,C1032372566,CESAR CRUZ,2016-09-01,14.0,LL-TCA-0133,TOURING 175/70R13,101.0,LLANTA,2.0,181034.0,Suba,Suba,32.0
2,C2865810,PINEDA JAIME,2016-09-01,12.0,LL-TCA-0019,ENERGY XM2 185/65R14,101.0,LLANTA,1.0,193095.0,Usaquen,Santa ana,33.0
3,C11210285,VILLALBA RODRIGUEZ FABIO,2016-09-01,24.0,LL-TCA-0009,ENERGY XM2 165/65R13,101.0,LLANTA,2.0,262069.0,Puente aranda,Calle 13,35.0
4,C80755314,MOLINA RONALD,2016-09-01,14.0,LL-TCA-0132,NO UTILIZAR,101.0,LLANTA,4.0,362069.0,Suba,Suba,32.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
127250,C891100881,MORENO VARGAS SOCIEDAD ANONIMA,2020-03-10,2.0,LL-PLC-0159,X WORKS HD XDY 12R22.5,101.0,LLANTA,4.0,5635766.0,Engativa,Ventas externas,22.0
127251,C900364615,ORGANIZACION SUMA SAS,2020-03-10,1.0,LL-PLB-0024,X MULTI Z 235/75R17.5,101.0,LLANTA,9.0,6894000.0,Engativa,Ventas externas,22.0
127252,C900365651,EMPRESA DE TRANSPORTE INTEGRADO DE BOGOTA ETIB...,2020-03-10,2.0,LL-PLB-0024,X MULTI Z 235/75R17.5,101.0,LLANTA,20.0,11955636.0,Engativa,Ventas externas,22.0
127253,C900365651,EMPRESA DE TRANSPORTE INTEGRADO DE BOGOTA ETIB...,2020-03-10,2.0,LL-PLB-0031,XZE2 215/75 R17.5,101.0,LLANTA,30.0,15908063.0,Engativa,Ventas externas,22.0
