<a href="https://colab.research.google.com/github/CarlosGiles/DataAnalytics/blob/main/Dataframes_con_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dataframe con Pandas
Un DataFrame es una estructura de datos bidimensional en la biblioteca Pandas de Python, diseñada para manejar y analizar datos de manera eficiente.

## 1. Instalación de la biblioteca
Antes que nada. debemos instalar pandas en nuestro entorno de desarrollo:

In [None]:
!pip install pandas



## 2. Importando la biblioteca
Para utilizar las funciones de la biblioteca de **pandas** dentro de nuestro código, debemos importar al inicio de nuestro código:

In [None]:
import pandas as pd

## 3. Creación del DataFrme
Para crear un DataFrame una **lista de diccionarios**, cada diccionario depresenta una fila de datos:

In [None]:
# Crear una lista de diccionarios que representen filas de datos
leasing = [
    {"Equipo":"Dell L7420","NS":1,"Usuario":"A","Vigencia":"30-10-2023"},
    {"Equipo":"Dell L7420","NS":2,"Usuario":"B","Vigencia":"30-10-2023"},
    {"Equipo":"Lenovo L14","NS":3,"Usuario":"C","Vigencia":"25-10-2023"}
]

Una vez que tenemos la lista de diccionarios, definimos el dataframe **"df"** pasandole el método **"pd.DataFrame()"** (de la biblioteca pandas) y como argumento colocamos nuestra lista "**leasing**":

In [None]:
df=pd.DataFrame(leasing)
# Imprimimos el df
print(df)

       Equipo  NS Usuario    Vigencia
0  Dell L7420   1       A  30-10-2023
1  Dell L7420   2       B  30-10-2023
2  Lenovo L14   3       C  25-10-2023


La mayoría de las ocaciones conviene convertir el atributo de Vigencia, a un dato tipo FECHA, ya que en realidad está declarado como un String. Accedemos a la columna de interés por medio del nombre del dataframe y entre corchetes el nombre de la columna. Enseguida, indicamos que por medio de la biblioteca **pd** aplicamos el método **"to_datetime"** a la columna, del dataframe:

In [None]:
df["Vigencia"] = pd.to_datetime(df["Vigencia"])
print(df)

       Equipo  NS Usuario   Vigencia
0  Dell L7420   1       A 2023-10-30
1  Dell L7420   2       B 2023-10-30
2  Lenovo L14   3       C 2023-10-25


### 3.1 Cear DataFrame directamente de un diccionario
Podemos crear un dataframe utilizando un diccinario donde el **key** es el encabezado de la columna y el **value** el contenido o los valores de la columna, para ello, dicho **value** es una lista:

In [21]:
# Definiendo el diccionario para el DF
leasing_dict = {
    "Equipo":["Dell L7420","Dell L7420","Lenovo L14"],
    "NS":[1,2,3],
    "Usuario":["A","B","C"],
    "Vigencia":["30-10-2023","30-10-2023","25-10-2023"]
}
# Definiendo el DF
df_dict = pd.DataFrame(leasing_dict)
# Convertimos la columna Vigencia a tipo fecha
df_dict["Vigencia"] = pd.to_datetime(df["Vigencia"])
# Mostramos
print(df_dict)

       Equipo  NS Usuario   Vigencia
0  Dell L7420   1       A 2023-10-30
1  Dell L7420   2       B 2023-10-30
2  Lenovo L14   3       C 2023-10-25


## 4. Mostrando un DataFrame
Por medio de la función **"head""** de la biblioteca de Pandas, podemos mostrar un DataFrame, si no definimos un parámetro, se mostrará el DF completo:

In [None]:
df.head()

Unnamed: 0,Equipo,NS,Usuario,Vigencia
0,Dell L7420,1,A,2023-10-30
1,Dell L7420,2,B,2023-10-30
2,Lenovo L14,3,C,2023-10-25


## 5. Acceder a los datos de un DataFrame

In [None]:
# Acceder a una columna específica
equipos = df["Equipo"]
vigencias = df["Vigencia"]

# Acceder a una fila específica por su índice en el DF
fila_usuario_B = df.loc[1]

# Acceder a un valor específico por fila (index) y columna
ns_usuario_C = df.loc[2, "NS"]

print(equipos)
print(vigencias)
print(fila_usuario_B)
print(ns_usuario_C)

0    Dell L7420
1    Dell L7420
2    Lenovo L14
Name: Equipo, dtype: object
0   2023-10-30
1   2023-10-30
2   2023-10-25
Name: Vigencia, dtype: datetime64[ns]
Equipo               Dell L7420
NS                            2
Usuario                       B
Vigencia    2023-10-30 00:00:00
Name: 1, dtype: object
3


## 6. Operaciones en los datos de un DataFrame
Podemos hacer operaciones en un DF, por ejemplo, agregar o quitar columnas, filas, filtrar datos, entre otros.


### 6.1 Agregar columnas
Indicamos el DataFrame con el nombre de la nueva columna y asignamos los valores:

In [12]:
df["Host"]=["A1","B2","C3"]
df["Uso/meses"]=[6,10,18]
df.head()

Unnamed: 0,Equipo,NS,Usuario,Vigencia,Host,Uso/meses
0,Dell L7420,1,A,2023-10-30,A1,6
1,Dell L7420,2,B,2023-10-30,B2,10
2,Lenovo L14,3,C,2023-10-25,C3,18


### 6.2 Filtrando datos
Podemos filtrar datos por filas basandonos en una condición:

In [15]:
# Variable que selecciona las filas donde el valor de la columna Uso/meses es mayor a 15
contrato_por_cumplir = df[df["Uso/meses"]>15]
print(contrato_por_cumplir)

       Equipo  NS Usuario   Vigencia Host  Uso/meses
2  Lenovo L14   3       C 2023-10-25   C3         18


### 6.3 Calculos estadisticos
Calculamos el promedio de uso de los equipos:

In [16]:
promedio_uso = df["Uso/meses"].mean()
print(promedio_uso)

11.333333333333334


### Filtrar por fechas en datetime
Podemos filtrar filas para obtener las que están después de una fecha específica

In [22]:
# Creamos un filtro indicando que el parámetro será la columna Vigencia donde el dato sea mayor a una fecha especificada
fechas_cercanas = df_dict["Vigencia"] > "2023-10-25"
# En una variable asignamos el dataframe y como parámetro el filtro
equipos_por_vencer = df_dict[fechas_cercanas]

print(equipos_por_vencer)

       Equipo  NS Usuario   Vigencia
0  Dell L7420   1       A 2023-10-30
1  Dell L7420   2       B 2023-10-30
