# Introducción a Pandas, Matplotlib y Streamlit

### ¿Qué aprenderemos hoy?

* Leer datos desde un archivo CSV 📄
* Explorar y limpiar datos con Pandas 🐼
* Crear gráficos simples con Matplotlib 📊
* Mostrar un dashboard interactivo usando Streamlit 🚀

### Requerimientos: 
1. Datasets
2. Librerias: Pandas, Matplotlib y Streamlit(Este ultimo es para mostrar una interfaz con pocas lineas de código).

Para realizar esto, debemos instalar las siguientes dependencias

In [None]:
pip install pandas matplotlib streamlit

## Extración de datos con Pandas
Ahora que ya tenemos nuestro datasets, vamos a utilizar pandas para leer nuestro csv

**Importamos pandas y le asignamos el alias pd (por convencion, siempre se utiliza pd al importar)**

* `import pandas as pd`

In [None]:
import pandas as pd

Ahora utilizaremos el metodo `pd.read_pdf(nombre_csv)` para leer el datasets y lo guardaremos en una variable llamada df(DataFrame)

In [24]:
df = pd.read_csv("datasets_ventas.csv")
df.head()

Unnamed: 0,fecha,producto,categoria,cantidad,precio_unitario
0,2024-01-01,Mouse Logitech,Electrónica,5.0,2500.0
1,2024-01-02,Shampoo Dove,Higiene,3.0,900.0
2,2024-01-03,Cargador USB-C,Electrónica,,1800.0
3,2024-01-04,Jabón Lux,Higiene,6.0,
4,2024-01-05,Notebook HP,Electrónica,1.0,150000.0


### Exploracion de datos:
Una vez creado el df, podemos utilizar metodos de pandas que nos ayudaran a observar mejor los datos.
En este caso, utilizaremos las funciones: 

* `df.shape()` <- Obtener cuantas columnas y filas tiene el df.
* `df.colums` <- Obtener el nombre de las columnas.
* `df.dtypes` <- Obtener los tipos dedatos de cada columna.
* `df.info()` <- Obtener una vista rapida de los tipos de datos del df.
* `df.isnull().sum()` <- Obtener la cantidad de datos nulos en nuestro df.

In [None]:
#utilizamos el metodo shape para obtener las dimensiones del dataframe
print(df.shape)

#utilizamos el metodo columns para obtener los nombres de las columnas
print(df.columns)

#utilizamos el metodo dtypes para obtener los tipos de datos de cada columna
print(df.dtypes)

(38, 5)
Index(['fecha', 'producto', 'categoria', 'cantidad', 'precio_unitario'], dtype='object')
fecha               object
producto            object
categoria           object
cantidad           float64
precio_unitario    float64
dtype: object


In [10]:
#utilizamos el metodo info para obtener un resumen del dataframe
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38 entries, 0 to 37
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   fecha            36 non-null     object 
 1   producto         37 non-null     object 
 2   categoria        37 non-null     object 
 3   cantidad         37 non-null     float64
 4   precio_unitario  37 non-null     float64
dtypes: float64(2), object(3)
memory usage: 1.6+ KB
None


Ahora utilizaremos el metodo `isnull()` para ver si hay valores nulos en el dataframe y esto lo potenciamos con el metodo `sum()` para ver la cantidad de valores nulos por columna

In [12]:

print(df.isnull().sum())

fecha              2
producto           1
categoria          1
cantidad           1
precio_unitario    1
dtype: int64


### Limpieza de datos.
Con el metodo anterior vimos que tenemos datos faltantes en nuestro df, esto podria afectar negativamente a nuestras estadisticas, por lo tanto, debemos limpiarlos. Para ello, vamos a utilizar los siguientes metodos: 

* `df.fillna(0, inplace=True)`: Este es un método que se aplica al DataFrame df. Su propósito es llenar los valores que faltan.

1. 0: Este es el valor que se utilizará para reemplazar todos los valores faltantes (NaN) encontrados en el DataFrame. En este caso, todos los NaN serán sustituidos por el número cero.

2. inplace=True: Este es un argumento booleano (True o False).

Si se establece en True, la modificación se realiza directamente sobre el DataFrame original df. Esto significa que el DataFrame df se actualizará con los valores faltantes reemplazados, y la función fillna() no devolverá un nuevo DataFrame.
Si se omitiera este argumento o se estableciera en False (que es el valor predeterminado), fillna() devolvería un nuevo DataFrame con los valores faltantes reemplazados, dejando el DataFrame original sin modificar. En este caso, para guardar los cambios, tendrías que asignar el resultado a una nueva variable o sobrescribir la variable original (por ejemplo, df = df.fillna(0)).

In [18]:
df.fillna(0, inplace=True)
df.isnull()


Unnamed: 0,fecha,producto,categoria,cantidad,precio_unitario
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,False
6,False,False,False,False,False
7,False,False,False,False,False
8,False,False,False,False,False
9,False,False,False,False,False


Reemplazamos los datos NaN por 0, pero esto no es lo ideal, ya que si tenemos un NaN en una columna de tipo string, no podemos reemplazarlo por 0. Por lo tanto, vamos a eliminar las filas que tengan datos nulos. Para ello utilizamos el siguiente metodo:
* `df.dropna(inplace=True)`: Este método se utiliza para eliminar filas o columnas que contienen valores nulos (NaN) en un DataFrame de pandas.

In [None]:
df.dropna(inplace=True)
df.isnull().sum()

Con el argumento `inplace=True`, se indica que la operación debe realizarse directamente sobre el DataFrame original, modificándolo en su lugar. Esto significa que las filas o columnas con valores nulos serán eliminadas del DataFrame df y no se creará una copia del DataFrame sin los valores nulos.

Tambien, podemos eliminar columnas que por ejemplo, no tengan datos o que no sean relevantes para nuestro analisis. Para ello utilizamos el siguiente metodo:
* `df.dropna(subset=['columna1', 'columna2'], inplace=True)`: Este método se utiliza para eliminar columnas específicas de un DataFrame de pandas que no tengan datos relevantes o sean NaN.

In [None]:
df.dropna(subset=["fecha", "producto", "categoria","cantidad", "precio_unitario"], inplace=True)
df.head()

Unnamed: 0,fecha,producto,categoria,cantidad,precio_unitario
0,2024-01-01,Mouse Logitech,Electrónica,5.0,2500.0
1,2024-01-02,Shampoo Dove,Higiene,3.0,900.0
4,2024-01-05,Notebook HP,Electrónica,1.0,150000.0
5,2024-01-06,Monitor LG 24'',Electrónica,2.0,75000.0
6,2024-01-07,Crema Nivea,Higiene,4.0,1200.0


## Estadisticas descriptivas

Nuestros datos ya están limpios, ahora podemos proceder a realizar un analisis exploratorio de datos. Para ello, utilizaremos el siguiente metodo:
* `df.describe()`: Este método se utiliza para generar estadísticas descriptivas de un DataFrame de pandas. Proporciona un resumen estadístico de las columnas numéricas del DataFrame, incluyendo medidas como la media, la desviación estándar, los cuartiles y los valores mínimo y máximo.



### ¿Qué hace df.describe()?

Al aplicar df.describe() a un DataFrame, obtendrás una tabla resumen que incluye las siguientes estadísticas para cada columna numérica:

* count: El número de valores no nulos.
* mean: La media (promedio) de los valores.
* std: La desviación estándar de los valores.
* min: El valor mínimo.
* 25% (o quantile 0.25): El primer cuartil.
* 50% (o quantile 0.50): La mediana (segundo cuartil).
* 75% (o quantile 0.75): El tercer cuartil.
* max: El valor máximo.

In [29]:
#Obtenemos estatidsticas de nuestro df
print(df.describe())

       cantidad  precio_unitario
count  32.00000        32.000000
mean    2.50000     32177.187500
std     1.45912     52307.480575
min     1.00000       520.000000
25%     1.00000      1450.000000
50%     2.00000      4350.000000
75%     3.25000     25250.000000
max     6.00000    152000.000000


Crearemos una columna nueva para obtener el total de las ventas y modificaremos la columna fecha para convertirla a tipo `datetime`

In [None]:
#Creamos la nueva columna calculando la cantidad  * precio unitario
df["total"] = df["cantidad"] * df["precio_unitario"]
df.head()

#creamos un nuevo csv con nuestros df limpio
df.to_csv("datasets_ventas_limpio.csv", index=False)

## Visualización de datos con Matplotlib
Ahora que tenemos nuestros datos limpios y hemos realizado un análisis exploratorio, podemos proceder a visualizar nuestros datos. Para ello, utilizaremos la libreria Matplotlib.

In [None]:
#importamos matplolib, en especifico pyplot y le asignamos el alias plt
import matplotlib.pyplot as plt

Vamos a crear una visualizacion, para ello, necesitamos utilizar los siguientes metodos:
* `plt.plot(x, y)`: Este método se utiliza para crear un gráfico de líneas en Matplotlib. Acepta dos listas o arrays como argumentos: x e y, que representan las coordenadas de los puntos a graficar.
* `plt.title('titulo')`: Este método se utiliza para establecer el título del gráfico.
* `plt.xlabel('nombre_x')`: Este método se utiliza para establecer la etiqueta del eje x.
* `plt.ylabel('nombre_y')`: Este método se utiliza para establecer la etiqueta del eje y.
* `plt.show()`: Este método se utiliza para mostrar el gráfico en la pantalla. Es el último paso para visualizar el gráfico que has creado.
* `plt.savefig('nombre_grafico.png')`: Este método se utiliza para guardar el gráfico en un archivo de imagen. Puedes especificar el nombre del archivo y la extensión (por ejemplo, .png, .jpg, .pdf, etc.). Si no se especifica la ruta completa, el archivo se guardará en el directorio de trabajo actual.

In [None]:
#Agrupamos los datos con df.grupby
ventas_por_dia = df.groupby('fecha')['total'].sum()
ventas_por_cantidad = df.groupby('fecha')['cantidad'].sum()

#tamaño de la figura
plt.figure(figsize=(10,5))
#titulo
plt.title("Ventas totales por día")
#pasamos los valores x, y
plt.plot(ventas_por_dia.index, ventas_por_dia.values)
plt.xlabel("Cantidad de productos")
plt.ylabel("Total vendido por dia")
plt.xticks(rotation=20)
plt.grid()
plt.show()

In [None]:
ventas_por_cantidad = df.groupby('fecha')['cantidad'].sum()

#tamaño de la figura
plt.figure(figsize=(10,5))
#titulo
plt.title("Ventas totales por día")
#pasamos los valores x, y
plt.plot(ventas_por_cantidad.index, ventas_por_cantidad.values)
plt.xlabel("Cantidad de productos")
plt.ylabel("Total vendido por dia")
plt.xticks(rotation=20)
plt.grid()
plt.show()