## Pandas

Pandas es una biblioteca de Python especializada en el manejo y análisis de datos. Su nombre viene de “panel data”, un término usado en estadística y econometría. Es muy utilizada en ciencia de datos, análisis estadístico, finanzas, aprendizaje automático y otras áreas que requieren trabajar con grandes cantidades de información estructurada.

Permite:

* Leer y escribir datos desde múltiples fuentes (CSV, Excel, SQL, JSON, etc.).

* Limpiar y transformar datos fácilmente.

* Filtrar, agrupar, ordenar y resumir información.

* Realizar operaciones estadísticas, unir tablas, eliminar duplicados, manejar valores nulos y mucho más.



Vamos a cargar las librerias de pandas y de numpy para poder trabajar con sus funciones

In [None]:
import pandas as pd
import numpy as np

Para poder trabajar con tablas en Pandas tenemos que transformar nuestros datos en Data Frame (Marco de Datos), que básicamente son las tablas.

Para crear un data frame en pandas lo podemos hacer de muchas formas:

In [None]:
# Diccionarios de listas o arrays
data = {"col":[1,2], "col2":[3,4]}
df = pd.DataFrame(data)
print(df)


   col  col2
0    1     3
1    2     4


In [None]:
#Lista de diccionarios
data = [{"col1":1, "col2":3},{"col1":2,"col2":4}]
df =pd.DataFrame(data)
print(df)


   col1  col2
0     1     3
1     2     4


In [None]:
#Listas de listas o tuplas
data = [[1,2],[3,4]]
df = pd.DataFrame(data, columns=["col1","col2"])
print(df)


   col1  col2
0     1     2
1     3     4


Vamos a crear un diccionario en el que los valores son listas y luego lo transformamos en un data frame con pandas

In [None]:
# crear un diccionario
datos = {
    'Nombres': ['Luis', 'Andrea', 'Carlos', 'Fernanda'],
    'Calificaciones': [85, 92, 78, 95],
    'Deportes': ['Voleibol', 'Atletismo', 'Tenis', 'Natación'],
    'Materias': ['Álgebra', 'Física', 'Programación', 'Historia']
}

In [None]:
# Transformarlo a DF
df = pd.DataFrame(datos)

print(df)


    Nombres  Calificaciones   Deportes      Materias
0      Luis              85   Voleibol       Álgebra
1    Andrea              92  Atletismo        Física
2    Carlos              78      Tenis  Programación
3  Fernanda              95   Natación      Historia


Datos no validos, datos faltantes en los data frame

In [None]:
datos2 = {
    'Nombres': ['Diego', 'Luisa', 'Jorge', 'N/A'],
    'Calificaciónes': ['95', '88', np.nan, '76'],
    'Deportes': ['Escalada', 'Ciclismo', 'N/A', 'Ping pong'],
    'Materias': ['Biología', 'Literatura', 'N/A', 'Arte']
}

df2 = pd.DataFrame(datos2)

print(df2)

  Nombres Calificaciónes   Deportes    Materias
0   Diego             95   Escalada    Biología
1   Luisa             88   Ciclismo  Literatura
2   Jorge            NaN        N/A         N/A
3     N/A             76  Ping pong        Arte


Podemos Encontrar la informacion y la descripcion de nuestos datos con los metodos info y describe, es muy util cuando tenemos datos muy grandes

In [None]:
print(df2.info())
print("\n")
print(df2.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Nombres         4 non-null      object
 1   Calificaciónes  3 non-null      object
 2   Deportes        4 non-null      object
 3   Materias        4 non-null      object
dtypes: object(4)
memory usage: 260.0+ bytes
None


       Nombres Calificaciónes  Deportes  Materias
count        4              3         4         4
unique       4              3         4         4
top      Diego             95  Escalada  Biología
freq         1              1         1         1


Remmplazar valores

In [None]:
nuevo = pd.DataFrame(df2)
nuevo = nuevo.replace(np.nan, "0")
print(nuevo)

  Nombres Calificaciónes   Deportes    Materias
0   Diego             95   Escalada    Biología
1   Luisa             88   Ciclismo  Literatura
2   Jorge              0        N/A         N/A
3     N/A             76  Ping pong        Arte


In [None]:
#Los describimos
print(nuevo.describe())




       Nombres Calificaciónes  Deportes  Materias
count        4              4         4         4
unique       4              4         4         4
top      Diego             95  Escalada  Biología
freq         1              1         1         1


In [None]:
print(nuevo.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Nombres         4 non-null      object
 1   Calificaciónes  4 non-null      object
 2   Deportes        4 non-null      object
 3   Materias        4 non-null      object
dtypes: object(4)
memory usage: 260.0+ bytes
None


Eliminar los registros con valores faltantes

In [None]:
nuevo2 = pd.DataFrame(df2)
nuevo2.dropna(how="any", inplace=True)
print(nuevo2)
print("\n")
print(df2)

  Nombres Calificaciónes   Deportes    Materias
0   Diego             95   Escalada    Biología
1   Luisa             88   Ciclismo  Literatura
3     N/A             76  Ping pong        Arte


  Nombres Calificaciónes   Deportes    Materias
0   Diego             95   Escalada    Biología
1   Luisa             88   Ciclismo  Literatura
2   Jorge            NaN        N/A         N/A
3     N/A             76  Ping pong        Arte


Eliminar regristro buscando por columna

In [None]:
columna = df2[df2["Nombres"] != "N/A"]
print(columna)
print("\n")
print(df2)


  Nombres Calificaciónes  Deportes    Materias
0   Diego             95  Escalada    Biología
1   Luisa             88  Ciclismo  Literatura
2   Jorge            NaN       N/A         N/A


  Nombres Calificaciónes   Deportes    Materias
0   Diego             95   Escalada    Biología
1   Luisa             88   Ciclismo  Literatura
2   Jorge            NaN        N/A         N/A
3     N/A             76  Ping pong        Arte


Cambiar los valores NAN con el valor 0 (fillna)

In [None]:
nuevo3 = pd.DataFrame(df2)
nuevo3.fillna(0, inplace=True)
print(nuevo3)

  Nombres Calificaciónes   Deportes    Materias
0   Diego             95   Escalada    Biología
1   Luisa             88   Ciclismo  Literatura
2   Jorge              0        N/A         N/A
3     N/A             76  Ping pong        Arte


In [None]:
print(nuevo3.describe())

       Nombres Calificaciónes  Deportes  Materias
count        4              4         4         4
unique       4              4         4         4
top      Diego             95  Escalada  Biología
freq         1              1         1         1


Transformamos en numeros enteros la columna calificaciones, una ves que los datos son numeros, cuando llamamos el metodo describe nos hace las estadisticas básicas

In [None]:
nuevo2['Calificaciónes'] = nuevo2.Calificaciónes.astype(int)
print(nuevo2.describe())

       Calificaciónes
count        3.000000
mean        86.333333
std          9.609024
min         76.000000
25%         82.000000
50%         88.000000
75%         91.500000
max         95.000000


## Ejercicio

Crea un DataFrame en Pandas que contenga la información de calificaciones de cuatro estudiantes en tres materias: Matemáticas, Historia e Inglés. Asegúrate de que algunas calificaciones estén ausentes (NaN).

Luego, realiza las siguientes tareas:

* Crea un nuevo DataFrame eliminando todas las filas que contengan valores faltantes.

* Crea otro DataFrame en el que todos los valores faltantes sean reemplazados por 0.

* Muestra la descripción estadística (.describe()) de ambos DataFrames para comparar los cambios.

In [None]:
califiaciones = {

      'Nombres': ['Diego Ruiz', 'Luisa Ortiz', 'Jorge Macias', 'Adolfo Lopez'],
       "Matematicas" : [5,9,8,7],
      "Historia" : [7,6,np.nan,7],
      "Inglés" : [8,np.nan,8,7]

}

df8 = pd.DataFrame(califiaciones)
print(df8)
print("\n")
nuevo8 = pd.DataFrame(df8)
nuevo8.dropna(how="any", inplace=True)
print(nuevo8)
print("\n")
nuevo9 = pd.DataFrame(df8)
nuevo9.fillna(0, inplace=True)
print(nuevo9)
print("\n")
print(df8.describe())
print(nuevo8.describe())
print(nuevo9.describe())

        Nombres  Matematicas  Historia  Inglés
0    Diego Ruiz            5       7.0     8.0
1   Luisa Ortiz            9       6.0     NaN
2  Jorge Macias            8       NaN     8.0
3  Adolfo Lopez            7       7.0     7.0


        Nombres  Matematicas  Historia  Inglés
0    Diego Ruiz            5       7.0     8.0
3  Adolfo Lopez            7       7.0     7.0


        Nombres  Matematicas  Historia  Inglés
0    Diego Ruiz            5       7.0     8.0
1   Luisa Ortiz            9       6.0     0.0
2  Jorge Macias            8       0.0     8.0
3  Adolfo Lopez            7       7.0     7.0


       Matematicas  Historia   Inglés
count     4.000000  4.000000  4.00000
mean      7.250000  5.000000  5.75000
std       1.707825  3.366502  3.86221
min       5.000000  0.000000  0.00000
25%       6.500000  4.500000  5.25000
50%       7.500000  6.500000  7.50000
75%       8.250000  7.000000  8.00000
max       9.000000  7.000000  8.00000
       Matematicas  Historia    Inglés
co

## Ejercicio 2

Crea un DataFrame que represente un inventario de una tienda. Debe contener al menos cuatro productos y columnas para el nombre del producto, precio y número de unidades en stock. Incluye algunos valores faltantes (NaN) en las columnas de precio y stock.

Luego:

* Crea un DataFrame eliminando todas las filas con valores faltantes.

* Crea otro DataFrame en el que:

* Los valores faltantes en la columna Precio se reemplacen con el promedio de los precios existentes.

* Los valores faltantes en la columna Stock se reemplacen con 0.

* Muestra la descripción estadística de ambos DataFrames para analizar los cambios.

In [None]:
inventario = {

      'Nombre Producto': ['Pasta Colgate', 'Desodorante Axe', 'Gel Moco de Gorila', 'Crema Nivea'],
       "Precio" : [28,np.nan,18,41],
      "Unidades" : [8,48,4,np.nan]

}

df10 = pd.DataFrame(inventario)
print(df10)
print("\n")
nuevo11 = pd.DataFrame(df10)
nuevo11.dropna(how="any", inplace=True)
print(nuevo11)
print("\n")
nuevo12 = pd.DataFrame(df10)
nuevo12["Precio"].fillna(nuevo12["Precio"].mean(), inplace=True)
nuevo12["Unidades"].fillna(0, inplace=True)
print(nuevo12)
print("\n")

print(df10.describe())
print("\n")
print(nuevo12.describe())
print("\n")
#print(nuevo12.describe().loc["mean", "Precio"]) acceder al valor mean en la descripcion



      Nombre Producto  Precio  Unidades
0       Pasta Colgate    28.0       8.0
1     Desodorante Axe     NaN      48.0
2  Gel Moco de Gorila    18.0       4.0
3         Crema Nivea    41.0       NaN


      Nombre Producto  Precio  Unidades
0       Pasta Colgate    28.0       8.0
2  Gel Moco de Gorila    18.0       4.0


      Nombre Producto  Precio  Unidades
0       Pasta Colgate    28.0       8.0
1     Desodorante Axe    29.0      48.0
2  Gel Moco de Gorila    18.0       4.0
3         Crema Nivea    41.0       0.0


          Precio   Unidades
count   4.000000   4.000000
mean   29.000000  15.000000
std     9.416298  22.241103
min    18.000000   0.000000
25%    25.500000   3.000000
50%    28.500000   6.000000
75%    32.000000  18.000000
max    41.000000  48.000000


          Precio   Unidades
count   4.000000   4.000000
mean   29.000000  15.000000
std     9.416298  22.241103
min    18.000000   0.000000
25%    25.500000   3.000000
50%    28.500000   6.000000
75%    32.000000  18.000

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  nuevo12["Precio"].fillna(nuevo12["Precio"].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  nuevo12["Unidades"].fillna(0, inplace=True)
