In [1]:
import pandas as pd 
import numpy as np

# Repaso o conociendo las funciones mas importantes dentro de la libreria **pandas**
Las principales características de esta librería son:

    Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.
    Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.
    Permite acceder a los datos mediante índices o nombres para filas y columnas.
    Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
    Permite trabajar con series temporales.
    Realiza todas estas operaciones de manera muy eficiente.


In [5]:
# Creacion de una Serie dentro de pandas 
materiasIng = {
    1: "Logica de Programacion",
    2: "Enrutamiento",
    3: "Introduccion a Calculo",
    4: "Matematica discreta",
    6: "Sistemas Operativos"
}


In [6]:

materiasIng = pd.Series(materiasIng)


### Atributos de una serie

Existen varias propiedades o métodos para ver las características de una serie.

    s.size : Devuelve el número de elementos de la serie s.

    s.index : Devuelve una lista con los nombres de las filas del DataFrame s.

    s.dtype : Devuelve el tipo de datos de los elementos de la serie s.


In [9]:
# Accediendo a datos dentro de un array de pandas

print(f"Accediendo a la primera materia de Ingenieria: {materiasIng[1]}\nAccediendo a la ultima materia: {materiasIng[6]}")

Accediendo a la primera materia de Ingenieria: Logica de Programacion
Accediendo a la ultima materia: Sistemas Operativos


Resumen descriptivo de una serie

Las siguientes funciones permiten resumir varios aspectos de una serie:

    s.count() : Devuelve el número de elementos que no son nulos ni NaN en la serie s.
    s.sum() : Devuelve la suma de los datos de la serie s cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena str.
    s.cumsum() : Devuelve una serie con la suma acumulada de los datos de la serie s cuando los datos son de un tipo numérico.
    s.value_counts() : Devuelve una serie con la frecuencia (número de repeticiones) de cada valor de la serie s.
    s.min() : Devuelve el menor de los datos de la serie s.
    s.max() : Devuelve el mayor de los datos de la serie s.
    s.mean() : Devuelve la media de los datos de la serie s cuando los datos son de un tipo numérico.
    s.var() : Devuelve la varianza de los datos de la serie s cuando los datos son de un tipo numérico.
    s.std() : Devuelve la desviación típica de los datos de la serie s cuando los datos son de un tipo numérico.
    s.describe(): Devuelve una serie con un resumen descriptivo que incluye el número de datos, su suma, el mínimo, el máximo, la media, la desviación típica y los cuartiles.


In [16]:
multMaterias = np.copy(materiasIng)
pd.Series([i for i in np.arange(1, 20)])

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
12    13
13    14
14    15
15    16
16    17
17    18
18    19
dtype: int32

In [25]:
# Aplicando una funcion a una lista de datos 
def f(x):
    return 2 * (x) + 3 * (x) **2
    
funcion1 = pd.DataFrame({
    "X": [-2 , -1, 0, 1, -2]

})

funcion1.apply(f)

Unnamed: 0,X
0,8
1,1
2,0
3,5
4,8


In [26]:

def f(x):
    return 2 * x + 3 * x ** 2

funcion1 = pd.DataFrame({
    "X": [-2, -1, 0, 1, 2]
})

funcion1["Y"] = funcion1["X"].apply(f)

print(funcion1)

   X   Y
0 -2   8
1 -1   1
2  0   0
3  1   5
4  2  16


In [29]:
# Usando la funcion "apply" para operar una lista de datos 
def multiplicar(datos):
    return datos * 10

data = pd.Series([1,2,3,4,5])
print(f"Los numeros {data}\n\nMultiplicador x10: \n{data.apply(multiplicar)}")

Los numeros 0    1
1    2
2    3
3    4
4    5
dtype: int64

Multiplicador x10: 
0    10
1    20
2    30
3    40
4    50
dtype: int64


# Creacion de un data Frame 

Propiedades de un **DataFrame** tambien de una **matriz**

<br> 

![propiedades](./photo_4974305821307546500_x.jpg)

In [32]:
# Agregar o eliminar datos con pandas 
#! Como agregaremos o eliminaremos datos de panfas 

df_books = pd.read_csv("./bestsellers with categories.csv")
df_books.head(3)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction


In [33]:
# Eliminando datos desde pandas 
#! Eliminando las columnas desde pandas
#! Aqui borraremos la columna unicamente de la salida pero no del archivo
df_books.drop("Name", axis=1)

Unnamed: 0,Author,User Rating,Reviews,Price,Year,Genre
0,JJ Smith,4.7,17350,8,2016,Non Fiction
1,Stephen King,4.6,2052,22,2011,Fiction
2,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,George Orwell,4.7,21424,6,2017,Fiction
4,National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...
545,Jeff Kinney,4.9,9413,8,2019,Fiction
546,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,Jen Sincero,4.7,14331,8,2018,Non Fiction


In [43]:
#
#! Borrando data directamente del archivo 
df_books.drop("Year", axis=1, inplace=True) #! Axis 1 => Columna
                                            #! Axis 0 => filas 



KeyError: "['Year'] not found in axis"

In [41]:
df_books.head(2)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,Fiction
