# Funciones principales de pandas

Hay ciertas funciones que son muy importantes y que siempre estaremos usando a la hora de haccer análisis de datos

* **.head()**: mostrar las primeras líneas del dataset, como argumento colocamos el número de filas que queremos

* **.tail()**: mostrar las últimas líneas del dataset, como argumento colocamos el número de filas que queremos

* **.info()**: mostrar los diferentes datos que contiene el df
 * descripción del resultado: 
   * `RangeIndex: 550 entries, 0 to 549`: Número de resgistros (filas)
   * `Data columnas (total 7 columns)`: númedo de columnas
   * `# Column Non-Null Count Dtype`: Tipos de elemento de cada columna
 * Al comenzar un análisis exploratorio, se recomienda comenzar con esta función para tener más perspectiva de los datos que tenemos

* **.describe()**: obtener diferentes datos estadísticos de las columnas numéricas
  * (count, mean, st, min, max, cuartiles)

\
* **memory_usage()**: obtener el úso de la memoria de cada columna, parámetros:
  * `deep = True`

\
* **.value_counts()**: obtener cuánntos datos tenemos de algo específico
  * `df_books['Autor'].value_counts()` muestra cuántas entradas hay de cada autor

\ 
* **.drop_duplicates()**: eliminar registros duplicados, si tenemos dos valores iguales `[a1,a2]` de manera predeterminada se conserva el primero `a1` 
  * `keep = 'last'` si se quiere conservar el último valor,  y no el primero `a2`

\
* **.sort_values()**: ordenar registros según valores de la columna (orden ascendente), colocamos como parámetro:
  * la columna a la que quieran ordenar los valores
  * `ascending = False` parara ordenar las columnas en orden descendente

\
* **.count()**: cuenta los registros que NO son nulos 

* **.sum()**: cuenta el número de registros numéricos de la parte especificada del df
  * ignorando los elemenots no numéricos y los núlos



 

In [1]:
import pandas as pd

In [2]:
path = '../data/bestsellers_with_categories.csv'
names = ['Nombre', 'Autor', 'Aprobacion', 'Reviews', 'Precio', 'Año', 'Genero']

data = pd.read_csv(path, sep = ',', header= 0, names = names)
df_books = pd.DataFrame(data)
df_books.head()

Unnamed: 0,Nombre,Autor,Aprobacion,Reviews,Precio,Año,Genero
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


In [3]:
df_books.tail() # últimos 5 registros

df_books.info() # mostrar información del dataset

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Nombre      550 non-null    object 
 1   Autor       550 non-null    object 
 2   Aprobacion  550 non-null    float64
 3   Reviews     550 non-null    int64  
 4   Precio      550 non-null    int64  
 5   Año         550 non-null    int64  
 6   Genero      550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


In [4]:
#medidas estadísticas de columnas numéricas
df_books.describe()

Unnamed: 0,Aprobacion,Reviews,Precio,Año
count,550.0,550.0,550.0,550.0
mean,4.618364,11953.281818,13.1,2014.0
std,0.22698,11731.132017,10.842262,3.165156
min,3.3,37.0,0.0,2009.0
25%,4.5,4058.0,7.0,2011.0
50%,4.7,8580.0,11.0,2014.0
75%,4.8,17253.25,16.0,2017.0
max,4.9,87841.0,105.0,2019.0


In [5]:
# uso de memoria de cada una de las columnas
df_books.memory_usage(deep= True)

Index           128
Nombre        59737
Autor         39078
Aprobacion     4400
Reviews        4400
Precio         4400
Año            4400
Genero        36440
dtype: int64

In [6]:
# cantidad de veces que se repite un valor 
df_books['Autor'].value_counts().head(10)

Autor
Jeff Kinney                           12
Gary Chapman                          11
Rick Riordan                          11
Suzanne Collins                       11
American Psychological Association    10
Dr. Seuss                              9
Gallup                                 9
Rob Elliott                            8
Stephen R. Covey                       7
Stephenie Meyer                        7
Name: count, dtype: int64

In [7]:
# eliminar valores duplicados de la columna "nombre"
df_books[['Nombre']].drop_duplicates()


Unnamed: 0,Nombre
0,10-Day Green Smoothie Cleanse
1,11/22/63: A Novel
2,12 Rules for Life: An Antidote to Chaos
3,1984 (Signet Classics)
4,"5,000 Awesome Facts (About Everything!) (Natio..."
...,...
538,Winter of the World: Book Two of the Century T...
539,Women Food and God: An Unexpected Path to Almo...
540,Wonder
545,Wrecking Ball (Diary of a Wimpy Kid Book 14)


In [16]:
# ordenar las filas en orden ascendente filtrando por la columna "año"
#df_books['Año'].sort_values() # series de la columna elegida

# otra forma de hacerlo pero con el df
df_books.sort_values('Año', ascending= True)

Unnamed: 0,Nombre,Autor,Aprobacion,Reviews,Precio,Año,Genero
177,"I, Alex Cross",James Patterson,4.6,1320,7,2009,Fiction
131,Glenn Beck's Common Sense: The Case Against an...,Glenn Beck,4.6,1365,11,2009,Non Fiction
417,The Last Lecture,Randy Pausch,4.7,4028,9,2009,Non Fiction
241,New Moon (The Twilight Saga),Stephenie Meyer,4.6,5680,10,2009,Fiction
72,Diary of a Wimpy Kid: The Last Straw (Book 3),Jeff Kinney,4.8,3837,15,2009,Fiction
...,...,...,...,...,...,...,...
150,Guts,Raina Telgemeier,4.8,5476,7,2019,Non Fiction
466,The Subtle Art of Not Giving a F*ck: A Counter...,Mark Manson,4.6,26490,15,2019,Non Fiction
462,The Silent Patient,Alex Michaelides,4.5,27536,14,2019,Fiction
130,"Girl, Wash Your Face: Stop Believing the Lies ...",Rachel Hollis,4.6,22288,12,2019,Non Fiction


In [9]:
# contar el número de elementos NO núlos de una columna
df_books['Precio'].count()

550

In [10]:
# sumar los valores numéricos de una columa con este tipo de elementos
df_books['Precio'].sum()

7205