In [2]:
#load libraries
import numpy as np
import pandas as pd
import seaborn as sns

# Análisis de Datos con Pandas
### Virginia Domínguex García - Estación Biológica de Doñana - CSIC

Pandas es la herramienta de Python para trabajr con archivos csv, xlsx y demás bases de datos "cuadradas". Funciona de una forma similar a las dataframes de R, pero con algunas diferencias. 
Aquí podéis encontrar un chuletero con todas las cosas a recordar:
https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/cheatsheet/Pandas_Cheat_Sheet.pdf

**Tidy-Data:** En general Pandas mantiene la filosofía de tidy data, cada variables aparece en una **columna** y cada observación en una **fila**. Pandas automáticamente hace las operaciones vectoriales automáticamente, manteniendo este orden. Cada columna del DataFrame (pd.DataFrame) es una Serie (pd.Series), similar a un array con nombre en R. 

Así, las DataFrames son un conjunto de datos indexados, donde el índice de la fila me indica (en principio) una observación, y la columna me indica (en principio) la variable, aunque como veremos después, son bastante más versátiles gracias a los índices múltiles.

## 1 - Creando un Dataframe

Podemos crear un DataFrame desde 0 metiendo los datos y los índices (recuerda, el horizontal se llama **index** y el vertical **columns**):

In [3]:
df = pd.DataFrame(
{"Sample" : ["R100" , "R201", "R203", "R340", "R453"],
"t0" : [0.2, 0.1, 0.3, 0.25, 0.13],
"t1" : [1.3, 1.8, 0.8, 1.5, 0.6],
"t2" : [2.8, 3.1, 1.9, 2.3, 1.8],
"t3" : [3.2, 3.7, 2.3, 3.5, 2.5],
"t4" : [1.2, 1.8, 3.9, 1.3, 3.7],
"t5" : [0.7, 0.4, 3.4, 0.3, 3.6]}
)
print(df)

  Sample    t0   t1   t2   t3   t4   t5
0   R100  0.20  1.3  2.8  3.2  1.2  0.7
1   R201  0.10  1.8  3.1  3.7  1.8  0.4
2   R203  0.30  0.8  1.9  2.3  3.9  3.4
3   R340  0.25  1.5  2.3  3.5  1.3  0.3
4   R453  0.13  0.6  1.8  2.5  3.7  3.6


In [4]:
print(df.columns)
print(df.index)

Index(['Sample', 't0', 't1', 't2', 't3', 't4', 't5'], dtype='object')
RangeIndex(start=0, stop=5, step=1)


In [5]:
#Si nos quedamos con una columna tendremos una SERIE
type(df["t0"])

pandas.core.series.Series

Aunque lo más interesante es importar una base de datos existente. Podemos usar archivos tanto csv (texto plano), como importar hojas de excel xlsx.

In [6]:
filename="./Data/pokemon.csv"
pokemon_df=pd.read_csv(filename) 
pokemon_df.head(10)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,Fire,Flying,78,104,78,159,115,100,1,False
9,7,Squirtle,Water,,44,48,65,50,64,43,1,False


Por defecto pandas usa la primera fila como el nombre de las columnas, pero introduce una nueva columna a la izquierda como índice. Si queremos que use alguna de las columnas como índice se lo podemos explicitar, y también podemos explicitar cuál fila queremos que use para dar nombre a las columnas:

In [7]:
pokemon_df=pd.read_csv(filename, index_col=0,header=0) 
pokemon_df.head(10)

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False
6,CharizardMega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False
6,CharizardMega Charizard Y,Fire,Flying,78,104,78,159,115,100,1,False
7,Squirtle,Water,,44,48,65,50,64,43,1,False


También podemos leer archivos excel:

In [8]:
filename="./Data/SampleData.xlsx"
Sales_df=pd.read_excel(filename, sheet_name = "SalesOrders")
Sales_df.head(10)

Unnamed: 0,OrderDate,Region,Rep,Item,Units,Unit Cost,Total
0,2021-01-06,East,Jones,Pencil,95,1.99,189.05
1,2021-01-23,Central,Kivell,Binder,50,19.99,999.5
2,2021-02-09,Central,Jardine,Pencil,36,4.99,179.64
3,2021-02-26,Central,Gill,Pen,27,19.99,539.73
4,2021-03-15,West,Sorvino,Pencil,56,2.99,167.44
5,2021-04-01,East,Jones,Binder,60,4.99,299.4
6,2021-04-18,Central,Andrews,Pencil,75,1.99,149.25
7,2021-05-05,Central,Jardine,Pencil,90,4.99,449.1
8,2021-05-22,West,Thompson,Pencil,32,1.99,63.68
9,2021-06-08,East,Jones,Binder,60,8.99,539.4


Si queréis saber más: https://pythonbasics.org/read-excel/

In [9]:
filename="./Data/Pandas_ World Alcohol Consumption Dataset.csv"
alcohol_df=pd.read_csv(filename) #siempre revisar lo que vamos a leer

ParserError: Error tokenizing data. C error: Expected 1 fields in line 9, saw 5


In [11]:
filename="./Data/World Alcohol Consumption Dataset.csv"
alcohol_df=pd.read_csv(filename)

## 2 - Data Overview 

Lo primero que nos va a interesar es tner una visión global de los datos, asegurarnos de que hemos leído el fichero correcto etc. 

Para ver la parte inicial o final del dataframe como hemos hecho antes, usaremos los métodos **.head()** and **.tail()**:

In [16]:
pokemon_df.head(5)
#pokemon_df.tail(5)

Unnamed: 0,Year,WHO region,Country,Beverage Types,Display Value
0,1986,Western Pacific,Viet Nam,Wine,0.0
1,1986,Americas,Uruguay,Other,0.5
2,1985,Africa,Cte d'Ivoire,Wine,1.62
3,1986,Americas,Colombia,Beer,4.27
4,1987,Americas,Saint Kitts and Nevis,Beer,1.98


Para tener una idea general del tipo de dato que va en cada columna usamos **.info()**

In [27]:
pokemon_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 800 entries, 1 to 721
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Name        800 non-null    object
 1   Type 1      800 non-null    object
 2   Type 2      414 non-null    object
 3   HP          800 non-null    int64 
 4   Attack      800 non-null    int64 
 5   Defense     800 non-null    int64 
 6   Sp. Atk     800 non-null    int64 
 7   Sp. Def     800 non-null    int64 
 8   Speed       800 non-null    int64 
 9   Generation  800 non-null    int64 
 10  Legendary   800 non-null    bool  
dtypes: bool(1), int64(7), object(3)
memory usage: 69.5+ KB


para tener un resumen estadístico usaremos el método **.describe()**, que nos da el numero de entradas, la media etc etc

In [28]:
pokemon_df.describe()

Unnamed: 0,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,255.0,190.0,230.0,194.0,230.0,180.0,6.0


y para saber el tamaño **.shape**, que nos devuelve un **tuple** con el número de filas y el número de columnas

In [23]:
pokemon_df.shape

(800, 11)

Con esto deberíamos tener cubierto cómo hacernos una idea general de los datos que tenemos para empezar con la siguiente fase ...

## 3- Data preparation

He intentado hacer un resumen de los problemas más frecuentes que nos encontramos cuando vamos a analizar unos datos (pero si se os ocurren otros podemos intentar ver cómo solucionarlos).

### Datos perdidos y limpieza de una base de datos

In [26]:
pokemon_df

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...
719,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
719,DiancieMega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
720,HoopaHoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
720,HoopaHoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True
