# Exploratory data analysis with Pandas

In [1]:
import numpy as np
import pandas as pd
pd.set_option("display.precision", 2)

In [2]:
#Lectura de data
df = pd.read_csv("C:/Users/sebas/Documents/Ciencia de datos para aplicaciones espaciales - CONIDA/Proyecto Final/deforestation_dateset.csv")
df.head() #Mostrar las primeras 5 filas de la data

Unnamed: 0,iso3c,forests_2000,forests_2020,trend
0,AFG,1.9,1.9,0.0
1,ALB,28.1,28.8,2.5
2,DZA,0.7,0.8,14.3
3,ASM,88.7,85.7,-3.4
4,AND,34.0,34.0,0.0


In [3]:
#Mostrar las dimensiones de las data
print(df.shape)

(237, 4)


In [4]:
print(df.columns) #Imprimir las columnas de la data

Index(['iso3c', 'forests_2000', 'forests_2020', 'trend'], dtype='object')


In [5]:
print(df.info()) #Información general de la data

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 237 entries, 0 to 236
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   iso3c         237 non-null    object 
 1   forests_2000  237 non-null    float64
 2   forests_2020  237 non-null    float64
 3   trend         227 non-null    float64
dtypes: float64(3), object(1)
memory usage: 7.5+ KB
None


In [6]:
#Con la función ".astype" podemos varias el tipo de data de una columna
df["forests_2000"] = df["forests_2000"].astype("int64")

In [7]:
df.describe() #Muestra valore estadísticos básicos de los datos por columna

Unnamed: 0,forests_2000,forests_2020,trend
count,237.0,237.0,227.0
mean,31.82,31.59,0.1
std,25.34,24.74,16.86
min,0.0,0.0,-100.0
25%,9.0,10.4,-5.5
50%,30.0,30.3,0.0
75%,50.0,49.8,4.65
max,98.0,97.4,86.2


In [8]:
df.describe(include=["object", "bool"]) #Para ver estadística de valores no numéricos, se añade con el concepto de "include"

Unnamed: 0,iso3c
count,237
unique,237
top,AFG
freq,1


In [9]:
df["forests_2000"].value_counts() #Contar los valores dentro de una variable

0     21
1     10
12     7
5      6
2      6
      ..
97     1
88     1
93     1
62     1
47     1
Name: forests_2000, Length: 80, dtype: int64

In [10]:
df["forests_2000"].value_counts(normalize=True) #Obtener el valor de normalizado para cada dato de la variable analizada

0     8.86e-02
1     4.22e-02
12    2.95e-02
5     2.53e-02
2     2.53e-02
        ...   
97    4.22e-03
88    4.22e-03
93    4.22e-03
62    4.22e-03
47    4.22e-03
Name: forests_2000, Length: 80, dtype: float64

## - Clasificación

In [11]:
df.sort_values(by="forests_2020", ascending=False).head() #Ordenar la variable "Forests_2020" de manera descendente

Unnamed: 0,iso3c,forests_2000,forests_2020,trend
202,SUR,98,97.4,-0.9
73,GUF,97,96.6,-1.1
90,GUY,94,93.6,-0.7
134,FSM,91,92.0,0.9
75,GAB,92,91.3,-0.8


In [12]:
#Se puede ordenar múltiples columnas
df.sort_values(by=["forests_2000", "trend"], ascending=[True, False]).head()

Unnamed: 0,iso3c,forests_2000,forests_2020,trend
15,BHR,0,0.9,80.0
95,ISL,0,0.5,66.7
57,DJI,0,0.3,50.0
111,KWT,0,0.4,33.3
2,DZA,0,0.8,14.3


## - Indexing y recuperación de datos

In [13]:
df["forests_2020"].mean() #Valor medio de la variable

31.58565400843883

La indexación booleana con una columna también es muy conveniente. La sintaxis es `df[P(df['Nombre'])]`, donde "P" es alguna condición lógica que se verifica para cada elemento de la columna "Nombre". El resultado de esta indexación es el DataFrame que consta solo de las filas que satisfacen la condición "P" en la columna "Nombre".

In [14]:
df.select_dtypes(include=np.number)[df["forests_2020"] == 0].mean()

forests_2000      0.0
forests_2020      0.0
trend          -100.0
dtype: float64

Ejemplos con otro dataset

In [15]:
##Obtener el valor medio de "Total day minutes" para los valores de "Churn" = 1
#df[df["Churn"] == 1]["Total day minutes"].mean() 

In [16]:
## Obtener el max de "Total intl minutes" para los valores de "Churn" = 1 y "International plan" = No
#df[(df["Churn"] == 0) & (df["International plan"] == "No")]["Total intl minutes"].max()

Los DataFrames se pueden indexar por nombre de columna (etiqueta) o nombre de fila (índice) o por el número de serie de una fila. El método `loc` se utiliza para la indexación por nombre, mientras que `iloc` se utiliza para la indexación por número.

In [17]:
df.loc[0:5, "forests_2020":"trend"]  

Unnamed: 0,forests_2020,trend
0,1.9,0.0
1,28.8,2.5
2,0.8,14.3
3,85.7,-3.4
4,34.0,0.0
5,53.4,-14.3


In [18]:
df.iloc[0:5, 0:3]

Unnamed: 0,iso3c,forests_2000,forests_2020
0,AFG,1,1.9
1,ALB,28,28.8
2,DZA,0,0.8
3,ASM,88,85.7
4,AND,34,34.0


En el primer caso que mencionas, estamos solicitando "dame los valores de las filas con índices del 0 al 5 (inclusive) y de las columnas etiquetadas desde 'State' hasta 'Area code' (inclusive)". En el segundo caso, estamos solicitando "dame los valores de las primeras cinco filas en las primeras tres columnas" (como en una típica rebanada de Python: el valor máximo no está incluido).

Si necesitamos la primera o la última fila del DataFrame, podemos utilizar la construcción `df[:1]` para obtener la primera fila y `df[-1:]` para obtener la última fila.

In [19]:
df[-1:]

Unnamed: 0,iso3c,forests_2000,forests_2020,trend
236,ZWE,47,45.1,-5.1


In [20]:
df[:1]

Unnamed: 0,iso3c,forests_2000,forests_2020,trend
0,AFG,1,1.9,0.0


## - Aplicando Funciones a Celdas, Columnas y Filas

In [21]:
df.apply(np.max) #Aplicar a todas la columnas, en este caso el máximo 

iso3c            ZWE
forests_2000      98
forests_2020    97.4
trend           86.2
dtype: object

El método `apply` también se puede utilizar para aplicar una función a cada fila. Para hacerlo, especifica `axis=1`. Las funciones lambda son muy convenientes en tales escenarios. Por ejemplo, si necesitamos seleccionar todos los estados que comienzan con 'W', podemos hacerlo de la siguiente manera:

In [22]:
df[df["iso3c"].apply(lambda state: state[0] == "W")].head()

Unnamed: 0,iso3c,forests_2000,forests_2020,trend
182,WSM,60,57.1,-5.6
231,WLF,41,41.6,0.2
233,WLD,31,31.2,-2.2


El método `map` se puede utilizar para reemplazar valores en una columna al pasar un diccionario en forma de {valor_antiguo: valor_nuevo} como su argumento:

In [23]:
## Ejemplo de otra data, reemplaza los valores de No por False y Yes por True
#d = {"No": False, "Yes": True}
#df["International plan"] = df["International plan"].map(d)
#df.head()

Casi lo mismo se puede hacer con el método `replace`.

Diferencia en el tratamiento de valores ausentes en el diccionario de mapeo:
Hay una ligera diferencia. El método `replace` no hará nada con los valores que no se encuentren en el diccionario de mapeo, mientras que `map` los cambiará a NaN (valores faltantes).

In [24]:
#df = df.replace({"Voice mail plan": d})
#df.head()

## - Agrupamiento

En general, agrupar datos en Pandas funciona de la siguiente manera:

In [25]:
#df.groupby(by=grouping_columns)[columns_to_show].function()

1. Primero, el método `groupby` divide los `grouping_columns` por sus valores. Estos se convierten en un nuevo índice en el DataFrame resultante. 
2. Luego, las columnas de interés son seleccionadas `(columns_to_show)`. Si `columns_to_show` no se incluyen, se incluirán todas las columnas que no estén involucradas en la agrupación.
3. Finalmente, se aplican una o varias funciones a los grupos obtenidos en función de las columnas seleccionadas.

In [26]:
columns_to_show = ["forests_2000", "trend"]
df.groupby(["iso3c"])[columns_to_show].describe(percentiles=[])

Unnamed: 0_level_0,forests_2000,forests_2000,forests_2000,forests_2000,forests_2000,forests_2000,trend,trend,trend,trend,trend,trend
Unnamed: 0_level_1,count,mean,std,min,50%,max,count,mean,std,min,50%,max
iso3c,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
ABW,1.0,2.0,,2.0,2.0,2.0,1.0,0.0,,0.0,0.0,0.0
AFG,1.0,1.0,,1.0,1.0,1.0,1.0,0.0,,0.0,0.0,0.0
AGO,1.0,62.0,,62.0,62.0,62.0,1.0,-14.3,,-14.3,-14.3,-14.3
AIA,1.0,61.0,,61.0,61.0,61.0,1.0,0.0,,0.0,0.0,0.0
ALB,1.0,28.0,,28.0,28.0,28.0,1.0,2.5,,2.5,2.5,2.5
...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,1.0,60.0,,60.0,60.0,60.0,1.0,-5.6,,-5.6,-5.6,-5.6
YEM,1.0,1.0,,1.0,1.0,1.0,1.0,0.0,,0.0,0.0,0.0
ZAF,1.0,14.0,,14.0,14.0,14.0,1.0,-4.1,,-4.1,-4.1,-4.1
ZMB,1.0,63.0,,63.0,63.0,63.0,1.0,-4.7,,-4.7,-4.7,-4.7


Se realiza algo similar, pero ahora con la función `agg()`

In [27]:
columns_to_show = ["forests_2000", "trend"]

df.groupby(["iso3c"])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

Unnamed: 0_level_0,forests_2000,forests_2000,forests_2000,forests_2000,trend,trend,trend,trend
Unnamed: 0_level_1,mean,std,amin,amax,mean,std,amin,amax
iso3c,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
ABW,2.0,,2,2,0.0,,0.0,0.0
AFG,1.0,,1,1,0.0,,0.0,0.0
AGO,62.0,,62,62,-14.3,,-14.3,-14.3
AIA,61.0,,61,61,0.0,,0.0,0.0
ALB,28.0,,28,28,2.5,,2.5,2.5
...,...,...,...,...,...,...,...,...
WSM,60.0,,60,60,-5.6,,-5.6,-5.6
YEM,1.0,,1,1,0.0,,0.0,0.0
ZAF,14.0,,14,14,-4.1,,-4.1,-4.1
ZMB,63.0,,63,63,-4.7,,-4.7,-4.7


## - Tablas resumen

Supongamos que queremos ver cómo se distribuyen las observaciones en nuestro conjunto de datos en el contexto de dos variables: "forests_2000" y "forests_2022". Para hacerlo, podemos construir una tabla de contingencia utilizando el método `crosstab`:

In [28]:
pd.crosstab(df["forests_2000"], df["forests_2020"])

forests_2020,0.0,0.1,0.2,0.3,0.4,0.5,0.8,0.9,1.0,1.1,...,79.2,85.7,87.3,90.0,90.1,91.3,92.0,93.6,96.6,97.4
forests_2000,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,11,2,1,2,1,2,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,1,1,2,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
93,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
94,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
97,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0


Esto se asemejará a las tablas dinámicas para aquellos familiarizados con Excel. Y, por supuesto, las tablas dinámicas están implementadas en Pandas: el método `pivot_table` toma los siguientes parámetros:

- `values`: una lista de variables para calcular estadísticas,
- `index`: una lista de variables por las cuales agrupar los datos,
- `aggfunc`: la función de agregación que se debe aplicar a los grupos, por ejemplo, suma, promedio, máximo, mínimo u otra función.

In [29]:
df.pivot_table(
    ["forests_2000", "forests_2020"],
    ["iso3c"],
    aggfunc="mean",
)

Unnamed: 0_level_0,forests_2000,forests_2020
iso3c,Unnamed: 1_level_1,Unnamed: 2_level_1
ABW,2,2.3
AFG,1,1.9
AGO,62,53.4
AIA,61,61.1
ALB,28,28.8
...,...,...
WSM,60,57.1
YEM,1,1.0
ZAF,14,14.1
ZMB,63,60.3


## - Transformaciones en el Dataframe

Podemos definir una nueva variable como total deforestation, sumando otras columnas.

In [30]:
total_deforestation = (df["forests_2000"]+ df["forests_2020"])

Insertando la columna en el dataframe que ya teníamos

In [31]:
df.insert(loc=len(df.columns), column="total_deforestation", value=total_deforestation)
#loc parameter es el número de columnas después de las cuales insertar el objeto Serie
#Establecemos esto en `len(df.columns)` para pegarlo al final del dataframe
df.head()

Unnamed: 0,iso3c,forests_2000,forests_2020,trend,total_deforestation
0,AFG,1,1.9,0.0,2.9
1,ALB,28,28.8,2.5,56.8
2,DZA,0,0.8,14.3,0.8
3,ASM,88,85.7,-3.4,173.7
4,AND,34,34.0,0.0,68.0


Para eliminar columnas o filas, utiliza el método `drop`, proporcionando los índices necesarios y el parámetro `axis` (1 si deseas eliminar columnas y nada o 0 si deseas eliminar filas). El argumento `inplace` determina si se modifica el DataFrame original. Con `inplace=False`, el método `drop` no cambia el DataFrame existente y devuelve uno nuevo con las filas o columnas eliminadas. Con `inplace=True`, altera el DataFrame existente.

In [32]:
# Eliminar la columna nueva que se había creado
df.drop(["total_deforestation",], axis=1, inplace=True)
#Eliminar filas (1 y 2)
df.drop([1, 2]).head()

Unnamed: 0,iso3c,forests_2000,forests_2020,trend
0,AFG,1,1.9,0.0
3,ASM,88,85.7,-3.4
4,AND,34,34.0,0.0
5,AGO,62,53.4,-14.3
6,AIA,61,61.1,0.0
