# Análisis Exploratorio de Datos

EL Análisis Exploratorio de los Datos (EDA, Exploratory Data Analysis) es el proceso sistematico de examinar datos en un nivel de agregación. Incluye estadistica de resumen para características numéricas, conteos de frecuencia para características categóricas. Histogramas y gráficas de caja para ilustrar la distribución de los datos y gráficos de series de tiempo para mostrar su evolución.

Un *corpus* o conjunto de datos de texto esta compuesto por noticionas, tuits, correos o servicios de llamadas. La exploración estadística del corpus tiene diferentes facetas. 
Algunos de los atributos de matadata de un corpus son incluidos, mientras que otros son calculados o derivados. atributos de tiempo, permiten entender la evolución del corpus. Si existen atributos relacionados con el autor, perimient analizarlos por grupo y compararlos con otros.

El análisis estadístico del contenido esta basado en la frecuencia de las palabras y frases. 

In [3]:
import pandas as pd

## UN General Debate dataset

[Fuente](https://www.kaggle.com/datasets/unitednations/un-general-debates)

In [None]:
file = "un-general-debates-blueprint.csv"

df = pd.read_csv("../datasets/"+file)
df.sample(2)

Crear una columna llamada `length` a partir de la longitud de cada uno de los textos de la columna `text`.

Para determinar la logitud se utiliza el método `str.len()` ([doc](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.len.html)). Ejemplo: 


```python
s = pd.Series(['dog', '', 5, {'foo' : 'bar'}, [2, 3, 5, 7], ('one', 'two', 'three')])
s.str.len()
```

In [None]:
#TODO

# Calculo de resúmenes estadísticos por columna

El método `describe()` sin parámetros genera cinco estadísticos de las variables numéricas ([doc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html)).

```python
s = pd.Series([1, 2, 3])
s.describe()
```

In [None]:
#TODO

Mostrar los estadísticos de las variables no numérica: `country` y `speaker`:

El método `describe()` con el parámetro `include = O` genera cinco estadísticos de las variables no numéricas.

In [None]:
#TODO

¿De cuántos países y conferencistas tiene información el conjunto de datos UN General Debate?


# Revisar datos faltantes

El método `isna()` detecta los valores faltantes, por lo que retorna un valor booleano si el valor es un NA (valores None o `Numpy.NaN`). docs/reference/api/pandas.DataFrame.isna.html)

```python
df = pd.DataFrame(dict(age=[5, 6, np.nan],
                       born=[pd.NaT, pd.Timestamp('1939-05-27'),
                             pd.Timestamp('1940-04-25')],
                       name=['Alfred', 'Batman', ''],
                       toy=[None, 'Batmobile', 'Joker']))

df.isna()
```
Resultado

````text
     age   born   name    toy
0  False   True  False   True
1  False  False  False  False
2   True  False  False  False
````
A continuaión, calcular los el total de valores faltantes por columna. Tip: utilizar el método `sum()`.

In [None]:

#TODO

Después de revisar las columnas que contienen NaN, es necesario ¿qué hacer con esos casos? En particular vamos a considerar el análisis de los valores NaN de la columna `speaker`. ¿Qué se puede hacer con esos registros?


El método `fillna()` permite llena los valores NA/NaN.

````python
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                  columns=list("ABCD"))

df.fillna(0)
````
Resultado

````text
     A    B    C    D
0  0.0  2.0  0.0  0.0
1  3.0  4.0  0.0  1.0
2  0.0  0.0  0.0  0.0
3  0.0  3.0  0.0  4.0
````

Recomendación: El parámetro `implace = True` modifica el DataFrame original directamente. Esto significa que los valores nulos se rellenan en el mismo DataFrame sin necesidad de asignarlo a una nueva variable. Sin embargo, al hacer esto, también se afectan todas las “vistas” o “referencias” al DataFrame original. Esto puede ser útil si deseas cambiar el DataFrame en su lugar y no necesitas una copia.

Realizar la sustitución de los NA en la columna `speaker`con la palabra `unknow`.

In [None]:
#TODO



Ahora, vamos a analizar algún caso partícular de un `speaker`, para conocer cuantos registros estan asociados a un `speaker` utilizaremos el método `str.contains()`, para probar si un patron o regex esta incluido como una cadena de una `Serie` o `Index`.

````python
data = {
    'nombre': ['Juan Pérez', 'Ana García', 'Carlos López', 'María Pérez', 'Pedro Gómez'],
    'ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Madrid', 'Sevilla']
}

df = pd.DataFrame(data)

# Filtrar filas donde la columna 'nombre' contiene el apellido 'Pérez'
resultado = df[df['nombre'].str.contains('Pérez')]

print(resultado)
````
Resultado

````text
      nombre    ciudad
0  Juan Pérez    Madrid
3  María Pérez   Madrid
````

Buscar todos los registros donde la columna `speaker` contenga la cadena `Bush`. Mostrar solo la columna `speaker` y con un conteo de registros con `value_counts()`.

In [None]:
df[df['_____'].str.contains('_____')]['______'].value_counts()

# Representación grafica de la distribución de los valores

## Gráfica de caja o Boxplot

Un boxplot es útil para resumir la distribución de los datos, destacando valores mínimos, máximos, la mediana y posibles outliers.


````python
import matplotlib.pyplot as plt

data = {
    "Categoría": ["A", "A", "A", "B", "B", "B", "C", "C", "C"],
    "Valores": [5, 7, 8, 6, 9, 10, 5, 8, 6]
}
df = pd.DataFrame(data)

# Crear un boxplot utilizando pandas
df.boxplot(column="Valores", by="Categoría", grid=False)

# Agregar título y etiquetas
plt.title("Boxplot por Categorías")
plt.suptitle("")  # Elimina el título automático
plt.xlabel("Categoría")
plt.ylabel("Valores")

# Mostrar el gráfico
plt.show()
````

Crea una boxplot de la columna `length`

In [None]:
#TODO

De acuerdo a el resultado obtenido en el boxplot:
- ¿En que rango de longitud se encuentra el 50% de los datos?
- ¿Donde esta la media de la longitud?
- ¿En que lado se concentran los valores atípicos?
- ¿Que distribución presentan los datos, left-skwed, rigth-skwed  o symmetric? 

## Gráfica de barras o barplot

Un barplot (gráfico de barras) es una representación visual que utiliza barras para comparar diferentes categorías o grupos de datos de forma clara y efectiva. La longitud o altura de las barras es proporcional al valor que representan, lo que permite observar rápidamente diferencias y patrones.

````python
# Crear un DataFrame de ejemplo
data = {
    "Valores": [12, 15, 14, 10, 13, 11, 12, 16, 18, 19, 12, 11, 14, 17, 16]
}
df = pd.DataFrame(data)

# Crear un histograma utilizando pandas
df["Valores"].plot.hist(bins=5, edgecolor="black")

# Agregar título y etiquetas
plt.title("Histograma de Valores")
plt.xlabel("Rango de Valores")
plt.ylabel("Frecuencia")

# Mostrar el gráfico
plt.show()
````

Crear un histograma de la columna `length`


In [None]:
#TODO

- A diferencia del boxplor anterior ¿Cuáles son los resultados que puedes inferir, de acuerdo a las preguntas realizadas?, ¿Se puede responder las mismas preguntas?, ¿Qué otras observaciones puedes concluir?

# Comparación de valores de distribución sobre categorías

__Seaborn__ es una biblioteca de visualización de datos basada en Matplotlib que proporciona una interfaz de alto nivel para crear gráficos estadísticos de manera sencilla y con estilos preconfigurados. Está diseñada para trabajar de manera efectiva con estructuras de datos como DataFrames de pandas, lo que facilita la exploración y representación visual de datos en proyectos de análisis.

## isin

El método `isin` en pandas se utiliza para filtrar filas en un `DataFrame` o `Series` que contienen valores específicos de una lista, conjunto u otro iterable. Es especialmente útil para realizar búsquedas rápidas o verificaciones de pertenencia en un conjunto de datos.

````python
data = {
    "Nombre": ["Ana", "Luis", "Carlos", "María", "Pedro"],
    "Edad": [23, 34, 22, 28, 35],
    "Ciudad": ["Madrid", "Barcelona", "Madrid", "Sevilla", "Barcelona"]
}
df = pd.DataFrame(data)

# Filtrar filas donde la Ciudad sea "Madrid" o "Barcelona"
ciudades_deseadas = ["Madrid", "Barcelona"]
filtro = df[df["Ciudad"].isin(ciudades_deseadas)]

print(filtro)
````

Realizar un filtro de la columna `country`, donde el país sea: 'USA', 'FRA', 'BGR', 'CHN' y 'RUS'

In [None]:
#TODO
where = _____

El método `catplot` en Seaborn se utiliza para crear gráficos categóricos, lo que permite visualizar datos categóricos y sus relaciones con variables numéricas o categóricas adicionales. Es altamente versátil y puede generar varios tipos de gráficos categóricos, como gráficos de barras, gráficos de puntos, gráficos de cajas, etc.

````python
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar un conjunto de datos de ejemplo
tips = sns.load_dataset("tips")

# Crear un catplot`para mostrar la relación entre el día de la semana y las propinas
sns.catplot(data=tips, x="day", y="tip", kind="box", hue="sex")

# Configurar el título y mostrar el gráfico
plt.title("Distribución de propinas por día y sexo")
plt.show()
````

Crear un `catplot` del resultado obtenido en `where`.

In [None]:
#TODO

Una variación de `catplot` son los gráficos de violín

````python
sns.catplot(data=tips, x="day", y="tip", kind="violin", hue="sex", split=True)
plt.title("Distribución de propinas por día y sexo")
plt.show()
````

Crear un gráfico de violín para los resultados filtrados de `where`.

In [None]:
#TODO

# Visualización de desarrollo sobre el tiempo 

En algunos casos, alguna de las columnas (características) de nuestro conjunto de datos, permitirá un análisis en un periodo de tiempo. En nuestro caso columna `year` permite realizar una visualización del desarrollo de las longitudes de los discursos cada año. 

Para este análisis, utilizaremos el método `groupby` del dataframe permite grupar y realizar operaciones agregadas sobre datos. Es decir, permite dividir un conjunto de datos en grupos basados en valores de una o más columnas y luego aplicar funciones como suma, promedio, conteo, etc., a cada grupo.

````python
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    "Ciudad": ["Madrid", "Barcelona", "Madrid", "Sevilla", "Barcelona", "Sevilla"],
    "Ventas": [200, 300, 150, 400, 500, 300]
}
df = pd.DataFrame(data)

# Agrupar por "Ciudad" y sumar las "Ventas"
resultado = df.groupby("Ciudad")["Ventas"].sum()
print(resultado)
````

Por ejemplo, al aplicar `groupby` a la columna `year` y mediante la agregación `size()`  se puede generar una visualización qué muestre cuántos discursos fueron pronunciados por año:

In [None]:
df.groupby('year').size().plot(title="Number of countries")

Algunas de las funciones de agregación comunes a utilizar con `groupby` son:

- Suma (sum)
- Promedio (mean)
- Máximo (max)
- Mínimo (min)
- Conteo (count)
- Desviación estándar (std)

En el siguiente ejemplo: Las ventas se agrupan por ciudad y se calcula la suma total de ventas para cada ciudad.

````python
# Crear un DataFrame de ejemplo
data = {
    "Ciudad": ["Madrid", "Barcelona", "Madrid", "Sevilla", "Barcelona", "Sevilla"],
    "Producto": ["A", "A", "B", "A", "B", "B"],
    "Ventas": [200, 300, 150, 400, 500, 300]
}
df = pd.DataFrame(data)

# Agrupar por "Ciudad" y "Producto", y calcular la suma de "Ventas"
resultado = df.groupby(["Ciudad", "Producto"])["Ventas"].sum()
print(resultado)
````

También es posible aplicar múltiples funciones:

````python
# Aplicar varias funciones estadísticas
resultado = df.groupby("Ciudad")["Ventas"].agg(["sum", "mean", "count"])
print(resultado)
````

Ejercicio: 

- Agrupar los registros por año (`year`) y aplicar la función de agregación `mean` a la columna `lenght`. 
- A continuación, graficar el resultado con `plot` con la finalidad de visualizar el promedio del la longitud de los discursos por año.

In [None]:
#TODO