# EDA (Exploratory Data Analysis)

En los años 90's se empieza a utilizar el concepto de 'Minería de Datos', que es lo que empieza a dar orden a cómo podemos encontrar los patrones a nuestros datos.

- KDD (Knoledge Discovery in Databases)

- SEMMA (Sample, Explore, Modify, Model, and Assess)

- CRISP-DM (Cross Industry Standard Process for Data Mining)

**Metodología para poner orden**



<center>

![Picture title](image-20220406-143653.png)

</center>

Y de estás metodologías de minería de datos sale nuestro EDA.

Todo esto surge a partir de una necesidad y nos comenzamos a hacer mucha preguntas, pero la pregunta final es: ¿Puedo contestar o no el requerimiento que me dieron con todos estos datos? Y si no tenemos los suficientes datos para resolver esta pregunta, eso es lo que hace precisamente el EDA, explicarnos si podemos contestar esta pregunta y si tenemos todo lo necesario para dar una respuesta.

¿Pero qué debemos de hacer si no podemos dar una respuesta? Tenemos que dar un paso atrás, debemos de pedir más datos.
Antes de hacer cualquier modelo de ML o DP debemos de entender:

- De donde vienen los datos.
- El contexto de los datos.
- Por qué haremos el modelo.

Nota: Si está en nuestra posibilidad usar toda la base de datos para entrenar nuestro modelo, hay que hacerlo. es mucho mejor pagar un poco para dar una propuesta de valor.

El foco principal del EDA es contar una historia prediciendo cuánto se va optimizar el problema implementando el modelo que vamos a proponer. Un científico de datos le da un valor a los dato

<center>

![Picture title](image-20220406-143851.png)

</center>

# Comparación del EDA con el análisis clásico y el análisis bayesiano



<center>

![Picture title](image-20220406-145129.png)

</center>

- Análisis clásico: Aquí simplemente mostramos los resultados, no importa que pase con esa información, no importa que es lo que significa o que hubo antes como tal, solo se presenta un análisis clásico, un análisis de medias, un análisis estadístico, pero no se da un contexto de un problema que vayamos a resolver.
- Análisis bayesiano: Siempre considera que es la distribución a priori, es decir que es lo que paso anteriormente para yo predecir el futuro, pero aveces no toma en consideración que es lo que puede pasar con este modelo, que mas podemos entender y que otro tipo de variables podemos meter.
- EDA: Este es totalmente dinámico, puede regresar para entender lo que está pasando y al final lanzar un modelo de ML, DP, alguna automatización o alguna mejora para el negocio que le dé una ganancia, por eso es muy importante para entender que el EDA, parte del contexto del negocio, parte de una serie de hipótesis para hacer un análisis dinámico para entender que valor y que propuesta voy a dar.



<center>

![Picture title](image-20220406-145404.png)

</center>

# Unidad 1. Visualización de datos

In [None]:
# Llamamos el set de datos públicos
zoo_data = 'https://archive.ics.uci.edu/ml/machine-learning-databases/zoo/zoo.data'

# Los nombres de las columnas se encuentran en: 'https://archive.ics.uci.edu/ml/machine-learning-databases/zoo/zoo.names'
zoo_name = ['animal name', 
'hair',
'feathers',
'eggs',
'milk',
'airborne',
'aquatic',
'predator',
'toothed',
'backbone',
'breathes',
'venomous',
'fins',
'legs',
'tail',
'domestic',
'cat-size',
'type']

['animal name',
 'hair',
 'feathers',
 'eggs',
 'milk',
 'airborne',
 'aquatic',
 'predator',
 'toothed',
 'backbone',
 'breathes',
 'venomous',
 'fins',
 'legs',
 'tail',
 'domestic',
 'cat-size',
 'type']

Creamos nuestro dataframe, en donde asignamos el nombre de a las columnas con la variable ```zoo_name```

In [None]:
import pandas as pd

In [None]:
df_zoo = pd.read_csv(zoo_data, names=zoo_name) 
df_zoo.head(10) 

Unnamed: 0,animal name,hair,feathers,eggs,milk,airborne,aquatic,predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,cat-size,type
0,aardvark,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1
1,antelope,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1
2,bass,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4
3,bear,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1
4,boar,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1
5,buffalo,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1
6,calf,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1
7,carp,0,0,1,0,0,1,0,1,1,0,0,1,0,1,1,0,4
8,catfish,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4
9,cavy,1,0,0,1,0,0,0,1,1,1,0,0,4,0,1,0,1


In [None]:
import altair as alt

In [None]:
plot_01 = alt.Chart(df_zoo).mark_line().encode(
    x='animal name',
    y='legs')

plot_01

In [None]:
plot_02 = alt.Chart(df_zoo).mark_bar().encode(
    x='animal name',
    y='legs')

plot_02

In [None]:
import plotly.express as px

In [None]:
df_zoo[['animal name','aquatic']].groupby('aquatic').count().reset_index()


Unnamed: 0,aquatic,animal name
0,0,65
1,1,36


In [None]:
df_acuatics = df_zoo[['animal name','aquatic']].groupby('aquatic').count().reset_index()
df_acuatics

Unnamed: 0,aquatic,animal name
0,0,65
1,1,36


In [None]:
df_acuatics['aquatic'] = df_acuatics['aquatic'].apply(lambda x : 'Acuático' if x == 0 else 'No acuático')
df_acuatics

Unnamed: 0,aquatic,animal name
0,Acuático,65
1,No acuático,36


In [None]:
df_acuatics.rename(columns = {'animal name':'count'}, inplace=True)
df_acuatics

Unnamed: 0,aquatic,count
0,Acuático,65
1,No acuático,36


In [None]:
px.pie(df_acuatics, values = 'count', names = 'aquatic', title = 'Animales acuaticos')

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=27dabb8f-c014-4c3b-9af9-2c50accbfcce' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>