<a href="https://colab.research.google.com/github/pedrorotta/Python_B-sico-/blob/main/Clase_7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 7 : Más sobre análisis de datos

En la clase anterior vimos algunas cosas fundamentales del análisis de datos. En esta remarcaremos las más importantes. 

El análisis de datos, al igual que otras ciencias tiene una metodología que aunque es variante (ya que dependerá de ciertas situaciones o no) pero que de alguna manera es similar para todos los casos y sigue estos pasos principales: 

1. Recepción de los datos
2. Visualización previa
3. Análisis estadístico
4. Preprocesamiento de los datos (Filtrar, normalizar, acomodar)
5. Análisis profundo (Machine learning). 
  * Estructura o modelo 
  * Validación
  * Experimentación y resultados  


Python tiene múltiples librerías para el desarrollo de esta metodología y también varía el modo de análisis dependiendo de lo que se necesite. En esta clase vamos a ver nuevamente el ejemplo anterior. Pero analizaremos otra librería gráfica bastante popular que se llama [Plotly](https://plotly.com/python/plotly-fundamentals/). 

Plotly es una librería gráfica que además cuenta con un framework de interfaz web, y que permite programar directamente aplicaciones en python. 

En esta clase no veremos la parte de la programación web, pero estudiaremos cómo son los fundamentos básicos para realizar gráficas más realistas en Python. 

## **DataFrame**

Como vimos la clase pasada, el primer paso o step del análisis de datos es obtener un `DataFrame` o al que hemos llamado como **tabla** para fines prácticos. El `DataFrame` es un objeto de la librería pandas, que para realizar una analogía sería similar a los diccionarios o a los arrays de numpy, es decir es una estructura de datos que se representa mediante filas y columnas (Básicamente).

Entonces para utilizar tablas en python tenemos que: 

1. Importar la librería pandas

`import pandas as pd`

2. Extraer el archivo a analizar : Nosotros estamos trabajando con esta [data](https://www.kaggle.com/spscientist/students-performance-in-exams)

`df_estudiantes = pd.read_csv("/file.csv")`

In [1]:
import pandas as pd
df_estudiantes = pd.read_csv("/content/drive/MyDrive/archivos_python/StudentsPerformance.csv")

Ahora vamos a usar plotly para hacer una figura de una tabla, y esto dará una visualización más interante del escenario. 

1. Importar plotly 

`import plotly.graph_objects` as go

2. Crear una figura en plotly

`fig = go.Figure(data = go.Table( header:dict(values=list(df.columns)), 
cells: dict(values=[df["col1"], df["col2"]...]))
`
3. Mostrarlo

`fig.show()`

In [4]:
df_estudiantes.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [3]:
import plotly.graph_objects as go

In [7]:
print(type(df_estudiantes.columns[0]))

<class 'str'>


In [21]:

def rows(df):
  A = []
  for i in df_estudiantes.columns:
    value = df_estudiantes[i]
    A.append(value)
  return A


In [22]:
A = rows(df_estudiantes)
tabla = go.Table(header = dict(values = list(df_estudiantes.columns), align = 'left'),
               cells = dict(values = A, align = 'left'))
fig = go.Figure(data = [tabla])
fig.show()

## Gráfico de barras: 

En el mundo del análisis de datos son básicos. 

1. Importar plotly 

`import plotly.express as px`

2. Guardar la figura

`fig = px.bar(DataFrame, x = "labelx", y = "labely")`

In [23]:
genero = df_estudiantes["gender"]
genero.describe()

count       1000
unique         2
top       female
freq         518
Name: gender, dtype: object

In [38]:
df_genero = pd.DataFrame(data = [["female",518 ],
                                 ["male", (1000-518)]], columns = ["gender", "count"])
df_genero

Unnamed: 0,gender,count
0,female,518
1,male,482


In [39]:
import plotly.express as px

In [43]:
px.bar(df_genero, x = "gender", y = "count", color = "gender", title = "Gráfico de Barras con plotly")

## Diagrama de Torta

Se hace con Plotly express. 
Necesita igual también un DataFrame y de labels

In [59]:
raza = df_estudiantes["race/ethnicity"]
razac = raza.value_counts()


In [81]:
df_raza = pd.DataFrame(raza.value_counts())
df_raza

Unnamed: 0,race/ethnicity
group C,319
group D,262
group B,190
group E,140
group A,89


In [82]:
df_raza["Groups"] = razac.index

In [83]:
df_raza.columns = ["count","grupo"]

In [84]:
df_raza

Unnamed: 0,count,grupo
group C,319,group C
group D,262,group D
group B,190,group B
group E,140,group E
group A,89,group A


In [85]:
fig = px.pie(df_raza, values = 'count', names = 'grupo', title = "Pie chart usando plotly")

In [86]:
fig.show()

## Scatter plot
Por último vamos a realizar un Scatter plot. 

Esto es, bastante útil para representar la relación entre 2 variables.

También se importa con plotly express

In [104]:
df_notas = df_estudiantes.iloc[:, [-3,-2,-1]]
df_notas

Unnamed: 0,math score,reading score,writing score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75
...,...,...,...
995,88,99,95
996,62,55,55
997,59,71,65
998,68,78,77


In [105]:
fig = px.scatter(df_notas,x = "math score", y = "reading score",title = "Sacatter en Plotly")

In [106]:
fig.show()

## The bubble graph 

¿Qué pasa si quieres relaciones 3 variables pero controlar la influencia de la tercera? 

Por ejemplo quieres ver peso vs altura pero al mismo tiempo quieres saber como influye en esos datos la cantidad de comida y representarlo en 2d como scatter. Para ello existe el bubble graph

In [110]:
px.scatter(df_notas, x = "math score", y = "reading score", size = "writing score")

## The bubble graph con color

¿Y si son 4 variables en 2d?

In [111]:
df_sex_notas = df_estudiantes.iloc[:,[0,-3,-2,-1]]
df_sex_notas.head()

Unnamed: 0,gender,math score,reading score,writing score
0,female,72,72,74
1,female,69,90,88
2,female,90,95,93
3,male,47,57,44
4,male,76,78,75


In [113]:
fig2 = px.scatter(df_sex_notas, x = "math score", y = "reading score", color = "gender", size = "writing score")
fig2.show()