# Ciencia de datos aplicada

Alejandro Mantilla (a.mantillar) - 201711304

## Taller 1

### Contexto
This risk factors dataset may be useful to people interested in exploring the distribution of breast cancer risk factors in US women. The dataset includes information from 6,788,436 mammograms in the BCSC between January 2005 and December 2017. The dataset includes participant characteristics previously shown to be associated with breast cancer risk including age, race/ethnicity, family history of breast cancer, age at menarche, age at first birth, breast density, use of hormone replacement therapy, menopausal status, body mass index, history of biopsy, and history of breast cancer. These data can be used to describe the distribution of breast cancer risk in the general population or to explore relationships among breast cancer risk factors.

This dataset was created by selecting one exam per woman per calendar year and year of age. When both screening and diagnostic mammograms exist for a given woman and year, screening mammograms were preferentially selected.

 

### Objetivos

1. Utilizar tablas de frecuencias para resolver problemas relevantes para el negocio
2. Analizar las principales medidas de tendencia central y su interpretación
3. Analizar las medidas de dispersión más comunes para el análisis de datos
4. Conocer las principales visualizaciones de datos 
5. Explorar los gráficos para obtener información de valor para el negocio



### 1. Importación de librerías y archivos
En las siguientes líneas de código se importaran los materiales de trabajo necesarios para desarrollar el caso de uso, en esto se incluyen las *librerías y los datos*

In [None]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos
import pandas as pd
# Librerías para graficar
# El uso de plotly permite analizar los gráficos pasando el mouse sobre ellas
# también se puede redimensionar el gráfico a conveniencia
import plotly.express as px
# Gráficas estáticas
import matplotlib.pyplot as plt

# Para análisis exploratorio
from pandas_profiling import ProfileReport 

In [None]:
# cargar los datos en csv
data= pd.read_csv('data_cancer_seno.csv',
                  sep=',', #Parámetro de separación de datos
                  encoding='latin-1' #Codificación de datos
                 )

#visualizar los primeros registros
data.head(15)

Los tipos de datos nos van a ayudar a entender qué análisis se pueden realizar con cada variable para su correcta interpretación

In [None]:
# Revisar los tipos de data en el archivo
data.dtypes

### 2. Tablas de frecuencias
La tabla de frecuencias es una herramienta que permite ordenar los datos, de manera que se presentan numéricamente las características de la distribución de un conjunto de datos o muestra.

Como la data está codificada, es necesario decodificar para poder realizar cualquier análisis, vamos a utilizar el [diccionario de los datos](https://www.bcsc-research.org/data/rf/documentation) para encontrar las correspondecias de los datos, en este caso se realizará para la columna de la raza o etnia

In [None]:
#Creamos la función de decodificar
def cat_etnia(etnia):
    if etnia==1: val="Non-Hispanic white"
    elif etnia==2: val="Non-Hispanic black"
    elif etnia==3: val="Asian/Pacific Islander"
    elif etnia==4: val="Native American"
    elif etnia==5: val="Hispanic"
    elif etnia==6: val="Other/mixed"
    elif etnia==9: val="Unknown"
    return val

In [None]:
# Realizado en clase para ver la columna
data['race_eth']

In [None]:
#Aplicamos la función a la columna correspondiente
data['race_eth']=data['race_eth'].apply(cat_etnia)
data['race_eth']

In [None]:
## Tabla de frecuencia univariada
#Se va a realizar una tabla para analizar las razas del estudio
# Frecuencia absoluta
frec_data=data['race_eth'].value_counts().reset_index()
frec_data.head(4)

In [None]:
#frecuencia relativa
frec_data['porcentaje_race_eth']=frec_data['race_eth'].apply(lambda x: x/frec_data['race_eth'].sum())
# frecuencia absoluta y relativa acumulada con cumsum()
# absoluta acumulada
frec_data['acumulada_race_eth']=frec_data['race_eth'].cumsum()
# relativa acumulada
frec_data['acumulada_procentaje_race_eth']=frec_data['porcentaje_race_eth'].cumsum()
frec_data

 La tabla de frecuencias nos muestra la siguiente información

1. Frecuencia absoluta: número de veces que aparece un valor. 
 
2. Frecuencia relativa: el resultado de dividir la frecuencia absoluta de un determinado valor por el número total de datos. 

3. Frecuencia acumulada: la suma de las frecuencias absolutas de todos los valores iguales o menores al valor considerado. 

4. Frecuencia acumulada relativa: el resultado de dividir la frecuencia acumulada por el número total de información.

### 3.Tendencia central
La tendencia central significa medir el centro o distribución de ubicación de valores de un conjunto de datos. Da una idea del valor promedio de las variables en el conjunto de datos y también una indicación de cuán ampliamente se distribuyen los valores en el conjunto de datos.
1. Media
2. Mediana
3. Moda


In [None]:
#Media
print('Media o promedio')
print(data['age'].mean())
#Moda
print('Moda')
print(data['age'].mode()[0])
#Mediana
print('Mediana')
print(data['age'].median())

### 4. Medidas de localización
Los ___cuantiles y percentiles___ son puntos de corte que dividen el rango de una distribución de probabilidad en intervalos continuos con probabilidades iguales o que dividen las observaciones en una muestra de la misma forma.

Así se pueden representar un porcentaje de datos a través de los cuantiles para identificar cómo están localizados los datos


In [None]:
## Cuantiles
# Calcular el 20%, 50% y 70% del peso de los productos
data['age'].quantile([0.10,0.25,0.50,0.75,0.90])

### 5. Medidas de dispersión

Se utilizan las estadísticas de dispersión para dar un número único que describa qué tan compacto o disperso es un conjunto de observaciones. Estas se complementan de las medidas mencionadas anteriormente

Estas medidas entre más grandes, representan más dispersión y entre más pequeñas más concentradas están las observaciones (es importante tener en cuenta la escala de la variable para analizar el dimensión)

1. Desviación estándar
2. Rango 


In [None]:
## Desviación estándar
# Representa qué tan lejos de la media se encuentran las observaciones
data['age'].std()

In [None]:
## Rango
# Representa la diferencia que existe entre el producto más grande y el más pequeño
data['age'].max()-data['age'].min()

In [None]:
## Estadísticas básicas
data[['year','age']].describe()

Hay que tener en cuenta los tipos de datos, recordemos que la mayoría de datos están codificados por lo cual sacar estas estadísticas no tiene una interpretación

### 6.Gráficas
Un gráfico o cuadro estadístico se define como la representación pictórica de datos estadísticos en forma gráfica. Los gráficos estadísticos se utilizan para representar un conjunto de datos para facilitar la comprensión e interpretación de la información estadística.

### 6.1.Gráfico de barras

Podemos usar gráficos de barras para mostrar los tamaños relativos de muchas cosas, en el eje x se muestran las categorías y en el eje y el conteo para cada categoría

In [None]:
# Realizado en clase para realizar conteo sobre columna
data['race_eth'].value_counts()

In [None]:
# Podemos utilizar la tabla de frecuencias para realizar el gráfico
data_raza = data['race_eth'].value_counts().reset_index()
# cambiamos el nombre de las columnas
data_raza.columns=['race_eth','conteo']
fig = px.bar(data_raza, x='race_eth', y='conteo')
fig.show()

### 6.2. Histograma
Un histograma es una representación aproximada de la distribución de datos numéricos. Fue introducido por primera vez por Karl Pearson. Para construir un histograma, el primer paso es "agrupar" el rango de valores, es decir, dividir todo el rango de valores en una serie de intervalos, y luego contar cuántos valores caen en cada intervalo.

In [None]:
fig = px.histogram(data, x="age")
fig.show()

### 6.3. Boxplot
Los diagramas de caja(Box Plot) muestran visualmente la distribución de datos numéricos y la asimetría mediante la visualización de los cuartiles de datos (o percentiles) y promedios.

Los diagramas de caja muestran el resumen de varias estadísticas de un conjunto de datos: incluido el primer cuartil (inferior), la mediana, el tercer cuartil (superior) y la cuota de outliers tanto inferior como superior

In [None]:
## Diagramas un box plot
#Revisar los ouliers(datos atípicos de la distribución de longitud del producto)
fig = px.box(data, y="age")
fig.show()

**Gráficos estáticos**

In [None]:
#Barras
plt.bar(data_raza['race_eth'],data_raza['conteo'])

In [None]:
#Histograma
plt.hist(data['age'])

In [None]:
#Box plot
plt.boxplot(data['age'])

### Extensión

**1.** Realiza la transformación de categorías con la variable BIRADS_breast_density.

In [None]:
cat_density = {1: "Almost entirely fat",
               2: "Scattered fibroglandular densities",
               3: "Heterogeneously dense",
               4: "Extremely dense",
               9: "Unknown"}

In [None]:
data["BIRADS_breast_density"] = data["BIRADS_breast_density"].apply(lambda x: cat_density[x])
data["BIRADS_breast_density"]

**2.** Realiza la tabla de frecuencias con la categoría BIRADS_breast_density

In [None]:
## Tabla de frecuencia univariada
#Se va a realizar una tabla para analizar las razas del estudio
# Frecuencia absoluta
frec_data = data["BIRADS_breast_density"].value_counts().reset_index()

# frecuencia relativa
frec_data['porcentaje_breast_density']=frec_data["BIRADS_breast_density"].apply(lambda x: x/frec_data["BIRADS_breast_density"].sum())

# frecuencia absoluta y relativa acumulada con cumsum()
# absoluta acumulada
frec_data['acumulada_breast_density']=frec_data['BIRADS_breast_density'].cumsum()

# relativa acumulada
frec_data['acumulada_porcentaje_breast_density']=frec_data['porcentaje_breast_density'].cumsum()

frec_data

**3.** Encuentra las medidas de tendencia central, localización y dispersión con la variable bmi

In [None]:
#Media
print('Media o promedio:')
print(data['bmi'].mean())
#Moda
print('Moda:')
print(data['bmi'].mode()[0])
#Mediana
print('Mediana:')
print(data['bmi'].median())

In [None]:
## Cuantiles
# Calcular los cuartiles de la variable bmi
data['bmi'].quantile([.0, 0.25, 0.50, 0.75, 1.])

In [None]:
## Desviación estándar
# Representa qué tan lejos de la media se encuentran las observaciones
data['bmi'].std()

In [None]:
## Rango
# Representa la diferencia que existe entre el producto más grande y el más pequeño
data['bmi'].max() - data['bmi'].min()

In [None]:
## Estadísticas básicas
data['bmi'].describe()

**4.** Realiza los 3 gráficos para las variables BIRADS_breast_density y bmi según corresponda

In [None]:
fig = px.histogram(data, x = "BIRADS_breast_density",
                   category_orders ={"BIRADS_breast_density": ['Heterogeneously dense',
                                                               'Almost entirely fat',
                                                               'Scattered fibroglandular densities',
                                                               'Extremely dense',
                                                               'Unknown']})
fig.show()

In [None]:
fig = px.histogram(data, x = "bmi")
fig.show()

In [None]:
## Diagramas un box plot
# Revisar los ouliers(datos atípicos de la distribución de longitud del producto)
fig = px.box(data, y = "bmi")
fig.show()