## Estephani Rivera Jaramillo ⭐ 
## correo : estephani.rivera.gmail.com 


# Exploración de datos con python

Para trabajar con archivos comunes como CSV, JSON, archivos de Excel, etc., usaremos [Pandas] , una biblioteca de código abierto que proporciona un alto rendimiento y fácil  para utilizar estructuras de datos y herramientas de análisis de datos para el lenguaje de programación Python

In [None]:
import pandas as pd

El conjunto de datos se proporciona como un archivo CSV. Pandas proporciona una manera fácil de leer nuestro archivo con `read_csv`. La ruta del archivo a leer es relativa a nuestro archivo de cuaderno.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [13]:
%%bash

MYPROJECT="/content/drive/My Drive/Exploración Datos"
ls -l "$MYPROJECT"
echo "$MYPROJECT" > config.txt

ls: cannot access '/content/drive/My Drive/Exploración Datos': No such file or directory


# Importando Datasets

In [15]:
affairs = pd.read_csv("/content/drive/My Drive/Exploracion Datos/Dataset/affairs.csv")

FileNotFoundError: ignored

In [None]:
affairs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 601 entries, 0 to 600
Data columns (total 1 columns):
 #   Column                                                          Non-Null Count  Dtype 
---  ------                                                          --------------  ----- 
 0   sex;age;ym;child;religious;education;occupation;rate;nbaffairs  601 non-null    object
dtypes: object(1)
memory usage: 4.8+ KB


Pandas es lo suficientemente inteligente como para analizar los títulos de las columnas por sí mismo y estimar los tipos de datos de cada columna.


In [None]:
affairs.head()

Unnamed: 0,sex;age;ym;child;religious;education;occupation;rate;nbaffairs
0,male;37;10;no;3;18;7;4;0
1,female;27;4;no;4;14;6;4;0
2,female;32;15;yes;1;12;1;4;0
3,male;57;15;yes;5;18;6;5;0
4,male;22;0.75;no;2;17;6;3;0


Accede a una columna de nuestro conjunto de datos utilizando la notación entre corchetes y el nombre de la columna. 

In [None]:
affairs['sex'].head()

KeyError: ignored

Para características categóricas como `sex`, también puede obtener las distribuciones de cada valor usando` value_counts () `.

In [None]:
affairs['sex'].value_counts()

En el caso de valores numéricos no tiene sentido contar cada valor distinto. Por lo tanto, podemos usar `describe ()`.

In [None]:
affairs['age'].describe()

También puede acceder a valores como `mean` o` max` directamente con los métodos correspondientes.

In [None]:
affairs['age'].max()

Pandas sabe qué valores son numéricos según el tipo de datos y oculta las características categóricas para usted.

In [None]:
affairs.describe()

También hay una forma sencilla de filtrar su conjunto de datos. Digamos que queremos tener un subconjunto de nuestros datos que contenga solo mujeres. ¡Esto también es posible con la notación de corchetes!

In [None]:
affairs[affairs['sex'] == 'female'].head()

Distribucion numerica de mujeres

In [None]:
affairs[affairs['sex'] == 'female'].describe()

También podemos crear nuevas filas. Especificando el nuevo nombre de la columna entre corchetes y proporcionando una función para configurar los datos. Crearemos una nueva columna que contenga Verdadero o Falso, ya sea que la persona tenga menos de 30 o no

In [None]:
affairs['below_30'] = affairs['age'] < 30

In [None]:
affairs['below_30'].value_counts()

In [None]:
affairs.head()

Podemos usar esto para normalizar nuestras columnas con mejores valores. Tomemos, por ejemplo, "religioso". El número tiene el siguiente significado: 1 = not, 2 = mildly, 3 = fairly, 4 = strongly Podemos reemplazarlos fácilmente en línea con el siguiente código.

In [None]:
rel_meanings = ['not', 'mildly', 'fairly', 'strongly']

In [None]:
affairs['religious'] = affairs['religious'].apply(lambda x: rel_meanings[min(x, 4)-1])

In [None]:
affairs.head()

vamos por las visualizaciones!!!

## Visualizacion de Data

### Grafico Univariado

In [None]:
sns.lmplot(x="ym", y="nbaffairs", hue="sex", col="child", row="religious", data=affairs)

Aquí hay algunas gráficas categóricas para explorar aún más el conjunto de datos.

In [None]:
sns.boxplot(x="sex", y="ym", hue="child", data=affairs);

In [None]:
sns.heatmap(affairs.corr(), cmap='coolwarm')

tener en cuenta (https://seaborn.pydata.org/introduction.html), (https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html)

### Crear Funciones ###


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
np.random.seed(0)

# import openpyxl
# from datetime import datetime
# from imblearn.over_sampling import RandomOverSampler
# from imblearn.under_sampling import RandomUnderSampler
# from sklearn import svm
# from sklearn.model_selection import learning_curve,GridSearchCV
# from sklearn import metrics as mt
# from sklearn.preprocessing import LabelEncoder
# from sklearn.metrics import classification_report, confusion_matrix
# from sklearn.impute import SimpleImputer
from numpy import asarray
# from sklearn.preprocessing import OrdinalEncoder
# from sklearn.linear_model import LogisticRegression
# from sklearn.model_selection import train_test_split

from numpy import loadtxt
# from xgboost import XGBClassifier
# from sklearn.metrics import accuracy_score

### Análisis Nulos ###

In [None]:
def analizadorNulos(data):
    
    qFilas, qColumnas = data.shape
    if data.isnull().any().any():
        view_info = pd.DataFrame(pd.concat([data.isnull().any(), data.isnull().sum(), 
                                            round(data.isnull().sum() / qFilas * 100, 2), data.dtypes], axis=1))
        view_info.columns = ['Nulos', 'Cantidad', '%_Nulos', 'Tipo_Dato']
        view_info.sort_values(by='%_Nulos', ascending = False, inplace = True)
        display(view_info[view_info['Cantidad'] > 0])
        plt.show()
        #Graficando el porcentaje de nulos
        plt.figure(figsize=(10,7))
        plt.title('Porcentaje de Nulos', fontsize = 15)
        plt.grid(True)
        plt.yticks(range(qColumnas + 1, 1 , -1), view_info.index, fontsize=20)
        plt.xlabel("Porcentaje de Nulos",fontsize=15)
        plt.ylabel("Variables\n",fontsize=20)
        
        #plt.xlim(0,100)
        plt.barh(range(qColumnas + 1, 1 , -1), width=view_info['%_Nulos'],height=0.5)
        #print(list(enumerate(view_info['%_Nulos'], 1)))
        for i, txt in enumerate(view_info['%_Nulos']):
            plt.annotate(str(txt) + '%', (txt, (qColumnas + 1 - i) ), fontsize = 12)
    else:
        print("No existen Nulos")
    plt.show()
plt.show()

### Análisis Categoricas ### 

In [None]:
def analisisCategoricas(df, variable):
  frecuencia_absoluta = pd.DataFrame(df[variable].astype('str').fillna('Nulo').value_counts(dropna = False))
  frecuencia_absoluta.columns = ['FREC_ABS'] 
  #display(frecuencia_absoluta)
  frecuencia_relativa = pd.DataFrame(df[variable].astype('str').fillna('Nulo').value_counts(normalize = True, dropna = False))
  frecuencia_relativa.columns = ['FREC_REL'] 
  #display(frecuencia_relativa)
  tablaResumen = pd.concat([frecuencia_absoluta,frecuencia_relativa], axis = 1)
  display(tablaResumen)
  tablaResumen
  #Graficando las distribuciones
  plt.bar(x = tablaResumen.index, height = tablaResumen['FREC_ABS'], color = 'orangered', width= 0.4)
  #for i, txt in enumerate(tablaResumen['FREC_ABS']):
  #  plt.annotate(str(txt), (i, txt), fontsize = 12)
  plt.xticks(rotation = 90)
  plt.twinx()
  plt.plot(tablaResumen['FREC_REL'], linestyle='-', linewidth=2.0, color='darkblue')
  for i, txt in enumerate(tablaResumen['FREC_REL']):
    plt.annotate(str(round(txt * 100)) + '%', (i, txt), fontsize = 11, ha='center')
  plt.grid(color='grey', linestyle='solid')
  plt.xticks(rotation = 90)
  plt.figure(figsize=(200,200))
  plt.show() 

### Análisis Numéricas ###

In [None]:
def analisisNumericas(df, variable):

  print(" "*20,"Histograma"," "*20)
  df[variable].plot.hist(bins=300,figsize=(8,4),color = 'orangered')
  plt.show()
  print("\n")
  print(" "*20,"Boxplot"," "*20)
  df[variable].plot.box(figsize=(8,4), color='darkblue')
  plt.show()

In [None]:
analizadorNulos(affairs)
plt.show()

In [None]:
#Definimos las variables que trataremos como numericas y como categoricas
varCategoricas = ['sex','child','religious', 'education','rate']
varNumericas = ['age','ym']
target = 'nbaffairs'

###sex	age	ym	child	religious	education	occupation	rate	nbaffairs

In [None]:
#Sacamos el analisis categorico para cada variable #
for categorica in varCategoricas:
    print("-"*20,categorica,"-"*20)
    analisisCategoricas(affairs, categorica)
    print("\n\n")

In [None]:
for numerica in varNumericas:
    print("#"*20,numerica,"#"*20)
    analisisNumericas(affairs, numerica)
    print("\n\n")

In [None]:
# Posibles outliers
print(np.where(affairs['age']>55))

In [None]:
# Vamos a topear 
affairs.loc[affairs['age']>55,'age'] = 55

In [None]:
#Analisis Target
analisisCategoricas(affairs, target)